「ビジネス活用事例で学ぶ データサイエンス入門」輪読会 #4資料
-
Upload
dclunch1050 -
Category
Technology
-
view
257 -
download
3
Transcript of 「ビジネス活用事例で学ぶ データサイエンス入門」輪読会 #4資料
2
背景
パズコレは、これまでweb上の広告を出してき
たが、さらなるユーザー数拡大に向けて、マス
メディア広告(テレビ、雑誌)を出すことにした。
過去に他のゲームで実施したデータを使って、
もっとも効果の高い打ち方を実施したい。
3
背景
パズコレは、これまでweb上の広告を出してき
たが、さらなるユーザー数拡大に向けて、マス
メディア広告(テレビ、雑誌)を出すことにした。
過去に他のゲームで実施したデータを使って、
もっとも効果の高い打ち方を実施したい。
4
現状とあるべき姿
現状
マスメディアの広告効果が安定していない
広告効果CPI(ユーザー1人を獲得するためのコス
ト)がばらついている
理想
より少ない出費でより多くのユーザーを獲得する広
告がうてるようになること
6
問題発見
そのために行う事
TVCMと雑誌広告との比率を適切に配分する事
仮説 ユーザー獲得数のばらつきは毎月のTV、雑誌
への広告配分のばらつきによる
今後のアクション
1. 過去のデータをもとにTV、雑誌、それぞれへの広
告費と獲得ユーザー数の関係を把握
2. 関係性をもとに、TV、雑誌への広告配分を決定
11
データの収集
web、TV、雑誌の三つの媒体で広告を実施。
今回はそのデータを使用する。
(内webはCPIが既に明確なため除外)
このデータはexcelで管理されており、必要な項
目だけRで読み込む
12
CSVファイルを読み込む
ad.data <- read.csv("./ad_result.csv", header =
T, stringsAsFactors = F)
□ A <- B:BをAに代入
□ "./ad_result.csv"
取得するファイルのパス
□ header = T
「1行目は列名が書かれている」か否かを指定する.列名が書かれている場合で,F を指
定すると不具合が生じる.今回の場合はT(true)
□ stringsAsFactors = F
read.csvとかread.tableはオプションなしで使うとデータ型を勝手に判別してくれますが、
それだと都合が悪い場合があります。
http://d.hatena.ne.jp/m-hiyama/20151215/1450140312
14
広告費用とInstallの散布図を作成
library(ggplot2)
library(scales)
□library()
ライブラリをロードする(Rを起動するごとに)
□ggplot2ライブラリ
ggplot2はRのグラフ描画パッケージの一つで,シンプルで美しいグラフが描ける。
□scalesライブラリ
文字列の表示形式や連続・離散スケールの管理が簡単になる
15
広告費用とInstallの散布図を作成
ggplot(ad.data, aes(x = tvcm, y = install)) +
geom_point() + xlab("TVの広告費") + ylab("新規インス
ト ー ル ") + scale_x_continuous(label = comma)
+scale_y_continuous(label = comma)
□ad.data:使用データのパス
□aes():縦軸、横軸に用いるデータを指定
□xlab,ylab:縦軸、横軸のタイトル名
□scale_x_continuous(label = comma),scale_y_continuous(label = comma)
http://docs.ggplot2.org/current/scale_continuous.html
16
広告費用とInstallの散布図を作成
ggplot(ad.data, aes(x = magazine, y = install)) +
geom_point() + xlab("雑誌の広告費") + ylab("新規イン
ストール ") + scale_x_continuous(label = comma) +
scale_y_continuous(label = comma)
先ほどと同じ
19
雑誌広告は効率よく
ユーザーを獲得している
・新規インストールは広告なしでも188人いる
・TV広告では1円につき1名獲得
・雑誌広告では1円につき7人獲得
切片 テレビ広告費 雑誌広告費
188.17 1.36 7.25
21
残差分析
第1四分位数の絶対値が第3四分位数の絶対
値より大きい
∴仮定したモデルが適切でない可能性がある
最小値 第1四分位数 中央値 第3四分位数 最大値
-1406.9 -984.5 -12.1 432.8 1985.8