戦略的データサイエンス入門(6)

第11章 分析思考(1)

    • 寄付金の最大化に関する問題
      • 期待値フレームワークをかんがえる
        • ビシネス上の問題を考える
          • 集積した寄付金を最大化するのか
          • 寄付したor寄付していないを判断するのか
          • コストを考慮するのか
        • 導かれる最も重要な問題:寄付金収集に際しての純利の最大化
          • 要は、期待値フレームワークはビジネス上の様々な問題を考慮してくれるので、期待値フレームワークを念入りに考えることは重要
            • 単純に理解がしやすい
        • 最初は寄付した寄付してないで分けて
        • 顧客ごとに考慮して
        • コストを考慮して&変形して真の課題を見つける
      • 使用しているデータセットは、全寄付者リスト
        • そもそも寄付してくれている人のみを抽出している。寄付していない人は入らない
          • 偏りを選択バイアスという
        • 母集団を考慮する必要がある
          • 多額の寄付金をくれた人はそんな頻繁に寄付しないため、少額寄付者リスト入りしてしまう。
          •  
    • 適切な集合と適切な期待値フレームワークを構成する必要がある
      • 本当に解決したい課題ってなに?
      • Ex:乗り換え問題:全顧客の中から”特別オファーをすべき相手”をきめる
        • 解決すべき課題
          • 顧客を利益の根源として考えずに、コストと捉えて、乗り換えによる損失を最小限に食い止める。
        • 顧客の期待利益には以下2つを考慮
          • 乗り換えが発生した場合の期待利益(引き止めコストを掛けないことが得)
          • 乗り換え発生を抑止した場合の期待利益
        • 実際に解決すべき課題:
          • X:乗り換えを抑止した場合に、最も利益を生み出す客
          • O:乗り換えが発生した場合に、最も損失が大きくなる客
            • →乗り換え発生した場合には、期待利益0として、乗り換えが発生した場合の期待利益を最大化するという問題になる
      • 更にインセンティブを考慮する場合
        • アプローチをしかけることに対する有効性
          • EBT(X) = アプローチ対象(T)となった顧客(X)の期待利益(EB)
          • アプローチかけた客に対する期待利益
          • アプローチかけなかった客に対する期待利益
          • VT = EBT(X)-EBnotT(X)
            • アプローチをかける意味を定量化している
            • 更に分解することができるよね?
      • 期待値フレームワークを考えることは非常に大事だけれでも、
        • そもそも、データが存在しない場合
          • データ収集への投資
          • 疑似ラベルをつける
          • これらのためにもビジネスモデルを十分に理解する必要がある
        • 常にビジネスを前にすすめることが重要
          • 分析は無限に可能である。
            • 問題を簡単にすることが重要

第12章 データサイエンスの問題と技法 

    • ビールとおむつ
      • 共起とアソシエーション
        • 発生割合を支持度(support):P(A,B)
        • P(A|B) : この条件付き確率が、どれだけ関連付ける事ができるかを定量づける
          • Confidence or Strength
      • 意外性の測定
        • 共起の偶然性を測る
          • 比率に注目したリフト値
            • Lift(A,B) =P(A,B)/(P(A)・P(B))
          • 量に注目したレバレッジ
            • Leverage(A,B) =P(A,B)- (P(A)・P(B))
    • プロファイリング:典型的な行動パターンの推定
      • 対象について、行動を探る→統計値をとる
        • データを取った結果、尤もな集団を推定(最尤推定にかける)
      • GMM(混合ガウス分布にかける)
        • 大抵、k個の顧客グループが存在する。
        • 複数のクラスタの結合。つまり複数のクラスタに属する。
    • リンク予測
      • 時として、データ項目を予測するよりも、データ間のつながりを予測するっことが尤もな場合がある。
        • 人の組み合わせなど
    • データ削減とレコメンデーション
      • 大規模なデータセットから、小さなデータセットに変換するメリット
        • 潜在情報の発見
        • 解釈性の向上
      • いわゆる、MF(Matrix factrizatoin)
        • リンクの強度の推定にあたる
        • Factorization Machineが懐かしい
    • モデルの作成
      • モデルの作成には幾つか問題点がある
        • 分散:分類器を複数作成した際に、それぞれで精度がことなる
        • 偏り:分類機は特定のクラス・特定付近の数値に落ち着きガチになる
      • これらは、以下の理由から改善は難しい
        • そもそも母集団から抽出してたサンプルであること。
        • 全ての事象は確率的であること。
          • 同一条件であっても、客は商品を購入しない可能性がある(ランダム性)
      • 改善するにも、トレードオフであり、解決手法としてはアンサンブル手法
        • 分類器=専門家→専門家が3人よれば文殊の知恵
        • 偏り・分散をある程度平滑化できる。
    • 原因説明
      • バイラルマーケティング
        • 顧客が商品を購入する際に、顧客同士が与えあう影響
          • 特定の客にフォーカスして狙い撃ちすることで、連鎖的に他の客にも影響をあたえる。というマーケティング
        • 影響とは?
          • 好みが似ていいるから、発起したのか
          • 顧客同士、互いに影響しているから発起したのか
      • アプローチを明確にするために、原因分析が欠かせない。
        • 基本原則が大事
          • データ収集解析への投資
          • データの類似性の測定、期待値計算、相関関係の発見
          • 期待値フレームワークの策定