戦略的データサイエンス入門(5)

第9章 エビデンスと確率

    • いろいろ書いているが、条件付き確率については省略。
      • 流石に常識
    • ベイズの法則
      • あるエビデンスE(事象)→ある仮説Hが成り立つ事象
        • E:赤い湿疹がでる→H:はしかである
      • ベイズ的推論
        • ベイジアンネットワーク
        • トピックモデル
        • 確率的マルコフ場など
      • p(H|E) = P(E|H)・p(H)/P(E)
        • 一般に左辺p(E)は計算しづらい
          • 右辺3つのほうが簡単に計算可能
        • 左辺:p(H|E):事後確率
          • 赤い湿疹があった人のうち(←うち mean 結合)、麻疹であった確率
        • 右辺:
          • p(H):事前確率
            • エビデンスを参考にしないで、麻疹にかかる確率を計算した結果
            • 人が一般に麻疹にかかる確率
            • 簡単な割り算
          • p(E):エビデンスの確率
            • 原因を考えず、、赤い湿疹になった確率
            • 麻しんに関わらず、赤い湿疹になった確率
            • 簡単な割り算
          • P(E|H):
            • 麻疹になった連中のうち(←うち:結合)、赤い湿疹があった人の確率
            • エビデンスEが非常に高次元な場合、そもそも対象インスタンスが少なく、意味のない数値になる可能性がある
            • 簡単には求まらない
      • 単純ベイズ式
        • 左辺の条件付き確率を分解することができる
          • 各サンプルが各項で、どのクラスが一番近いを単純に計算。
        • 分類問題の場合は、いくつかのHにおいて「はしかである/はしかでない」等という択一問題。
          • どっちが高い問題のみ。
            • 赤い湿疹である確率p(E)を両方にかけてもお互いの相対的な関係は普遍。
        • Eの各事象が独立している場合は、P(E)が他の値から計算できるしね!
          • ってことで、消せる。以降は=ではなく≒になる
        • 一般に、結構うまくいく。
          • 確率計算上、独立性の仮定をしているが、お互いの相乗効果は問題がない
            • p(H|E) ≒ P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・ X  p(H)
          • 最大確率を選ぶ分には、いくら重複があっても問題はない
            • ただし、出力される確率には意味がない
            • 利益を考える場合は、一旦ランク付けをした後(他の値との相対的な値にした後)実施する必要
          • 斬新的学習が可能
            • 計算資源を取らない。
            • 再計算不要
            • 汎用的に用いられる。
          •  
      • 独立性の仮定
        • P(E|H)を変形
          • Eが多次元ベクトルとして
            • 赤い湿疹の有無、痛みの有無、吐き気の有無、、、、
          • 麻疹(H)である場合は、Eの各事象は独立出ない場合悲惨なことになる
            • あ、実は赤い湿疹ありかつ痛みの有無は互いに相関が会って〜〜〜ってなると話が面倒
              • P(e1^e2^e3^e4^e5^…|H)が展開できない。。。
            • これら各エビデンスが互いに影響しない、独立な関係であると仮定した場合
              • P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・
              • 簡単な積の形になる。
              •  
      • リフト値
        • p(H|E) ≒ P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・ X  p(H) 
        • P(E)のエビデンスが互いに独立だとしたら
          • p(H) ≒ P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・ X  p(H) /  p(e1)・p(e2)・p(e3)・・・・
            • P(e1|H)/p(e1)が各エビデンスののリフト値
              • p(H):麻疹に一般的にかかる確率:初期値
              • P(e1|H)/p(e1):各エビデンスのリフト値を:ボーナスポイントとしてかけて、最終的に、麻疹です!!!
            • 確率はでるが、インスタンスが同士で絡み合った結果である
          • 要因分析に使える

第10章 テキスト

    • 様々なデータに関する表現があるけれども、テキストに注目する意味
      • コンピュータlikeに構造化されたものではなく、言語学的に体系付けられたもの
        • いわゆるベクトル表現ではない
        • ある文が、Pos. or Neg. なのか. ハッキリしない。(Disっているのかそうではないのか)
      • 様々な言語、派生型、スペルミスがある。文脈も重要な要素
        • 故に難しい
      • 巷では古来より一般的に用いられている
        • 逃げられない
    • テキストを理解する手法
      • bag-of-words
      • 用語出現頻度:TF( Term Freq. )
        • 用語の出現頻度の多いほど重要であるという考え方
        • ステミング、ストップワード、大文字小文字の正規化などの前処理
          • 「On」など抜かした結果、同じ意味の言葉になっていしまう言葉があることに注意 
          • 出現回数はドキュメントの長さに影響を受けるので、全体で正規化が必要
          • 固有名詞を事前に検出しておく
            • 人物など、特定の文字列群は特別な意味を有すため
            • 同音異義語に注意しないとだめよね
            • 表記ゆれには注意:HP, ヒューレット・パッカード, etc…
      • 逆文書頻度:IDF(inverse Doc. Freq. )
        • 用語の希少性(レア度)が重要であるという考え方。
          • 多くの文書に出現するとレアではない。一般的な用語は情報量はない
          • ごく少数の文書に出現するとレアではない。特異的な用語は情報量はない
        • いわゆる、情報利得と同じ考え方
      • TFTDF
        • よくある入力の形
        • 積の形
    • N-gramとか
      • 単語ではなく、文脈(前後)考慮の表現
        • 計算資源をくうよね
        • 前後の情報考慮で、単語に意味をもたせる事ができる。
    • トピックモデル
      • 単語に関して、複数の意味を考慮する事ができる。
        • 仮定:あるドキュメントに複数トピックからなっていて、トピックにはある分布に基づき単語が出現すると仮定している。
          • トピックがあるんなら、その単語群はその確率で出現しているっていう仕組み。その組み合わせ
      • 潜在的ディリクレ配分、確率的トピックモデルとかある
        •  潜在というのは「文書」と「単語」の中間にあたる「トピック」に相当する。
      • 適用する前に前処理が非常に重要
        • 計算資源を食う