戦略的データサイエンス入門(5)
第9章 エビデンスと確率
-
-
いろいろ書いているが、条件付き確率については省略。
-
流石に常識
-
-
ベイズの法則
-
あるエビデンスE(事象)→ある仮説Hが成り立つ事象
-
E:赤い湿疹がでる→H:はしかである
-
-
ベイズ的推論
-
ベイジアンネットワーク
-
トピックモデル
-
確率的マルコフ場など
-
-
p(H|E) = P(E|H)・p(H)/P(E)
-
一般に左辺p(E)は計算しづらい
-
右辺3つのほうが簡単に計算可能
-
-
左辺:p(H|E):事後確率
-
赤い湿疹があった人のうち(←うち mean 結合)、麻疹であった確率
-
-
右辺:
-
p(H):事前確率
-
エビデンスを参考にしないで、麻疹にかかる確率を計算した結果
-
人が一般に麻疹にかかる確率
-
簡単な割り算
-
-
p(E):エビデンスの確率
-
原因を考えず、、赤い湿疹になった確率
-
麻しんに関わらず、赤い湿疹になった確率
-
簡単な割り算
-
-
P(E|H):
-
麻疹になった連中のうち(←うち:結合)、赤い湿疹があった人の確率
-
エビデンスEが非常に高次元な場合、そもそも対象インスタンスが少なく、意味のない数値になる可能性がある
-
簡単には求まらない
-
-
-
-
単純ベイズ式
-
左辺の条件付き確率を分解することができる
-
各サンプルが各項で、どのクラスが一番近いを単純に計算。
-
-
分類問題の場合は、いくつかのHにおいて「はしかである/はしかでない」等という択一問題。
-
どっちが高い問題のみ。
-
赤い湿疹である確率p(E)を両方にかけてもお互いの相対的な関係は普遍。
-
-
-
Eの各事象が独立している場合は、P(E)が他の値から計算できるしね!
-
ってことで、消せる。以降は=ではなく≒になる
-
-
一般に、結構うまくいく。
-
確率計算上、独立性の仮定をしているが、お互いの相乗効果は問題がない
-
p(H|E) ≒ P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・ X p(H)
-
-
最大確率を選ぶ分には、いくら重複があっても問題はない
-
ただし、出力される確率には意味がない
-
利益を考える場合は、一旦ランク付けをした後(他の値との相対的な値にした後)実施する必要
-
-
斬新的学習が可能
-
計算資源を取らない。
-
再計算不要
-
汎用的に用いられる。
-
-
-
-
-
独立性の仮定
-
P(E|H)を変形
-
Eが多次元ベクトルとして
-
赤い湿疹の有無、痛みの有無、吐き気の有無、、、、
-
-
麻疹(H)である場合は、Eの各事象は独立出ない場合悲惨なことになる
-
あ、実は赤い湿疹ありかつ痛みの有無は互いに相関が会って〜〜〜ってなると話が面倒
-
P(e1^e2^e3^e4^e5^…|H)が展開できない。。。
-
-
これら各エビデンスが互いに影響しない、独立な関係であると仮定した場合
-
P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・
-
簡単な積の形になる。
-
-
-
-
-
-
リフト値
-
p(H|E) ≒ P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・ X p(H)
-
P(E)のエビデンスが互いに独立だとしたら
-
p(H) ≒ P(e1|H)・P(2|H)・P(e3|H)・P(e4|H)・・・ X p(H) / p(e1)・p(e2)・p(e3)・・・・
-
P(e1|H)/p(e1)が各エビデンスののリフト値
-
p(H):麻疹に一般的にかかる確率:初期値
-
P(e1|H)/p(e1):各エビデンスのリフト値を:ボーナスポイントとしてかけて、最終的に、麻疹です!!!
-
-
確率はでるが、インスタンスが同士で絡み合った結果である
-
-
要因分析に使える
-
-
-
-
第10章 テキスト
-
-
様々なデータに関する表現があるけれども、テキストに注目する意味
-
コンピュータlikeに構造化されたものではなく、言語学的に体系付けられたもの
-
いわゆるベクトル表現ではない
-
ある文が、Pos. or Neg. なのか. ハッキリしない。(Disっているのかそうではないのか)
-
-
様々な言語、派生型、スペルミスがある。文脈も重要な要素
-
故に難しい
-
-
巷では古来より一般的に用いられている
-
逃げられない
-
-
-
テキストを理解する手法
-
bag-of-words
-
用語出現頻度:TF( Term Freq. )
-
用語の出現頻度の多いほど重要であるという考え方
-
ステミング、ストップワード、大文字小文字の正規化などの前処理
-
「On」など抜かした結果、同じ意味の言葉になっていしまう言葉があることに注意
-
出現回数はドキュメントの長さに影響を受けるので、全体で正規化が必要
-
固有名詞を事前に検出しておく
-
人物など、特定の文字列群は特別な意味を有すため
-
同音異義語に注意しないとだめよね
-
表記ゆれには注意:HP, ヒューレット・パッカード, etc…
-
-
-
-
逆文書頻度:IDF(inverse Doc. Freq. )
-
用語の希少性(レア度)が重要であるという考え方。
-
多くの文書に出現するとレアではない。一般的な用語は情報量はない
-
ごく少数の文書に出現するとレアではない。特異的な用語は情報量はない
-
-
いわゆる、情報利得と同じ考え方
-
-
-
TFTDF
-
よくある入力の形
-
積の形
-
-
-
N-gramとか
-
単語ではなく、文脈(前後)考慮の表現
-
計算資源をくうよね
-
前後の情報考慮で、単語に意味をもたせる事ができる。
-
-
-
トピックモデル
-
単語に関して、複数の意味を考慮する事ができる。
-
仮定:あるドキュメントに複数トピックからなっていて、トピックにはある分布に基づき単語が出現すると仮定している。
-
トピックがあるんなら、その単語群はその確率で出現しているっていう仕組み。その組み合わせ
-
-
-
潜在的ディリクレ配分、確率的トピックモデルとかある
-
潜在というのは「文書」と「単語」の中間にあたる「トピック」に相当する。
-
-
適用する前に前処理が非常に重要
-
計算資源を食う
-
-
-
-