Kaggleに突っ込む
Kaggleに手を出してみた。
でも、何もわからないよ。今後のために色々と残してみる。
とりあえず、アカウントはFacebookでログインしてあげる。最近はこういうの多いわね。
“Getstart”を選択してやってみよう。
ものによっては、賞金ものとかからリクルーティング用とか解析結果でバトる以外に色々と用途はあるようです。今回は新参者だからこれを選択
事始めはタイタニックのようです。押してみる
色々と情報が満載ですが、何を示しているのかの~
ナビゲーションにある文言をみてみような
- Overview
- Data
- Kernels
- Discussion
- Leaderboard
- More
日本語に訳せばほんとそのまんま。Overviewは論文のIntroductionみたいな感じの文章の羅列。
Kernelsは中身に見ればわかるけど、Notebookとかある通りで、この問題についてみんなのメモみたいな感じ。Scriptとかみるとみんなのコードが拝見できる
Discussionはどちらかというとみんなで議論しようなみたいな、Forumに近い。
で、みんなが気にするところはLeaderboadで要は得点表。みんなのScoreがいっぱい書かれています。
さぁ挑戦してみような!
やってみよう。ってことで Dataからデータを引っ張る。
ルールはMoreから参照できる。
ここで、acceptしないとデータもらえないので押しとく
わーい。Goodluckだってさ。
データはtrainとtestデータ。当然だけど、testには正解データはありませんので1列ありません。
とりあえず、手始めにやってみる。
用いる特徴は?
survival | 生き残ったか | survival Survival 0 = No, 1 = Yes |
pclass | チケットの階級 | 1 = 1st, 2 = 2nd, 3 = 3rd *1st = Upper, 2nd = Middle, 3rd = Lower |
sex | 乗客の性別 | male or female |
age | 乗客の年齢 | double |
sibsp | 乗ってる子供の数 | # of siblings / spouses aboard the Titanic |
parch | 親の数? | # of parents / children aboard the Titanic |
ticket | チケット番号 | str |
fare | 運賃 | double |
cabin | 船室の番号 | str |
embarked | 乗った場所 | C = Cherbourg, Q = Queenstown, S = Southampton |
ってところでしょうか。 900人ぶんのデータから400人を予測します。提出フォーマットPassengerIdとSurvivalです。
全部の特徴を用いる訳ではないので、?の部分とかワンチャん気にしなくても良い気もします。僕の英語力のなさです
モデルを作るよ。テストするよ!
ってことで、提出します。submitは確か回数に一日あたりで上限があったはず
出すと即時判定が行われます。こんな感じで、
0.671ふーん
ちょっと工夫します
やっター少し上がった。
ってな感じ。最初はこんなもんだろう。
次回はなんか適当にまた突っ込んでみる。ソースコードも練らなきゃだし、kernelsも読まなきゃ!
では