Kaggleに突っ込む

Kaggleに手を出してみた。

でも、何もわからないよ。今後のために色々と残してみる。

とりあえず、アカウントはFacebookでログインしてあげる。最近はこういうの多いわね。
“Getstart”を選択してやってみよう。
ものによっては、賞金ものとかからリクルーティング用とか解析結果でバトる以外に色々と用途はあるようです。今回は新参者だからこれを選択

事始めはタイタニックのようです。押してみる

色々と情報が満載ですが、何を示しているのかの~
ナビゲーションにある文言をみてみような

  • Overview
  • Data
  • Kernels
  • Discussion
  • Leaderboard
  • More

日本語に訳せばほんとそのまんま。Overviewは論文のIntroductionみたいな感じの文章の羅列。
Kernelsは中身に見ればわかるけど、Notebookとかある通りで、この問題についてみんなのメモみたいな感じ。Scriptとかみるとみんなのコードが拝見できる
Discussionはどちらかというとみんなで議論しようなみたいな、Forumに近い。

で、みんなが気にするところはLeaderboadで要は得点表。みんなのScoreがいっぱい書かれています。

さぁ挑戦してみような!

やってみよう。ってことで Dataからデータを引っ張る。
ルールはMoreから参照できる。

ここで、acceptしないとデータもらえないので押しとく

わーい。Goodluckだってさ。
データはtrainとtestデータ。当然だけど、testには正解データはありませんので1列ありません。

とりあえず、手始めにやってみる。

用いる特徴は?

survival 生き残ったか survival Survival 0 = No, 1 = Yes
pclass チケットの階級 1 = 1st, 2 = 2nd, 3 = 3rd
*1st = Upper, 2nd = Middle, 3rd = Lower
sex 乗客の性別 male or female
age 乗客の年齢 double
sibsp 乗ってる子供の数 # of siblings / spouses aboard the Titanic
parch 親の数? # of parents / children aboard the Titanic
ticket チケット番号 str
fare 運賃 double
cabin 船室の番号 str
embarked 乗った場所 C = Cherbourg, Q = Queenstown, S = Southampton

ってところでしょうか。 900人ぶんのデータから400人を予測します。提出フォーマットPassengerIdとSurvivalです。

全部の特徴を用いる訳ではないので、?の部分とかワンチャん気にしなくても良い気もします。僕の英語力のなさです

モデルを作るよ。テストするよ!

ってことで、提出します。submitは確か回数に一日あたりで上限があったはず

出すと即時判定が行われます。こんな感じで、

0.671ふーん
ちょっと工夫します

やっター少し上がった。
ってな感じ。最初はこんなもんだろう。

次回はなんか適当にまた突っ込んでみる。ソースコードも練らなきゃだし、kernelsも読まなきゃ!

では