ランダムフォレスト(機械学習)を使って、タイタニックで生き残れるかどうか予測する。

ランダムフォレスト(機械学習)を使って、タイタニックで生き残れるかどうか予測する。

タイタニックデータ(性別・客席クラス・運賃の3要素だけ)を使って、生き残ったか機械学習(決定木)で判定してみる。

先の決定木を、たくさん用意して判定するから、ランダムフォレストらしい。
1, データの1/3しか使わない。残り2/3は同じデータで水増し。たくさん用意する事で過学習防止で予測精度が上がるらしい。
2, 特徴点も全部使わない。平方根個だけ(全部で16なら4個だけ。9なら3個だけ)

こうやって個性の違う決定木を100個以上使って、それぞれの結論を多数決(分類)・平均(回帰)で判定するらしい。

なぜか、決定木の方が予測精度が高い…。
ランダムフォレスト: 0.757847533632287
決定木: 0.8071748878923767