機械学習を行う際、欠損データを整理したり、学習データ(特徴量)を変換する必要があります。 例えば年齢情報がない、購入店舗名は文字列なので店舗コードに直す、などです。 本来は標準偏差を調べたり、色々なグラフを作成したりなど […]
機械学習の特徴量を可視化する(モザイク図、箱ひげ図)
機械学習を行う際、学習データ(特徴量)を選別する必要があります。 つまり予測結果(目的変数)に対して、特徴量が影響しているかどうかを調べます。 例えば、洋服のメーカーと色、サイズが分かっていて、価格を予測する場合、色とい […]
機械学習の勉強環境を構築する
機械学習を勉強するにあたり、基本的な環境を構築する手順を残します。 必要な環境は以下。 ・Windowsマシン ・Docker Toolbox ※後継のDocker For Windowsは仮想環境にVirtualBo […]
Kaggleの使い方
データサイエンスのコンペサイトKaggleが面白そうだったので、簡単な使い方を調べてみました。 Kaggleでは企業が賞金を懸けたコンペが提示されており、提示したデータを使った機械学習を行います。 作成した予測データを提 […]