データの観察と前処理について読んだのでまとめる(1)
教材にするKernel
COMPREHENSIVE DATA EXPLORATION WITH PYTHON
Pedro Marcelino - February 2017
データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。
ノート
このKernelの流れ、ひいてはデータ観察の流れ
- 問題を理解する. 各変数を見て、この問題に対するそれらの意味と重要性を冷静に分析する。
- Univariable study(1変数解析?). 従属変数('SalePrice')に注目して、それについてよく知る.
- Multivariable study(多変量解析). 従属変数と独立変数(説明変数とも)がどのように関連しているかを理解する。
- Basic cleaning(データクレンジング). データセットをクリーニングし、欠損値・外れ値・カテゴリー変数などを処理する。
- Test assumptions. データが多変量解析できるか、解析技術の仮定を満たすか確認する。。
用語
- 独立変数:原因となる要因
- 従属変数:結果
メモ
Knowing your data is time-consuming. Therefore, it's easy to overlook this initial step and jump too soon into the water.
よく分かる。。 この文に共感して、このkernelを読み進めることに決めた。
千里の道も一歩から、ってことで。