rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

データの観察と前処理について読んだのでまとめる(1)

Kaggle Python メモ DataAnalysis

教材にするKernel

COMPREHENSIVE DATA EXPLORATION WITH PYTHON
Pedro Marcelino - February 2017

データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。

ノート

このKernelの流れ、ひいてはデータ観察の流れ

問題を理解する. 各変数を見て、この問題に対するそれらの意味と重要性を冷静に分析する。
Univariable study(１変数解析？). 従属変数（'SalePrice'）に注目して、それについてよく知る.
Multivariable study(多変量解析). 従属変数と独立変数（説明変数とも）がどのように関連しているかを理解する。
Basic cleaning(データクレンジング). データセットをクリーニングし、欠損値・外れ値・カテゴリー変数などを処理する。
Test assumptions. データが多変量解析できるか、解析技術の仮定を満たすか確認する。。

用語

独立変数：原因となる要因
従属変数：結果

メモ

Knowing your data is time-consuming. Therefore, it's easy to overlook this initial step and jump too soon into the water.

よく分かる。。　この文に共感して、このkernelを読み進めることに決めた。

千里の道も一歩から、ってことで。

参考

独立変数と従属変数 - ど素人の統計学ノート（順不同）