rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

データの観察と前処理について読んだのでまとめる(1)

教材にするKernel

COMPREHENSIVE DATA EXPLORATION WITH PYTHON
Pedro Marcelino - February 2017

データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。

ノート

このKernelの流れ、ひいてはデータ観察の流れ

  1. 問題を理解する. 各変数を見て、この問題に対するそれらの意味と重要性を冷静に分析する。
  2. Univariable study(1変数解析?). 従属変数('SalePrice')に注目して、それについてよく知る.
  3. Multivariable study(多変量解析). 従属変数と独立変数(説明変数とも)がどのように関連しているかを理解する。
  4. Basic cleaning(データクレンジング). データセットをクリーニングし、欠損値・外れ値・カテゴリー変数などを処理する。
  5. Test assumptions. データが多変量解析できるか、解析技術の仮定を満たすか確認する。。

用語

  • 独立変数:原因となる要因
  • 従属変数:結果

メモ

Knowing your data is time-consuming. Therefore, it's easy to overlook this initial step and jump too soon into the water.

よく分かる。。 この文に共感して、このkernelを読み進めることに決めた。

千里の道も一歩から、ってことで。

参考

独立変数と従属変数 - ど素人の統計学ノート(順不同)