rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

2018年夏インターンのメモをまとめておく

※随時更新

ひとつめ

必要になった知識

  • Bashでテキストファイル操作
  • Pandas操作
    Pandasは便利だけど行毎の処理は遅いので、numpyやlistに変換するなどして工夫。多分、文字列配列のときはlistの方が早い気がしてる。
  • グラフ理論
  • クラスタリング等の大まかな理論と基本的な実装法
  • 自然言語処理系の分析の大まかな理論と基本的な実装法
  • データ構造に依るデータ処理方法

必要だと思った能力

  • 自分の使い慣れた環境を速攻で構築する
  • PDCAを快活に回す
  • 先輩の教えを素直に聞き入れることと、怠けずに自分のやり方を考えることの両立。
    自分の強みを活かせる、パフォーマンスの出せるやり方、逆に苦手なやり方っていうのがある。自分の取説を自分で読んで手順を考えた方が色々と良い。
  • 焦っちゃダメ
  • 自分の成果の魅せられるところをちゃんと魅せていく
  • 作っただけじゃなくて、ちゃんと考察・報告
  • ONとOFFをしっかり分ける
  • 褒められたら素直に喜ぶ
  • 分からないときは「こんな簡単な事...」とか思わずに気軽に聞く
  • 二兎を追う者は一兎をも得ず。自分が欲しい一兎をしっかり追うこと。
  • 人間関係の構築...ときをまて
  • データにわくわくする
  • 分析を楽しむ
  • リラックスする。ご機嫌である。多分これが一番重要。

感想

自社が提供するシステムが保有するデータだけを扱っているのに、2週間のインターン生でも多様な価値を掘り当てていた...。 可能性いっぱいのデータでした。面白かったな。データ分析って面白いんだな。

ふたつめ

必要になった知識

オープンオフィスなので知識を問われることは無かった。 iPadとApplePencilは見学会のメモ取りにとっても良さげ。

必要だと思った能力

  • 専門外どころか、理系でも無い人達を相手に、分析の結果を伝えたり、要件定義をする能力。(社会に出たら)
  • 素直に聞く事
  • 考えながら聞く事
  • かなり特殊な会社だったので、色々と新たな知見があった。会社説明会といっても学ぶ場。

感想

プロジェクトはチームで個人の強みを活かして進めていくとのこと。 社内の垣根をなくしてフラットに、というだけではなくて、いちプロジェクトに様々な人をあらかじめ組み込んでおくというスタイルは多様な専門性をより活かしやすそうだなと思った。

みっつめ

必要になった知識

  • データ分析のワークフロー
  • 機械学習手法の雰囲気とどんな時に使うか?ということとscikit-learnによる実装法
  • Jupyter Notebook(お好みで)
  • 自然言語処理

必要だと思った能力

  • 自分の使い慣れた環境を速攻で構築する
  • PDCAを快活に回す
  • 周りの人と情報共有しながら進めていくこと。端的にいうと、仲間になること
  • たくさんのML手法を試す
  • たくさんの特徴量を試す
  • 時間・環境の制約を鑑みてML手法を選択する