rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

『自然言語処理の基本と技術』〜NLPの概説本〜(1)

書籍情報

自然言語処理の基本と技術

  • 【タイトル】自然言語処理の基本と技術
  • 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守
  • 【出版社名】翔泳社
  • 【出版年】2016

内容情報

自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる.
各トピックについて推薦図書やツールなどが示されているので,既にNLPに関して軽い知識を持っている人にも一読の価値がある.

1章 自然言語処理の概要

自然言語処理とは,人が書く,喋る言語を,コンピュータで処理できるようにするために発達した技術です.

2章 自然言語処理の基礎知識

自然言語処理に必要となる道具を解説しています.

  • コーパス:言語の使用方法を記録・蓄積した文書集合
  • 辞書:何らかの目的を持って集められた(機械が読める)語句のリスト
  • 文字列を処理してコンピュータにとって有益な知識の状態にすることを,知識獲得という.
  • 知識獲得には,語彙と語彙の関係性を明らかにすることが非常に重要.
    • 分布仮説:使われる文脈の似ている単語は意味も似ているとする仮説
    • 語彙統語パターン:単語間の意味関係を示唆する表現「Xに似たY」
    • 言い換え:句や文の関係を獲得する際に重要.似た言い回しの発見や予測に
  • 獲得された知識は,シソーラスオントロジー,知識ベースなど,コンピュータが扱える構造化データとして蓄えられる
  • 自然言語から構造化された情報を抽出する技術を情報抽出という
  • 確率・統計的な手法を用いて大量のテキストから有用な情報を引き出す技術をテキストマイニングという
  • 言語を構成する最小単位である単語を切り出す技術を形態素解析という
  • 文中の単語が互いにどのような関係になっているかを表すものを係り受け構造という
  • 文中の句の関係性を表す句構造を解析する技術もあるが,日本語のような語順が比較的自由な言語では,句構造より係り受け構造で扱うほうが自然であるといわれている