『自然言語処理の基本と技術』〜NLPの概説本〜(1)
書籍情報
内容情報
自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる.
各トピックについて推薦図書やツールなどが示されているので,既にNLPに関して軽い知識を持っている人にも一読の価値がある.
1章 自然言語処理の概要
自然言語処理とは,人が書く,喋る言語を,コンピュータで処理できるようにするために発達した技術です.
- 自然言語処理とは人が日常で用いている言語をコンピュータで処理すること.
- 自然言語をコンピュータで扱う上では「曖昧性」が問題になる.
- かな漢字変換,機械翻訳,検索エンジン,対話システム,質問応答システムなどの応用先がある.
- 機械翻訳の研究の歴史がNLP発展の歴史と言える.
- 1947年に辞書引きベースのロ英翻訳システムが研究され始める
- 1966年に予算が大幅に削られ,基礎的な言語の解析研究に以降
- 1990年代後半,大量の言語データの入手及びそれを扱える計算機スペックが整ったため,統計的自然言語処理が登場.
- 関連分野は,人工知能・言語学・計算言語学・テキストマイニング・統計学・機械学習・音声認識など.
- (おすすめ理由を添えた参考書籍一覧あり)
2章 自然言語処理の基礎知識
自然言語処理に必要となる道具を解説しています.
- コーパス:言語の使用方法を記録・蓄積した文書集合
- 辞書:何らかの目的を持って集められた(機械が読める)語句のリスト
- 文字列を処理してコンピュータにとって有益な知識の状態にすることを,知識獲得という.
- 知識獲得には,語彙と語彙の関係性を明らかにすることが非常に重要.
- 分布仮説:使われる文脈の似ている単語は意味も似ているとする仮説
- 語彙統語パターン:単語間の意味関係を示唆する表現「Xに似たY」
- 言い換え:句や文の関係を獲得する際に重要.似た言い回しの発見や予測に
- 獲得された知識は,シソーラス,オントロジー,知識ベースなど,コンピュータが扱える構造化データとして蓄えられる
- 自然言語から構造化された情報を抽出する技術を情報抽出という
- 確率・統計的な手法を用いて大量のテキストから有用な情報を引き出す技術をテキストマイニングという
- 言語を構成する最小単位である単語を切り出す技術を形態素解析という
- 文中の単語が互いにどのような関係になっているかを表すものを係り受け構造という
- 文中の句の関係性を表す句構造を解析する技術もあるが,日本語のような語順が比較的自由な言語では,句構造より係り受け構造で扱うほうが自然であるといわれている