オープンソースの音声合成システム Open JTalk をHomebrewで導入して喋らせてみた

環境作りメモ NLP

Open JTalk をMacbook proで試してみたのでメモ。 Open JTalkとは日本語テキストを入力すると音声データを出力する、オープンソースのHiddenMarkovModelのテキスト音声合成システム open-jtalk.sp.nitech.ac.jp 手順こちらの記事「macでコードから音声を喋…

2019-04-25

JuliusをHomebrewでインストールしなおしてみた

NLP しっぱい談アリ環境作り

以前の記事で、JuliusをmakeコマンドでコンパイルしたらHomebrewが動かなくなった事件について書いた。 rohani.hatenablog.com その後、JuliusはRaspberryPiで使って満足していたのだけれど、先日思い立ってbrew installも試してみたら、ちゃんとインストー…

2019-04-23

JuliusをmakeしたらHomebrewが動かなくなったので、アンインストールした

しっぱい談アリメモ環境作り NLP

ちょっと前の話なので記憶が薄れてしまっているのだけれど、メモを見つけたのでここにメモしておく。 Juliusをmakeコマンドでコンパイルしたら、brew installができなくなった brew install時に出るエラーや brew doctorのメッセージには、直接的に解決に導…

2019-04-02

Raspberry Pi 3b+ と Julius で単語カウンターを作った

RaspberryPi 環境作りしっぱい談アリガジェット NLP

「喋っている会話の中で言われた名前の回数をカウントするものがほしい。」「おー面白そ」ってことで作りました。要件自然発話による会話を音声認識し、発話中の対象固有名詞をリアルタイムに検出する対象固有名詞の回数をカウントし、コマンドライン出…

2019-03-10

『自然言語処理の基本と技術』〜NLPの概説本〜（3）

NLP 読書ノート

書籍情報【タイトル】自然言語処理の基本と技術【著者名】グラム・ニュービック，萩原正人，奥野陽，小町守【出版社名】翔泳社【出版年】2016 内容情報自然言語処理の概要が分かりやすく説明されているので，この分野について体系的に知ることができる…

2019-02-05

『自然言語処理の基本と技術』〜NLPの概説本〜（2）

NLP 読書ノート

書籍情報【タイトル】自然言語処理の基本と技術【著者名】グラム・ニュービック，萩原正人，奥野陽，小町守【出版社名】翔泳社【出版年】2016 内容情報自然言語処理の概要が分かりやすく説明されているので，この分野について体系的に知ることができる…

2019-02-04

『自然言語処理の基本と技術』〜NLPの概説本〜（1）

NLP 読書ノート

書籍情報【タイトル】自然言語処理の基本と技術【著者名】グラム・ニュービック，萩原正人，奥野陽，小町守【出版社名】翔泳社【出版年】2016 内容情報自然言語処理の概要が分かりやすく説明されているので，この分野について体系的に知ることができる…

2019-01-27

re 〜正規表現を用いて検索・置換〜

Python メモ NLP

用途正規表現を用いて検索や置換を行うとき。（私の場合、大量のデータに一括で置換処理を施したいときは、linuxコマンドsedを使うことが多い。少量のデータに一括で置換処理を施したいときは、経過が観やすいvimの:%sを使うことが多い。）インポート im…

2018-10-05

Rumor Detection on Twitter with Tree-structured Recursive Neural Networks

論文 NLP NN

輪講で紹介するにあたって、整理のためにまとめた。せっかくなのでシェア。 0. 出典 P18-1184, author = "Ma Jing and Gao Wei and Wong Kam-Fai", title = "Rumor Detection on Twitter with Tree-structured Recursive Neural Networks", booktitle = "Pro…

2018-06-27

Tweepyで140文字より長いツイートを取ってくる

Python クロールメモ NLP

Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…

2018-06-27

Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution.

NLP NN 論文

輪講で紹介する論文について理解を深めるために、落合さんフォーマットにまとめた。折角なのでシェア。間違ってたら教えて下さると助かります。 0. 出典 Liu, Ting, Yiming Cui, Qingyu Yin, Weinan Zhang, Shijin Wang and Guoping Hu. “Generating and Ex…

2018-06-07

啞とｱが符号化できなかった問題についてもうちょっと深掘りしてみた（UTF-8）

NLP

前回の記事で、啞が消え、ｱがアにされてしまうという問題が発生した。それに対し、前回の記事では「nkfの問題かな？」と予想していた。そこで今回は、nkfによる変更を行わずに中身を見てみることにする。 test.txtはUTF-8で書かれているので、UTF-8の符号…

2018-06-04

授業で文字コード（JIS, Shift-JIS, EUC）の話を聞いたけど、さっぱりイメージできなかったので実際に見てみた

NLP UNIX

テキストファイルをバイナリでみる方法 hexdump というUNIXコマンドを使うと16進数でみることができる。また、 nkf というUNIXコマンドを使うと文字コードを変換できる。これらを使って、任意のテキストファイルの内容を「普通に」「JISコードで符号化して…

2018-06-02

サブワード分割手法 BPE(Sennrich, 2016) をPythonで実装してみた

NLP Python メモ

輪講でも度々登場するBPE(Sennrich, 2016)を勉強のために書いてみた。論文に乗っている Algorithm 1 Learn BPE operations そのまま。→ import re, collections def get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items…

rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

NLP

オープンソースの音声合成システム Open JTalk をHomebrewで導入して喋らせてみた

JuliusをHomebrewでインストールしなおしてみた

JuliusをmakeしたらHomebrewが動かなくなったので、アンインストールした

Raspberry Pi 3b+ と Julius で単語カウンターを作った

『自然言語処理の基本と技術』〜NLPの概説本〜（3）

『自然言語処理の基本と技術』〜NLPの概説本〜（2）

『自然言語処理の基本と技術』〜NLPの概説本〜（1）

re 〜正規表現を用いて検索・置換〜

Rumor Detection on Twitter with Tree-structured Recursive Neural Networks

Tweepyで140文字より長いツイートを取ってくる

Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution.

啞とｱが符号化できなかった問題についてもうちょっと深掘りしてみた（UTF-8）

授業で文字コード（JIS, Shift-JIS, EUC）の話を聞いたけど、さっぱりイメージできなかったので実際に見てみた

サブワード分割手法 BPE(Sennrich, 2016) をPythonで実装してみた