rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

2018-01-01から1年間の記事一覧

ファイル操作系bashコマンドの勉強

Linuxテキスト編集コマンドのすべて を参考に、bashコマンドのおさらいをした。 利用頻度高そうなものをメモしておく。 tail -f file.log ログファイルの監視を続けたい時、末尾を表示し続けられる cut -d, -f 1 file.txt csvファイルのある列を抜き出せる c…

Scrapyでリンクを辿りながら欲しい情報をクロールする

Scrapy Python製Crawlerライブラリのひとつで、ブログ記事をクロールするために現在利用を検討している。 初手で日本語の入門記事を参考にして何度か痛い目を見ているので、おとなしく本家のScrapy Tutorialを読んだ。この記事では、公式のDocumentを参考に…

データの観察と前処理について読んだのでまとめる(3)

教材にするKernel COMPREHENSIVE DATA EXPLORATION WITH PYTHON Pedro Marcelino - February 2017 データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。 ノート 4.Basic cleaning Outliers の処理 Outliers(外…

インターン選考のwebテストをtrackにて受験

trackというサービスでwebテストを受けた。 応募先はデータ分析系の短期インターン。 よく見る選択形式の問題だけでなく、 オンラインエディタ&実行環境&テスターによるプログラミングスキルの採点もできるようになっていた。 初めて使う際は戸惑うことも…

データの観察と前処理について読んだのでまとめる(2)

教材にするKernel COMPREHENSIVE DATA EXPLORATION WITH PYTHON Pedro Marcelino - February 2017 データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。 ノート 1.問題を理解する データ分析チェックシートなる…

データの観察と前処理について読んだのでまとめる(1)

教材にするKernel COMPREHENSIVE DATA EXPLORATION WITH PYTHON Pedro Marcelino - February 2017 データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。 ノート このKernelの流れ、ひいてはデータ観察の流れ 問…

与えるデータを変更したら原因不明確なエラーが吐かれた

なんだか原因がはっきりしないエラーが吐き出される。 しかも、実行するごとにエラーコードが変わってる気がするのだが、なんだろこれ。 ...という事態に見舞われた。 結果として、原因は入力データ数がミニバッチ数で割り切れない数だったので、あるひとつ…

Tweepyで140文字より長いツイートを取ってくる

Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…

はてなブログのMarkdown記事中にMathjaxでtex数式を埋め込むときの特殊ケース

Mathjaxを埋め込む基本方法 [tex: texの数式] 特殊ケース 前の記事を投稿するにあたって引っかかったことをまとめる。 下付き文字列を複数含む式を表示したい 通常:[tex: a_{str}+b_{str}] → [tex: a{str}+b{str}] 修正法:[tex: a\_{str}+b\_{str}] → ギリ…

Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution.

輪講で紹介する論文について理解を深めるために、落合さんフォーマットにまとめた。 折角なのでシェア。間違ってたら教えて下さると助かります。 0. 出典 Liu, Ting, Yiming Cui, Qingyu Yin, Weinan Zhang, Shijin Wang and Guoping Hu. “Generating and Ex…

約4時間でMacの初期化&セットアップを行ったときの手順を纏めておく

数ヶ月前、MacBookAirを一度工場出荷時に戻した。 自分のPCの使い方が安定してきて、いままでのスタイルの開発環境やディレクトリ構造やらが煩わしくなってきたから。 その時の手順メモを纏めておく。 環境 MacBookAir (2013) Intel Core i5 MacOS High Sier…

啞とアが符号化できなかった問題についてもうちょっと深掘りしてみた(UTF-8)

NLP

前回の記事で、啞が消え、アがアにされてしまうという問題が発生した。 それに対し、前回の記事では「nkfの問題かな?」と予想していた。 そこで今回は、nkfによる変更を行わずに中身を見てみることにする。 test.txtはUTF-8で書かれているので、UTF-8の符号…

授業で文字コード(JIS, Shift-JIS, EUC)の話を聞いたけど、さっぱりイメージできなかったので実際に見てみた

テキストファイルをバイナリでみる方法 hexdump というUNIXコマンドを使うと16進数でみることができる。 また、 nkf というUNIXコマンドを使うと文字コードを変換できる。 これらを使って、任意のテキストファイルの内容を「普通に」「JISコードで符号化して…

可変長系列をRNNでミニバッチ学習したい時はパディング処理に気をつけて

系列長の違う複数の特徴系列(振れ幅 1〜200くらい)を、ミニバッチ化するために纏める時、 面倒に思って、データ全体を通して同じ系列長でパディング処理を施して纏めた。 そうしたら順方向RNN(many2oneで次の層に隠れ層を渡す)がうまく学習できなくなっ…

Tweepy使いがHTTPヘッダも見たいときのソース修正手順

背景 Twitter API には一定時間内に叩ける制限回数があるので,Tweetを収集し続けたいときなどは,あと何回叩けるのかを把握しておきたい. しかしデフォルトのツイート検索関数api.search()(Return type: list of SearchResult objects)はその情報を含ん…

サブワード分割手法 BPE(Sennrich, 2016) をPythonで実装してみた

輪講でも度々登場するBPE(Sennrich, 2016)を勉強のために書いてみた。 論文に乗っている Algorithm 1 Learn BPE operations そのまま。→ import re, collections def get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items…

Gitの初期設定をせずにGitHubにpushすると本名が暴露されてしまうはなし

まさにこちらの記事の通り。 githubで本名が暴露してしまった件 MacをクリーンインストールしたのでGitも初期化されているという事を失念し、やらかしてしまった。 紹介通り、漢字フルネームでリポジトリに表示される。 リポジトリの削除は、リポジトリの画…

2018年冬インターンのメモをまとめておく

インターンの時にとったメモをいま見返したら、結構重要そうなことが書いてあったので、ここにまとめておく。 研究のサイクル 高専でも卒研をしておいて今更だけれど,(初めてまともに)研究のサイクルを教わった. サーベイ 手法提案 実装 実験 評価 → 2へ…

学生版Fusion360を30分くらいでMacに入れた

Fusion360とは 3D CAD/CAM/CAEツール。 クラウドでデータを共有していて、WindowsでもMacでも動作する。 無料。すごーい。 3Dプリンタで何か作りたくて入れてみることに。 手順 学生版Fusion360インストール手順書に従って。(2017/05/25) "1.アカウントを…