rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

クロール

Scrapyでリンクを辿りながら欲しい情報をクロールする

Scrapy Python製Crawlerライブラリのひとつで、ブログ記事をクロールするために現在利用を検討している。 初手で日本語の入門記事を参考にして何度か痛い目を見ているので、おとなしく本家のScrapy Tutorialを読んだ。この記事では、公式のDocumentを参考に…

Tweepyで140文字より長いツイートを取ってくる

Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…

Tweepy使いがHTTPヘッダも見たいときのソース修正手順

背景 Twitter API には一定時間内に叩ける制限回数があるので,Tweetを収集し続けたいときなどは,あと何回叩けるのかを把握しておきたい. しかしデフォルトのツイート検索関数api.search()(Return type: list of SearchResult objects)はその情報を含ん…