こんにちは、プロダクト事業部の水野貴明、萩原正人&マーケティング部の上之山奈津希です。
Baiduは、自然言語処理に興味を持たれていたり、学んでいたり、研究されている方や、おもしろいものを作ってみたいエンジニアの方の研究や非商用のサービス開発などに活用いただくため、「Baidu コーパスダウンロード広場」を開設し、「Baidu ブログ・掲示板時間軸コーパス」を公開いたしました。
Baidu ブログ・掲示板時間軸コーパス
Baidu ブログ・掲示板時間軸コーパスは、Baiduがクロールしたウェブデータから、掲示板の書き込みおよびブログの本文を、書き込まれた正確な時間とともに抽出し時系列に並べたデータを元にして作成したユニークでほかにはない(※)コーパスです。掲示板が普及した2000年1月~2010年7月の期間に対して、各1ヶ月ごとにスライスし、Nグラム(1グラム~3グラム)の統計を計算しています。※当社調べ
時間表現・タイムスタンプを元に文の抽出を行っているので、言語現象の内容とその発生した時間の対応が正確に把握できます(ある時点のウェブのスナップショットではありません)
サンプルスクリプトを使って、Nグラム出現確率の時系列変化をグラフにすると、2000年以降の任意の語(※)の出現率を可視化することができます。今回は、二つの例を紹介します。※コーパスに含まれているものに限ります
「ワールドカップ」と「オリンピック」の出現率
ワールドカップよりもオリンピックのほうが出現率が高く、また、開催地が日本に近いアジアでの大会が比較的高い出現率を示していることがわかります。
「モーニング娘」と「AKB48」の出現率
2000年~2004年に全盛期と言われたモーニング娘。と、2009年以降、好調にファンと露出を増やすAKB48の出現率が推移していく様子が見れます。
ほかにも、言葉の流行り廃りであったり、一発屋と言われたお笑い芸人の息の長さ比較であったり、花粉の量と単語の出現率など…
Baiduでは、様々な角度から、みなさまにBaidu ブログ・掲示板時間軸コーパスを利用いただきたいと考えております。
Baidu コーパス ダウンロード広場は、今後も不定期で更新!
現在、「Baidu コーパスダウンロード広場」では、2010年7月に開催したBaidu.jp 不自然言語処理コンテストの発表を機に公開した「Baidu 絵文字入りモバイルウェブコーパス」に加え、本日公開した「Baidu ブログ・掲示板時間軸コーパス」、現在2種類のコーパスを無料でダウンロードしていただけます。(利用にあたっては利用条件への同意が必要です)
Baiduでは、今後も様々なコーパスの公開を予定(不定期)していますので、どうぞご期待ください○┓ペコリ




