テクノロジー: 2007年5月アーカイブ


最近コーパス作りをしていたら、KOTONOHAの記事を教えてもらいました。
大規模書き言葉コーパスのオンライン試験公開 ( 国立国語研究所 )

独立行政法人国立国語研究所(東京都立川市、所長:杉戸清樹)は、現在構築中の『現代日本語書き言葉均衡コーパス』のデータの一部、約 1000 万語分をインターネット上で試験公開します。(http://www.kotonoha.gr.jp/demo/)
国立国語研究所は、明治から現代にいたる日本語の電子化資料をコンピュータ上で公開しようとする KOTONOHA 計画を基幹的なプロジェクトとして推進しています。『現代日本語書き言葉均衡コーパス』( コーパスとはコンピュータ上に蓄積された大規模な言語資料のこと)はその一環として昨2006年度から構築を開始したものであり、2011年の完成時には1億語を超える量の現代日本語の書き言葉データとして公開する予定です


デモはこちら

完成時には1億語のコーパスとなる予定だそうで、いまから楽しみです。
「1億語」なんて書かれていると、素人的には、


そんなに単語があるのかよ!


って思ってしまいます。ところが、単語って膨大な数で存在していて、マイなんちゃってコーパスでも、「画像」という単語に連関した単語だけで10万語ほどあります。人名などの固有名詞を取りあつかうため、1億語は超えてしまうのです。

彼らの研究をみてると、こそこそコーパスなんてつくっているの馬鹿馬鹿しくなってきてしまいます。
DVDでデータを買うと250万円程度のようです・・・ほしい

商用利用しないからアカデミック版で売ってくれないかなぁ。