KOTONOHA「現代日本語書き言葉均衡コーパス」

最近コーパス作りをしていたら、KOTONOHAの記事を教えてもらいました。
大規模書き言葉コーパスのオンライン試験公開 ( 国立国語研究所 )
独立行政法人国立国語研究所(東京都立川市、所長:杉戸清樹)は、現在構築中の『現代日本語書き言葉均衡コーパス』のデータの一部、約 1000 万語分をインターネット上で試験公開します。(http://www.kotonoha.gr.jp/demo/)
国立国語研究所は、明治から現代にいたる日本語の電子化資料をコンピュータ上で公開しようとする KOTONOHA 計画を基幹的なプロジェクトとして推進しています。『現代日本語書き言葉均衡コーパス』( コーパスとはコンピュータ上に蓄積された大規模な言語資料のこと)はその一環として昨2006年度から構築を開始したものであり、2011年の完成時には1億語を超える量の現代日本語の書き言葉データとして公開する予定です
デモはこちら
完成時には1億語のコーパスとなる予定だそうで、いまから楽しみです。
「1億語」なんて書かれていると、素人的には、
そんなに単語があるのかよ!
って思ってしまいます。ところが、単語って膨大な数で存在していて、マイなんちゃってコーパスでも、「画像」という単語に連関した単語だけで10万語ほどあります。人名などの固有名詞を取りあつかうため、1億語は超えてしまうのです。
彼らの研究をみてると、こそこそコーパスなんてつくっているの馬鹿馬鹿しくなってきてしまいます。
DVDでデータを買うと250万円程度のようです・・・ほしい
商用利用しないからアカデミック版で売ってくれないかなぁ。
トラックバック(0)
このブログ記事を参照しているブログ一覧: KOTONOHA「現代日本語書き言葉均衡コーパス」
このブログ記事に対するトラックバックURL: http://mt.nogutetu.com/mt-tb.cgi/185

コメントする