KOTONOHA「現代日本語書き言葉均衡コーパス」

| | コメント(0) | トラックバック(0)


最近コーパス作りをしていたら、KOTONOHAの記事を教えてもらいました。
大規模書き言葉コーパスのオンライン試験公開 ( 国立国語研究所 )

独立行政法人国立国語研究所(東京都立川市、所長:杉戸清樹)は、現在構築中の『現代日本語書き言葉均衡コーパス』のデータの一部、約 1000 万語分をインターネット上で試験公開します。(http://www.kotonoha.gr.jp/demo/)
国立国語研究所は、明治から現代にいたる日本語の電子化資料をコンピュータ上で公開しようとする KOTONOHA 計画を基幹的なプロジェクトとして推進しています。『現代日本語書き言葉均衡コーパス』( コーパスとはコンピュータ上に蓄積された大規模な言語資料のこと)はその一環として昨2006年度から構築を開始したものであり、2011年の完成時には1億語を超える量の現代日本語の書き言葉データとして公開する予定です


デモはこちら

完成時には1億語のコーパスとなる予定だそうで、いまから楽しみです。
「1億語」なんて書かれていると、素人的には、


そんなに単語があるのかよ!


って思ってしまいます。ところが、単語って膨大な数で存在していて、マイなんちゃってコーパスでも、「画像」という単語に連関した単語だけで10万語ほどあります。人名などの固有名詞を取りあつかうため、1億語は超えてしまうのです。

彼らの研究をみてると、こそこそコーパスなんてつくっているの馬鹿馬鹿しくなってきてしまいます。
DVDでデータを買うと250万円程度のようです・・・ほしい

商用利用しないからアカデミック版で売ってくれないかなぁ。

トラックバック(0)

このブログ記事を参照しているブログ一覧: KOTONOHA「現代日本語書き言葉均衡コーパス」

このブログ記事に対するトラックバックURL: http://mt.nogutetu.com/mt-tb.cgi/185

コメントする

コネタ

全部みる

食事歴

全部みる

このブログ記事について

このページは、noguが2007年5月29日 17:42に書いたブログ記事です。

ひとつ前のブログ記事は「アイスクリームは太りにくい」です。

次のブログ記事は「ドーナツ食べたい」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。