ジョバンニ君のつぶやき: 日本語N-gram

2008年5月23日金曜日

日本語N-gram

Googleが、こんなデータを公開していた。

Nグラムは一般に公開されている日本語のWeb ページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive, noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の１〜７グラムを収録している。

http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html

まあ、公開とはいっても、無償ではないし、それを使って何かをしようとするといろいろ制約がありそうだけれど。

ジョバンニ君のつぶやき

2008年5月23日金曜日

日本語N-gram

0 件のコメント:

コメントを投稿

ブログアーカイブ

自己紹介

ジョバンニ君のつぶやき

2008年5月23日金曜日

日本語N-gram

0 件のコメント:

コメントを投稿

ブログ アーカイブ

自己紹介

ブログアーカイブ