2008年5月23日金曜日

日本語N-gram

Googleが、こんなデータを公開していた。

Nグラムは一般に公開されている日本語のWeb ページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive, noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。

http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html

まあ、公開とはいっても、無償ではないし、それを使って何かをしようとするといろいろ制約がありそうだけれど。

0 件のコメント:

コメントを投稿