google日本語データ公開のディスカッション@NLP2007

周囲でもキーボードを打つ音が聞こえてきますので,すごい勢いで内容がアップロードされているのでしょう.googleに対する興味,関心の高さがよく分かります.
ちなみに,こんな条件らしい.

  • 前提条件
  1. 生データは公開しない.
  2. 言語処理は公開されたものを使う.
  • 公開条件
  1. 単語n-gram
  2. 文節係り受け部分木
  • 公開データ
  1. リリース目標は2007年夏末
  2. 単語n-gram係り受けサイズは英語よりも大きい?

今回のディスカッションでは,どういう処理をするか,どの方法で公開するかの意見が知りたいとのこと.