困った

とある事情からまとまったテキストデータを集めようと,Webのデータを文字通りブラウジングしていたのですが,いささか困った事態に直面してしまいました。というのも,完全に自分のことを棚に上げていうのですが,まとまった文章を書いている日記の割合が非常に小さくなっていて,使えるデータがなかなか見つからないんです。端的に言うとノイズが多いわけですね。
おかしいなぁ,ちょっと前まではこんなことはなかったはずなのに…と思っていたときにふと気がついたことの一つが,ASIN情報*1の多さです。商品の情報が羅列してあって,「今日の買い物」だけ書かれましても…。いずれにしても,Webデータの収集については少し見直さないと。とほほ。

*1:amazonの商品情報