新聞記事のDB化

長い間新聞を読んでいると、同じ記事を何度も読んでいる感触を思うことが多い。
また、例によって適当なことを書いているなと感じることも多いが、それ以上に深く考えることが
できない。何故そこで止まるのかというと、新聞の切り抜きなどしないため、過去の記事からの
連続性があいまいな記憶頼りになるためだろう。
ということで、新聞社には購読者向けに記事内容のデータを提供して欲しい。可能であれば過去記事
まで全て。これを適当にDB化して、累積したものを分析すれば、かなり容易に新聞の検証が出来る
ようになると思うし、こうでもしないと昔の記憶が抜けがちな日々では、現在の記事をまともに理解
することすら難しいのだから。
この作業の難易度は、基本的に文章データなので、100年分でも今時のHDDの値段なら容易なはずだ。
分析手法もマイニングのやり方で大部分いける筈であり、技術的には問題は無い。