bayon

文書のカテゴライズ

本来はクラスタリングツールだが文書カテゴライズもできる。
https://code.google.com/p/bayon/wiki/Tutorial_ja#ドキュメントに類似するクラスタの特定
まずクラスタリングを行う。 その際centroid.tsvにクラスタの中心ベクトルを保存しておく。

% bayon -c centroid.tsv -n 100 --clvector-size 100000 input.tsv > cluster.tsv
--clvector-size で 中心ベクトルの要素数を指定する。デフォルトは50。 

クラスタの中心ベクトルとドキュメントのベクトルを比較する。

% bayon -C centroid.tsv input.tsv > classify.tsv