2008-02-28から1日間の記事一覧

Lucene + TinySegmenterというアイデア

そういえば、TinySegmenterをJavaで実装してLuceneのTokenizerを書けばLuceneで使えるかもね。実装は比較的ラクだと思う。 今のところLuceneを使う予定はない。ので究極暇になったら作るかも。

Text::TinySegmenter(TinySegmenterのPerl移植版)リリース

http://search.cpan.org/dist/Text-TinySegmenter/ TinySegmenterをPerlに移植した。 PurePerlでシンプルにさくっと分かち書き。 use utf8; use Text::TinySegmenter; my $str = '私の名前は中野です'; my @words = Text::TinySegmenter->segment($str); # g…