Sponsored Link

nice funjinkowba:

入力結果


    キーワード抽出君 (ver.20051016_0)

    今後更新しません(20051201追記)。xmlHttpRequestを使って書き直しました。非同期なのはわかってたのでめんどくさがらずにxmlHttpRequest使って書けばよかった。

    これはアレですね

    DF値(例えばblogなら、ある語が出てくるエントリの数を「ある語のDF値」というよ)をてきとうに自分用データベースからとってきて、TF-IDF法を使ったキーワードランキングをしてみよう!TagCloudを出してみよう! という話。肝心のデータは、ためしにopenfbのクラスタリング用DF値データベースへの簡易APIを作ってみて、それを叩くという形で実装しています。同じ文字種の連続した部分や、その他色々な部分文字列を単語と解釈します。気になるひとはソースをよみなさい。

    N-gramをつかうとすごくなりますが、すごく遅くなります。ブラクラです。気をつけてください。警告したからな! 制限かけてます。たぶんブラクラにはなりませんが、使い物にもなりません。Safariでは日本語が抽出できません。Firefoxでしか動作確認してません。

    つかいかた

    1. 入力フィールドに文をいれる。
    2. extractをおすと、TagCloudがでる。
    3. 単語をクリックすると、下のタグ欄にサクサクとタグがはいる。

    openfb document frequency API

    http://fuba.s7.xrea.com/df/?(keyword,)+
    UTF-8のみ通ります。keywordはURIエンコードしてください。 JSONがかえってきます。適当にevalしてやってください。 なお、負荷によっては非公開にします。 そもそも元々の文書がアレなので、出てくるDF値は極端に偏っています。 値自体もなんだか合ってないような気もします。 更新もされないと思います。もっとまっとうなDF値の作り方はこのへんを参考にしてください。

    やっぱりこの規模になるとgrepじゃ無茶だったので、DB_File使って書き直しました(20051013_1)。速い!軽い!いくぶん!