上位下位関係抽出ツールを使ってみる
上位下位関係抽出ツールは Wikipedia のデータから上位下位関係をとってきてデータにしてくれるものなのだが使うのに少し苦労した。
ダウンロードして解凍し、フォルダに移動。
まず使うとshのエラーが出たので script/ex_hyponymy.sh の一行目を
#!/bin/sh
から
#!/bin/bash
に変更。
その後実行すると数時間動き続けるのだが、デフォルトの分類器の pecco の、すでにないオプションを指定して結果が出力されずに終わる。
上位下位関係抽出ツール自体2010年が最終更新なので pecco のずっと前のバージョンをインストールするか、もしくは動作は遅いが TinySVM のオプションがあるので、こちらを使うのもいい。ただ、公式サイトに書いてあるとおり TinySVM と data3 (大規模な学習データを使って生成)を使おうとすると pecco の5倍以上かかってしまうので、精度が高くや規模の大きいdata3を使う場合は古い pecco を使うのがいいと思う。
pecco は http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/pecco/#hist で公開されているうち、もっとも古い2011年1月のファイルをダウンロードし解凍。このときのバージョンのインストール方法は上位下位関係抽出ツールのサイトに書いてあるので、つまずいたらそちらを参考。
追記: 上位下位関係抽出ツールのサイトに書いてあるインストール方法は違うが、サイトにあるリンクの http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/pecco/pecco.tar.bz2 で、当時の最新版がダウンロードできるようなのでそちらを参照。
cd ex-hyponymy-1.0 wget http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/pecco/pecco-20110110.tar.bz2 tar jxvf pecco.tar.bz2 cd pecco make -f makefile.pecco cd ..
そしてようやく上位下位関係認識ツールが使える。
PATH=./pecco/:$PATH script/ex_hyponymy.sh -t ./data3 Wikipediaファイル