unigram probability model のためのイベントファイルを作るツールです.
| unimaker モデル名 イベント抽出モジュール lexicon template lexbank イベントファイル | |
| モデル名 | 確率モデルの名前(構文解析の時にも使います) |
| イベント抽出モジュール | イベント抽出 predicate が実装されている lilfes module |
| lexicon | 文法獲得で得た lexicon (lildb 形式) |
| template | 文法獲得で得た template (lildb 形式) |
| lexbank | 文法獲得で得た lexbank (lildb 形式) |
| イベントファイル | unfiltered event を出力するファイル (テキスト形式または gz/bz による圧縮形式) |
| オプション | |
| -ff | Feature forest 形式でイベントを出力します. |
| -n 閾値 | イベントを抽出する文の数 |
| -v | デバッグ用メッセージを表示します. |
| -vv | デバッグ用メッセージをたくさん表示します. |
確率モデルの名前は,一つのイベントファイルに対して一つ割り当てます.違 う名前を割り当てれば,複数のイベントファイルを同時に用いることができま す.
文法および lexbank を入力として,lexical entry の出力確率(unigram probability)の最大エントロピーモデルを作成するためのツールです.このツー ルでは,確率モデルの学習に必要な unfiltered event を作成します.
unfiltered event とは,以下のように // で区切られたフィールドを持つ文字 列です.
in//IN//vp[PPnp]//uni
最後のフィールド(uni)はこのイベントのカテゴリを表しています. カテゴリは,後のステップでこのイベント形式にフィルタをかける時などに利 用します.カテゴリが同じイベントに対しては同じフィルタをかけるので, フィールドの数が同じである必要があります.つまり,フィールドの数が違う イベントを使いたい時は,カテゴリ名を分けて下さい.
各 unfiltered event は,対象となるイベントを文字列で表したものです.こ れは,amismodel.lil で定義された extract_lexical_event/4 の第4引数で 得られるリストの要素をつなげたものです.
| extract_lexical_event(+$ModelName, -$Category, +$LexEntry, -$Event) | |
| $ModelName | 確率モデルの名前 |
| $Category | カテゴリ名 |
| $LexEntry | 語彙項目 |
| $Event | イベントを表す文字列リスト |
| 語彙項目のイベントを取りだします. | |
確率モデルの名前は,unimakerの第一引数で与えたものと同じもの を指定してください.
素性関数の値(integer または float)を指定したい時は,以下のインタフェー スを使って下さい.
| extract_lexical_event_feature_value(+$ModelName, -$Category, +$LexEntry, -$Event, -$Val) | |
| $ModelName | 確率モデルの名前 |
| $Category | カテゴリ名 |
| $LexEntry | 語彙項目 |
| $Event | イベントを表す文字列リスト |
| $Val | 素性関数の値 |
| 語彙項目のイベントとその値を取りだします. | |