资源描述:
《相対的な系りやすさを考虑した 日本语系り受け解析.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、相対的な係りやすさを考慮した日本語係り受け解析NAIST(4月よりNTTCS研PD)工藤拓松本裕治日本語の係り受け解析形態素解析,文節同定太郎は/花子と/京都に/行きます太郎は花子と京都に行きます生テキスト太郎は/花子と/京都に/行きます係り受け解析統計的日本語係り受け解析確信度に基づく手法[春野98,内元99,工藤00]係り関係はすべて独立と仮定統計的な確信度に基づき複数の係り先候補から係り先を1つ選択過去多くの研究決定的な手法[工藤02]Shift-Reduceと同種の手法で決定的に解析確信度は必ずしも必要でない確信度に基づく手法と同程度
2、の性能準備文節列:係り受けパターン列:がに係る:の係り先候補:に関する素性:(品詞,単語,それらの組等)学習データ:(係り関係はすべて独立と仮定)太郎は/花子と/京都に/行きます1234解析手法[関根99]文末の文節から順に同定太郎は花子が持っている本を探している係り先の選択確信度fの設計に帰着される絶対モデルと相対モデル絶対モデル(旧モデル)候補二文節が「係る」か「係らない」かのニ値分類を考える写像の導出太郎は花子が持っている本を探している+1-1絶対モデルcont.線形分類器(SVM,ME)の場合,以下の戦略で分離平面を構築学習戦略1係り先
3、の選択係りやすさの確信度絶対モデルの問題点(1/2)太郎は花子が持っている本を探している太郎は本を持っている+1-1+1{太郎は→探している}→+1{太郎は→持っている}→+1?-1素性の工夫で解決可能だが,別途素性選択が必要解析時に正例が複数あったり,正例が1つもない場合どうすればよいのか?相対モデル(提案手法)係りやすさは他の候補との関係できまる他の候補と比較したときの相対的な係りやすさを学習すべきD>{A,B,C}E>{F}B>{C}絶対モデルvs相対モデルcont.A:{太郎は→花子が}-1B:{太郎は→持っている}-1C:{太郎は→本
4、を}-1D:{太郎は→探している}+1E:{持っている→本を}+1F:{持っている→探している}-11太郎は花子が持っている本を探しているA(-1)C(-1)E(+1)D(+1)B(+1/-1)F(-1)絶対モデル相対的な大小関係は数直線上に保持w2つのグループの境界を求める2太郎は本を持っているC:{太郎は→本を}-1B:{太郎は→持っている}+1ACEDBF相対モデル相対モデルcont.以下の戦略で射影ベクトルを構築学習戦略2係り先の選択係りやすさの確信度絶対モデルvs相対モデル相対モデル絶対モデル絶対的な基準点相対モデルと優先度学習相対モ
5、デル:優先度学習[Herbrich98]の日本語係り受け解析への自然な適用学習手法RankBoost[Freund03]RankingSVM[Joachims02],SVOR[Herbrich00]MarkovRandomFields(最大エントロピー法)応用情報検索,QA結果のリランキング[Joachims02]構文解析結果のリランキング[Collins00,02]照応解析[Iida03,Isozaki04]最大エントロピー法による定式化相対モデル絶対モデル周辺化する対象が異なる最大エントロピー法による定式化cont.学習:最尤推定ここをでき
6、るだけ大きくすればよい学習戦略2相対モデルの学習戦略を近似的に実現するような学習関連研究後方文脈モデル[内元00]3つ組み/4つ組みモデル[金山00]決定的解析モデル[工藤02]後方文脈モデル[内元00]二値分類を三値分類に「係る」「係らない」→「係る」「越える」「手前」解析時:確率値の統合越える係る手前絶対モデルの本質的な問題は解決されない学習と解析の戦略が異なる3つ組み/4つ組みモデル[金山00]文法を用いて候補を2つないし3つに限定係り先候補:基本的に多値分類(3つ組み,4つ組みは別モデル)一般のk組モデルに拡張困難(データスパースネス)
7、事前に候補を限定する必要がある候補を用意する必要があるので,比較対象に含めない決定的解析モデル[工藤02]Shift-Reduceの変種を用い決定的に解析ShiftvsReduceの動作を二値分類複数の候補から係り先を選択しない長距離の係り関係はshiftが多用される近くに係りやすいという性質を反映長距離の係りうけに弱い実験性能比較相対(提案法)絶対(「係る」「係らない」)後方文脈(「係る」「越える」「手前」)決定的解析(Shift-Reduce)係り受けの距離ごとに評価すると?設定京大コーパス3.0学習データ:24,263文234,474文節
8、デベロップメントデータ:4,833文47,580文節評価データ:9,287文89,982文節比較対象相対(提案法)絶対(「係る」「係らない」)後方文脈