欢迎来到天天文库
浏览记录
ID:43298263
大小:280.50 KB
页数:19页
时间:2019-09-29
《以网际网路内容为基础之问答系统Why问句研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、以網際網路內容為基礎之問答系統“Why”問句研究沈天佐 林川傑 陳信希國立台灣大學資訊工程學系{tzshen,cjlin}@nlg.csie.ntu.edu.tw;hh_chen@csie.ntu.edu.tw摘要以“Why”開頭的問句,問題的答案是“原因”。“原因”有不同的型態,可能是一個片語、一個子句、一個句子,甚至跨越句子的範圍。目前的問答系統特別針對“Why問句”研究的並不多,本文探討如何從文件中擷取出“Why問句”的答案,文件的來源設定在網際網路。我們運用搜尋引擎取得相關文件,以描述因果關係
2、的句型來擷取答案。由於句型本身可能會有歧義性,某個句型的出現並不代表一定是問句的答案,本文也針對這項議題進一步分析。我們並將所發展的問答系統,與另外兩個以網際網路為基礎的問答系統─AnswerBus和LCC,作了效能的評估。在以50個問句的測試中,我們的系統、AnswerBus和LCC的MRR值分別為0.623、0.429和0.229,顯示我們的系統的效能優於這兩個系統。1.緒論問答系統接受使用者的自然語言問句,從一堆文件集中,找出問句的答案。透過問答系統,使用者可以直接得到答案,而不必自己瀏覽資訊檢
3、索系統所傳回的一堆相關文件尋找答案。TREC(TextRetrievalConference)自1999年開始舉辦問答系統的效能評比(Voorhees,1999),帶動近年來問答系統的研究風潮。TREC評比的重點隨著研究成果的進展,每年都進行調整。以2002年為例,評比的重點在於參賽者的系統是否能夠準確地定出答案的範圍,而不是以一個固定長度的文字片段當作答案。完整的問答系統分為兩步驟,第一個步驟是從所有文件中找出與問句相關的文件,此即「資訊檢索」的部分。如何將自然語言問句轉換為適合資訊檢索系統的查詢字
4、串,是個研究課題。第二個步驟是從相關文件中找出問句的答案,此稱為「答案擷取」,這個部分是問答系統主要研究重點。進行「答案擷取」,問答系統必須針對問句進行分析,以取得答案的類型。常見的「答案擷取」方法是利用“NamedEntityTagging”的技術,再加上“問句與上下文相似度的計算”。從簡單的關鍵字比對,到較複雜的語意一致性判斷,都是可能的上下文與問句相似度計算方法(Harabagiuetal.,2000a;MoldovanandRus,2001)。以網際網路為基礎的問答系統研究,主要是利用網路上常
5、見的搜尋引擎進行資訊檢索,以取得相關文件,再利用與TREC問答系統類似的技術來擷取答案。這種類型的問答系統,必須考量即時性,避免太複雜技術帶來的負擔。目前的研究有Radevetal.(2001)、Radevetal.(2002)、Zheng(2002)、Lin(2002)。另外,網頁文件的一些特性,例如HTML標記、超鏈結、風格差異、內容正確性等,也是在研究上必須考量的議題。目前大部分問答系統擷取答案方法,主要針對答案類型為NamedEntities。對於答案較複雜,沒有固定形式的問句類型,如“Why
6、…?”和“HowdoesSV?”,則較少有深入的探討與分析。Girju與Moldovan(2002)曾經探討過回答“cause-effectquestions”,研究因果關係在文中的表達方法。不過這篇文章的重點擺在這種pattern上,其中的動詞必須是個“causativeverb”,例如:“cause”、“leadto”、“make”等。由於這些動詞未必一定代表因果關係,如“make”有時的意義為“製造”,所以研究重點在於如何由VERB、NP1和NP2來判斷是否描述因果關係。
7、在閱讀測驗問答系統(readingcomprehension)的研究上,Anandetal.(2000)和RiloffandThelen(2000)也有相關研究。系統針對一篇文章,找到問句的答案。TREC問答系統與這類問答系統主要的不同點是答案來源為多篇相關文件,答案可能重複出現多次,有較多機會找到答案,但雜訊也會比較多。閱讀測驗問答系統則相反,答案可能只出現在文章中一次,所以需要較複雜的方法來找到不是那麼明顯的答案,但另一方面雜訊會比較少。第2節說明實作系統的架構,以及各個子系統。第3節引用Penn
8、Treebank語料庫,分析擷取答案patterns的準確率。第4節為本系統的效能評估,並與另外兩個以網際網路為基礎的問答系統比較。第5節是結論與未來研究方向。1.系統概觀1.1資訊檢索系統本文所提的問答系統架構如圖1,只針對單一的問句類型(也就是以“why”開頭的問句)進行處理,所以並未包含問句分析子系統,同時我們選擇Google來找出與問句相關的網頁文件。首先將問句轉為查詢字串,去掉問句中的停用詞(stopwords,包括疑問詞、介系詞、連接詞、代名
此文档下载收益归作者所有