欢迎来到天天文库
浏览记录
ID:12099782
大小:201.50 KB
页数:27页
时间:2018-07-15
《基于自然语言处理技术的研究领域分析 - multimedia information》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基於自然語言處理技術的研究主題抽取與分析ExtractionandAnalysisofResearchTopicsBasedonNLPTechnologies世新大學資訊傳播學系DepartmentofInformationandCommunications,Shih-HsinUniversity林頌堅Sung-ChenLinEmail:scl@cc.shu.edu.tw摘要本論文針對研究主題分析的問題,提出一系列以自然語言處理為基礎的技術,從學術領域中發表的論文資料中抽取重要的關鍵詞語,並將這些詞語依據彼此間共現關係進行叢集,以叢集所得到的詞語集合表示領域中重要的研究主題。研究主題分析在
2、學術領域的應用上,可以提供研究人員一個清楚的梗概;在資訊檢索的過程中,則可以幫助使用者釐清資訊需求。我們並將所提出的方法應用到ROCLING27研討會的論文資料上,抽取計算語言學領域的重要研究主題。結果顯示這個方法可以應用於國內學術領域的特殊環境,同時抽取出中文和英文的關鍵詞語,所得到的詞語叢集結果也可以表示領域中重要的研究主題。這樣的結果初步的驗證了本論文所提出方法的可行性。從研究結果中,我們也發現計算語言學研究與實務應用有密切的關係,抽取出來的詞語叢集中有許多與機器翻譯、語音處理和資訊檢索相關,在語言的計算模式上,語法模式與剖析、斷詞和統計式語言模型的建立則是國內計算語言學家所關心的主
3、題。一、緒論資訊檢索研究著重的問題是人與資訊之間的介面,近來的研究趨勢注重於使用者所具有的背景知識、在檢索過程中對問題的認知[Wilson,1999]及資料的嫻熟程度(materialmastery)[Bishop,1999][Covi,1999]。為了對一個學術領域的資訊傳播現象進行全面的了解,所謂的「領域分析」(domainanalysis)藉由對學術領域內重要的學術活動,諸如研究、論文發表、會議參與等等進行分析,探討研究人員所使用或產生的知識組織、結構、合作模式、語言和通訊形式、資訊系統以及相關標準等[HjørlandandAlbrechtsen,1995]。而研究主題分析可以說是領
4、域分析的一項要務,了解重要的研究主題可以掌握領域中的知識組織,幫助使用者釐清資訊需求(informationneed),迅速取得所需的資訊。此外,藉由有系統的方法抽取研究主題並加以分析,可以展示學術領域研究一個完整的面貌,提供新進學者在初期進入領域時的參考,也可以作為學術研究領域發展的指引(roadmap),提供已經深入的研究人員擴展學術研究的範疇。27本論文提出一個自動化的研究主題抽取方法,從學術領域中發表的論文集合中選出關鍵詞語,再依據詞語彼此間出現在相同論文中具有特定意義的共現(co-occurrences)現象,辨認每一篇論文中可能具有的研究主題,作為分析這個領域重要研究主題的依據
5、。我們認為論文的豐富詞彙訊息蘊含了研究主題。在論文發表的過程中,作者藉由論文題名、摘要以及本文中的詞語將研究的問題、方法與結果等主題傳達給讀者,甚至論文所引用的參考文獻題名也包含許多與主題相關的詞語訊息;而讀者在閱讀論文時,便可以依據這些詞語判斷與本身研究興趣上的相關性,同時將這些資訊建構與融入個人的知識結構中[Harter,1992]。以本論文做一例子,在本論文的題名、摘要和本文中包含了許多『學術領域』、『研究主題』、『論文』等等詞語,目的是希望讀者在閱讀時,可以從這些詞語的共同出現與使用,了解我們所研究的主題是從學術論文中抽取重要的研究主題,而有興趣的讀者在閱讀後,便可在研究與發表上加
6、以利用。進一步地,在一個學術領域中,可以發現某些受到重視的研究主題相關的詞語在許多論文中出現。以計算語言學領域來看,便可以發現諸如『語料庫』、『剖析』、『資訊檢索』等等的詞語在許多論文中出現,這些都是這個領域中的重要研究主題。而且與研究主題相關的一組詞語會重複出現在許多論文中。因此,如果對學術領域出版的論文進行分析,選取具有代表主題意義的詞語,統計這些詞語間的共現現象,利用這些資訊將經常一起出現的一組詞語叢聚成一個集合,所形成的詞語集合可以視為是某一特定的研究主題。在分析某一論文的主題時,便可以估算代表各研究主題的詞語叢聚與該論文的相關性,作為判斷該論文是否具有此一主題的資訊。因此,本論文
7、嘗試利用自然語言處理技術來分析學術領域中發表的論文,確認論文中出現的詞語,抽取蘊含在其中詞語的共現訊息,再進行詞語叢聚(termclustering),作為辨認主題分析的資訊。27我們並將所發展出來的技術應用於國內計算語言學領域的主題分析。選擇以計算語言學作為研究對象的主要原因是這個領域具有科際整合研究(interdisciplinaryresearch)的特色,並且成功地將發展出的理論和技術應用到學術研究與實際的系統和
此文档下载收益归作者所有