基于中文维基百科文本扩充

基于中文维基百科文本扩充

ID:34573862

大小:2.42 MB

页数:54页

时间:2019-03-08

基于中文维基百科文本扩充_第1页
基于中文维基百科文本扩充_第2页
基于中文维基百科文本扩充_第3页
基于中文维基百科文本扩充_第4页
基于中文维基百科文本扩充_第5页
资源描述:

《基于中文维基百科文本扩充》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、TextEnrichmentBasedonChineseWikipediaAThesisSubmittedinPartialFulfillmentoftheRequirementFortheM.ScDegreeinComputerScienceByYangLiuPostgraduateProgramDepartmentofComputerScienceCentralChinaNormalUniversitySupervisor:HeTingtingAcademicTitle:ProfessorSignatureApprove

2、dMay,2011z眵⑨硕士学位论炙MASTER’STHESIS华中师范大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。储叛嘶日期:河f年6月7日学位论文版权使用授权书学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产

3、权单位属华中师范大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密,在——年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。0,作者签名:枷彩『呷导师签名:何莎夸必午日期:p、、年b月1日日期:ze11年易月1日本人已经认真阅读“CALIS高校学位论文全文数据库发布章程",同意将本人的学位论文提交

4、“CALIS高校学位论文全文数据库”中全文发布,并可按“章程"中的规定享受相关权益。回壶途塞握变质进盾!旦圭生;旦二生;旦三生蕉查!.作者签名:帕都冲日期:扣、、年I,月1日夕丫,∥日牟¨弘%6午名扩师期⑨硕士学位论文MASTER’STHESIS摘要维基百科条目解释页面的内部链接将维基百科中的一个个条目有机联系起来,使得维基百科中的知识不再是无结构的独立页面,也使得读者无需重新在维基百科中检索即可方便地浏览与当前条目相关的其他知识。维基百科内部链接所起到的作用以及志愿者添加内部链接的过程,给了我们一定的启发:普通中文文本也可

5、以添加类似的指向维基百科页面的超链接,一方面,这些超链接所指向的维基百科条目页面能够辅助用户理解当前文本,增加阅读的乐趣,另一方面,这些超链接的锚文本能在一定程度上代表当前文本的主题,可以作为当前文本的关键词,而文本的关键词在自然语言处理的其他领域有着很重要的作用。基于中文维基百科的文本扩充是指利用中文维基百科对普通文本进行分析,抽取出其中的关键词,并进行词义消歧,最终添加指向维基百科条目页面的链接来达到文本扩充的目的。这一过程中主要的工作和特色是充分利用了中文维基百科来辅助本文的研究工作,具体体现在如下四个方面:第一,从维

6、基百科中获得词表,辅助关键词抽取的过程。关键词抽取过程中使用基于正向最大匹配算法的分词工具来进行分词,其中分词工具的词库来源于三个方面:中文维基百科的条目列表、中文维基百科条目解释页面内部链接的锚文本列表、搜狗互联网词库。经过分词之后,再从分词结果中挑选出出现在前两个分词词库中的词语作为候选关键词。第二,将维基百科作为一个大型的半标注的语义知识库来辅助选择最终的关键词和多义词消歧义的过程。维基百科中的内部链接和开放分类信息蕴涵了丰富的语义知识,我们利用这两个资源来对候选关键词进行评估,以及对歧义词进行消歧。第三,将维基百科中

7、的条目解释页面作为文本扩充后超链接的目标指向。文本经过本文的关键词抽取和歧义词消歧义之后,通过添加适当的html标签使其中的关键词成为指向维基百科的超链接。最后,将维基百科作为测试语料。为了验证本文关键词抽取和词义消歧的效果,我们从维基百科中挑选了一定数目的条目文章作为测试集,通过与人工标注的维基百科条目文章进行比对发现,本文的关键词抽取和词义消歧均能达到较好的效果。关键词:维基百科;文本扩充;关键词抽取;词义消歧AbstractTheinnerhyperlinksinwikipediatermpagesconnectter

8、msinwikipediawitheachother,maketheknowledgenolongerallisolateandunstructuredpageandenablereaderstobrowserelatedknowledgeconvenientlybyjustclickin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。