基于锚文本领域语料库自动的构建

基于锚文本领域语料库自动的构建

ID:27131668

大小:2.91 MB

页数:84页

时间:2018-12-01

基于锚文本领域语料库自动的构建_第1页
基于锚文本领域语料库自动的构建_第2页
基于锚文本领域语料库自动的构建_第3页
基于锚文本领域语料库自动的构建_第4页
基于锚文本领域语料库自动的构建_第5页
资源描述:

《基于锚文本领域语料库自动的构建》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、...国内图书分类号:TP391.3学校代码:10213 国际图书分类号:621.3密级:公开工学硕士学位论文基于锚文本的领域语料库自动构建硕士研究生:丁玲导师:王晓龙教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2011年12月授予学位单位:哈尔滨工业大学-......ClassifiedIndex:TP391.3 U.D.C:621.3ThesisfortheMasterDegreeinEngineeringAUTOMATICDOMAINTEXTCORPUSBUILDINGBASEDONANCHORTEXTCandidate:DingL

2、ingSupervisor:Prof.XiaolongWangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScience&TechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2011Degree-Conferring-Institution:HarbinInstituteofTechnology......哈尔滨工业大学工学硕士学位论文摘要随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个

3、网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确类别体系中,将标注好的文本集合构建成一个领域语料库,成为了当前的一个热点问题。虽然通过人工标注构建的语料库满足较高的标准性和准确性,但是当分类体系结构自动更新时,则必须重新对语料库中的文本集合进行标注。针对人工构建语料库的这一缺陷,本文研究如何根据领域网站的本体结构和给定的目标分类体系,自动构建领域语料库。本文首先分析领域网站结构,提出基于网页结构及锚文本信息的方法获取领域网站的本体结构,构建对应的文本结构树。然后根据给定的分类体系结构,提出了基于共同子树的网页类别锚文本获取算法

4、,抽取领域网站本体结构树和给定分类体系之间的共同子树,从而确定领域网站中的某一类别在给定分类体系中的确切位置,并从领域网站该类别中获取相关的网页。接着针对网页中包含的噪声信息等无关联信息,本文提出基于共同子树的领域网站网页锚文本链接及正文的算法获取高质量的领域语料文本。针对构建后的领域语料库中的噪声语料文本,本文综合运用凝聚层次聚类和近邻传播聚类去除每个类别内的噪声文本,提高语料库语料的准确性,算法主要对一个类别中的语料文本集合进行聚类,最后将最大簇中的文本作为该类别的语料。实验表明,基于锚文本的领域语料库自动构建方法所获得的语料达到了 较高的准确率,近似于人工标注语料

5、库的准确性。通过实验对比,经过凝聚 层次聚类的语料库中的语料达到了更高的准确性。本文根据提出的语料库自 动构建方法实现了一个语料库自动获取系统,该系统运用到健康领域的分类 语料库自动构建。关键词:本体结构,锚文本链接,共同子树,文本聚类I......哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentofInternettechniques,categoriesandformsof webinformationfromdifferentfieldsbecomemoreandmorecomplicated.Each nodeofaw

6、ebsitehasacomplicatedclassificationsystemwhileitstextual informationisofabundance.Ithasbecomeahottopicthathowtolabelagreat amountoftextualinformationintothecorrespondingcorrectclassification systemandconstructthealreadylabeledtextualsetsintoadomaincorpus. Althoughcorpuslabeledartificiall

7、yhasgoodstandardandaccuracy,whenthe classificationsystemrenews,textualsetsfromcorpusshouldberelabeled.In accordancewiththisweakpointofartificially-builtcorpus,thispaperputs researchonhowtobuilddomaincorpusautomaticallybasedontheontology structureofawebsiteandthegiventarge

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。