基于web领域词典的构建技术地地研究

ID：32741697

大小：882.23 KB

页数：62页

时间：2019-02-15

资源描述：

《基于web领域词典的构建技术地地研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、国内图书分类号：TP391.2国际图书分类号：681.37工学硕士学位论文基于Web的领域词典构建技术研究硕士研究生：高锐导师：王宇颖教授申请学位：工学硕士学科、专业：计算机科学与技术所在单位：计算机科学与技术学院答辩日期：2008年6月授予学位单位：哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheMasterDegreeinEngineeringTHESTUDYOFDOMAINDICTIONARYCONSTRUCTIONBASEDONWEBCandidate:G

2、aoRuiSupervisor:Prof.WangYuyingAcademicDegreeAppliedfor:MasterofEngineeringSpecialty：ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2008Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要领域术语是反映领域特征的

3、词语，可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务，可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域。同时，互联网上特定领域的文本资源非常丰富，因此，如何利用互联网上大规模的特定领域语料来构建领域词典就成为一个既有挑战性又有实际价值的课题。本文系统阐述并实现了一套WEB领域词典构建技术。通过对系统功能的分析，我们把系统分成了WEB领域文本收集、语料预处理、领域新词发现和领域特征词抽取四部分。与传统的领域术语抽取不同，我们首先需要收集WEB领域文本。该部分采用广度优先的算法获取特定类型的

4、网页，我们针对其中的关键点快速的主题过滤算法展开了相关研究，设计并实现了一个基于向量空间模型的主题过滤模块。在语料的预处理部分，我们采用了一种基于统计的网页正文抽取方法，首先对网页进行规范化处理表示为一棵DOM树，然后统计各节点的内容信息进行正文抽取，该方法实现简单，通用性好，在准确性和速度上基本都能满足系统的需要。在领域新词发现部分，我们采用了基于统计和规则相结合的方法识别新词，在词频统计的基础上通过添加独立成词概率等层层过滤候选词。目前该模块综合F值可达70%以上。在领域特征词抽取部分，我们使用基于正规化分布熵的领域词汇抽取策略，

5、并且将位置成词概率引入该方法中，取得了不错的效果。总之，通过对实验观察和结果分析，本课题实现了WEB领域文本收集、语料预处理、领域新词发现和领域特征词提取的关键技术，并在研究的基础上提出并实现了一套面向互联网领域词典构建的技术方案。关键词术语；术语学；领域术语自动抽取；新词发现；-I-哈尔滨工业大学工学硕士学位论文AbstractDomain-specifictermswhichcanrepresentthecharacteristicsofcorrespondingdomainscanbeextractedfromcorporaau

6、tomatically.Automaticdomain-specifictermextractionisanimportanttaskinnaturallanguageprocessing,whichcanbeappliedtodomainontologyconstruction,verticalsearch,textclassification,class-basedlanguagemodeletc.Atthesametime,resourcesinspecificareasontheInternetareveryabundant.

7、SohowtoextractdomaindictionaryfromlargescaleofspecialdomaincorporafromtheInternethaschallengingmeaningandactualvalue.Thispapermainlyintroducethetechnologyonconstructionofdomaindictionaryandalsoexplainhowtorealizeit.Byanalyzingthefunctionsofthesystem,wedividethesystemint

8、ofourparts,suchasgatheringdomaintexts,pretreatingdomainresources,detectingnewwordsandextractingdomainterms.Unl

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 62



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web领域词典的构建技术地地研究

基于web领域词典的构建技术地地研究

相关文章

相关标签