毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计

毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计

ID:25731376

大小:1.96 MB

页数:64页

时间:2018-11-22

毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计_第1页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计_第2页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计_第3页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计_第4页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计_第5页
资源描述:

《毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学硕士论文摘要摘要2ABSTRACT4第一章绪论51.1数字图书馆中跨库查询系统概述51.2信息抽取和关键词提取的研究背景81.2.1信息抽取的研究背景81.2.2关键词提取的研究背景81.3网页信息抽取的研究现状81.4关键词提取的国内外研究现状111.5本文的主要工作131.5.1基于学习的信息抽取技术131.5.2文章摘要中关键词的提取131.6本论文的组织结构13第二章信息抽取的相关技术和标准152.1信息抽取系统体系结构152.2信息抽取中的一些关键技术152.2.1命名实体识

2、别152.2.2句法分析172.2.3篇章分析与推理172.2.4知识获取182.3HTML(HyperTextMarkupLanguage)182.4XML192.4.1XML的产生192.4.2XML语法202.4.3元素(Element)与标记(Tag)212.4.4属性(Attribute)212.4.5XML模式222.5DOM(DocumentObjectModel)222.6XPath242.7决策树算法262.7.1决策树定义262.7.2决策树算法26第三章网页信息抽取平台的设计与实

3、现283.1半结构化数据283.1.1半结构化数据出现的原因283.1.2半结构化数据的特点283.1.3现有的半结构化Web页面分类293.2网页信息抽取难点293.3网页信息抽取平台的目标313.4抽取模板313.4.1抽取模板的作用313.4.2模板在信息抽取流程中的位置313.4.3基于路径学习的模板构造方法3214中国科学技术大学硕士论文摘要3.5利用模板抽取信息343.6模板抽取的实验结果353.7同时应用“网页结构和内容”进行信息抽取技术和实验结果363.7.1信息抽取的目标――网上问答

4、对信息的抽取背景363.7.2信息抽取模型373.7.3利用一阶马尔可夫链修正结果的方法383.7.4实验结果40第四章关键词抽取平台的设计与实现424.1关键词的概念424.1.1关键词的定义424.1.2关键词的定义424.2关键词抽取需要解决的问题434.3关键词抽取模型454.3.1候选词的选择454.3.2特征的提取464.3.3机器学习方法—决策树C4.5474.3.4关键词的抽取474.4.模型的实验结果474.4.1数据集474.4.2评判标准474.4.3实验结果48第五章跨库检索系

5、统495.1设计目标495.2设计原理495.3脱机跨库检索与联机跨库检索的比较505.3.1联机跨库检索的流程505.3.2脱机跨库检索与联机跨库检索的比较50第六章总结与展望526.1总结526.2本文主要创新之处536.3未来工作536.3.1信息抽取方面536.3.2脱机跨库检索系统54参考文献55致谢61攻读硕士学位期间发表论文与参加项目6214中国科学技术大学硕士论文摘要摘要随着Internet的迅猛发展,人们对高效率的信息获取技术的需要越来越迫切,对海量信息进行采集、分析、整理,得到高质

6、量的分门别类的结构化信息,方便用户快捷地浏览查询,是极具现实意义的重大课题。为适应广大师生教学和研究的需要,中科大图书馆先后购买了90多种网络数据库,涉及的门类非常齐全,为我校建设一流研究型大学打下了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异;各个数据库中信息不能统一起来为用户提供更深入的服务,我们设计了脱机的跨库检索系统来解决以上问题。脱机检索系统的最终目的是建立一个脱机的跨库检索系统,实现查询界面和结果界面的统一化,同时深入挖掘文章的信息,为用户提供更深入的服务。本文所研究的就

7、是该跨库检索系统中最重要的两个关键点:文章信息抽取和关键词提取技术。针对图书馆各网络数据库文章信息的显示结果都是同构的网页这一特征。本文提出了一种基于学习的模板构造方法,这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板,节省了构造者的时间并且构造出的模板非常准确。同时本文还提出了一种把网页结构信息和网页内容结合起来来实现互联网上问答对信息抽取的方法。为了解决有的文章在网络数据库中并没有给出我们关键词这个问题。本文提出了一种在文章的摘要中抽取关键词的方法。关键词:信息抽取关键词抽取跨库检索系

8、统DOM树14中国科学技术大学硕士论文摘要14中国科学技术大学硕士论文摘要14中国科学技术大学硕士论文Abstract14中国科学技术大学硕士论文AbstractABSTRACTWiththerapiddevelopmentofInternet,theneedofhighefficientinformation-capturetechniqueshasbecomemoreandmoreimpendency.Itisaverymeaningfulprobl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。