基于内容的知识抽取与知识重组研究与实现

基于内容的知识抽取与知识重组研究与实现

ID:34114573

大小:10.11 MB

页数:78页

时间:2019-03-03

基于内容的知识抽取与知识重组研究与实现_第1页
基于内容的知识抽取与知识重组研究与实现_第2页
基于内容的知识抽取与知识重组研究与实现_第3页
基于内容的知识抽取与知识重组研究与实现_第4页
基于内容的知识抽取与知识重组研究与实现_第5页
资源描述:

《基于内容的知识抽取与知识重组研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术信息研究所万方数据硕士学位论文作者冯丹导师吴广印中国科学技术信息研究所论文提交日期(2014年09月)万方数据中图分类号堡墨!!:过塑UDC02学校代码80901中国科学技术信息研究所硕士学位论文导师姓名昱亡旦学位类别笪理堂学科专业擅拯堂809011206职称硒究员学位级别亟±研究方向数主图盘绾担差撞苤研究皇丕统珏筮中国科学技术信息研究所论文提交日期(2014年09月)茎腔丛峻耄I=鳗趣兰耋万方数据独创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的成果。尽我所知,

2、论文中除已经加以标注和致谢的地方外,不包含任何他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中明确说明并表示了谢意。研究生签名:圹乡儇时间:矽f¥年/6月≥f7日关于论文使用授权的说明本人完全了解中国科学技术信息研究所有关保留、使用学位论文的规定,即:所里有权保留送交论文的打印稿和电子稿,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意中国科学技术信息研究所用不同方式在不同媒体上发表、公布论文的全部或部分内容。保密的论文在解密后遵守此规定。研究生

3、签名:y罾猜时间:矽c丫年1。月巧日导师签名:时间:叫髟年、c。月哆日万方数据致谢衷心的感谢我的导师吴广印研究员,在这两年半的学习和工作生活中,吴老师给予我耐心的指导和悉心的关心。吴老师渊博的学术造诣、严谨的治学态度及高尚的个人修养使我受益良多。本文从论文选题、研究、设计、实现直至最终定稿,每一步都得到了导师大量的帮助。在整个过程中,吴老师对我严格要求、耐心指导,所有的这些都让我受益匪浅,在此毕业之际,谨向尊敬的导师吴广印老师致以最诚挚的谢意。特别感谢温有奎教授,在论文写作过程中跟我多次沟通,教给我许多思考问题

4、的方法和新的思路。他搞研究的态度和所取得的成就为我树立了很好的榜样。感谢研究生部的所有老师,这两年半以来,正是由于他们辛勤的工作才给我们提供了良好的学习环境和研究氛围。感谢许晓阳同学,在论文写作过程中给我提过的宝贵意见,以及在代码编写上给予我大量的支持,让我节省了大量宝贵的时间,同时感谢宋群师兄、宋佳、石家惠和李建美同学,谢谢他们在学业和生活上给予我的帮助和鼓励。感谢我的父母和亲人,在我求学的过程中默默的鼓励着我、支持着我,让我跨越一切艰难险阻,不断迎接新的挑战。感谢所有帮助过我的人。最后,感谢各位专家在百忙中

5、抽时间审阅我的论文。万方数据基于内容的知识抽取与知识重组研究与实现摘要信息技术的快速发展的结果是信息呈爆炸式的增长,信息泛滥与知识相对匮乏的矛盾日益突出,如何从多篇文本中抽取出用户感兴趣的知识,是知识抽取的研究目标,也是现在出版业所面临的商机,快速准确的满足用户需求,不仅可以让数字出版企业走向知识服务,同时也能帮助传统出版商更加平稳的向数字出版转变。文中首先给出了知识抽取和重组研究的背景和国内外研究现状,明确抽取的对象是非结构化的科技文献,抽取的目标是需要在非结构化的文本中抽取知识,这一过程会涉及到大量自然语言

6、处理的相关方法。然后总结了研究中所运用到的相关知识和关键技术,包括自然语言处理、中文分词、关键词抽取和全文检索等,作为本文的理论基础。在此基础之上,文章结合课题中提出的科技出版的XML标准技术,设计了一种基于XML的知识抽取与知识重组模型,主要包括四大模块,文本解析模块,预处理模块,关键词抽取模块和知识抽取与重组模块。文本解析模块主要完成XML文档的解析,读取出文本;预处理模块主要完成中文分词、词性标注等工作;关键词抽取模块是完成文本关键词的抽取,作为用户检索时的推荐词;最后是知识抽取与知识重组模块,该部分主要

7、完成基于Lucene和XML技术的知识检索、抽取和重组,抽取结果是以段落为单位的进行组织的,最后,对抽取结果按照课题中的科技文献出版标准规范标签化,重新组合成为一个简洁的、只包含知识片段的新的XML文档。本文旨在从数字出版的角度出发,提出一种基于内容的知识抽取与知识重组的方法模型,并设计了原型系统。将复杂的文本删繁就简,不仅可以帮助读者节省大量的阅读成本,同时使得出版业对外提供知识服务成为可能。全文共图16幅图,表7个,参考文献60篇,其中英文参考文献19篇。关键词:知识抽取;知识重组;XML;数字出版;知识检

8、索分类号:TP311,N99II万方数据ResearchandImplementationofKnowledgeExtractionandKnowledgeRestructuringBasedonContentAbstractAstheInternetcontinuestodevelop,thegrowsrapidly.Thecontradictionsbetweenamountofi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。