基于hadoop的文本信息抽取系统开发及应用研究

基于hadoop的文本信息抽取系统开发及应用研究

ID:32725637

大小:5.70 MB

页数:45页

时间:2019-02-15

基于hadoop的文本信息抽取系统开发及应用研究_第1页
基于hadoop的文本信息抽取系统开发及应用研究_第2页
基于hadoop的文本信息抽取系统开发及应用研究_第3页
基于hadoop的文本信息抽取系统开发及应用研究_第4页
基于hadoop的文本信息抽取系统开发及应用研究_第5页
资源描述:

《基于hadoop的文本信息抽取系统开发及应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据目录第三章信息抽取模块的设计与实现⋯⋯⋯⋯⋯⋯⋯.⋯15第一节模块内部结构关系⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯..15第二节模块细化设计与实现⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯.⋯163.2.1模版生成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯163.2.2文档上传、下载组件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..173.2.3信息识别与抽取组件⋯⋯⋯....⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.183.2.4业务流程与页面跳转⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯.19第三节数据库分析设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一..⋯⋯⋯21第四节遇到的问题和解

2、决方案⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.23第五节本章总结⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...24第四章信息存储平台的设计与实现⋯⋯⋯⋯⋯⋯⋯⋯25第一节Hadoop的优势分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..25第二节Hadoop的工作原理与架构分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.264.2.1Hadoop平台的基本原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..264.2.2HDFS体系结构分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯274.2.3MapReduce计算架构的原理分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.29第三节Hadoop集群的搭建⋯

3、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..304.3.1系统数据库后台架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..304.3.2硬件配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.3.3集群组成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.3.4Hadoop的安装⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯324.3.5系统相关的API⋯⋯⋯⋯...⋯.⋯⋯⋯⋯⋯⋯⋯.⋯⋯....32第四节本章总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.33第五章系统应用与性能分析⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯34第一节系统功能⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯.

4、345.1.1管理员部分的功能演示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯..⋯⋯345.1.2普通用户部分的功能演示⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯.⋯⋯⋯..39V万方数据目录第二节系统运行监控⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯405.2.I监控软件概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯.⋯⋯⋯405.2.2监控软件的安装和配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯..405.2.2监控结果⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯.⋯⋯⋯⋯⋯⋯⋯⋯.40第三节系统性能分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯..415.3.i测试文档数据的批量生成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

5、⋯⋯.415.3.2文档上传性能分析⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯.⋯.425.3.3对提高系统性能的探究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯..42第四节本章总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..43第六章总结和展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..44第一节研究工作总结⋯⋯⋯⋯⋯⋯⋯.j⋯⋯⋯⋯⋯⋯⋯..44第二节系统问题及展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..44参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..47致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯49个人简历⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..50万方数据第一章绪论第

6、一节研究背景随着信息化产业的不断发展和进步,结合我国人口数量多这一国情,如何处理庞大而又繁复的企业级数据成为当前亟待解决的问题,根据此问题所提出的信息抽取、大数据、分布式存储已成为当下信息前沿的热点问题。本节对研究背景的概念、原理等做出综述。1.1.1信息抽取概述互联网的应用普及使得许多企业已经摒弃了过去旧式的纸面文档,转而使用电子文档作为信息采集整理的工具。在某些行业,用于信息采集的电子文档数据量十分巨大,要能够整理并从中迅速找到所需要的信息,是新时代下办公自动化数据交互的迫切需求。而信息抽取正是在这种需求下

7、应运而生。信息抽取(InformationExtraction)简称为“IE”,是一门近二十年来发展壮大的数据挖掘技术¨1。它最早出现于情报学,美国国防部运用信息抽取技术获取其他国家的情报。八十年代以来,信息抽取技术得到了蓬勃发展,这要归功于MUC(MessageUnderstandingConference)这一会议的产生。它的举办就是为各个科研机构提供信息抽取技术的检测评比平台,每一届会议都吸引了不同学术机构和业界实验室的研究者参加信息抽取系统比赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后

8、用该系统处理相同的文档库,最后用一个官方的评分系统对结果进行打分心1。评分标准则是依据两个重要的指标:召回率和精确率口3。召回率=系统正确抽取的结果/所有可能的正确结果。而精确率=系统正确抽取的结果/所有抽取结果。与其说MUC是一个会议,它则更像是一个比赛。2000年以后,信息抽取逐渐应用于商业领域。利用信息抽取技术获取竞争对手资料的例子比比皆是。最近五年,信息抽取技术广泛应用于各大公

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。