基于非结构化文档数据的抽取与分析系统的信息抽取

基于非结构化文档数据的抽取与分析系统的信息抽取

ID:37371101

大小:3.00 MB

页数:63页

时间:2019-05-22

基于非结构化文档数据的抽取与分析系统的信息抽取_第1页
基于非结构化文档数据的抽取与分析系统的信息抽取_第2页
基于非结构化文档数据的抽取与分析系统的信息抽取_第3页
基于非结构化文档数据的抽取与分析系统的信息抽取_第4页
基于非结构化文档数据的抽取与分析系统的信息抽取_第5页
资源描述:

《基于非结构化文档数据的抽取与分析系统的信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、天津大学硕士学位论文基于非结构化文档数据的抽取与分析系统的信息抽取姓名:霍焰申请学位级别:硕士专业:软件工程指导教师:刘江;王键2011-11摘要网络和IT技术的发展使数以万计的数据与信息充斥着我们的生活。同时,随着中国办公自动化(OA)进程不断推进,计算机已成为日常工作中不可或缺的工具,产生的数据与信息多到我们无法估计的程度。虽然数据库存储技术可以提供规范化、结构化的管理方式,但我们日常产生的数据能否全部规范为数据库格式,从那些海量的数据中能否挖掘并分析出需要的信息,或从看似杂乱无章的数据中找出能够为我们所用的规律。对于这些问题,显然传统的数据

2、库导入技术与查询方式已无法满足需要,对于文档等非结构化数据进行采集、分析就成为目前研究的热点问题。本文从实际出发,针对目前计算机软件产生的各类文档数据进行采集、存储、处理、挖掘、分析,结合某政法机关实际工作需要,根据其业务应用,制定开发方案,有针对性地对技术难点进行了攻坚,在通过WindowsAPI解决各类不同形式与类别文档的采集兼容性问题,将Windows操作系统下各类非结构化文档以非二进制数据形式存入数据库的基础上,将利用中文分词技术,根据1998年1月《人民日报》语料库对非结构化文档内容进行词性拆分,从中抽取出姓名、电话号码、汽车牌照、地址

3、、身份证号、银行卡号、E.mail地址、URL网址等有用和关心的实体信息,全面实现数据结构化,以便根据业务需求与模型对结构化数据进行分析,并以图形的方式展示分析结果。关键词:分词,信息抽取,实体抽取,非结构化数据ABSTRACTWiththedevelopmentofcomputerscienceandITtechnology,ourlifeisfullofcountlessdigitaldataandinformation.Meanwhile,withthepromotionofofficeautomation(OA)processinChin

4、a,computerhasbecomeanindispensabletoolinourdailylife,thedataandinformationitgeneratedcametoadegreethatwecannotevenestimate.Althoughthedatabasestoragetechnologycanprovidestandardizedandstructuredmodelofmanagement,whetherallthedatageneratedinourdailylifecanbestandardizedtomeett

5、herequirementsofdatabaseformat,whetherwecanobtainimportantinformationfromvastamountofdatathroughexcavationandanalysis,orwhetherwecallfindthelawswhichareusefultotlSfromthoseseeminglychaoticdataremainaquestiontoUS.Tosolvetheproblem,traditionaldatabasestoringandinquiringmodesobv

6、iouslycannotmeetthepresentrequirement.Therefore,tocollectandanalyzeofunstructureddatasuchlikedocumentshasbecomeahotissueinpresentstudies.Thepaperfrompracticalpointofview,focusonallkindsofcommondocumentsdatacreatingfromcomputersoftwarebyextracting,collecting,processing,storing

7、intodatabase,miningandanalyzing,incombinationwiththeactualneedsintheworkofacertaingovernmentbody.Targetingthosecrucialtechnicaldifficulties,thepaperdevelopedaprogramaccordingtotheactualapplications.ByusingWindowsAPItosolveextractioncompatibilityproblem,thepapertriestocalibrat

8、eunstructureddocumentsintohalf-structureddatainWindowsoperatingsyste

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。