欢迎来到天天文库
浏览记录
ID:37371101
大小:3.00 MB
页数:63页
时间:2019-05-22
《基于非结构化文档数据的抽取与分析系统的信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、天津大学硕士学位论文基于非结构化文档数据的抽取与分析系统的信息抽取姓名:霍焰申请学位级别:硕士专业:软件工程指导教师:刘江;王键2011-11摘要网络和IT技术的发展使数以万计的数据与信息充斥着我们的生活。同时,随着中国办公自动化(OA)进程不断推进,计算机已成为日常工作中不可或缺的工具,产生的数据与信息多到我们无法估计的程度。虽然数据库存储技术可以提供规范化、结构化的管理方式,但我们日常产生的数据能否全部规范为数据库格式,从那些海量的数据中能否挖掘并分析出需要的信息,或从看似杂乱无章的数据中找出能够为我们所用的规律。对于这些问题,显然传统的数据
2、库导入技术与查询方式已无法满足需要,对于文档等非结构化数据进行采集、分析就成为目前研究的热点问题。本文从实际出发,针对目前计算机软件产生的各类文档数据进行采集、存储、处理、挖掘、分析,结合某政法机关实际工作需要,根据其业务应用,制定开发方案,有针对性地对技术难点进行了攻坚,在通过WindowsAPI解决各类不同形式与类别文档的采集兼容性问题,将Windows操作系统下各类非结构化文档以非二进制数据形式存入数据库的基础上,将利用中文分词技术,根据1998年1月《人民日报》语料库对非结构化文档内容进行词性拆分,从中抽取出姓名、电话号码、汽车牌照、地址
3、、身份证号、银行卡号、E.mail地址、URL网址等有用和关心的实体信息,全面实现数据结构化,以便根据业务需求与模型对结构化数据进行分析,并以图形的方式展示分析结果。关键词:分词,信息抽取,实体抽取,非结构化数据ABSTRACTWiththedevelopmentofcomputerscienceandITtechnology,ourlifeisfullofcountlessdigitaldataandinformation.Meanwhile,withthepromotionofofficeautomation(OA)processinChin
4、a,computerhasbecomeanindispensabletoolinourdailylife,thedataandinformationitgeneratedcametoadegreethatwecannotevenestimate.Althoughthedatabasestoragetechnologycanprovidestandardizedandstructuredmodelofmanagement,whetherallthedatageneratedinourdailylifecanbestandardizedtomeett
5、herequirementsofdatabaseformat,whetherwecanobtainimportantinformationfromvastamountofdatathroughexcavationandanalysis,orwhetherwecallfindthelawswhichareusefultotlSfromthoseseeminglychaoticdataremainaquestiontoUS.Tosolvetheproblem,traditionaldatabasestoringandinquiringmodesobv
6、iouslycannotmeetthepresentrequirement.Therefore,tocollectandanalyzeofunstructureddatasuchlikedocumentshasbecomeahotissueinpresentstudies.Thepaperfrompracticalpointofview,focusonallkindsofcommondocumentsdatacreatingfromcomputersoftwarebyextracting,collecting,processing,storing
7、intodatabase,miningandanalyzing,incombinationwiththeactualneedsintheworkofacertaingovernmentbody.Targetingthosecrucialtechnicaldifficulties,thepaperdevelopedaprogramaccordingtotheactualapplications.ByusingWindowsAPItosolveextractioncompatibilityproblem,thepapertriestocalibrat
8、eunstructureddocumentsintohalf-structureddatainWindowsoperatingsyste
此文档下载收益归作者所有