web文本信息抽取和分类的的研究论文

web文本信息抽取和分类的的研究论文

ID:31975662

大小:2.73 MB

页数:104页

时间:2019-01-29

web文本信息抽取和分类的的研究论文_第1页
web文本信息抽取和分类的的研究论文_第2页
web文本信息抽取和分类的的研究论文_第3页
web文本信息抽取和分类的的研究论文_第4页
web文本信息抽取和分类的的研究论文_第5页
资源描述:

《web文本信息抽取和分类的的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要伴随着Intemet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。本文首先介绍了文本自动分类的主要方法,

2、分析了WEB文档的特点,提出了WEB文本自动分类所要研究的两个技术层面:信息抽取和文本分类,研究了基于视觉的WEB文本抽取和基于支持向量机的多层次文本分类方法,并进行了WEB文本自动分类工具的总体设计,它主要包括网页采集、信息抽取、文本预处理和文本分类等功能模块,在以上研究的基础上最后提出了分类搜索引擎的设计。最后通过本文所设计的WEB文本自动采集和分类系统结合SQLServer2005TextMining对本文所提出的理论方法进行了实验,实验表明信息抽取比较准确、分类方法有较高的准确度和运行效率。关键词:网路蜘蛛信息抽取文本分类支持向量机分类搜索引擎ABS

3、TRACTAlongwiththerapiddevelopmentofIntemet,thereareabundant,isomeric,Semi—structuredanddynamicinformationresourcesonWeb.AmongtheseWebinformation,above80percentexistintheformofWebtext.HowtoseekandgainthevaluableinformationandknowledgemodelfromthesevastWebinformationresources,havealr

4、eadybecomethequestionurgentlyawaitedtobesolvedintheinformationprocessingdomain.ThequeStionsmentionedabovecarlberesolvedeffectivelybyWebtextclassification,whichoriginsfromATC(AutomaticTextClassification),andisthekeyconstituentofWebtextmining.Itcanclassifysearchresults,whichnotonlyen

5、hancestheefficiencyofsearchforWebusers,butalsoimprovestheabilityoflocalizationtogoalknowledge,andextractsthevaluableknowledge.Thisarticlefirstintroducedthetextclassificationmainmethod,hasanalyzedtheWEBdocumentscharacteristic,proposedtheWEBtextclassificationneedstostudytwotechnicals

6、tratificationplanes:Theinformationextractsandthetextclassification,studiedthemethodsofIEbasedonthevisionandmulti·leveltextclassificationbasedonSVM.WedesignedtheChinesewebtextcategorizationsoftwarewithwebspidermodel,Chinesewordsputtermodel,featureselectionmodelandmachinelearningmode

7、lincluded.AtlastwedrawanexperiencetotesttheaccuracyofthesemethodsusingtheClassificationSystemandSqlServer2005TextMining.Astheexperimentresultshow,thissoftwarehashighaccuracy.KeyWords:Spider;InformationExtraction;TextClassification;SVM;Classificationsearchengines创新点声明(硕士)本人声明所呈交的学位论

8、文是我个人在导师指导下进行的研究工作及取得的研究成果

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。