网络信息采集及智能处理技术研究

网络信息采集及智能处理技术研究

ID:36796200

大小:1.93 MB

页数:58页

时间:2019-05-15

网络信息采集及智能处理技术研究_第1页
网络信息采集及智能处理技术研究_第2页
网络信息采集及智能处理技术研究_第3页
网络信息采集及智能处理技术研究_第4页
网络信息采集及智能处理技术研究_第5页
资源描述:

《网络信息采集及智能处理技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要无论是科研还是学习人们都需要通过网络去寻找最新的专业信息和新闻动态,但信息的爆炸式增长,也让人们越来越难以从信息海洋中快速获取所需信息。一方面是因为网络信息量与日俱增,且更新速度非常快,需要投入大量的时间进行信息的搜索;另一方面,网络上的信息存在大量重复的现象,且格式非常不规范,更加大了用户搜寻信息的难度。因此,对网络信息进行快速采集和智能处理的技术应运而生。用户可以通过搜索引擎检索出大量信息,却不能对信息进行提取、组织和处理,随着信息化的进步,人们对获取信息的要求越来越高,信息搜索也从“通用"进入“个性和智能"。目前市面上已经出现了很多

2、信息采集的工具,这些工具可以在一定程度上满足用户获取信息的需求,但是对信息的处理却不尽人意。由于文本信息占据网络中信息的大部分,因此如何自动地分类网络中的文本信息成为信息处理的重中之重。本论文在分析现有信息采集和信息处理技术的基础上,首先对网页抓取工具网络爬虫进行介绍,分析其采集网页信息的原理及网页去重和信息抽取的方法;然后对智能信息处理中的文本分类这一关键技术进行了深入研究,改进了现有的特征选择方法和分类算法,并采用改进的KNN算法构造了一个文本自动分类器,将搜狗语料库作分类模型的训练语料库,通过实验训练出适应于该语料库的最佳K值和特征维数,同

3、时验证了改进的KNN算法的分类效果。本论文的创新之处是:(1)对文本信息处理中的特征选择方法进行了改进,提出了同义词合并的思想,引入{:同义词词林》,在特征选择之前先对特征项中的同义词进行替换、统计,有效降低了特征空间的维数。(2)提出了一种改进的KNN算法,通过引入类中心向量对相似度计算公式进行了改进,将待分类的测试文本与类别的距离作为参数加入到l心N算法的相似度计算公式中,把两个文本中都出现的特征项数量与各自出现的特征项数量的最大值的比值作为相似度公式的调节因子。广东工业大学硕士学位论文(3)结合改进的KNN算法,构造一个文本自动分类器,在分

4、类阶段优先考虑待分类的测试文本与各类别之间的联系,当待分类文本与类别之间的关系不明确时,再将其与所有训练文本比较,根据比较的结果判定待分类文本所属的类别。关键词:网络信息采集:KNN算法:特征选择:相似度计算:向量空间模型;文本分类ⅡAbstractABSTRACTWhetherthescientificresearchorstudyweallneedtofindthelatestprofessionalinformationandnewsandtrendsthroughtheInternet,buttheexplosionofinformati

5、onalsomakepeoplegetinformationmoreandmoredifficultintheoceanofinformation.Ontheonehand,theinformationontheInternetincreaseseverydayandupdatesquickly,thisrequiresalotoftimeforinformationsearch;Ontheotherlland,therearelargerepeatinformationontheInternet,andtheformatofinformatio

6、nisnotstandard,thatincreasethedifficultyofsearchinginformationforusers.Sothetechnologyfornetworkinformationcollectionandintelligentprocessingarisesatthehistoricmoment.Userscailsearchalargenumberofinformationthroughsearchengine,butwithoutinformationextraction,organizationandpr

7、ocessing.Alongwiththeprogressofinformation,informationsearchhasimprovedfrom”general¨into’’personalityandintelligence¨astheusersdemandmoreandmoreonacquisitionofinformation.OnthemarketatpresenttherehavebeenalotofinformationcollectiontoolsthatCansatisfytheneedsofinformationacqui

8、sitionforuserstocertainextent,butforinformationprocessingispoor.Duet

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。