毕业论文-中文网页自动采集与分类系统设计与实现

毕业论文-中文网页自动采集与分类系统设计与实现

ID:36805959

大小:2.81 MB

页数:69页

时间:2019-05-15

毕业论文-中文网页自动采集与分类系统设计与实现_第1页
毕业论文-中文网页自动采集与分类系统设计与实现_第2页
毕业论文-中文网页自动采集与分类系统设计与实现_第3页
毕业论文-中文网页自动采集与分类系统设计与实现_第4页
毕业论文-中文网页自动采集与分类系统设计与实现_第5页
资源描述:

《毕业论文-中文网页自动采集与分类系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:保密期限:一锨譬工程硕士研究生学位论文等垒号:Q鱼B量兰墨2姓名:王迭这专业:筮鲑王程导师:程堡主学院:筮鲑堂院2010年6月中文网页自动采集与分类系统设计与实现摘要随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于web的网络信息的采集与分类便成为人们研究的热点。传统的web信息采集的目标就是尽可能多

2、地采集信息页面,甚至是整个web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,其中有相当大的一部分利用率很低,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。同时如何有效地对采集到的网页实现自动分类,以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段,它可以在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Internet上各种信息的迅猛增加,仅靠人工的方式来处理是不切实

3、际的。因此,网页自动分类是一项具有较大实用价值的方法,也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究目的和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后,本文选取了主题爬虫的方法和分类方面表现出色的KNN方法,同时结合去重、分词和特征提取等相关技术的配合,并对中文网页的结构和特点进行了分析后,提出中文网页采集和分类的设计与实现方法,最后通过程序设计语言来实现,在本文最后对系统进行了测试。测

4、试结果达到了系统设计的要求,应用效果显著。关键词:Web信息采集网页分类信息抽取分词特征提取DESIGNANDIMPLEⅣ匝N1:ATIONOFCHINESEwEBPAGEAUT0~IATICCOLLECTIONANDCLASSIFICATIONABSTRACTWiththerapiddevelopmentofscienceandtechnology,wehaveenteredthedigitalinformationage.Intemet,whichiSseenastheworld’Slargestinformationdatabase.becomesthemaint0

5、01ofobtaininginformation.ItiSamajorproblemtobesolvedurgentlyhowtoquicklyandaccuratelyfromthemassofinformationresourcestofindtheinformationthatusersneedbecausethenetworkofinformationresourceshasamassive,dynamic,heterogeneous,semi—structuredcharacteristics,andthelackofaunifiedorganizationan

6、dmanagementpresents.J朊6information-basedcollectionandclassificationbecomestheresearchhotspot.ThegoaloftraditionalW曲informationcollectionistogatherinformationasmuchaspossible,oreventhewholeresourcesonthe∥如功eorderandtopicpagesarenotcaredaboutintheprocessofcollecting.thepagecontentsiStooclut

7、tered,andalargepartofthemissparinglyusedSOthatsystemresourcesandnetworkresourcesarewasted.TIliSrequireseffectivecollectionmethodusedtoreducethecollectedpageclutterandduplication.Thewebpagesareautomaticalyclassificatedtocreateeffectiveande伍cientsearchengine.Organizat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。