网页内容提取技术的研究与实现

网页内容提取技术的研究与实现

ID:46260154

大小:544.69 KB

页数:32页

时间:2019-11-22

网页内容提取技术的研究与实现_第1页
网页内容提取技术的研究与实现_第2页
网页内容提取技术的研究与实现_第3页
网页内容提取技术的研究与实现_第4页
网页内容提取技术的研究与实现_第5页
资源描述:

《网页内容提取技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、本科毕业论文(设计)论文题目:网页内容提取技术的研究与实现学生姓名:学号:专业:班级:指导教师:完成日期:2013年5月20日网页内容提取技术的研究与实现摘要随着互联网的普及和应用,其蕴含的信息和内容也越来越多,包括结构化的、半结构化的和非结构化的信息。因此,为了能应对信息爆炸带來的问题和挑战,对各式各样的文本信息进行抽収,迫切需要一•些技术帮助人们在海量信息中快速找到自己真正需要的信息。网页文木抽取实现技术正是解决这个问题的一种方法。本文以传统的信息抽取理论和方法为基础,实现了--种基于XML特征的网页文本抽取方法。本文中,研究了一般网页的

2、特征,实现了一种基于XML标签特征的网页提取方法,先对网贞进行HTML页面标准化,再转成XML语言,并且根据XML语言的特点,对其内部语言进行转化,从GB转为UTF,并对其进行标准化,然后通过熟悉XML标签的各种特性,对网页文木根据标签进行抽取。最后,对该抽取方法进行测试和评估,并总结出该方法的优点以及可以改进的地方。关键词:信息抽取文本信息抽取网页内容提取DesignandImpIementationofTextInformationExtractionfromWebPagesAbstractAsInternetbecomingmorean

3、dmorepopularinourdailylife,ithasplayedanimportantroleinprovidinguswithallkindsofinformation,whichincludesstructuralinformation,semi-structuralandnon-structuralones・Inordertodealwiththeproblemsandchallengesoftheinformationexplosion,somenewmethodstoextractinformationareurgent

4、lyneededtohelppeoplegettheexactdatatheywantfromamassofinformation.Andhereisawaytodoso.BasedonthetraditionaltheoryandalgorithmofInformationExtraction,thispaperputsforwardanarithmeticimplementingtheextractionfunctionforthetextofawebpagewiththeuseofXMLfeaturesandmachinelearnin

5、g.ThisarithmeticanalysesthecommonfeaturesofawebpageandpostsanewwaytoextracttextinformationbasedonthespecificfeaturesofXMLtags,whichactuallystandardizestheHTMLpagefirst,andthenconvertsitintoXMLpagewiththechangingfromGBtoUTEandstandardizesittoo.Afterthat,itcanextractthetextda

6、taoutofthewebpagebythedifferentuseoftheXMLtags・Lastbutnotleast,thepapershowstheresultsoftestingofthearithmeticanditsevaluation,withaconclusionofitsadvantagesandwhatneedstobeimproved・KeyWords:InternetTextInformationExtractWebcontentextraction一、绪论(一)研究的背景与意义1(二)研究现状2(三)论文结构3二

7、、搜索引擎和信息抽取基本介绍4(一)搜索引擎的历史4(二)搜索引擎的发展方向4(三)搜索引擎的最新技术发展(四)信息抽取的基木概念三、Web网页内容提取的概述6(―)HTML语言简介71.HTML语言的特性72.HTML语法简介7(-)基于DOM树的网页分块8(三)Web网页内容提取的设计8(四)Web网页内容提取理论、方法及流程91・IE系统设计方法92.文本类型U9网页内容提取系统详细设计(一)网页文本信息抽取设计方案・・・・・(二)网页文本信息抽取过程的具体实现1.标准化2•转化3.提取(三)网页文本内容提取的意义和思考・・五、系统实验

8、(一)实验方法与结果(二)信息抽取的实现1.以网页文字为主的信息抽取2.以关键字为主的文字抽取总结参考文献10141415151517191920202023262

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。