网页内容提取技术的研究与实现

ID：46260154

大小：544.69 KB

页数：32页

时间：2019-11-22

资源描述：

《网页内容提取技术的研究与实现》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、本科毕业论文（设计）论文题目：网页内容提取技术的研究与实现学生姓名：学号：专业：班级：指导教师：完成日期：2013年5月20日网页内容提取技术的研究与实现摘要随着互联网的普及和应用，其蕴含的信息和内容也越来越多，包括结构化的、半结构化的和非结构化的信息。因此，为了能应对信息爆炸带來的问题和挑战，对各式各样的文本信息进行抽収，迫切需要一•些技术帮助人们在海量信息中快速找到自己真正需要的信息。网页文木抽取实现技术正是解决这个问题的一种方法。本文以传统的信息抽取理论和方法为基础，实现了--种基于XML特征的网页文本抽取方法。本文中，研究了一般网页的

2、特征，实现了一种基于XML标签特征的网页提取方法，先对网贞进行HTML页面标准化，再转成XML语言，并且根据XML语言的特点，对其内部语言进行转化，从GB转为UTF,并对其进行标准化，然后通过熟悉XML标签的各种特性，对网页文木根据标签进行抽取。最后，对该抽取方法进行测试和评估，并总结出该方法的优点以及可以改进的地方。关键词：信息抽取文本信息抽取网页内容提取DesignandImpIementationofTextInformationExtractionfromWebPagesAbstractAsInternetbecomingmorean

3、dmorepopularinourdailylife,ithasplayedanimportantroleinprovidinguswithallkindsofinformation,whichincludesstructuralinformation,semi-structuralandnon-structuralones・Inordertodealwiththeproblemsandchallengesoftheinformationexplosion,somenewmethodstoextractinformationareurgent

4、lyneededtohelppeoplegettheexactdatatheywantfromamassofinformation.Andhereisawaytodoso.BasedonthetraditionaltheoryandalgorithmofInformationExtraction,thispaperputsforwardanarithmeticimplementingtheextractionfunctionforthetextofawebpagewiththeuseofXMLfeaturesandmachinelearnin

5、g.ThisarithmeticanalysesthecommonfeaturesofawebpageandpostsanewwaytoextracttextinformationbasedonthespecificfeaturesofXMLtags,whichactuallystandardizestheHTMLpagefirst,andthenconvertsitintoXMLpagewiththechangingfromGBtoUTEandstandardizesittoo.Afterthat,itcanextractthetextda

6、taoutofthewebpagebythedifferentuseoftheXMLtags・Lastbutnotleast,thepapershowstheresultsoftestingofthearithmeticanditsevaluation,withaconclusionofitsadvantagesandwhatneedstobeimproved・KeyWords：InternetTextInformationExtractWebcontentextraction一、绪论（一）研究的背景与意义1（二）研究现状2（三）论文结构3二

7、、搜索引擎和信息抽取基本介绍4（一）搜索引擎的历史4（二）搜索引擎的发展方向4（三）搜索引擎的最新技术发展（四）信息抽取的基木概念三、Web网页内容提取的概述6（―）HTML语言简介71.HTML语言的特性72.HTML语法简介7（-）基于DOM树的网页分块8（三）Web网页内容提取的设计8（四）Web网页内容提取理论、方法及流程91・IE系统设计方法92.文本类型U9网页内容提取系统详细设计（一）网页文本信息抽取设计方案・・・・・（二）网页文本信息抽取过程的具体实现1.标准化2•转化3.提取（三）网页文本内容提取的意义和思考・・五、系统实验

8、（一）实验方法与结果（二）信息抽取的实现1.以网页文字为主的信息抽取2.以关键字为主的文字抽取总结参考文献10141415151517191920202023262

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 32



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

网页内容提取技术的研究与实现

网页内容提取技术的研究与实现

相关文章

相关标签