网页正文提取系统的详细设计与实现毕业设计论文

网页正文提取系统的详细设计与实现毕业设计论文

ID:270410

大小:108.50 KB

页数:27页

时间:2017-07-16

网页正文提取系统的详细设计与实现毕业设计论文_第1页
网页正文提取系统的详细设计与实现毕业设计论文_第2页
网页正文提取系统的详细设计与实现毕业设计论文_第3页
网页正文提取系统的详细设计与实现毕业设计论文_第4页
网页正文提取系统的详细设计与实现毕业设计论文_第5页
资源描述:

《网页正文提取系统的详细设计与实现毕业设计论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、目录摘要-3-1.绪论-4-1.1课题背景-4-1.1.1搜索引擎的历史-4-1.1.2搜索引擎的发展方向-5-1.1.3搜索引擎的最新技术发展-6-1.2课题来源、目的和意义-8-1.3主要研究内容-9-2.网页正文提取系统的详细设计与实现-10-2.1基本原理-10-2.2网页预处理系统-11-2.2.1HTML标签规范化-11-2.2.1建立网页的DOM树结构-14--27-2.3核心算法基本思想-15-2.4本章小结-19-结论-22-参考文献-23--27-毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺

2、:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作者签名:     日 期:     指导教师签名:     日  期:     使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本

3、和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。-27-作者签名:     日 期:     -27-学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识

4、到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。-27-作者签名:日期:年月日导师签名:日期:年月日-27-摘要随着互联网信息技术的不断发展,互联网的信息量也日益膨胀。近年来,全球因特网上的信息数据正以爆炸式的速度

5、在增长。据IDC报告称,从现在到2010年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB(1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库,如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。这时,搜索引擎的出现无疑给人们带来了极大的方便。然而,随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大,人们发现,即使是借助搜索引擎的帮助,他们也越来越难以有效和准确的找到自己所需要的信息资源。本文在研

6、究了现有的搜索引擎的解决方案后,通过采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。关键词 中文信息处理;垂直搜索;信息抽取;正文提取-27-1.绪论本章主要从介绍垂直搜索引擎的与海量搜索的区别,国内外该方向的研究情况,课题来源意义以及论文所要研究的主要内容来描述课题内容。1.1课题

7、背景1.1.1搜索引擎的历史最早现代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,DavidFilo和美籍华人杨致远(GerryYang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页

8、已达30亿之巨!随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。像-27-国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。