试析web中文信息获取的算法研究

试析web中文信息获取的算法研究

ID:34810903

大小:3.27 MB

页数:73页

时间:2019-03-11

试析web中文信息获取的算法研究_第1页
试析web中文信息获取的算法研究_第2页
试析web中文信息获取的算法研究_第3页
试析web中文信息获取的算法研究_第4页
试析web中文信息获取的算法研究_第5页
资源描述:

《试析web中文信息获取的算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南大学硕士学位论文Web中文信息获取的算法研究姓名:赵晶璐申请学位级别:硕士专业:农业机械化工程指导教师:何国斌20090401摘要曼皇曼曼曼曼曼曼曼曼曼!皇鼍曼量曼曼曼曼曼鼍曼曼曼IIi一__._.I皇曼曼曼!曼曼皇曼皇曼皇置量曼曼曼曼曼曼鼍Web中文信息获取的算法研究农业机械化工程专业硕士学位申请人赵晶璐指导教师何国斌副教授摘要随着Interact技术的高速发展,WWW技术已逐渐成为Intemet上最重要的信息发布和传输方式,Web已经成为人们获取信息的一个重要信息来源。面对Web上海量的信息资源,用户如何快速、有效地获取自己感兴趣的主题信息,已成为一个

2、十分迫切的热点课题。Web信息获取主要包括信息检索和信息抽取。它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域,其关键技术,包括搜索引擎技术、信息抽取技术和自动分类技术等。本论文的主要工作是对Web中文信息获取的相关算法进行研究,旨在解决Web信息获取存在的一些问题,以提高信息获取的性能。本文首先介绍了信息抽取问题的提出,对Web信息检索系统、Web信息抽取技术、搜索引擎进行了简要综述。中文自动分词技术是中文信息的基础,有着极其广泛的实际应用。本文第二部分针对中文自动分词技术,分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词

3、算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配,实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。页面排序算法是搜索引擎的核心技术。本文第三部分分析了Web页面主题分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关度排序算法,能够客观分析网页所包含的主题信息,尽量保证检索结果的相关性。实验表明,该算法能有效提高查准率,较好地解决了主题漂移现象,且具有良好的性能。最后,对信息抽取相关技术进行分析研究,并结合XML技术,提出了一种基于XML

4、技术的Web信息获取的框架结构及相关算法。关键词:Web页面;网页排序;自动分词;信息获取;搜索引擎Abstract暑鼍inn——.u_m!,u,量皇蔓量曼曼曼皇鼍曼皇曼皇皇曼鼍量!蔓曼曼曼皇WiththefastdevelopmentofInteract.W6rldWideWebhasbecomethemostimportantInteractinformationdisseminationandtransmission.Webhasbecomeoneofthemostimportantsourcesofinformation.Facedwiththehug

5、einformationresourcesonW曲.howtOquicklyandefficientlyaccesstopicinformationhasbecomeanextremelyurgentandhottopic.WebaCCeSStoinformationincludesinformationretrievalandinformationextraction.Itinvolvescomputernetworks,datamining,textprocessing,artificialintelligenceandotherfields.n忙keyt

6、echnolcIgiesincludesearchenginetechnology,informationextractiontechnologyandautomationsortingtechnologyandSOon.Inthispaper,themainworkistostudytherelatedalgorithmontheWebChineseinformationacquisition,tosolvesomeexistingproblemsinWebinformationacquisition,andto既lhancetheperformanceof

7、informationacquisition.啊:liSpaperfirstm仃oducedtheproblemofinformationextraction.andoverviewed也eretrievalsystems,Webinformationextractiontechnology,SearchEngine.ChinesewordsegmentationisthebasisofChineseinformationtechnology.Ithasaverywiderangeofpracticalapplications.11地secondpartoft

8、hispaperanalyzedChi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。