欢迎来到天天文库
浏览记录
ID:35059222
大小:5.54 MB
页数:66页
时间:2019-03-17
《基于wsft模型的深层网文本获取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代号10532学号S1324W1070-分类号TP311密级公开碱或A拿HUNANUNIVERSITY工程硕±学位论文基于WSFT模型的深层网文本获取方法学位串请人姓名李虹宣lT程学院培养单位信息科学a导师姓名及职称杨巧中教巧杨志新硏究员学科专业软件工程研究方向数据巧掘论文提交日期2016年5月13口学校代号:10532学号:S1324W1070密级:公开湖南大学工程硕±学位论文基于WSFT模型的深层网
2、文本获取方法学位串请人姓名:李虹宣导师姓名及职疏:杨赏中教授杨志新研究员培养m位:信息科学与工程学院专业名赖;软件工程论女捏交日期:2016年5月13日论文答銳日期:2016年5月31日答雜委员会主巧:杨舍民教授AnApproachBasedonWSFTModelforCrawlingDeeWebpbyLIHo打gxua打B.E.XiantanUniversky2013(g)Athesissubmittedin
3、artialsatisfactio打ofthep民equirementsforthedegreeofMas化rofEngineeringinSoftware巨ni打eeri打ggin比eGraduateSchoolofHu打泣nU打iversitySuervisorpProfessorYANGGuanzhong民esearcherYANGZhixinMay,2016湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人
4、在导师的指导下独立进行研究所取得的研究成果。除了文中特别加标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研巧做出重要贡。献的个人和集体,均已在文中W明确方式标明本人完全意识到本声明的法律后果由本人承担。;作者签名:曰期年^月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可W将本学位论文的全部或部分内容编入有关数
5、据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密□,在年解密后适用本授权书。2、不保密""(请在上相应方框内打V)作者签名:日期:方/;年r月日i■导师签名:日期;年5月3日/了^I基于WSFT模型的深层网文本获取方法摘要随着Web2.0的兴起,目前互联网应用延伸出了两种存在方式:表层网和深层网。前者是指传统搜索引擎可W检索到的Web页面,是由超链接连通的静态页面组成的一;后者是指存在互联网中但无法通过超链接到达
6、的些资源的集合。一目前,深层网里包含的可访问信息容量远远高于般表层网,可见研究深层网的内容获取方法对提高搜索引擎的覆盖率有着非常重要的的意义。在深层网应用所使用的技术中,Ajax技术由于为Web应用提供了更流畅的交互而成为了其中的重要组成部分一。使用了Ajax技术的页面与般表层网页面的区别在于其是多种""状态的一且文档结构之间存在强关联混合体,即个页面对应多个文档结构,关系。Ajax页面的多状态W及状态之间强关联的特性可能会有助于Web页面数(ax据处理如重要内容挖掘),而当前研究还没
7、有针对Aj页面的这种特性来进行数据预处理的方法。考虑到文本作为信息的主要载体,且大部分Web挖掘方法是针对文本来进行分析的,页面文档的内容信息与结构信息对Web挖掘工作都是非常重要的。一一由此提出种基于WSFT(带权状态融合树)模型的深层网文本获取方法:在Aax一页面多个状态的转换中,。个j个文本块出现频率越高,可能越重要本文主要针对Aax页面的文本信息进行分析处理,且很好的保留Web页面的内容信j息和结构信息。一首先一,构建个特定的数据结构文本特征树。这个数据结构即能有效地保
8、留原Web页面的文档内容信息和结构特征,同时也能作为状态转换的信息指纹,有效地判断状态改变。从而优化了深层网中Ajax页面信息采集方法。然后,将文本特征树引入到Aax页面的采集过程。具体实现中,通过事件j一一一代理技术,主动触发个Web页面的各种状态,并将每个页面树转换为个一文本持征树,从而获取到个页面的文本特征树集合W及相互转换条件来构造出
此文档下载收益归作者所有