基于网页列表的商品信息自动提取关键技术研究

基于网页列表的商品信息自动提取关键技术研究

ID:33234515

大小:8.81 MB

页数:70页

时间:2019-02-22

基于网页列表的商品信息自动提取关键技术研究_第1页
基于网页列表的商品信息自动提取关键技术研究_第2页
基于网页列表的商品信息自动提取关键技术研究_第3页
基于网页列表的商品信息自动提取关键技术研究_第4页
基于网页列表的商品信息自动提取关键技术研究_第5页
资源描述:

《基于网页列表的商品信息自动提取关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ADissertationSubmittedtoZhejiangUniversityfortheDegreeofMasterofEngineering⑧TITLE:K皇Y!皇堡h垒Q!Qg至皇§垦皇墨皇垒!QhQ旦堕金鱼ProductsAutomatiCExtractionbasedonWebListAuthor:Supervisor:£!Q兰皇墨墨Q!I工i垒坠里皇i¥i垒Sub{ect:ComputerApplicationTechnology—College:SubmittedDate:2013/1/22浙江大学研究生学位论文独创性声明J㈣烟本人声明

2、所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝江太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解逝江太堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝江太堂可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手

3、段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日浙江大学硕士学位论文摘要电子商务的普及使得利用电子商务进行购物的用户飞速增长,但随着网络上的商品信息越来越多,如何快速有效地从海量的商品信息中选择出用户需要的商品成为用户关心的重要问题。现有的互联网上商品信息大都是半结构化的数据,同时不同的网站数据的网站结构和提供给用户的检索接口都不一样,因而无法直接给用户提供的统一的查询接口,用户在不同网站检索相关的信息需要调用不同的网站的检索接口。为了能高速的检索出需要的信息,需要给用户提供一个统一的

4、检索接口。为了以统一的结构化数据提供给用户,需要将网络上的半结构化的数据转化为统一结构的结构化数据,然后将结构化的数据进行索引,提供统一的检索接口给用户。由于网页中商品信息大多是以列表的形式展示出来,列表信息所在的区域就商品信息所在的区域,列表作为信息载体具有结构一致性的特点,论文针对列表结构一致性提出了一个基于网页列表结构的全自动信息提取算法和基于机器学习的文本自动归类算。在信息抽取算法中,首先利用网站的同构性去除网页中与商品信息无关的部分,无关信息去除主要是通过将网页转化为标签树的结构,通过树比较算法,找出不同网页中相同的信息,剪去无关的信息;然后提出

5、一种频繁序列挖掘算法找出网页中结构相同的数据记录,挖掘出商品信息所在的区域,商品信息的抽取主要是基于PAT树,通过将网页的标签转化为二进制流挖掘出重复出现的信息区域,生成信息抽取模板,然后抽取出商品信息,最后提供一个可视化的工具给用户,让用户方便的标记自己感兴趣的商品信息,然后将信息提取出并安装统一的结构存储数据库中。为了更方便的查找相关信息,利用提取出来的商品的文本信息,有效的挖掘出其中的关联规则,通过将文本信息分成一个个的关键字,挖掘出关键字和类别之间的关联规则,构造出有效的决策树,决策树的构造通过已经生成的关联规则来构造,最后利用决策树对提取出的商品

6、信息进行自动归类,为用户提供更加清晰的展现方式。浙江大学硕士学位论文摘要随着中国步入老年化,与老年人生活息息相关的商品越来越多,如何直接有效地从海量的商品中选择出老年人需要的商品并以友好的方式展现给老年人具有很大的现实意义。关键词:网页信息提取文本归类频繁序列挖掘关联规则决策树AbstractWiththedevelopmentoftheIntemet,computerhasbecomepartofourdairylives,peopleusecomputerplayingvideogames,shoppingandworking.Shoppingonli

7、neasarecentlyarisetechnologyhasreceivedalotattentionofpeople.Shoppingonlinemakeiteasyforpeopletofindcheapandusefulthingsonline,andgetthemwithoutgoingout.Astheresultofthis,thenumofproductinformationonlinehasgrownexplosively.Asmostofthedataonlineissemi.structure,andnowthetechnologyo

8、ftheht哪etcannotaffordtheeffective

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。