欢迎来到天天文库
浏览记录
ID:34630997
大小:2.75 MB
页数:76页
时间:2019-03-08
《基于dom树deep+web实体抽取的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、艺.-己(,■i’,.,文!
2、
3、,移一‘{『.誓.一。.。一。%一。,,I■■_■●,■●●J■■,●■qlj-_-,’广、,‘tjt}8,}AThesisfortheDegreeofMasterin.C———o—mputerTechnolo凹.ResearchandImplementationofDOM--TreebasedEntityExtractionforDeepWebbyLiDongSupervisor:ProfessorShenDerongNortheasternUniversityJtme2008M8删3舢7㈣躬舢8胛1●胛Y,}t,’S
4、oS5●,,7,,‘,●,}‘—●’独创性声明‘一’。本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢:巴恳。学位论文作者签名:李参日期:训g、“形,琶乎论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文
5、的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年d一年半口两年口学位论文作者签名:荐≮签字日期:M8、6、髟导师签名:q膨享签字日期:≯伸扩.∥,4一I一镑k‘、\‘一‘lV●东北大学硕士学位论文摘要基于DOM树的DeepWeb实体抽取的研究与实现摘要随着Intemet的广泛应用,Web上的资源信息呈爆炸性增长。其中,DeepWeb是指那些存储在Web数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。一些统计数据表明:DeepWeb蕴含的信息量、对Deepweb的访问量、增长速度等都
6、远远高于SurfaceWeb。因此,随着Web数据库的不断增长,通过对DeepWeb的访问逐渐成为获取信息的主要手段。DeepWeb返回的查询结果主要是通过HTML页面来展现的,其内容多样、形式各异,这就造成了结果数据的异构性和缺乏结构性,使得自动从中获取有价值的信息变成一件具有挑战性的任务。因此,如何有效抽取DeepWeb中的数据资源成为一个值得研究的问题,其目标是将查询获取的结果响应页面中所包含的实体信息正确而有效地抽取出来,并以结构化的形式进行表示。本文通过分析DeepWeb结果页面的特点,提出了一种基于DOM树的DeepWeb实体抽取机制(D.
7、EEM,DOM—treebasedDeepWebEntityExtractionMechanism),能够有效解决DeepWeb环境中的实体抽取问题。论文的主要内容包括如下几个方面:(1)结合手动实体抽取和自动实体抽取的应用需求,提出了D—EEM的层次模型,自底向上将D.EEM划分为信息采集层、实体抽取层和外部表示层,能够有效解决DeepWeb实体抽取中区域定位、规则生成及语义标注等问题。(2)提出了基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次
8、数的语义标注方法,从而建立抽取结果与全局模式的映射关系,有效地将来自不同数据源的抽取结果进行合成。(3)设计并实现了D.EEM的原型系统,一方面为用户提供了一个交互式的编辑环境,友好的帮助用户完成抽取模板的手动设置;另一方面实现了基于DOM树的自动实体抽取策略,经过网页预处理、数据区域定位、实体区域定位、抽取规则生成及语义标注等过程,最终将网页上的有用数据以结构化的形式存储。(4)通过实验验证了D.EEM中所采用的关键技术的可行性和有效性,同其它实体抽取策略相比,D.EEM在功能完善性、抽取准确性及抽取效率等方面具有一定的优势。关键词:实体抽取;DOM
9、树;DeepWeb;数据区域定位;实体区域定位.II-‘●ResearchandImplementationofDOM-TreebasedEntityExtractionforDeepWebAbstractThewidespreadoftheInteracthascausedexponentialincreaseintheamountofsearchableinformationontheWeb.DeepWebusuallyreferstothepartwhoseinformationisstoredinWebdatabasesandcannotber
10、etrievedbyhyperlinkbutbysomedynamicpagestechniq
此文档下载收益归作者所有