欢迎来到天天文库
浏览记录
ID:15120141
大小:43.00 KB
页数:19页
时间:2018-08-01
《基于heritrix的web信息抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于Heritrix的Web信息抽取rtib信息抽取陈俊彬曹树金中山大学资讯管理系广州5100006[摘要]针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。..[关键词]HrtiHMLasrWeb数据采集eirx信息抽取..Tpre[分类号]G250.73WebInfrtotatosdortiomainExrcinBaenHeirxe
2、unahnChnJnbiCoSujiDepartmentofInformationManagement,SunYat—senUniversity,Guangzhou510006[AbtathsaeitoueaehdoacccrtifrainetatoaeoeirxacccrigthhrafWenosrc]TipprnrdcsmtofuaenomtoxrcinbsdnHrtiodnotesotgeobifrmaroxrcintcnlg.hytmiooeftrersetvdueeetfosaafifrtoxrcin,inetatoehooyTessescmpsd
3、oheepciemol.Difffrnrmuulwyonomainetatothtdiounpeciionaelllaeeraty.Icnetrattemiimuitofifortiocodigthefedoalnemehosfcsorsswsgnlitaxchnmunnmanacrnotilftbeidaase.tba[KewrseirxifrtoxrcinHTprebifrtocustoyod]HrtinomainetatoMLasrWenomainaqiiin的信息抽取技术需要用户的大量参与,但自动化程度不高;而自动化程度高的抽取技术其准确率和适应性较
4、低,实用性较差。即使是机器学习,也要通过大量的Web信息抽取(Webinformationextraction,WIE)的样本学习来提高获取规则的自动化程度,这意味着系目标是把文本里包含的信息进行结构化处理,转化成统需要经过较长时间的学习才能获得较好的查准率。特定的结构,以便于理解和利用。随着..Intemet的迅猛纵观信息抽取技术的发展历史,研究者们提出了发展,Web已经成为全球传播与共享科研、教育、商业不少优秀的抽取策略.。从实现方法的原理出发,可和社会信息等最重要和最具潜力的巨大信息源。面对以将信息抽取技术划分为4个类别:①基于自然语言如此巨大的互联网
5、信息库,如何快速、有效、经济地得理解方式;②基于ontology方式;③基于网页结构特征到某个主题的所有相关信息就成了当前一个十分热门方式;④基于统计学习的方式。基于自然语言理解方的研究课题。与传统的信息资源相比,Web上信息资式的信息抽取在一定程度上借鉴了自然语言处理技源有着分布性、异构性、开放性、动态性和庞大性等特术,利用子句结构、短语和子句间的关系建立基于语法点,这些特点导致Web上数据的信息接口和组织形式和语义的抽取规则,实现信息抽取。其缺点是抽取速各不相同,也使得Web上的信息资源不能被有效的利度慢,使用范围窄,很难做到通用。基于ontology方
6、式用。在这样的背景下,Web信息抽取技术成为了研究主要是利用对数据本身的描述信息实现抽取,对网页的热点。结构的依赖较少。只要事先创建的应用领域的ontolo-g)r足够强大,系统可以对某一应用领域中各种网页实2艾献绿述现信息抽取。目前只能对特定领域构建,并且还只能采用半自动的方式由人工参与,这样使得该方法要求在..Web信息抽取领域中,信息抽取的准确性和通很高,工作量巨大。基于网页结构特征方式的特点用性之间的矛盾一直是该研究领域的难题。性能较好是根据Web页面的结构来定位信息,在信息抽取之前收稿ri期:20008—07—222修日期:20008—09—11本
7、文起Ij:贞码:1112—115本文责任编辑:易【三112。LIBRARYANDINFORMATIONSERVICE。通过解析器将Web文档解析成语法树,然后通过自动或半自动的方式产生抽取规则,最终转化为对语法树的操作来实现信息的抽取,本策略实现简单,抽取的准确性好,但要求人工参与。基于统计学习的信息抽取策略是根据统计学原理,首先构造一个模型以模拟信息抽取的过程,应用统计学方法从训练语料中得出模型的参数;然后用训练好的模型对待抽取语料进行信息抽取。该方法需要经过较长时间的样本学习,且实现复杂。对信息抽取技术的划分标准其实有很多,并不限于以上所提。各种信息抽取
8、策略针对特定的场合都有其独特的优势,也有其相应的缺点
此文档下载收益归作者所有