欢迎来到天天文库
浏览记录
ID:30625082
大小:17.59 KB
页数:5页
时间:2019-01-01
《信息抽取在图书馆资源建设中的应用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果信息抽取在图书馆资源建设中的应用 现代网络技术的发展在带来信息爆炸的同时,也使得图书馆一类的文化单位逐步被边缘化。在此环境之下,由更广泛的角度出发,开发出新的服务产品迫在眉睫。鉴于现今大多数网络信息资源是免费提供的,图书馆如何将这些免费的资源提取出来,有效整合并提供给读者就成为了一项新的任务。 1信息抽取 信息抽取涉及到为从文本中选择出的信息创建一个结构化的表示形式[1],Web信息抽取则可引申为:从网页文本中抽
2、取出指定的一类信息,并将其形成结构化数据的过程。 现有的web信息抽取技术主要有:基于自然语言处理方式的信息抽取,基于包装器归纳方式的信息抽取,基于Onlology方式的信息抽取,基于HTML结构的信息抽取,基于web查询的信息抽取。 基于自然语言处理的信息抽取课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果 将文本分割成多个句子,对每个句子的成分进
3、行标记,将语法结构依据事先定制的规则进行匹配,从而抽取所感兴趣的信息即为基于自然语言的信息抽取[2]。其中所用到的抽取规则指词或词类间的句法关系,此种抽取方法适用于对含有大量自由文本的网页信息的抽取。当然组成网页的这些文本须为完整且适合语法分析的句联盟子。该种方法需要进行大量的样本学习,处理速度较慢,只适用于有针对性的个别网页信息的抽取。 1.基于包装器归纳方式的信息抽取 基于包装器归纳的信息抽取与前者的差别在于其文本匹配规则是利用归纳学习的方法生成的。首先由用户标记样本实例,然后应用机器学习方式对样本使用归纳算法生成基于定界符的抽取规则。其中定
4、界符实质上是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。[3]该种方法较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。它充分利用了web文档独特于普通文本的层次特性。由于避免了使用复杂的语言学习知识,基于包装器归纳方法的信息抽取方法获得了更快的处理速度。但是这种方法中由于包装器对网页结构的依赖导致它的可重用性比较差。 1.基于HTML的信息抽取 基于HTML的信息抽取需通过对网页结构进行解析来获取信息。首先根据HTML代码的标识码进行结构定位,通过自动或半自动的方式产生抽取规则并进
5、行信息抽取。该系统可对不同的区域类型采用不同抽取规则,提高了系统的灵活性和效率。但由于系统中对结构的划分主要取决于网页结构代码,所以这类系统适用于有明显区域结构的网页。 1.基于web查询的信息抽取课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果 基于web查询的信息抽取通过使用标准的web查询语言对web文档进行查询。常用的有搜索引擎技术和web查询
6、语言技术。搜索引擎技术应用非常广泛,但在信息搜集中要花费较多人力,且难以实现自动地对信息持续性的抽取。 数据挖掘 图书馆资源建设过程中,可利用对自然语言文本进行模式识别和匹配的方法从数字文献及各种数据库中抽取信息。 通过这种方法自动建立在线数字文献的引文数据库,包括引用作者、引用作者的地址、引用论文的标题、关键字等等。其次,通过对元数据的标引可以生成文献代理帮助用户获取信息。[4] 通过数据挖掘的方法可以获取更多的网络资源,将这些资源分类组织以后就可以形成图书馆的专题库,从而可以更有针对性地为读者服务。 2.对开放存取期刊网站的信息抽取
7、 近年来为了在有限经费的基础上为读者提供尽可能全面的文献资源服务,图书馆越来越重视对开放存取资源的利用。例如我馆于XX年就建立云南农业大学开放获取期刊平台,包含了44种中文期刊和630余种外文期刊以及其它网络开放获取资源。对开放获取资源的利用也是图书馆发展的趋势。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果 在对开放存取资源的利用中信息抽取可以在很
8、大程度上帮助我们找到资源、组织资源。首先可以通过信息抽取的方法在网络中发掘更多的开放存取资源。其次,对于相对
此文档下载收益归作者所有