欢迎来到天天文库
浏览记录
ID:32011393
大小:2.84 MB
页数:62页
时间:2019-01-30
《文本自动标引方法.研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下:本文给出了一种改进的文本自动标引方法,该方法首先通过本文给出的逐字逐词遍历法从文本中抽取若干与文本主题相关的候选关键词,再采用本文给出的词频词位非线性统计加权法赋予每个候选关键词相应的权重值,按权重值大小对候选关
2、键词排序,设定一个阈值,权值大于阈值的候选关键词则被认为是能够表达文本主题的标引词。黝∥一月加7·D占∞西南交通大学硕士研究生学位论文第l页第1章绪论1.1研究背景基于Intemet的WWW借助统一资源定位O-JniformResourceLocator,URL)把全球数以千万计台服务器组成一个巨大的共享信息资源网络,通过B/S(Browser/Server)模式很好地满足了用户对信息的个性化的需求,由于Intemet网络上信息资源的开放性、共享性使得用户对资源的使用不再受内容、地域和时间的限制,用户从互联网上获取信息资源也日
3、渐成为主要的信息交流渠道。从用户浏览方式来看,WWW普遍存着以下几点不足【1l[2l:(1)近年来全球网站数量急剧增加,网络信息资源数量也随之呈爆炸性增长,但由于信息资源既没有统一的管理也没有统一的发布标准,信息资源良莠不齐:(2)URL只定位信息资源地址而不定位内容,这与人们习惯于直接指定内容的类别和语义来表达其需求的方式不同,用户难以在信息海洋中方便、快捷、准确的找到适合自己的信息内容;(3)网络信息资源包罗万象、形式多种多样,且信息资源的网络地址、链接及其内容本身处于动态变化中,且各网站服务器的操作系统、数据结构、字符集
4、、处理方式不同等使得信息资源整体处于无序状态,导致用户仅通过门户网站、搜索引擎多次交互,获得的往往是大量的、无序的,甚至是无关信息资源,耗费大量精力且搜索的结果不能令人满意;(4)对于技术程度较低的用户,缺乏主动服务和主动推送的能力。为了解决现有WWW存在的这种信息共享模式的困境,对信息资源按统一内容定位(UniformContentLocator,UCL),实现信息内容表示的标准化的需求越来越强烈。UCL实际上是在信源制作阶段对信息资源内容按照预先设定的标准进行多维度标引,自动分类并贴上标签,用语言表达资源内容的类别、主题、
5、出处、时段、作者、关键词、分类代码等建西南交通大学硕士研究生学位论文第2页立以人为本的网络空间信息模型,作为沟通信息提供者和信息消费者(用户)之间高效的沟通工具,极大地节省用户用于查找网页内容的时间【3】【4loUCL的向量表示为:U--(Ul,z也,⋯,留,,⋯,”D,其中万是UCL的分量数。基于Web的UCL元素数据规范框架,如表1.1所示。表1-I基于Web的UCL元素数据规范框架表类属元素名称中文名标准uwl:URL网站WWW上的统一资源识别(URL)u证2:Group大类行业标准资uw3:Sbject栏目自定义源uw
6、4:Title标题自定义内UW5:KeyWOras关键词:辜兽言墨君茅羹耋;“汉语主题词表轧容uw6:Description简介自定义uw7:Language语言IS0639—2uw8:Date日期W3C.DTF外uw9:Type类型DCMITypeVocabulary部uwlO:Format格式IMT属uwll:Author创作者自定义性uwl2:Publisher出版者自定义uwl3:expansion扩充自定义1.2国内外研究现状H.P.Lnhn于20世纪50年代末提出了词频统计思想,开创了信息自动标引领域。直到20世纪
7、90年代初国内外学者都致力于关键词自动提取的不同思路和方法的研究,但90年代初到90年代末曾一度因为传统自动标引方法的效率达到极限、网络兴起改变了信息需求的环境等因素造成自动标引研究的减少。随着网络信息资源日渐成为用户获取信息的主要渠道,而获取信息主要依赖关键词自动提取,自动标引研究又逐渐西南交通大学硕士研究生学位论文第3页深入。根据在自动标引研究领域的影响程度和创新程度,下面总结出50余年来具有代表性的自动标引方法[41:(1)1958年,Luhn提出基于绝对频率加权法的自动标引方法:P.B.Baxendale提出从论题旬和
8、介词短语中自动提取关键词;(2)1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法;(3)1960年,Maron&Kuhns提出基于相关概率的赋词标引方法;(4)1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权
此文档下载收益归作者所有