欢迎来到天天文库
浏览记录
ID:11809645
大小:283.00 KB
页数:25页
时间:2018-07-14
《网络信息资源自动标引》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、北京大学校长基金论文集(2003年)网络信息资源自动标引——面向中文网络文本信息的研究网络信息资源自动标引——面向中文网络文本信息的研究网络信息资源自动标引3一、引言3二、网络资源概况41、中国互联网络发展简况42、中国互联网络资源简况61)WWW站点数62)全国网站的页面数以及字节数63)网页的内容分类74)网页的更新周期83、本文所要探讨的主要对象81)、Web页面文本特点82)、对中文网页文本的限定93)、不考虑中文分词难题9三、相关概念91、自动标引原理以及已有方法91)、统计标引法92)、概率标引法103)、句法分析法104)、语义分析法115)
2、、人工智能法112、汉语自动标引技术111)、词典标引法112)、切分标记法123)、语法分析标引法124)、汉语文献标引专家系统125)、单汉字标引法13四、自动标引实例研究131、几个已见报道的自动标引实例132、相关论文开发状况15五、基于链接的网络信息资源自动标引研究171、网络链接的特征和类型1725北京大学校长基金论文集(2003年)网络信息资源自动标引——面向中文网络文本信息的研究1)、网络链接的特征172)、网络链接的类型17A、推荐链接17B、合作链接17C、相关链接18D、资源链接18E、通讯链接18F、广告链接182、网络链接挖掘18
3、1)、链接挖掘的定义182)、链接挖掘处理步骤19(1)链接准备19(2)链接挖掘19(3)链接挖掘应注意的问题203)后期处理203、WLS链接数据库服务211)WLS的必要条件212)WLS模型21附注:图表1历次调查上网计算机总数(万台)(1997年10月~2003年7月)5图表2历次调查上网用户总数(万人)(1997年10月~2003年7月)5图表3历次调查WWW站点个数(2001年1月~2003年7月)6图表4全国网站的静动态网页数以及字节数(数据截至日期2002年12月31日)7图表5网页的格式分类情况(数据截至日期2002年12月31日)7图
4、表6网页的更新周期(数据截至日期2002年12月31日)8图表7几个已见报道的自动标引实例15图表8相关论文开发状况一览表17图表9链接挖掘过程18图表10WLS概念模型22图表11(top)在链接挖掘服务器中生成URL的界面(bottom)显示结果的链接的挖掘界面2325北京大学校长基金论文集(2003年)网络信息资源自动标引——面向中文网络文本信息的研究网络信息资源自动标引——面向中文网络文本信息的研究信息管理系朱琳、杨梁彬摘要摘要:面对以指数级速度增长的海量网络信息资源和迅速增加的网民,如何有效的利用Internet信息资源成为一个急待解决的问题。本
5、文正是针对这一点,面向中文网络文本信息资源,着重以网络中文信息资源的自动标引为切入点进行研究。一、引言Internet的信息资源对局域网信息资源的空间拓展是革命化的,它具有数量巨大,增长迅速,形式多样,变化频繁,分布广泛,结构复杂等特点。目前全球有3.2亿人上网,并每天有超过4000台计算机入网,每年以15~20%的速度增长。到2000年,超过100万个网站,1亿台计算机和10亿个用户上网。在中国,从90年代中后期开始,Internet的发展更是日新月异。根据中国互联网络信息中心(CNNIC)公布的第十二次中国互联网络发展状况调查报告第十二次中国互联网络发
6、展状况调查报告(2003年7月):中国互联网络信息中心.2003-09-12.(2003年7月),目前我国上网计算机数达2572万台,上网用户达6800万人。在传统的信息组织工作中,人们主要采用的是人工标引,这种标引方法由于人为控制因素的加入,所以标引深度比较高,也比较准确。但是完全人工的做法使得这种标引的成本很高,而且由于人的精力是有限的,所以标引的速度、数量、质量也只能勉强满足传统信息源的新增水平,此外,由于主要是人工完成,因此一些外界影响因素的干扰十分明显,比如:标引人员本身的素质、标引内容
7、是否是他们比较熟悉的内容,甚至标引人员的心情都会极大的影响标引结果。网络信息资源不同于以往的那些书本、报刊等传统信息源,它的数量极大,并且每天都在不断的膨胀中,而且其内容变化更新频繁,发布的机构复杂、来源混乱,仍然采用人工标引的方法显然是不适应的了,我们对网络资源的加工整序,就不得不考虑一些新的方法。当前,最可行的就是引入机器,实现自动化处理。其一,是对网络资源,主要是网页的文本信息进行自动标引处理;其二,则是考虑从文本检索的角度实现网络资源的整序与应用。25北京大学校长基金论文集(2003年)网络信息资源自动标引——面向中文网络文本信息的研究对于自动标引
8、,其优势是显而易见的。首先,自动标引可以实现较高的速度和质量赋词,
此文档下载收益归作者所有