数字图书馆文本自动分类系统的设计与实现

数字图书馆文本自动分类系统的设计与实现

ID:32005666

大小:2.87 MB

页数:66页

时间:2019-01-30

数字图书馆文本自动分类系统的设计与实现_第1页
数字图书馆文本自动分类系统的设计与实现_第2页
数字图书馆文本自动分类系统的设计与实现_第3页
数字图书馆文本自动分类系统的设计与实现_第4页
数字图书馆文本自动分类系统的设计与实现_第5页
资源描述:

《数字图书馆文本自动分类系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。毖奎雯[丝。期:

2、迹第1章绪论1.1选题背景与意义第1章绪论随着技术的发展,特别是Internet应用的普及,人们已经从信息缺乏的时代过渡到了信息极大的丰富的时代,以文本格式存储的海量信息出现在Internet、数字图书馆及公司的网站上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重要目标,而基于人工智能技术的文本自动分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而将这些海量的、多种类型、不同语种、来源复杂的信息资源及时收集、有效整合,更好地帮助人们组织及挖掘文本信息,因此得到目益广泛的关注,文本分类技术已经逐渐与搜索引擎、信息推送

3、、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。“智能化网络信息搜索技术与机制研究"是国家科学数字图书馆中的研究性课题,课题目标是在学科分类体系的基础上,实现学科网络资源采集、分类和浏览。自动文本分类是进行基于内容的自动信息组织和管理的核心技术,成为数字图书馆信息处理领域最重要的研究方向之一。国外对文本自动分类的研究始于20世纪50年代末,H.P.Luhn首先将词频统计思想用于自动分类,在该领域进行了开创性研究,其后许多学者在这一领域进行了卓有成效的研究。从20世纪60年代直到20世纪80年代末,这期间最有效的文本分类系统一直是由专家

4、人工构建的基于知识工程技术的分类系统。其典型应用就是卡内基集团委托路透社开发的Construe系统,它主要是由专业人员编写一些分类规则来指导分类,在Reuters的部分语料库上它的效果非常好,平均准确率和召回率大约都可以达到90%,但是在其他应用领域采用的Construe系统将会消耗大量的入力和物力。这种自动分类器构造方法的缺点是知识获取瓶颈的存在,它必须要为领域专家获取的知识和知识工程师的表示之问架起桥梁,二者缺一不可,如果这种分类器被转到安全不同的领域,工作必须重新开始。90年代初期,基于机器学习的分类技术开始取代基于知识工程的方法成为文本分

5、类的主流技术,这种分类方法不需要知识工程师和领域专家的介入,节约了大量的专家人力资源,同时也加快了分类系统的建立速度。近年来,研究者们结合机器学习方法和人工智能技术进行了大胆的探讨,提.1.北京T业大学T程硕上学位论文曼曼曼曼曼!曼曼曼曼曼皇曼!曼曼曼曼曼曼曼皇曼曼曼曼曼曼曼!曼曼曼曼曼曼曼曼鼍曼曼量!!苎!皇曼曼曼曼曼曼曼鼍曼量曼皇鼍11量曼!曼曼皇曼曼曼量出了多种分类模型和分类算法,如基于向量空间模型的Rocchio分类器⋯及其一系列的改进算法,K近邻算法(KNN)乜1,最大熵(MaximumEntropy)缸1,朴素贝叶斯(NaiveBay

6、es)H3,神经网格(NeuralNetwork)踊1。支持向理机(SupportVectorMachine)哺1等等。这些方法在英文以及欧洲语种文本自动分类上有广泛的研究,均取得了不错的效果。国外很多研究人员对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。很多研究表明,KNN和SVM是英文文本分类中最好的方法。目前,国外的自动分类系统已经从最初的可行性研究经历了实践研究进入了实用化阶段。并在邮件分类,电子会议,信息过滤等方面取得了较为广泛的应用。国内研究起步较晚,1981年候汉清先生首先对自动分类在文献中的

7、应用作了探讨,从计算机管理分类、计算机分类检索、计算机自动分类、机编分类等四个方面介绍了国外的发展概况。之后,中国科学院、清华大学、复旦大学、南京大学、山西大学、东北大学以及新加坡、香港和台湾的一些大学的著名学者在该领域做出了一些研究成果,研制出一批基于词典法和基于专家系统的自动分类系统。由于中文与英文存在较大的差异,不能照搬国外的研究成果,中文文本分类的研究基本上在英文文本分类的研究策略上,结合中文文本的特点,继而形成了中文文本自动分类研究体系。1.2文本分类基本原理及主要技术分类作为数据挖掘中的一种关键的数据分析方法,可以用于提取和描述重要数

8、据类的模型。所谓“分类”是指找出用于描述和区分数据类或概念的模型(或函数),以便能够使用该模型预测类标记未知的对象类。这种模型是通过对训

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。