欢迎来到天天文库
浏览记录
ID:41906621
大小:405.01 KB
页数:12页
时间:2019-09-04
《基于信息提取的面向行业应用的文本分类算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于信息提取的面向行业应用的文本分类算法郭峰兰州大学信息科学与工程学院2005年8月提纲背景介绍课题来源实现功能整体流程CIETC算法简介相关数学定义算法流程说明总结背景介绍课题来源对人名专用搜索引擎的需求传统搜索引擎的不能解决的问题更方便的查找查找结果的分类自然语义的提取要求产品化申请项目甘肃省自然科学基金背景介绍实现功能按人名的重要属性对搜索结果进行分类人名教师兰州大学艺术家公务员第四军医大1997.4.51963.4.20与北大名人系统的区别背景介绍整体流程元搜索引擎的实现分布式并行元搜索引擎的实现信息提取和
2、自然语意理解CIETC算法前台显示补偿式信息抽取的主题文本分类算法(compensatedinformationextractiontextclassification,CIETC)有指导的、不需要建立训练集的通过信息抽取和文本聚类循环增加类的数目和类内项的通过聚类补偿文本属性的一种文本分类算法CIETC算法简介CIETC算法简介相关数学定义I/P:划分P={A1,A2,…,Am}(Ai∈A,Ai∩Aj=null)构成了I的一个特定划分,记为I/P。A是属性的集合core(P):核知识,不可省略划分文档D是可区分的
3、:对于主题文档D,AD={A1,A2,…,Am}是文档D拥有的属性集,如果core(P)∈AD,则称文档D是可区分的。CIETC算法简介算法流程说明1、选择主题属性行业知识选择通过信息熵,数据挖掘的决策树算法,取重要属性H=-k∑i=1,nPi㏒2Pi,2、初步文本分类对所有测试文档U,以core(P)={职业,工作单位,出生年月}进行信息抽取。将所有文档分为可辨分文档UIND和不可分辨文档UND。在信息抽取过程中构建了关于人名的core(P)属性抽取的句法,采用了中国科学院概率句法分析器ICTPROP和中国科学院
4、freeICTCLAS词法分析器。算法流程说明3、给每篇文档和类建立空间向量模型,用最邻近学习算法(nearest-neighborlearningalgorithm)将UND聚到UIND/core(P)中去CIETC算法简介CIETC算法简介算法流程说明4、通过类间最邻近算法提高文档的属性度通过最邻近相似文本分类处理后,提升了一部分UND文档,还有一部分剩余UND未被处理,需要对其中可以提高信息度的文本补偿分类结果。总结本文使用信息抽取的方法对中文文本的分类进行了研究。实验结果显示,基于信息提取的面向行业应用的文
5、本分类算法是一种非常有前途的分类器。如果将其应用于不同的行业,将会带来很大的社会效益。信息抽取需要建立大量的句法模型及属性词库,如果句法模型不全,会导致测试结果相差较大,这些问题还有待进一步研究。分类的速度有待提高,算法还可以优化创新点:将信息提取应用于文本分类;通过核知识来对指导文本分类;通过分类补偿文本属性谢谢!请各位专家批评指正!
此文档下载收益归作者所有