欢迎来到天天文库
浏览记录
ID:52768613
大小:4.71 MB
页数:92页
时间:2020-03-30
《文本分类与聚类.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、文本分类与聚类第1/92页这一部分将讲述¢文本分类及聚类的概念¢文本特征的提取方法¢贝叶斯分类,KNN分类及决策树分类¢K均值及层次聚类的方法第2/92页文本分类概述第3/92页概述¢文本分类包括普通文本分类和网页文本分类¢中文网页分类技术已经成为中文信息处理领域的一项基础性工作¢网页分类可以为搜索引擎用户提供目录导航服务,进而提高系统查准率¢网页分类可以为个性化搜索引擎奠定基础第4/92页分类的概念¢给定:¢一个实例的描述,x∈X,X是实例空间¢一个固定的文本分类体系:C={c1,c2,…cn}¢由于类别是事先定义好的,因此分类是有指导的(或
2、者说是有监督的)¢确定:¢实例x的类别c(x)∈C,c(x)是一个分类函数,定义域是X,值域是C第5/92页说明¢分类模式¢2类问题,属于或不属于(binary)¢多类问题,多个类别(multi-class),可拆分成2类问题¢一个文本可以属于多类(multi-label)¢分类体系一般人工构造¢政治、体育、军事¢中美关系、恐怖事件¢很多分类体系:Reuters分类体系、中图分类第6/92页中图分类法A类马列主义、毛泽东思想TB类一般工业技术B类哲学TD类矿业工程C类社会科学总论TE类石油、天然气工业D类政治、法律TF类冶金工业E类军事TG类金
3、属学、金属工艺F类经济TH类机械、仪表工艺G类文化、科学、教育、体育TJ类武器工业H类语言、文字TK类动力工业I类文学TL类原子能技术J类艺术TM类电工技术K类历史、地理TN类无线电电子学、电信技术N类自然科学总论TP类自动化技术、计算技术O类数理科学和化学TQ类化学工业P类天文学、地球科学TS类轻工业、手工业Q类生物科学TU类建筑科学R类医药、卫生TV类水利工程S类农业科学U类交通运输V类航空、航天X类环境科学、劳动保护科学(安全科学)第7/92页系统结构训练数据预处理标注工具文本模型数据机器学习工具标注的样本新数据预处理分类工具类别文本第8
4、/92页文本分类示例“planninglanguage测试数据proofintelligence”(AI)(Programming)(HCI)类别MLPlanningSemanticsGarb.Coll.MultimediaGUIlearningplanningprogramminggarbage......intelligencetemporalsemanticscollectionalgorithmreasoninglanguagememory训练数据reinforcementplanproof...optimizationnetwork.
5、..language...region...第9/92页分类的一般过程¢收集训练集和测试集,对文本进行预处理¢对文本进行特征提取¢分类器训练(学习)¢测试与评价¢精确率、召回率、F1¢宏平均,微平均第10/92页分类的评测¢偶然事件表(ContingencyTable)属于此类不属于此类判定属于此类AB判定不属于此类CD¢对一个分类器的度量¢准确率(precision)=a/(a+b)¢召回率(recall)=a/(a+c)¢fallout=b/(b+d)第11/92页BEP和F测度¢BEP(break-evenpoint)¢当准确率和召回率相
6、等时的值即为BEP¢F测度,取β=1(2)2prβ+1prFβ()p,r=2F1=βp+rp+r¢BEP和F测度的值越大,则表示分类器的性能越好。¢BEP只是F1所有可能取值中的一个特定值(当p=r时),因此BEP小于或等于F1的最大值。第12/92页多类分类问题的评价¢宏平均(macro-averaging)¢先对每个分类器计算上述量度,再对所有分类器求平均¢是关于类别的均值¢微平均(micro-averaging)¢先合并所有分类器的偶然事件表中的各元素,得到一个总的偶然事件表,再由此表计算各种量度。¢是关于文本的均值第13/92页收集训练
7、数据¢TREC提供统一的训练集和测试集进行系统评测¢国外:CMU,BERKLEY,CORNELL¢国内:中科院计算所,清华大学,复旦大学¢后续增加了网页语料和中文文本¢但是中文文本是新华社的新闻稿,与网页的分类体系还有差别第14/92页目前已有的评测语料¢有指导的机器学习方法是实现中文网页自动分类的基础,因此训练集是实现分类的前提条件¢已有训练语料¢863评测语料(中图分类)¢搜狗语料¢复旦语料第15/92页训练语料分类体系¢中图分类体系¢处理对象是图书,不适合网页分类¢学科分类与代码¢1992年制定,时间过久,包括一些过时类别¢上述两个分类标
8、准都不能直接用做中文网页的分类¢中文网页的分类体系第16/92页一种中文网页的分类体系第17/92页贝叶斯分类第18/92页贝叶斯分类¢基于概率理论的
此文档下载收益归作者所有