TextMining04-classification analysis

TextMining04-classification analysis

ID:40351950

大小:1.12 MB

页数:96页

时间:2019-07-31

TextMining04-classification analysis_第1页
TextMining04-classification analysis_第2页
TextMining04-classification analysis_第3页
TextMining04-classification analysis_第4页
TextMining04-classification analysis_第5页
资源描述:

《TextMining04-classification analysis》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文本挖掘技术第四章:文本自动分类技术杨建武北京大学计算机科学技术研究所Email:yangjianwu@icst.pku.edu.cn1知识的组织¾知识的结构问题和知识是孪生的∑结构本身也是知识¾分类体系∑杜威十进制系统(图书分类),∑国会图书馆的目录,∑AMS(美国数学会)的数学知识体系,∑美国专利内容的类别体系¾Webcatalogs∑Yahoo,搜狐&Dmoz(OpenDirectory)2分类的概念¾分类:给定一个对象,从一个事先定好的分类体系中挑出一个(或者多个)最适合该对象的类别。∑对象:可以是任何东西∑事先定好的分类体系:可能有结构∑最适合:判断标准

2、¾便于今后查找:最直接、最普遍的应用3分类体系4人工分类的代价¾Yahoo!∑200(?)peopleformanuallabelingofWebpages∑usingahierarchyof500,000categories¾MEDLINE(NationalLibraryofMedicine)∑$2million/yearformanualindexingofjournalarticles∑usingMEdicalSubjectHeadings(18,000categories)5人工方法和自动方法¾人工方法∑结果容易理解•足球and联赛Æ体育类∑费时费力∑难以

3、保证一致性和准确性(40%左右的准确率)∑专家有时候凭空想象∑知识工程的方法建立专家系统(80年代末期)¾自动的方法(学习)∑结果可能不易理解∑快速∑准确率相对高(准确率可达60%或者更高)∑来源于真实文本,可信度高6文本自动分类的定义¾TextCategorization(TC)¾在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。¾从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一、一对多的映射。¾用数学公式表示如下:f:A→B其中,A为待分类的文本集合,B为分类体系中的类别集合7应用领域¾门户网站(网页

4、)¾图书馆(电子资料)¾情报/信息部门(情报处理)¾政府、企业等(电子邮件)8自动分类的优点¾减小人工分类的繁杂工作¾提高信息处理的效率¾减小人工分类的主观性9文本自动分类¾基本步骤∑将预先分类过的文档作为训练集∑从训练集中得出分类模型(需要测试过程,不断细化)∑用训练获得出的分类模型对其它文档加以分类10文本分类基本步骤¾1.用户定义分类树¾2.用户为分类节点提供训练文档¾3.特征选择¾4.训练¾5.自动分类11文本分类基本步骤12文本分类的过程文本表示训练过程训练文本训练文本特征表示特征表示统计统计学习学习分类器分类器统计量新文本新文本特征表示特征表示类别分类

5、过程13自动分类技术的发展14专家系统(late1980s)人工定义规则15专家系统¾专家系统(人工定义规则)∑太花时间∑太难(最初看起来容易)∑一致性问题(astherulesetgetslarge)16专家系统¾美国人口调查局(1990)∑十年人口统计资料的分析(2200万项资料)∑232产业类别和504行业类别∑$15millioniffullydonebyhand¾人工定义规则∑ExpertSystemAIOCS∑Developmenttime:192person-months(2people,8years)∑Accuracy=47%¾基于机器学习的方法∑

6、最近邻分类方法(Creecy’92:1-NN)∑Developmenttime:4person-months∑Accuracy=60%17统计学习取代知识工程18分类技术发展19ATextCategorizationExample新闻自动分类¾Given:Collectionofexamplenewsstoriesalreadylabeledwithacategory(topic).¾Task:Predictcategoryfornewsstoriesnotyetlabeled.¾Forourexample,we’llonlygettoseetheheadline

7、(标题)ofthenewsstory.¾We’llrepresentcategoriesusingcolors.(Allexampleswiththesamecolorbelongtothesamecategory.)21人工标注的样例政府事务企业个人事务CitibankJardineAmatilJapanVieilleNorwayMathesonProposesMinistryMontagneSaidItSetsUnitLosesSaysOpenTwo-for-Says1986Two-for-FiveSixMlnFarmTradeFiveBonusWouldHi

8、tCond

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。