欢迎来到天天文库
浏览记录
ID:5317852
大小:1.85 MB
页数:41页
时间:2017-12-08
《web信息处理与应用:named entity recognition》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、NamedEntityRecognitionWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13AdvancedTopics*We
2、b信息处理与应用2金培权(jpq@ustc.edu.cn)本章讨论的问题WebFromDatatoInformation!!Crawler/SpiderTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用3金培权(jpq@ustc.edu.cn)本章主要内容信息抽取InformationExtraction命名实体识别NamedEntityRecognitionWeb信息处理与应用4金培权(jpq@ustc.edu.cn)一、信息抽取传统的信息检索实际上“文档检索”,其结果是“
3、文档”的集合,并非信息Web信息处理与应用5金培权(jpq@ustc.edu.cn)一、信息抽取大多数情况下用户想要的是“信息”中国科学技术大学计算机学院院长,李国杰Web信息处理与应用6金培权(jpq@ustc.edu.cn)1、信息抽取含义从一段文本中抽取指定的事件、事实等信息,形成结构化的数据从文本中抽取用户感兴趣的事件、实体和关系被抽取的信息以结构化的形式描述为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务Web时代的企业——“数据富翁”,“信息穷人”Web信息处理与应用7金培权(jpq@ustc.edu.cn)2、信息抽取应用企业竞争情
4、报职位关系抽取竞争对手发现Web信息处理与应用8金培权(jpq@ustc.edu.cn)2、信息抽取应用其它领域的应用灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况从病人的医疗记录中抽取出症状、诊断记录和检验结果税务分析不同企业交税记录、发现异常模型和趋势Web信息处理与应用9金培权(jpq@ustc.edu.cn)3、信息抽取与文本理解信息抽取需要一定程度的理解只关心有限的感兴趣的事实信息不关心文本意义的细微差别不关心作者的写作意图等深层理解问题信息抽取只能算一种浅层的文本理解信息抽取可以看作信息检索的进一步深化We
5、b信息处理与应用10金培权(jpq@ustc.edu.cn)4、信息抽取vs.信息检索密切相关但又存在差异功能不同检索:从文档集合中找文档子集抽取:从文本中获取用户感兴趣的事实信息处理技术不同检索:通常利用统计与关键词等技术抽取:借助于自然语言处理技术使用领域不同检索:通常领域无关抽取:通常领域相关Web信息处理与应用11金培权(jpq@ustc.edu.cn)5、信息抽取的任务MUC会议MessageUnderstandingConference美国国防高级研究计划委员会资助评测信息抽取系统87-98进行了7次,MUC-1,…,MUC-7MUC-7定义了
6、5类信息抽取任务,分别进行评测命名实体NE模板元素TE共指关系CR模板关系TR背景模板STWeb信息处理与应用12金培权(jpq@ustc.edu.cn)5、信息抽取的任务1、命名实体NE(实体抽取)最主要的任务命名实体是文本中基本的信息元素,是正确理解文本的基础狭义:指现实世界中具体或抽象的实体如人、组织、地点等“国家科技部/Org部长万钢/Person”广义:还可以包含日期和时间、数量表达式等具体含义由应用来确定Web信息处理与应用13金培权(jpq@ustc.edu.cn)5、信息抽取的任务2、模板元素TE(属性抽取)模板元素又称为实体的属性通过槽(Slot
7、s)描述了命名实体的基本信息为命名实体建立各种属性槽从而更加清楚地描述命名实体槽Slots:名称、类别、描述符、种类等Web信息处理与应用14金培权(jpq@ustc.edu.cn)5、信息抽取的任务3、共指关系CR(实体间的共指关系)不同的命名实体表达了相同的含义,这些实体之间的关系就是共指,也称为等价概念共指任务在于抽取关于共指表达的信息包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述Web信息处理与应用15金培权(jpq@ustc.edu.cn)5、信息抽取的任务4、实体关系ER(关系抽取)实体之间的各种关系,又称为
此文档下载收益归作者所有