web信息处理与应用:named entity recognition

web信息处理与应用:named entity recognition

ID:5317852

大小:1.85 MB

页数:41页

时间:2017-12-08

web信息处理与应用:named entity recognition_第1页
web信息处理与应用:named entity recognition_第2页
web信息处理与应用:named entity recognition_第3页
web信息处理与应用:named entity recognition_第4页
web信息处理与应用:named entity recognition_第5页
资源描述:

《web信息处理与应用:named entity recognition》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、NamedEntityRecognitionWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13AdvancedTopics*We

2、b信息处理与应用2金培权(jpq@ustc.edu.cn)本章讨论的问题WebFromDatatoInformation!!Crawler/SpiderTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用3金培权(jpq@ustc.edu.cn)本章主要内容信息抽取InformationExtraction命名实体识别NamedEntityRecognitionWeb信息处理与应用4金培权(jpq@ustc.edu.cn)一、信息抽取传统的信息检索实际上“文档检索”,其结果是“

3、文档”的集合,并非信息Web信息处理与应用5金培权(jpq@ustc.edu.cn)一、信息抽取大多数情况下用户想要的是“信息”中国科学技术大学计算机学院院长,李国杰Web信息处理与应用6金培权(jpq@ustc.edu.cn)1、信息抽取含义从一段文本中抽取指定的事件、事实等信息,形成结构化的数据从文本中抽取用户感兴趣的事件、实体和关系被抽取的信息以结构化的形式描述为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务Web时代的企业——“数据富翁”,“信息穷人”Web信息处理与应用7金培权(jpq@ustc.edu.cn)2、信息抽取应用企业竞争情

4、报职位关系抽取竞争对手发现Web信息处理与应用8金培权(jpq@ustc.edu.cn)2、信息抽取应用其它领域的应用灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况从病人的医疗记录中抽取出症状、诊断记录和检验结果税务分析不同企业交税记录、发现异常模型和趋势Web信息处理与应用9金培权(jpq@ustc.edu.cn)3、信息抽取与文本理解信息抽取需要一定程度的理解只关心有限的感兴趣的事实信息不关心文本意义的细微差别不关心作者的写作意图等深层理解问题信息抽取只能算一种浅层的文本理解信息抽取可以看作信息检索的进一步深化We

5、b信息处理与应用10金培权(jpq@ustc.edu.cn)4、信息抽取vs.信息检索密切相关但又存在差异功能不同检索:从文档集合中找文档子集抽取:从文本中获取用户感兴趣的事实信息处理技术不同检索:通常利用统计与关键词等技术抽取:借助于自然语言处理技术使用领域不同检索:通常领域无关抽取:通常领域相关Web信息处理与应用11金培权(jpq@ustc.edu.cn)5、信息抽取的任务MUC会议MessageUnderstandingConference美国国防高级研究计划委员会资助评测信息抽取系统87-98进行了7次,MUC-1,…,MUC-7MUC-7定义了

6、5类信息抽取任务,分别进行评测命名实体NE模板元素TE共指关系CR模板关系TR背景模板STWeb信息处理与应用12金培权(jpq@ustc.edu.cn)5、信息抽取的任务1、命名实体NE(实体抽取)最主要的任务命名实体是文本中基本的信息元素,是正确理解文本的基础狭义:指现实世界中具体或抽象的实体如人、组织、地点等“国家科技部/Org部长万钢/Person”广义:还可以包含日期和时间、数量表达式等具体含义由应用来确定Web信息处理与应用13金培权(jpq@ustc.edu.cn)5、信息抽取的任务2、模板元素TE(属性抽取)模板元素又称为实体的属性通过槽(Slot

7、s)描述了命名实体的基本信息为命名实体建立各种属性槽从而更加清楚地描述命名实体槽Slots:名称、类别、描述符、种类等Web信息处理与应用14金培权(jpq@ustc.edu.cn)5、信息抽取的任务3、共指关系CR(实体间的共指关系)不同的命名实体表达了相同的含义,这些实体之间的关系就是共指,也称为等价概念共指任务在于抽取关于共指表达的信息包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述Web信息处理与应用15金培权(jpq@ustc.edu.cn)5、信息抽取的任务4、实体关系ER(关系抽取)实体之间的各种关系,又称为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。