web信息处理与应用课件:text processing

web信息处理与应用课件:text processing

ID:5317851

大小:1.20 MB

页数:55页

时间:2017-12-08

web信息处理与应用课件:text processing_第1页
web信息处理与应用课件:text processing_第2页
web信息处理与应用课件:text processing_第3页
web信息处理与应用课件:text processing_第4页
web信息处理与应用课件:text processing_第5页
资源描述:

《web信息处理与应用课件:text processing》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、TextProcessingWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13AdvancedT

2、opics*Web信息处理与应用2金培权(jpq@ustc.edu.cn)本章讨论的问题Web获取的Web网页如何进行预处理?Crawler/ConvertingrawSpiderdocumentsintotermstobeindexedTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用3金培权(jpq@ustc.edu.cn)ADocumentFrom:http://zh.wikipedia.orgWeb信息处理与应用4金培权(jpq@ustc.e

3、du.cn)TextProcessingBasiccomponentinIRsystems(notonlyforWebsearch).AlsoknownasDocumentProcessingConvertingrawdocumentsintotermstobeindexedEnablingthematchingoftermsinthequerytothoseinthedocuments.Documentprocessingandqueryparsingareconnected.Web信息处理与应用5金培权(jpq@ustc.ed

4、u.cn)本章主要内容字符编码分词去除停用词规范化Web信息处理与应用6金培权(jpq@ustc.edu.cn)一、字符编码CharacterEncodingBits<-->Characters之间的映射方法,e.g.ASCII:1000001——AUnicodeUTF-8:111001111000100010110001——爱ASCII编码1963提出,针对英文、数字、常用标点等1个字节(7bitsforcharacters,1bitforerrorcheckingbutusuallynotused)2^7=128字符A

5、SCII对于许多语言来说远远不够中文——5万多字,其中常用的有3000多泰米尔语——247种语言构造Web信息处理与应用7金培权(jpq@ustc.edu.cn)一、字符编码Unicode(万国码、统一码)1991Unicode1.0,2012.9Unicode6.2为所有语言提供统一的字符编码使电脑可以用统一、简单的方式来呈现和处理文字Unicode使用16进制的码位(codepoint)来表示字符码位:组成码空间的数值ASCII的码位:0~7FUnicode:包含1,114,112个码位,0~10FFFF(Unicode6.1)。

6、通常用“U+4位16进制”表示,如:U+7231——爱常见的Unicode编码方式UTF-32:每个码位固定使用4bytesUTF-8:每个码位使用1~4之间可变长度的bytesWeb信息处理与应用8金培权(jpq@ustc.edu.cn)一、字符编码UTF-8(8-bitUnicodeTransformationFormat)用1到4个字节编码Unicode字符若码位小于等于127,使用1bytes与ASCII兼容,高位bit为0若码位大于127,使用2~4bytes第1个字节:由换码序列开始(连续的“1”并以“0”结束),例如“1

7、10”、“1110”。连续的“1”个数表示该码位使用的字节数。换码序列不计入字符的有效bits其余字节:由“10”开始,表示非ASCII字符,并且不计算入字符表示的有效bitsWeb信息处理与应用9金培权(jpq@ustc.edu.cn)一、字符编码UTF-8的表示范围10进制Unicode16进制bit数UTF-8byte数00000000~0-1270~70XXXXXXX10000007F00000080~110XXXXX128-20478~112000007FF10XXXXXX1110XXXX00000800~2048-6553

8、512~1610XXXXXX30000FFFF10XXXXXX11110XXX00010000~10XXXXXX65536-111411117~214001FFFFF10XXXXXX10XXXXXXWeb信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。