欢迎来到天天文库
浏览记录
ID:5317851
大小:1.20 MB
页数:55页
时间:2017-12-08
《web信息处理与应用课件:text processing》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、TextProcessingWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13AdvancedT
2、opics*Web信息处理与应用2金培权(jpq@ustc.edu.cn)本章讨论的问题Web获取的Web网页如何进行预处理?Crawler/ConvertingrawSpiderdocumentsintotermstobeindexedTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用3金培权(jpq@ustc.edu.cn)ADocumentFrom:http://zh.wikipedia.orgWeb信息处理与应用4金培权(jpq@ustc.e
3、du.cn)TextProcessingBasiccomponentinIRsystems(notonlyforWebsearch).AlsoknownasDocumentProcessingConvertingrawdocumentsintotermstobeindexedEnablingthematchingoftermsinthequerytothoseinthedocuments.Documentprocessingandqueryparsingareconnected.Web信息处理与应用5金培权(jpq@ustc.ed
4、u.cn)本章主要内容字符编码分词去除停用词规范化Web信息处理与应用6金培权(jpq@ustc.edu.cn)一、字符编码CharacterEncodingBits<-->Characters之间的映射方法,e.g.ASCII:1000001——AUnicodeUTF-8:111001111000100010110001——爱ASCII编码1963提出,针对英文、数字、常用标点等1个字节(7bitsforcharacters,1bitforerrorcheckingbutusuallynotused)2^7=128字符A
5、SCII对于许多语言来说远远不够中文——5万多字,其中常用的有3000多泰米尔语——247种语言构造Web信息处理与应用7金培权(jpq@ustc.edu.cn)一、字符编码Unicode(万国码、统一码)1991Unicode1.0,2012.9Unicode6.2为所有语言提供统一的字符编码使电脑可以用统一、简单的方式来呈现和处理文字Unicode使用16进制的码位(codepoint)来表示字符码位:组成码空间的数值ASCII的码位:0~7FUnicode:包含1,114,112个码位,0~10FFFF(Unicode6.1)。
6、通常用“U+4位16进制”表示,如:U+7231——爱常见的Unicode编码方式UTF-32:每个码位固定使用4bytesUTF-8:每个码位使用1~4之间可变长度的bytesWeb信息处理与应用8金培权(jpq@ustc.edu.cn)一、字符编码UTF-8(8-bitUnicodeTransformationFormat)用1到4个字节编码Unicode字符若码位小于等于127,使用1bytes与ASCII兼容,高位bit为0若码位大于127,使用2~4bytes第1个字节:由换码序列开始(连续的“1”并以“0”结束),例如“1
7、10”、“1110”。连续的“1”个数表示该码位使用的字节数。换码序列不计入字符的有效bits其余字节:由“10”开始,表示非ASCII字符,并且不计算入字符表示的有效bitsWeb信息处理与应用9金培权(jpq@ustc.edu.cn)一、字符编码UTF-8的表示范围10进制Unicode16进制bit数UTF-8byte数00000000~0-1270~70XXXXXXX10000007F00000080~110XXXXX128-20478~112000007FF10XXXXXX1110XXXX00000800~2048-6553
8、512~1610XXXXXX30000FFFF10XXXXXX11110XXX00010000~10XXXXXX65536-111411117~214001FFFFF10XXXXXX10XXXXXXWeb信
此文档下载收益归作者所有