第六讲_文本数据分析

第六讲_文本数据分析

ID:32290351

大小:1.27 MB

页数:31页

时间:2019-02-02

第六讲_文本数据分析_第1页
第六讲_文本数据分析_第2页
第六讲_文本数据分析_第3页
第六讲_文本数据分析_第4页
第六讲_文本数据分析_第5页
资源描述:

《第六讲_文本数据分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、法律声明本课件包括:演示文稿,示例,代码,题库,视频和声音等,小象学院拥有完全知识产权的权利;只限于善意学习者在本课程使用,不得在课程范围外向任何第三方散播。任何其他人或机构不得盗版、复制、仿造其中的创意,我们将保留一切通过法律手段追究违反者的权利。课程详情请咨询微信公众号:大数据分析挖掘新浪微博:ChinaHadoop互联网新技术在线教育领航者第六讲LOGO文本数据分析--梁斌互联网新技术在线教育领航者目录•Python文本分析工具NLTK•情感分析•文本相似度•文本分类•分类预测模型:朴素贝叶斯•实战案例:微博情感

2、分析互联网新技术在线教育领航者目录•Python文本分析工具NLTK•情感分析•文本相似度•文本分类•分类预测模型:朴素贝叶斯•实战案例:微博情感分析互联网新技术在线教育领航者NLTKNaturalLanguageToolkit•NLP领域中最常用的一个Python库•开源项目•自带分类、分词等功能•强大的社区支持•安装pipinstallnltk•语料库,语言的实际使用中真是出现过的语言材料互联网新技术在线教育领航者NLTKNaturalLanguageToolkit•语料库安装importnltknltk.download

3、()互联网新技术在线教育领航者NLTKNLTK模块•http://www.nltk.org/py-modindex.html#语料库•nltk.corpus分词(tokenize)•将句子拆分成具有语言语义学上意义的词•中英文分词区别•英文中,单词之间是以空格作为自然分界符的•中文中没有一个形式上的分界符,分词比英文复杂的多•中文分词工具,如结巴分词•得到分词结果后,中英文的后续处理没有太大区别示例代码:01_nltk.ipynb互联网新技术在线教育领航者NLTK特殊字符的分词•使用正则表达式进行处理http://regexl

4、ab.com/zh/regref.htm词形问题•look,looked,looking•影响语料学习的准确度•词形归一化词形归一化•stemming,词干提取,如将ing,ed去掉,只保留单词主干•lemmatization,词形归并,将单词的各种词形归并成一种形式如am,is,are->be,went->go示例代码:01_nltk.ipynb互联网新技术在线教育领航者NLTK词形归一化•NLTK中的stemmer•PorterStemmer,SnowballStemmer,LancasterStemmer•NLTK中的l

5、emma•WordNetLemmatizer•问题went动词->go,走Went名词->Went,文特•指明词性可以更准确地进行lemma示例代码:01_nltk.ipynb互联网新技术在线教育领航者NLTK词性标注(Part-Of-Speech)•NLTK中的词性标注nltk.word_tokenize()停用词(Stopwords)•为节省存储空间和提高搜索效率,NLP中会自动过滤掉某些字或词•停用词都是人工输入、非自动化生成的,形成停用词表•分类•语言中的功能词,如the,is…•词汇词,通常是使用广泛d额词,如wan

6、t互联网新技术在线教育领航者示例代码:01_nltk.ipynbNLTK停用词(Stopwords)•中文停用词表•中文停用词库•哈工大停用词表•四川大学机器智能实验室停用词库•百度停用词列表•其他语言停用词表•http://www.ranks.nl/stopwords•使用NLTK去除停用词stopwords.words()互联网新技术在线教育领航者示例代码:01_nltk.ipynbNLTK典型的文本预处理流程原始文本分词词性标注(POSTag)词形归一化(stem/lemma)去除停用词处理好的单词列表互联网新技术在线教

7、育领航者示例代码:01_nltk.ipynb目录•Python文本分析工具NLTK•情感分析•文本相似度•文本分类•分类预测模型:朴素贝叶斯•实战案例:微博情感分析互联网新技术在线教育领航者情感分析自然语言处理(NLP)•将自然语言(文本)转化为计算机程序更容易理解的形式•预处理得到的字符串->向量化•经典应用1.情感分析2.文本相似度3.文本分类互联网新技术在线教育领航者情感分析简单的情感分析•情感字典(sentimentdictionary)•人工构造一个字典,如like->1,good->2,bad->-1,terrib

8、le-2•根据关键词匹配•如AFINN-111:http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010•虽简单粗暴,但很实用示例代码:02_sentiment_analysi.ipynb•问题:1.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。