欢迎来到天天文库
浏览记录
ID:41720816
大小:148.45 KB
页数:16页
时间:2019-08-30
《【项目总结】自然语言处理在现实生活中运用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、【项目总结】自然语言处理在现实生活中运用摘要:自然语言处理或者是文本挖掘以及数据挖掘,近来一直是研究的热点。很多人相想数据挖掘,或者自然语言处理,就有一种莫名的距离感。其实,走进去你会发现它的美,它在现实生活中解决难题的应用之美,跟它相结合的数学之美,还有它与统计学的自然融合。语言只是一种实现工具,真正难度的是模型的理解和对模型的构建。本文结合自然语言处理的基本方法,完成对2002-2010年17套GET真题的核心单词抽取。麻雀虽小”也算五脏俱全,包含整个数据处理过程,比较简单。中等开发的程序员都可以实现,其中包括数据清洗,停用词处理,分词,词频统计,排序等常用方法。(本文原创,分享
2、供于学习,转载标明出处:【项目总结]自然语言处理在现实生活中运用)回到顶部首先谈下这款软件的来源和用途吧,本科至今没有挂科记录,很不幸笫一次《英语学位英语考试<GET〉》挂科了。于是,笔者开始疯狂的做题和廿单词,对于GET真题很多单词不认识,抱着有道词典,逐字翻译耗吋耗力。再说历来10余年试题考试单词范围是一定的,把出现频率高的单词,所谓核心单词拿握了不就事倍功半了?问题来了,不像四六级词汇或者考研诃汇市场有专门卖的。当吋就开始设想,如果我收集10余年真题,然后去除所有非单词结构(真题算是结构化数据,有一定规则,比较容易处理。此过程其实就是数据清洗过程)最后把所有单词集中汇总,再去除
3、如:a/an/of/on/frist等停用词(中文文本处理也需要对停用词处理,诸如:的,地,是等)。处理好的单词进行去重和词频统计,最后再利用网络工具对英语翻译。然后根据词频排序。基于以上思路,结合笔者前不久对数据挖掘中分类实现的经验和暑假学习的统计学知识最终上周末(10.31-11.1)花了2天时间搞定,这些口然语言处理的基础方法在分类,聚类等数据挖掘和本体领域构建中都有使用。最后我将其核心方法进行梳理,下面咱们具体展开。回到顶部2自然语言处理结果预:前面提到本算法是对自然语言中常规英文试卷的处理”那么开始收集原始数据吧。1历年(2002—2010年)GET考试真题,文档格式不一,
4、包括txt/pdf/word等如下图:①(GET20H-2012).pd»,201VGET12002-6.doc•GET22003-l.docGET32003-6.docKGET42OO4^1.d5、Word■73KB2015^0/3022:12MkrxHoflWord_786、015/10/»2U36Adob«Acrobat-31313KB2O15/W/»^M7AdobeAaobut-20.533KSZILISTEN1Snl5A(1polnLA.Theharofr-ThebtroC.ThtherokTfwhero・i・FCflT.re.PART]IISTENSectionA(IpotmIAAtaxidm*erBApolK^nanCAjixlge»d1DAcoachand5w)EE)«av)■口(W)wroo匚nn7、口小8、"l・「二tM44u9、ikmyC.He»no4■十t•鼻・■食ratwmimuqiuu»uuMxnmicxnWiM■”VGETS2005-12-docHGET9200Z.docvGET!02007-Ldoc蔽GET112007・&doc^GET12200e-?01CLpdl5^GCTB20H-20U.pdf2对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82
5、Word■73KB2015^0/3022:12MkrxHoflWord_786、015/10/»2U36Adob«Acrobat-31313KB2O15/W/»^M7AdobeAaobut-20.533KSZILISTEN1Snl5A(1polnLA.Theharofr-ThebtroC.ThtherokTfwhero・i・FCflT.re.PART]IISTENSectionA(IpotmIAAtaxidm*erBApolK^nanCAjixlge»d1DAcoachand5w)EE)«av)■口(W)wroo匚nn7、口小8、"l・「二tM44u9、ikmyC.He»no4■十t•鼻・■食ratwmimuqiuu»uuMxnmicxnWiM■”VGETS2005-12-docHGET9200Z.docvGET!02007-Ldoc蔽GET112007・&doc^GET12200e-?01CLpdl5^GCTB20H-20U.pdf2对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82
6、015/10/»2U36Adob«Acrobat-31313KB2O15/W/»^M7AdobeAaobut-20.533KSZILISTEN1Snl5A(1polnLA.Theharofr-ThebtroC.ThtherokTfwhero・i・FCflT.re.PART]IISTENSectionA(IpotmIAAtaxidm*erBApolK^nanCAjixlge»d1DAcoachand5w)EE)«av)■口(W)wroo匚nn
7、口小
8、"l・「二tM44u9、ikmyC.He»no4■十t•鼻・■食ratwmimuqiuu»uuMxnmicxnWiM■”VGETS2005-12-docHGET9200Z.docvGET!02007-Ldoc蔽GET112007・&doc^GET12200e-?01CLpdl5^GCTB20H-20U.pdf2对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82
9、ikmyC.He»no4■十t•鼻・■食ratwmimuqiuu»uuMxnmicxnWiM■”VGETS2005-12-docHGET9200Z.docvGET!02007-Ldoc蔽GET112007・&doc^GET12200e-?01CLpdl5^GCTB20H-20U.pdf2对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82
此文档下载收益归作者所有