欢迎来到天天文库
浏览记录
ID:49304462
大小:1.84 MB
页数:1页
时间:2020-02-29
《混合式教学中线上短文本聚类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、225理论研究混合式教学中线上短文本聚类算法研究周 赟(云南师范大学信息学院,昆明650500)摘 要:本文的目的是实现在基于混合式课堂中,学生通过线上学习而产生的短消息文本的聚类算法比较。首先通过手机QQ聊天记录的收集获得我们需要的短消息文本;然后使用最经典的k-means算法对我们的短消息文本进行聚类,通过对聚类结果的分析了解到学生对本节内容的疑惑,对小组中学生活跃的程度比较,以及学生的情感变化等研究。通过对文本的聚类可以大大的提高了教师的工作效率,减轻了教师的负担,更能够有的放矢的针对某组的具体问题进行因材施教的教学。关键词:k-means算法;混合式教学;短消息文本DOI:1
2、0.16640/j.cnki.37-1222/t.2017.01.1941 引言初始聚类中心和收敛条件或者迭代次数。[2]根据一定的相似性度量标准,将每一条数据分配到最近的聚类中心,形成新的类,然后以每一类 华南师范大学的李克东教授认为,混合式学习是我们教学中多种的平均矢量作为这一类的新的聚类中心,将数据重新分配,反复迭代形式的混合:线上线下的混合,过程性评价和终结性评价的混合,学直到类收敛或达到最大的迭代次数。[1]生与学生共同探讨的混合。随着信息时代的到来,以及我们线上学[3] K一Means算法描述:输入数据:聚类簇的个数为K,其中包含了习的推广,产生了大量的数据,这些数据
3、的增长之快,数量之大是难n个数据对象样本集。输出结果:满足目标函数K的聚类才能才能结束。以想象的。这些数据蕴含的信息也是我们所不能想象的,对文本的处 (1)初始聚类中心是由已知的n个数据对象中随机选取的k个。理以及有很多年的历史了,是相对比较成熟的了,但把它有效的应用(2)将剩余的样本点依次计算它与聚类中心的相似度,(在不同的应到我们混合式学习中是本文档一个创新点。随着学生线上学习而产生用中可选择不同的距离函数来衡量其相似度)将其相似度最近的分为了大量的短消息文本数据,对这些数据进行聚类从而发现学生的问题一类。(3)要计算各个聚类的Mean值,可由步骤(2)得到的新的及不足,教师通
4、过整理可以大大增加课堂的效率,而且可以通过学生聚类集合计算。(4)重复步骤(2)(3)直到所有聚类的Mean值不的问题有的放矢的整理出适合本班的教辅材料。再改变,聚类结束。2 短消息文本的介绍 K-Means聚类算法最大的优点是运算比较交单,并且算法简单快速。对于处理大数据有很强的伸缩性,时间复杂度近于线性。 由于我们使用的语料是学生的聊天记录,它属于短消息文本,其 K-means主要的缺点如下:(1)运行速度。虽然通常情况下,k-means具有字数少,表达不明确,书写不规范的特点。然而从这些语言表达少,执行的循环次数要少于数据对象的个数。但是对于不好的情况,它的又不规范的的短
5、消息文本中识别其语义还是有一定难度的。其次由于时间复杂度将是超级多项式的。(2)K值的选取。在k-means中对于短消息文本是学生们讨论的过程,所以其口语化十分严重,例如现在K值的选取是十分关键的,因为在程序运行前要先给定K的大小。K网络中使用较广泛的“债见”;“好咩”;“欧克”;“鸭梨”等。值选取的不同,划分的结果就不相同。(3)初始化K个中心点。它 (1)不规范性:短消息文本由于是截取学生的聊天记录,聊天的的的初始选取对于划分结果亦非常关键。K-means对于数据不同的维过程是在一种轻松愉悦的情况下进行的,然而书写出来并没有正式邮度“一视同仁”,缺乏轻重之分。件那么规范,会出现
6、错误的编写,用语不规范等特点。如不规范缩略语(围脖一微博)(晒一share)等。5 算法的评价 (2)不确定性:由于聊天是大家彼此交流互动的过程,不同于 聚类技术是没有预先设定或者定义类别情况下进行的一种无监督以往的信件存在固定的主题,围绕一个话题展开的,我们短信息文本的学习方法。因此,对聚类结果进行客观、有效的评价一直都是比较存在话题的不确定性。困难的。根据评价标准不同一般分为两类:①基于人工进行判定;② 通过以上介绍我们可以了解到短消息的不规范性、不确定性口语利用目标函数进行判定。本文以人工进行判定,其评定方法主要有F化等特点都给我们聚类带来了一定的困难。如何不依赖以往词库
7、排除值、平均准确率、熵等。不规范性带来的干扰而更好的挖掘最新的,有用的信息。如何利用短消息文本自身的特点提高聚类质量。如何在海量数据聚类中保证算法6 总结执行的效率等都是值得研究的问题。 本文通过使用K一Means算法对在混合式教学中学生线上产生的3 文本的预处理短消息文本进行聚类,可以把学生一些不懂的问题聚类出来,可以大大减少教师工作量,提高工作效率。教师可以通过仔细研究聚类结果 收集到的预料是同学们使用自然语言描述的,计算机无法直接识并且进行总结,
此文档下载收益归作者所有