转载《数学之美:简洁外表下的严谨》

转载《数学之美:简洁外表下的严谨》

ID:15581471

大小:47.50 KB

页数:7页

时间:2018-08-04

转载《数学之美:简洁外表下的严谨》_第1页
转载《数学之美:简洁外表下的严谨》_第2页
转载《数学之美:简洁外表下的严谨》_第3页
转载《数学之美:简洁外表下的严谨》_第4页
转载《数学之美:简洁外表下的严谨》_第5页
资源描述:

《转载《数学之美:简洁外表下的严谨》》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、转载《数学之美:简洁外表下的严谨》2008-11-0423:07:56博客大巴的一位才女所作,哈工大毕业,今年才25岁。强烈推荐之!说到数学,大概很少有人认为它美。对于大部分人来说,或许只在日常生活中用到小学生级别的数学知识,或许整天在枯燥乏味的数学题中抓狂——通常是学生、尤其是理工科学生。前者离数学太遥远,后者又只着眼于细枝末节……太难得平静地站在她面前,用完整的眼光去审视,更谈不上理解其内涵了。前段时间,我很幸运地从鲜果订阅器中发现了刊登在Google黑板报上、由Google资深研究员吴军撰写的系列文章《数学之美》。其实这个系列早在06年就开始发表,到现

2、在已经有24篇文章。略读了几篇,顿时觉得相见恨晚,一口气把文章一篇一篇找来收集在一起。今天终于在窗外雨声的伴奏下,从头到尾细读了一遍。在阅读《数学之美》之前,我和大多数计算机学科出身的学生一样,对大量的数学类课程——高等数学、概率论与数理统计、离散数学(包括集合论与图论、数理逻辑、组合数学、近世代数)等等等等,以及信息论、密码学这种披着专业课外表的数学课——有一肚子怨言。这些纯理论的东西除了每次考试前让我们用掉N张草稿纸以外,究竟还有什么用?其中命运稍微好一点的大概是图论,因为几乎每门专业课都会把遍历、最短路径这些问题重新讲一遍,让我们知道它虽然陈旧但还算有

3、用。作者在系列文章中讲解了“数学在信息检索和自然语言处理中的主导作用和奇妙应用”,虽然只是蜻蜓点水,但却是实实在在的。这个主题描述的句子出现在第一篇文章中,我倒觉得可以精简精简作为副标题。数学之美更像是每位用心阅读的读者心声。可数学真的美么?估计会有人怀疑。这样说吧:一个小孩子在吃了很多年胡萝卜后,哪怕一再告诉他胡萝卜有益健康,他也还是会痛苦不堪;可如果端上一盘很美味的菜,当他赞不绝口时突然说这是胡萝卜……数学就是这样一根胡萝卜,作者是大厨,也是把菜端上来的人。在阅读的时候,我常会有那么些许“兴奋”的感觉,因为他将我带到了一个视野更开阔的地方,看到的数学不再

4、只是孤立的解方程、套公式,而是一张大网。————————————————————————————–在这张网的中心,有一个叫数学模型的东西。在我看来,数学之美在于其简洁和严谨,数学模型正是具有这两个最大的特点。它的形式简洁,但却是从最初繁杂的数据中不断去粗取精、不断提炼出来的[数学之美系列十四谈谈数学模型的重要性]。从这个中心散开去会发现,很多看似复杂的应用都有其简洁的数学模型可以描述、解决。比如用统计语言模型来解决很多自然语言处理领域的复杂问题。我原先知道的让机器理解人的语言可以用大学里形式语言课讲授的规则匹配的方式(还用这种方法写程序的编译器)。但统计语言

5、模型是将很多问题转换成了一个句子在文中出现的概率。舍去其中的次要因素后,可以进一步简化成求其中词汇本身和与其他词相邻出现的概率[数学之美系列一统计语言模型]。作者用这个模型解释了中文分词原理:最好的分词方法是用统计语言模型计算出分词后,句子出现概率最大的方法[数学之美系列二谈谈中文分词]。同样,语音识别也是要找到收到的词组成的句子中最可能出现即概率最大的一个[数学之美系列三隐含马尔可夫模型在语言处理中的应用]。它所用到的马尔科夫链也类似于基于概率的有限状态机——可以用作模糊匹配用户查询的地址,并给出一个字串为正确地址的可能性[数学之美系列十有限状态机和地址识

6、别]。贝叶斯网络进一步将马尔科夫模型的链状扩展成了网状,即不仅要知道相邻词相关的概率,还要知道各个词之间相关的概率。搜索中常用的近义词、相关词就是这样描述的[数学之美系列十九马尔可夫链的扩展贝叶斯网络(BayesianNetworks)]。再比如信息论。信息是用信息熵来度量的。信息的不确定性越大,熵越大,所需的信息量就越大[数学之美系列四怎样度量信息?]。信息熵可以用于衡量统计语言模型的好;互信息可以度量两个随机事件的相关性,从而解决翻译时词义二义性的问题;而相对熵可用来衡量两个常用词是否同义、两篇文章内容是否相似等等[数学之美系列七信息论在信息处理中的应用

7、。在自然语言处理中,常常要考虑到各种各样、但又不完全确定的信息,这时往往要用一个模型把这些信息统一起来。比如最大熵模型,就是要保留全部的不确定性,使概率分布最均匀、信息熵最大、将风险降到最小[数学之美系列十六(上)不要把所有的鸡蛋放在一个篮子里谈谈最大熵模型][数学之美系列十六(下)不要把所有的鸡蛋放在一个篮子里谈谈最大熵模型]。另外,输入汉字的速度也能用信息熵来衡量。汉字的平均编码长度由每个汉字的频率和各自编码长度决定,香农第一定律指出,这个编码最小值是汉字的信息熵。因此,可以用将字组成词、建立准确有效的统计语言模型等方法提升输入速度[数学之美系列

8、二十三输入一个汉字需要敲多少个键—谈谈香农第一定律]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。