欢迎来到天天文库
浏览记录
ID:8978550
大小:29.50 KB
页数:3页
时间:2018-04-13
《上帝的旨意和垃圾邮件》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、上帝的旨意和垃圾邮件你一定无法想像《神的善行》的作者,他试图证明的上帝的旨意结束后政府使人类幸福的准则与我们讨论的概率有关。你可能说试图解决机会理论问题中的试验是概率的问题。但上面两项研究都是由ThomasBayes写的,他曾经是部长和神学家。你如果没有猜到上面两项研究的作者是同一个人,也不要感觉不好,因为你的错误猜测可以帮助你应用贝叶斯统计,比如过滤垃圾邮件,关于此后面将学到更多。AnEssayTowardsSolving(关于机会的试验)…写完这个试验以后,Bayes就把他放在了一边,我们只知道这
2、篇文章在Bayes死后才由他的朋友RichardPrice发表。依据Price的观点,这项研究证明了上帝的存在,是通过世界的结构一定是受智慧和智者的力量影响的,进而证明神明的存在。Bayes本人对这项研究是很谦虚的,他写道:“数学不是试图使人们理智思考,只是为了有趣(Price发表这篇文章时,把这些话去掉了)。尽管Price很热情的宣扬贝叶斯定理,它还是受到了大多数统计学家的反对,他们的理由是定理中所用到的先验概率其实就是主观概率。另一些人的观点,认为先验概率需要不断的更新,不可能显示所有更新后的先验
3、概率的结果(能很好的显示当前的结果)。然而一直有少数的统计学家,和众多的非统计学家支持贝叶斯定理。贝叶斯定理在统计学的边缘保持了150年以上。贝叶斯定理经历了被统计学届放逐的漫长历程终于开始了回归到统计学。那是在1940年,AnEssayTowards…再次发表,Edwards,Deming做了评论。(具有讽刺意味的是,像贝叶斯定理一样,Deming的很多观点也被忽视,直到晚些时候才被广泛接受,在第18章中将对此做解释。)现代计算机的发展把贝叶斯统计带入到了主流研究领域。如今,贝叶斯统计正在使得计算机
4、变得越来越智能化。可以用贝叶斯技术进行数据挖掘、图像识别等。你所喜欢的互联网搜索引擎有可能就使用了贝叶斯技术,也就是使得你的搜索最大可能的接近你所要寻找的。但是你常遇到的垃圾邮件也是使用了贝叶斯技术。回到第一段中提到的Bayes的两项研究。研究文中单词出现的频率。一篇关于统计的文章出现机会(chance)、问题(problem)和解决(solving)等词汇。18世纪关于神学和宗教的文章出现的是第一个字母为大写的Divine和Providence。有一些词汇在这两类文章中都很少出现如sedimenta
5、ry,igneous,和metamorphic。有一些词汇可以出现在所有类型的书籍中,如a,an和the。因为使用了概率,这些句子中的关键词可能是,也可能不是。当然可能和不可能是模糊的概念,我们不能完全保证我们对一本书的分类是完全正确的。有一本书是关于一部影导演JohnWaters(头发用着定型发胶)可能谈到他与他几部电影的明星Divine一起旅游,去见Providence(在Rhode岛上)。我们不会误解这是一部关于十八世纪神学方面的书籍,因为书中的其他词汇如film和movie不可能在十八世纪出现
6、。把书籍进行分类是复杂的,在这里很难解释。但我们可以找到简单的问题加以解决,如新来的邮件是垃圾邮件还是合法的邮件?如果我们关注所有的发到一个地址上的邮件,我们通过程序来寻找垃圾邮件和合法邮件常用词汇的频率,以获得贝叶斯定理的先验概率。当研究者实现了上述研究,就实现了贝叶斯垃圾邮件功能。过滤功能需要计算:“在知道某个词出现后,邮件是垃圾邮件的概率“,如果已知垃圾邮件中出现这个词汇的概率P(A/B)和一个邮件是垃圾邮件的概率P(B),可以使用贝叶斯定理(公式4.9)推出上述概率。贝叶斯过滤功能可以很快地识
7、别垃圾邮件并且避免把合法邮件当作垃圾邮件。大部分的贝叶斯过滤功能忽视两种邮件共同出现的词汇。过滤功能也可以通过垃圾邮件中高概率的词汇集以及低概率的词汇获得。垃圾邮件制造者(喜欢发送垃圾邮件的人)为了成功发送垃圾邮件,也在研究这样新的过滤技术。当知道以往的垃圾邮件中Viagra出现的概率高时,垃圾邮件制造者会以把词汇故意拼写错误的方式愚弄过滤功能,如把Viagra写成Vi@gr@或V1agra。但他们不会得逞的,因为错误拼写的词汇比原来的词汇更容易被发现是垃圾邮件。当然过滤功能也一直不断的被训练。也就是
8、概率的更新以及使用者的反馈(如被标记是合法邮件的却是垃圾邮件)。如果最初Vi@gr@被当作垃圾邮件,但是过滤功能很快就会知道这样的邮件是垃圾邮件。(不要担心会把合法邮件当作垃圾邮件,大部分的过滤功能的建立是与概率有一定的偏差从而使得把合法邮件当作垃圾邮件的可能性减小。)有一些其他的垃圾邮件制造者学了一点过滤功能的知识,决定把”good“一词加到邮件中。因为这个词在垃圾邮件中出现的概率非常低。因而他们认为,这样就会改变过滤功能的评价结果,把垃圾邮件当作了合
此文档下载收益归作者所有