狂风中文网

第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例(第3页)

天才一秒记住【狂风中文网】地址:https://www.kfzw.net

(垃圾邮件的后验概率):(正常邮件的后验概率)

=0.5×0.6:0.5×0.2

=0.6:0.2

=3:1

=34:14

所以,过滤器判断出

(附带链接的垃圾邮件的后验概率)=34=0.75

在扫描之前,垃圾邮件的概率被设定为0.5;而通过扫描发现链接之后,垃圾邮件的概率上升到了0.75,如图表11-5所示。

图表11-5扫描前与扫描后

在这种情况下,“正常邮件的后验概率”

为0.25,但这一概率并不为0,所以垃圾邮件的可能性增大,然而,并不能就此判定它就是垃圾邮件。

例如,尽管在过滤器上设定了“如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱里”

,但有可能这封邮件并没有被移动到垃圾箱里,而是被划分到收件箱中。

11-5获得第2条信息后,可能性随之变为8种

通过上一节中我们了解到,即使在获得了“附带链接”

的信息之后,也只能初步判断这封邮件极有可能是垃圾邮件,但不能确定它一定会被移动到垃圾箱中。

因此,过滤器会通过添加其他的信息,再次进行判断。

现在我们添加一个条件:把“幽会”

一词作为关键词来进行检索。

“幽会”

一词出现的概率和不出现的概率,如图表11-6所示。

图表11-6附带链接的条件概率

此时,过滤器在扫描邮件时,除了“附带链接”

之外,又增加了含有“幽会”

一词的条件,通过这两个条件来判别垃圾邮件。

首先,在图表11-2共体现了两种可能性,而在图表11-7中,这两种可能性各自又分为4种可能性,所以共计有8种可能性,这8种可能性各自的概率如图表11-7的下部所示。

图表11-7附带链接的条件概率

要注意的是,垃圾邮件和正常邮件的概率分列在两个表中。

这样做的原因是,被检查邮件是垃圾邮件或是正常邮件的两种情况下,概率是完全不同的。

并且,在上述两种情况下,被扫描的特征(附带链接或不带链接、含有“幽会”

或不含“幽会”

)出现的概率也是完全不同的。

因此,必须分开计算各自的概率。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

全能大佬拒绝做冤种反派诸天将至:还好我有人生模拟器顶流前男友带娃上恋综我意外爆火重生年代小娇妻有空间别和我装穷麻了!四儿一女供我在七零读大学病娇相爷以权谋妻崇祯大明:从煤山开始寸寸销魂所有人都知道我是好男人[快穿]妙手神农大美人都是我老婆!早安,岳律师!快穿之病娇反派甜又撩神话复苏从齐天大圣开始当快穿大佬拿了祸水剧本大秦:公子丹,镇守边关八年替宋女配艳光四射咸鱼穿成女配后爆红了最强奶爸:开局签到一个亿!拳皇里的DNF分解大师在夏夜熙攘之前超凡贵族拳术天王