读心机器人的“阳谋”

时间:2022-09-19 07:56:50

读心机器人的“阳谋”

人人都喜欢调戏机器人。对于这个号称可猜出我们心中所想的读心机器人(http:///q20/index.aspx)更要好好调戏一番。为了难住它,我们首先想让它猜的人物是“自己”,但它猜对了;接下来,猜地点“天通苑”,它又猜对了;最后,试试在文学频道猜《穆斯林的葬礼》这本书,这一次它失败了。

现在,读心机器人共包含11个频道,包括人物、影视、文学、地点、机构和礼物等。只要大家心中想到的人或物不太冷门,一般读心机器人都能猜出来。

其实早在2011年年底,读心机器人就在微软亚洲研究院旗下的人立方搜索引擎上出现了。最近几个月,研发团队为读心游戏加入了与人对战的模式,并且引入休闲游戏常备的积分和“金币”系统。这款颇有意思的读心游戏推出不久,就在互联网和手机游戏市场吸引了大量关注,大家纷纷对其进行测试和挑战。很快,读心机器人就赢得了“相当可观的”用户数。

提到“读心”二字,难免给人算命或者魔术的感觉。尽管我们知道它的一些基本原理——通过问问题不断缩小答案的范围,但被人猜出心中所想还是令人“心有余悸”。我们以非常不严谨的数学模型计算,如果每个问题都可以将答案的范围正好缩小一半,那么20个问题,就意味着可以在100万(2的20次方)个对象中找到答案。但我们很好奇,微软亚洲研究院开发这个看起来没什么技术含量游戏的用意何在?

众包计算的“阳谋”

有一种互联网上常见的图片验证码,它包含两个同样风格的英文单词,但很少有人知道实际上只需要答对其中一个就能通过验证。至于另一个单词,则是用户在贡献自己的脑力,帮助系统识别那些OCR技术无法搞定的扫描文献。它叫reCAPTCHA,是创立百年的纽约时报完成数字化的背后功臣。它的精妙之处在于,用户每填写一次验证码就参与了一次“众包”计算。

现在大家应该猜到,微软亚洲研究院为什么要做这个叫做读心机器人的“休闲游戏”了。没错,我们在玩游戏的同时也在帮助微软验证挖掘而来的数据的可靠性,让它们的算法更聪明。该项目的负责人聂再清告诉CHIP编辑,读心机器人刚的时候完全靠机器计算,只有近30%的准确率,经过3~4个月的时间,算法中加入用户的有效反馈后准确率就提升到了60%左右。

以猜人物为例,微软的人立方关系搜索引擎已经从互联网上自动挖掘出大量公众人物的基本信息,包括性别、生日、出生地点和国籍等。但“人立方”不能100%确定这些信息是正确的(其中一个原因是重名问题的广泛存在)。假设经过20个问题,读心机器人猜出了玩家心中所想的人物,那么当用户点击代表猜对了的按钮之后,就相当于为这20条基本信息投了一次票。如果经过大量用户确认的信息与系统中原有的信息不符,它们就需要对算法进行调节了。在不知不觉中,将机器的自动挖掘算法与人的智慧结合起来,整个计算模型的准确率都得到了提升,这就是读心机器人背后的“阳谋”。

业内人士把这种人人参与的大规模计算过程形象地称为“众包计算”。其实除了前文提到的reCAPTCHA,我们每天都在参与到很多众包计算当中。最简单的例子就是搜索引擎——我们每次点击搜索结果中的链接都会被记录在案,因为这意味着我们对那个网站投了一票。当很多人搜索同一个关键词之后打开的网站不是第一个,甚至不在首页时,搜索引擎就知道它的算法该调整了。

语义网的“冰山一角”

距离人立方关系搜索的推出已经过去了很长时间。作为微软亚洲研究院的一个研究项目,人立方是一个对象级别的搜索引擎。简单来说,与现有的基于关键词的主流搜索引擎不同,人立方对互联网信息的挖掘更加深入,它关心的不是哪个网页更符合要求,而是网页中的哪些信息更能准确描述正在搜索的实体(entity)。

如何判断从互联网上挖掘来的大量信息的有效性?这需要发挥人的力量。读心机器人游戏正是一个绝妙的做法,它让用户觉得好玩的同时,也在帮助机器优化算法。而优化算法的最终目的就是让机器更了解我们要搜索的对象以及它与其他对象之间的关系。当搜索引擎拥有了规模足够大且准确度足够高的实体数据库时,它就能直接给我们更多答案,而不仅仅是网页链接了。而这,仅仅是语义网的冰山一角。

上一篇:Android的升级之困 下一篇:问答之间的智慧