大数据抓“马甲”

时间:2022-07-31 10:04:31

大数据抓“马甲”

大数据技术帮助英国《星期日泰晤士报》美术编辑理查德布鲁克斯发现了《布谷鸟的呼唤》的真正作者:J.K.罗琳。

卢东明

SAP公司全球数据库解决方案亚太区技术总监

有20年的数据库、数据仓库软件使用、销售经验。此前曾任Sybase软件(中国)有限公司技术总监及CTO。

2013年4月,一本普通的破案小说“The Cuckoo's Calling”(中文译名:《布谷鸟的呼唤》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下军装,进入私人保安行业。

直到7月中,还几乎没有什么人知道Robert Galbraith是谁,这本书在整个英国零售书商中也只卖出了449本,在全球知名的网上书店亚马逊英国站只排名5076位。

书评商们对该书的评价是:“文笔不错,故事也吸引人,但是并不突出”,之前也有出版社拒绝了这本书。

然而一夜之间,一个消息改变了一切。

在亚马逊网站上这本书已经迅速爬到畅销书的前几位,这个消息就是这个男性作者Robert Galbraith,其实不仅是一位女性,而且就是写过7集《哈利波特》,并且以此书成为历史上第一位靠写作收入超过10亿美元的作家,J.K.Rowling(J.K.罗琳)。

以罗琳的知名度和在写作上的成功,她的小说攀升到畅销榜前几位不稀奇,但是这里面有两个有趣的地方:1、罗琳为什么要隐姓埋名以男人的身份来发表新作呢,2、外界如何发现罗琳是真正的作者的?

关于第一个问题,我想并不难理解,作为一个从不名一文开始写起,最终在写作上无可附加地成功,在经济上更是前无古人的作家,继续写作的动力可能并不大,然而重新开始的乐趣反而远远大于靠写作赚钱了。

这也从罗琳后来的解释中得到印证,“我一直希望这个秘密能够保持更久一些,因为做为Robert Galbraith是这样一种自由的体验,以另一个名字发表,没有任何期望值和吹嘘是如此地美妙”。

第二个问题,才是我今天要写的要点,这个发现恰恰与大数据有一些关系。

这起源于英国《星期日泰晤士报》美术编辑理查德.布鲁克斯(RichardBrooks)收到了一条匿名的Twitter消息,透露罗琳才是《布谷鸟的呼唤》一书的作者。

为了证明这条情报的真实性,理查德先生甚至雇佣了私家侦探,而这一动作恰恰和《布谷鸟的呼唤》中描述的一模一样。

最终,恰恰是大数据技术帮助理查德破译了这里面的一切秘密。

理查德请到两位计算机语言学家来帮助他,而使用的类似法医的方法就是对《布谷鸟的呼唤》、罗琳的另外两部小说《临时空缺》(TheCasualVacancy)和哈利波特的最后一部《哈利波特与死亡圣器》进行科学比对,比对的内容包括:

1、在每一本书里对比所有的词组,或者相连续的短语集。

2、通过一种称为“N-gram”的算法做语言模型来分析用词或字符的序列关系,例如:对“to be or not to be”这一名句的基于词的2-gram序列包括“to be, be or,or not, not to, to be”。

3、对每本书中使用最频繁的100个词进行比较,对比它们出现频率的细微差别。

4、简单分析词的长度,排除词义的因素。

5、主成份分析,对比每本书中的六大特点:单词长度,句子长度,段落长度,字符频率,标点频率,及词用法。

5个小时后,这些计算机语言学家们利用这些大数据的分析技术“证明”了Robert Galbraith正是J.K.Rowling。

当然,当这些文本分析的技术用于中文的时候,会遇到一个完全不同的挑战,既“中文分词”。

而这个中文分词的技术恰恰反映了中文作为一种语言的独特特点,因为中文不像所有的西方语言那样有空格来区分词与词,必须要通过前后字与字的关系,加以上下文的关系,来分析文本中的“词”,而这也是中文世界中大数据的有趣领域,更是中国的计算机语言学家们发挥的巨大空间所在。

上一篇:打造一流行业协会 下一篇:电子商务采购优势及其运用策略