社交挖掘:谁是下一个Google

时间:2022-02-17 01:14:22

社交挖掘:谁是下一个Google

Pagerank是Google排名运算法则(排名公式)的一部分,是Google用来标识网页的等级/重要性的一种方法,也是Google衡量一个网站好坏的唯一标准。在糅合了诸如Title标识和Keywords标识等所有其他因素之后,Google通过pagerank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中的排名获得提升,从而提高搜索结果的相关性和质量。

见到袁雨来的时候,他正在和团队完善产品。他们总共十几个人,在中关村租了一套Loft结构的公寓,专心开发基于社交网络的应用。

从表面看,他们和其他互联网团队无异,但在袁雨来眼里,他们做的事情门槛很高:通过社交网络,利用高效的算法获知用户的喜好,从而为其荐歌。形象地说,他们知道你喜欢听什么样的歌曲,也知道你喜欢的歌曲在哪里,然后基于社交关系把音乐推荐给你。

走出象牙塔

袁雨来的产品叫音贝网,新版在8月24日上线后已经有了20万用户。音贝不判断歌曲的舒缓、摇滚等属性,而是根据一些原则为歌曲编织一个网络——在用户关系网和歌曲组织网之间相互映射,最终圈定用户喜欢的歌曲。

要实现这个目的,就需要过硬的算法。在这方面,音贝具有自己的优势,袁雨来两年前毕业于清华大学,获有高性能计算博士学位。他的团队中有4个人研究算法,其中包括一个他在清华的同学。

面对《创业家》,袁雨来更愿意用“社交数据挖掘”来形容自己的项目,这是一个专业性极强的工作。国内一些高校在对此进行研究,因此很多团队都和他们的母校有着天然的联系。

以清华大学为例,计算机科学与技术系的唐杰和陈文光教授都是社交网络的研究者,袁雨来正是毕业于这个系。此外,在电子科技大学计算机学院,29岁的博导周涛也是这方面的专家,这位本科就开始“带”博士生的牛人精于数据算法,同时也是电商营销公司百分点的首席科学家。周涛的学生黄宇于去年创办了“唯朋友”,这是一个基于微博,促进你和好友之间的互动,以加深社交关系的数据挖掘项目。

此外,北大、北航、上海交大、哈工大都有师生研究社交网络,他们为国内的社交数据挖掘提供了学术支持和项目储备。但另一方面,这也促成了这个群体的小众特征,毕竟一个复杂的算法不是随便哪个人都能做的。

某种程度上,这些项目还带有实验性质。比如哈工大博士于霄创办的知微,就脱胎于哈工大的社会网络与数据挖掘联合实验室。清华大学计算机副主任陈文光教授带了一个项目,叫社会化网络分析平台,他们和海银资本共同搭建了一个数据池,陈教授的研究成果可以直接为海银资本孵化的项目调用。

“社交网络在全世界都是个新兴科学,社交网络这个词都没几年的历史”,海银资本创始合伙人王煜全近几年一直在研究社交网络,坚信这是互联网的发展趋势。他认为,互联网自诞生那天起就是一个社交网络,只不过是基于物理性质的连接,Google的pagerank本质上就是个社会化算法,只不过是用这个社会化算法处理文本和网页,用社会化算法去处理人和人背后的信息,原理其实都是一样的。

乐荐网络创始人戴虎宁建了一个专门讨论社交数据挖掘的QQ群,里面大约有300人,基本囊括了中国研究社交数据的高手,里面好多人没有创业,好多还是学生。“出来创业的估计30支团队到头儿了”,王煜全说,“我觉得他们是未来的比尔.盖茨,具体是谁我不知道,但一定在这堆人里。”

新的颠覆者?

Twitter、Facebook、Foursquare等的出现,真正把人们带入了社交网络时代。“社交网络在科技上有巨大的提升空间,比如对一个人的精确分析,没有社交网络就永远达不到那种精度。”王煜全说这句话的背景是:数据挖掘早已有之,但社交网络的数据挖掘还是个新课题。

随着用户的疯狂增长,社交网络产生的数据量是惊人的。每过一分钟,Flicker上会有3125张照片上传,Facebook上新70万条信息,YouTube上则有200万次点击观赏。图片、声音、文字以及背后的用户习惯和轨迹构成了互联网上的数据资源,社交网络与大数据是天生的亲密伙伴。

这些数据价值密度不高,要挖掘出有用的那部分是个力气活。以Zynga为例,这是一家寄生在Facebook上的社交游戏公司,它的游戏强调好友之间的合作。为了黏住用户,Zynga每天大约要收集600亿个数据点,包括人们一般玩多久游戏,什么时候玩,喜欢购买什么游戏物品等。从某种意义上说,Zynga可能比你自己还清楚地知道你的潜意识决策。

在清华大学陈文光教授看来,社交网络是下一代应用层面的互联网。“第一代是雅虎、新闻门户等,第二代是搜索引擎,第三代就是社交网络,它不仅是连接信息,更是连接人,会和社会学、心理学、经济学有很多交互的地方,从研究的角度来讲是非常有意思的事儿。”

今年上半年,美国曼彻斯特大学的研究团队做了一个实验,他们通过分析Twitter上的数据,提前8天预报了流感的爆发。在一个月内,研究小组收集了440万个Twitter留言的地理定位数据标签,使用一种特殊的算法进行处理(类似语义分析),从而预测不同地区的流感发病率。

这似乎印证了《爆发》一书作者、全球复杂网络研究权威巴拉巴西教授的观点。他基于社会化大数据基础,认为人类行为有93%是可以预测的。如果确实如此,那么社交网络中无疑蕴藏着巨大的商业价值。

在 《创业家》采访的团队中,新影数讯(iFilm+)擅长预测。他们通过对微博和过往资料数据的分析来预测电影票房,同时给影片提供营销建议。创始人刘晗透露,其票房预测准确度可达85%。他们的做法是首先确定影响票房的变量,如演员、档期、上映时间、首映地等,一些看似与数字无关的事项都被按规则加以量化;然后,他们从统计年鉴中查到了1990年以来上映的四五百部电影数据,让计算机逆向推导出定量,从而确定公式。预测时把社交网络中反映出的演员热度、电影关注度以及预定的上映时间等变量填入公式,进行测算。

真实的算法远比上面的描述更复杂。刘晗演示时,笔记本屏幕上密密麻麻布满了数学符号,但电脑要精确计算出人类的行为,仍需继续探索。“预测准确度提升1%,都需要做大量复杂的工作,必须找到并引入新的变量才行。”刘晗说。

上一篇:加强烟草企业反腐倡廉建设的几点思考 下一篇:浅析公司内部治理和内部会计控制