Kaggle寻找数据科学界的老虎伍兹

时间:2022-07-01 08:18:02

Kaggle寻找数据科学界的老虎伍兹

让电脑对一份论文打分,能给出可靠的分数吗?通过分析一个人在Twitter等社交媒体上的社交信息,就能探测出他(她)的个性特征以及患精神病的危险程度吗?这些看似疯狂的想法,都是一家名叫Kaggle的在线网站曾举行过的比赛项目。

这是一家位于美国旧金山的初创企业,一个拥有近11万名数据科学家的在线社区,一个大数据分析的众包平台,在2010年启动,2011年11月获得了1100万美元的风险投资。

与Kaggle合作的公司或机构,提交一些相关数据到Kaggle平台,进而提出一个问题,Kaggle网站上来自世界各地的计算机科学家和数学家,也就是现在所说的数据科学家,将领取任务,通过竞赛产生最好的模型并获得大奖(奖金由那些需要情报的公司提供),而且有机会提供咨询服务,而与Kaggle合作的公司或机构将最终拥有数据分析的结果、模型等知识产权。

换句话说,Kaggle在数据问题和数据解决方案架起了一座桥梁。Kaggle对于参赛的数据科学家是免费的,它在组织这些竞赛时会向企业收取费用。

到目前为止Kaggle已经做出了许多突破性成功,包括帮助改进了微软Kinect体感产品。

在Anthony Goldbloom看来,Kaggle上举行的竞赛,就像是职业高尔夫球巡回赛,他们试图借此找到数据科学世界里面的伍兹(Tiger Woods)。今年29岁的Anthony是Kaggle的联合创始人兼CEO。

Kaggle成功的关键就是它的社区:近11万名在线的数据科学家。这也是目前世界上最大的数据科学家社区。它是怎样吸引到第一批用户的?在Anthony看来,数据科学竞赛是“吸引最聪明的,最奇怪和最有创意的数据科学家的非常有效的方式”。Kaggle早期是通过机器学习竞赛来吸引用户。早期的比赛项目比如基于悉尼的历史交通数据来建立一个算法,来预测在悉尼的旅行时间等。

Kaggle目前的用户主要分布在北美,澳大利亚和东欧。“我们通过与腾讯的合作,得到了一个来自中国的‘招生大户’。” Anthony说。Kaggle与腾讯的合作,帮助后者解决了两个问题,帮助腾讯建立了一套预测腾讯不同广告的点击率效果的算法,以及给腾讯微博建立了一种“关注”算法。

在Kaggle的客户名单上,GE、微软、Facebook、Tesco、福特等赫然在列,甚至包括NASA(美国宇航局),当然它也服务规模较小的企业,帮助客户解决所有的数据科学问题,例如提高销售预测,客户细分,留住客户,优化定价等等。

Kaggle并不是以众包方式专注于大数据分析领域的唯一一家创业公司,类似的还有CrowdAnalytix,TunedIT等。Kaggle的优势是什么?

“超过10万名的数据科学家在线,而且极其活跃,Kaggle已经形成具有流动性的数据科学人才的市场。 TunedIT和CrowdAnaltix没有太多的数据科学家,也不是一个活跃的社区。”Anthony这样回答。

Kaggle还投资于基础设施建设,藉此能够向企业或机构客户提供安全的数据托管服务,据Anthony介绍,这种服务也是大部分客户所要求的。

事实上,Kaggle还有一个创新之处,即该公司的新服务Kaggle Connect。通过该服务,Kaggle可以对接这样的“供需”:有特殊要求的企业或机构客户,可以聘请到最适合解决这个问题、具有特殊技能的数据科学家。Anthony称他们是数据科学家里的“精英”,在Kaggle网站上排名前1%的一半,相当于大约500名数据科学家。

Kaggle是如何发现这些大数据分析领域的精英的?Anthony说,通过他们在科学竞赛中的表现,以及通过“竞赛”积累积分在Kaggle上获得的排名。据悉,Kaggle的排名榜,在专业人士圈内有很大影响力,也成为该领域人员技术水平高低的公认标杆。

如此看来,Kaggle不仅仅是一个大数据分析的众包平台,而是创造了一个全新的劳动力市场和评价体系。对于那些希望利用大数据分析改进业务的企业来说,Kaggle的大数据分析的众包模式,正好解决了两大难题:人才和想法。

这已经是趋势性的需求:一方面,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。另一方面,数据科学家成为了当下以及未来最稀缺的资源。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临14万至19万具备深入分析数据能力人才的缺口,同时还有150万数据管理人员和分析师的缺口,他们能通过分析大数据为企业做出有效的决策。

市场如此之大,像Kaggle这样的初创企业面临的最大挑战是什么?“如何教育客户,让他们敏锐地意识到转型的数据科学的价值。”Anthony说。Kaggle团队的愿景是,希望帮助每个行业中每家公司,每家公司中的每个部门,实现数据科学的力量。

未来的世界是大数据的世界,所有的人都预测在这个领域内将来会产生一批伟大的公司。Kaggle会是其中之一吗?

上一篇:语言上的中国政治变迁史 下一篇:优鲨的分销王之路

文档上传者
热门推荐 更多>