Yebol搜索:一个知识型杀手的告白

时间:2022-04-23 12:27:10

Yebol搜索:一个知识型杀手的告白

“搜索是一个‘九一’问题,今天,我们已经解决了90%的问题,但剩下的10%却要花90%的努力。”在2008年9月Google成立10周年之际,Google副总裁梅耶尔在博客中写道。当时,Google在全球搜索市场的占有率已经超过80%。

然而,就在这个Google苦心经营10年且已构成事实垄断的搜索市场,居然还会有人看中这个事倍功半的差事,接二连三地涌进来:2009年5月18日,Wolfram Research公司正式Wolfram|Alpha;5月28日,微软正式Bing;6月初,Yebol公司在硅谷Yebol。尽管三家冠以的名称不同――“可计算的知识引擎”、“决策引擎”、“基于知识的搜索”,但揪住现有搜索引擎的弱点是这三家公司的共同点,尽管他们各有各的招数。

8月6日,《中国计算机报》记者电话越洋采访了Yebol公司创始人、CEO尹红风博士。

心中总有搜索梦

1997年,从加拿大Concordia大学拿到计算机科学博士学位的尹红风来到美国,在位于加州的硅谷一家半导体公司一直工作到2001年,期间,他作为高级工程师,主持缺陷自动分类系统的研发。在盛行“车库创新文化”的硅谷,他利用业余时间把萌芽于在国内读研究生时的搜索想法,做成一个演示系统,向自己的朋友展示。

2002年,尹红风创办了Broad Mining公司,意思是广博挖掘。Broad Mining通过数据挖掘、机器学习和人工智能等方法,自动从复杂、海量信息中发现和提取知识,建立知识库,进而在线提供基于知识的搜索引擎服务。

过了一段时间,尹红风发现一个奇怪的现象:那些频频登录者的IP地址大都指向业内几家知名的公司。由于尹红风专注的是搜索,加之势单力薄,无暇顾及网站其他方面的建设特别是安全方面的问题。为了保护自己的技术,他很快就关闭了Broad Mining的搜索服务,接着,他为自己的搜索技术申请专利。2005年,美国专利和商标局批准了他的专利。

关闭了Broad Mining,尹红风加盟Yahoo,在数据挖掘与研究部任职高级研究人员。他主持研究开发的基于行为的精准广告系统,在他离开的时候,为雅虎的年收入贡献了数亿美元,而他刚进雅虎时,雅虎原有的广告系统年收入只有100多万美元。

互联网由于其超乎寻常的海量数据,开发人员要直面全新的挑战,而且,在这种数据规模“从量变到质变”的过程中,以往不成问题的问题也变得很成问题了。因此,研发人员的经验和见识就变得十分重要了。

雅虎当时有5亿多注册用户,根据用户以往浏览习惯等方式积累的信息量很多,雅虎仅是对这些信息进行的分类就有数千种。

尹红风坦言,在雅虎学到了很多东西,其中最大的收获是,从一开始就在雅虎最核心的部门工作,整日在全球最大的数据平台上工作,经历了从项目开发直到产生显著经济效益的完整过程,这种经历和经验是十分难得的。

到了2007年,他认为本应做得很好的雅虎在企业发展方向上出了问题,于是,他离开了雅虎。

2008年,尹红风创办了Yebol公司,去实现自己久久萦绕心中的梦想。

新搜索:胜算算法

“Google副总裁说的没错,现有搜索技术中90%的问题已经解决。但新一代搜索技术自身的问题,解决的还不到10%。”尹红风在越洋电话中说。

“回顾搜索历史,刚开始时,雅虎可以用人工对网站进行目录分类,因为当时网站只有几百个。当网站数量到了百万规模时,人工方法就难以为继了,于是搜索应运而生。但现有的搜索也有它自身的问题,在Google上搜索一下Google,搜索结果有20多亿个,这种线性排列的方式有多大意义呢?”

Yebol的搜索技术源于尹红风在中科院自动化所进行的用联想记忆模式和人工神经元网络来对人类的形象思维进行模拟。当这一研究成果用于搜索网站,使得智能知识库建立成为可能。由机器生成的知识库系统能处理上万亿条词目,比维基百科等人工生成的有数百万条词目的知识库规模高出几个数量级,生成速度更是人工方式望尘莫及的。

但机器自动生成的知识库不如人工生成的精确。于是,Yebol整合了机器算法和人的知识为每一次查询建立一份网站目录,运用关联、聚类和分类的算法自动为查询生成知识。

尹红风表示,基于知识的搜索从根本上改变了搜寻结果的显示方式,Yebol可以在传统显示10个链接的页面上,显示上百条经过分类的链接。这就大大减少了用户查找目标信息的时间,同时也给用户提供了丰富的浏览渠道。

记者认为,Yebol抓取了10亿个网页,建立了1000万个词目的知识库,费用一定不菲,因为Google几年前对外宣布的网页数为80亿个,而Google在服务器和存储方面的投资非常大。

“我们的系统放在亚马逊的云计算平台上,只需一个指令发过去,就可以扩展资源;而在雅虎,则要写申请,然后层层上报,直到雅虎的两名创始人之一大卫・费罗批准,这一过程可能要耗时数月。”尹红风回应说。

云计算的“硬件和平台即服务”这样的以租代购理念,使得像Yebol这样的新兴互联网公司免除了资金和系统规模迅速扩张等后顾之忧。因此,尹红风很有底气地说:“我们计划抓取100亿的网页,建立拥有1亿个概念的知识库。”

新一代搜索引擎会颠覆或者与现有搜索引擎共存吗?尹红风没有直接回答这个问题,他说:“5年前,我在自动化所说过,10年后,现有的搜索将会被淘汰,因为信息太多,产生的速度太快,而现有搜索技术在相关性上提高的空间已经很小了,因而很难适应这种变化。这才过去5年,我们已经看到这种趋势了。”

回国发展,但又……

Yebol正在北京组建研发团队,招募软件工程师。他们希望把这些人送到硅谷培训数月,增长才干,开拓眼界。

现如今,“投资少、见效快”的垂直搜索在国内炙手可热,Yebol也尝试着申请国家在搜索方面的项目或基金,但弄来弄去,就归到了垂直搜索那一堆儿了。这让广义搜索的Yebol有点郁闷。

上一篇:汉王电纸书:手写标注成为可能 下一篇:身份认证:从手指到人脸