扩展机器学习

时间:2022-05-08 07:53:01

扩展机器学习

随着移动终端的兴起,数据的产生已经成了一种非常廉价并且随时随地都可完成的技术。而移动互联网的发展又促进了数据的产生、流动和集中。现实生活中我们可以非常轻松地刷新微博感受周围世界的变化,也可以通过手机的拍照功能在网上分享我们生活中的精彩时刻。我们发现,与我们现实世界相对应的数字化世界正在急剧地膨胀,新的信息随时随地都在产生,在这种背景下很多科学家们认为我们正在迎来一个新的时代,“大数据”时代。在“大数据”时代,如何为每个人快速找到他们需要的信息是计算机科学家们所面临的严峻挑战。他们必须利用机器学习技术,让计算机程序自动为人们搜寻具备潜在价值的信息。然而在过去几十年里,庞大的数据量成了机器学习技术面临的又一重大问题。目前这一领域面临着一个巨大的挑战,那就是机器学习的可扩展性问题,即如何面对海量的数据提出高效的学习算法。本书是关于这一主题的第一本专著。

本书围绕并行计算和分布式计算介绍了机器学习算法的扩展问题。全书共21章。在第1章引言介绍之后,又分4个部分,其中第1部分讨论了扩展机器学习的相关架构,含第2-5章:2.MapReduce及其在组合决策树学习中大规模并行的应用;3.介绍了利用DryadLINQ进行大规模机器学习;4.介绍了IBM并行学习工具库;5.介绍了机器学习算法中的均匀细粒度数据并行计算。第2部分介绍了监督和非监督学习,含第6-13章:6.基于不完全Cholesky分解的并行支持向量机PSVM;7.利用硬件加速的大规模并行支持向量机;8.利用自举决策树进行大规模排序学习;9.变换回归算法;10.因子图中的并行信任扩散方法;11.在潜在变量模型中的并行吉布斯采样;12.使用MapReduce和MPI进行大规模谱聚类;13.基于信息论的并行聚类方法。第3部分其他的学习模式,含第14-17章:14.并行在线学习;15.介绍了基于图的并行半监督学习;16.介绍了基于关联矩阵分解的分布式转移学习;17.大规模并行特征选择。第4部分相关应用,含第18-21章:18.利用GPU在计算机视觉中进行大规模学习;19.基于大规模FPGA的卷积网络学习;20.在多核系统上对树结构数据进行挖掘;21.自动语音识别的可扩展并行化方法。

本书是可扩展机器学习领域难得的专著,本书第一编著者Ron Bekkerman目前是LinkedIn的高级研究人员,第二编著者Mikhail Bileno目前是微软机器学习研究组的成员,而第三编著者John Lanford则是雅虎公司的科学家。另外值得注意的是本书每一章的作者既有来自斯坦福、耶鲁、卡内基梅隆等著名高校的教授,也有来自雅虎、谷歌、 IBM 、惠普、微软等工业界研究院的资深研究人员。对于目前国内如火如荼的“大数据”研究来说,相信本书会为广大研究生和科研人员提供不可替代的第一线经验。

上一篇:相对论宇宙学 下一篇:万维网数据管理