基于大数据的最大期望算法研究

时间:2022-09-02 12:52:05

基于大数据的最大期望算法研究

摘要:随着信息化时代的到来,在数据爆炸、多样化以及数据更新快速的时代下,大数据分析应用日益受到重视,在商业智慧领域也无法避免,过去所处理的数据大都是属于结构性,亦为传统数据库用于协助解决商业行为的数据结构。近年来,由于数据量大,数据产生多元化,对海量数据处理要求及时性和高交互性,同时要求低误差,特别是非结构数据的大量形成,强烈冲击传统数据库的技术与应用,在大数据应用中由于大数据数据类别多、形成速度快,人们在使用网上购物、动车订票、筛选影片、现实零售购物、找工作等方面都有一个期望,为了使这个期望值非常满足人们的需要,本文先对大数据做一个阐述并就当前大数据环境下,对使用最大期望算法,以大学生求职应用为例,从数据挖掘的角度,利用数学知识来确定最大期望算法中最大似然估计值并进行了相关研究。确定最大期望算法适合大数据的环境,是大数据环境下数据处理的又一选择。

关键词:大数据 期望最大化 算法

中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2015)04-0124-02

1 引言

随着信息化时代的到来,公共数据和个人数据都在以几何级数的速度增长,人们对信息数据的需求、海量数据的处理对传统数据挖掘算法的挑战正不可避免, 我们生活在数据时代,全球数据总量的具体数值是难以想象的,面对海量数据,人们在工作、学习、生活的每个领域都要从海量的数据中寻找一个理想的期望值。人们在遨游淘宝、微商和各种网上零售购物,从海量的影片中筛选期望的影片及求职找工作时同时又不同的公司不同的职位进行期望比较。通过数据挖掘,利用数学知识以大学生求职找工作为例来确定最大期望算法中最大似然估计值来找到期望的工作,事实证明当前大数据背景下海量数据的处理。从传统的数据挖掘算法中,最大期望算法适合大数据的数据挖掘,是我们选择处理大数据环境的重要方法。

2 大数据和最大期望算法概述

随着公共数据和个人数据呈几何级数的急剧增长,大数据已深入到人们的工作、生活、学习当中。面对海量数据,我们会感到束手无策,当我们要对每天的工作进行数据分析,对每一天在生活中所使用的数据以及在获取知识学习中所产生的数据进行分析时,都有一个共同点,就是要满足人们在工作、生活、学习中的需要也就是期望,我们可以利用数据挖掘中的最大期望算法来实现。

2.1 大数据的概述

大数据是一个仁者见仁智者见智的广泛概念,大数据的研究先驱麦肯锡在报告中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。

国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

亚马逊的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。

维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”

上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。通过采用对多个行业调研、分发调查问卷、面对面交流沟通和参加有关大数据的会议,经过归纳总结给出了自己的定义:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用。它能帮助大家干什么?在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。

2.2 最大期望算法定义

最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,其主要核心思想是用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在第一步计算期望值E的基础上求得的最大似然值来计算参数的值。在最大化M 基础上找到的参数估计值被用于下一个 最大期望计算中,这个过程不断交替进行。

3 基于大数据的最大期望算法研究

面对海量的数据规模、快速的数据流转和动态的数据体系、多样的数据类型、我们采用最大期望算法来获取巨大的数据价值。本章将对大数据中采用最大期望算法的理论进行分析,对大数据中最大期望算法推导、最大似然估计值进行了相关的研究。

3.1 大数据中采用最大期望算法的理论分析

在海量的数据中,我们用最大期望算法来计算出我们所需要的最大似然估计值。这不太好理解,毕竟数学知识有限,那就举个典型的例子来对大数据中采用最大期望算法进行形象的说明。来对大数据中采用最大期望算法进行通俗的理论分析。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,把比较多的那一份取出一点放到另一个碗中,这个过程一直迭代地执行下去,直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。最大期望算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。那我们用数学语言来描述为:假如有200人的学生群体,把这群体分为男生和女生两部分,我们先随便猜一下男生身高的正态分布的参数,即均值和方差是多少,如果男生的均值是1.7米,方差是0.1米,然后计算出每个人更可能属于第一个还是第二个正态分布中,有一个同学,他身高是1.8米,那很明显,他最大可能是属于男生的那个正态分布。按照同样的办法,我们把这200名同学,分成男生和女生的两个正态分布中。我们根据最大似然值,把刚刚分入男生正态分布的N个人重新进行估计男生正态分布的参数,同时也对200―N个女生重新进行估计女生正态分布的参数。这样,两个分布的概率改变了,我们就要调整期望值,如此这样不停的反复迭代,直到参数基本不在发生变化为止。

3.2 大数据中最大期望算法推导

结合上面的例子,我们把每个人作为一样本,利用样本来完整的描述整体,我们把整体看做一个三元组Yi={xi,zi1,zi2}, xi是第i个样本的观测值,zi1和zi2是利用高斯分布,zij在由第j个高斯分布产生时值为1,否则为0,假如一个样本的观测值为1.8,来自男生的高斯分布,样本就可表示为{1.8,1,0},此时如果知道zi1和zi2的值,我们就可以知道任何一个样本是男生还是女生了。而在大数据中,我们虽然能标出具体样本是男生还是女生,但我们总想要有个最大的期望值,也就是要让我们找到的样本最接近、最适合。我们利用概率论的原理,一个随机变量的期望值就是变量的输出值乘以其概率的总和,通俗说期望值就是该变量输出值的平均数。期望值表示为:E[X]=。

3.3 最大似然估计值

最大似然估计值得思想是:已知某个参数能使这个样本出现的概率最大,在生活中,我们当然不会去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值,这其实也概率论在统计学中的典型应用,也是参数估计的方法之一。

4 基于大数据的最大期望算法应用案例

随着大数据的应用越来越广泛,我们每日都可以看到大数据的一些新颖的应用,这些新颖的应用帮助人们从中获取到真正有用的价值。许多组织或者个人都会受到大数据的剖析影响,但是大数据是怎样帮助人们挖掘出有价值的信息呢?下面就结合上面的大数据的最大期望算法,以大学生求职为例来进行阐述。我们设想某大学生甲在求职过程中得到了三个公司的面试通知,按面试时间的顺序,这三家公司分别记为A、B、C,假定每家公司有三种不同的职位:极好、好和一般,估计能得到这些职位的概率为0.2、0.3、0.4,被拒绝的可能性为0.1,按规定,双方在面试后要立即作出决定提供、接受或拒绝某种职位,三家公司的工资承诺如表1所示。

现在我们采取最大期望受益的原则。由于面试从A公司开始,甲在选择A公司三种职位时必须考虑后面B、C公司的待遇,同样在B公司面试时也必须考试C公司的待遇。因此从C公司开始讨论。即第三次面试工资的期望值为:=4000 *0.2+3000*0.3+2500*0.4=2700,而B公司一般职位工资只有2500元,低于C公司的期望工资,因此在面对B公司时只接受极好和好的职位,否则去C公司。而第二次面试的期望值可由以下数据求知:极好的职位工资3900元,好的职位工资2950元,接受第三次面试期望工资2700元。所以第二次面试工资期望值为 =3900*0.2+2950*0.3+2700*0.5=3015元。最后考虑A公司,A公司只有极好职位工资超过3015元,因此甲只接受A公司的极好职位。

这样,对于三次面试应采取的决策是:A公司只接受极好的职位,否则去B公司,在B公司可接受极好的和好的职位,否则去C公司,在C公司可接受任何可能提供的职位。在这一策略下甲工资总的期望值为3500*0.2+3015*0.8=3112元。因此在求职时收到多份面试通知时,应用期望受益最大的原则不仅可以提高就业机会,同时可提高工资的期望值。

5 结语

本文首先从大数据的定义入手,对大数据进行了简单的阐述,并对基于大数据的最大期望算法进行了研究,以大学生求职为具体实例,从数据挖掘的角度,利用数学知识来确定大学生求职的最大期望,从计算出来的最大似然估计值,来确定大学生找到自己最期望的工作。事实证明基于大数据的最大期望算法符合大数据数据处理的需要。

参考文献

[1]王修君.高效数据流和海量文本处理算法研究[D].中国科学技术大学,2011年.

[2]楼巍.面向大数据的高维数据挖掘技术研究[D].上海大学,2013年.

[3]王珊,王会举,覃雄派,周@.架构大数据:挑战、现状与展望[J].计算机学报,2011年10期.

[4]蔡磊,程国建,潘华贤,贾峰.分类大规模数据的核向量机方法研究[J].西安石油大学学报(自然科学版),2009年05期.

[5]刘赫,张相洪,刘大有,李燕军,尹立军.一种基于最大边缘相关的特征选择方法[J].计算机研究与发展,2012年02期.

上一篇:大数据时代数据挖掘技术浅析 下一篇:计算机取证技术及其发展方向