时间:2023-02-25 18:08:49
关键词:数据分析;预测分析;大数据分析
1.概述
数据分析是指收集、处理数据并获取信息的过程。具体地说,数据分析是建立审计分析模型,对数据进行核对、检查、复算、判断等操作,将被审计数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。通过数据分析,我们可以将隐没在杂乱无章的数据中的信息集中、萃取和提炼,进而找出所研究对象的内在规律。
数据分析有极广泛的应用范围。在产品的整个生命周期内,数据分析过程是质量管理体系的支持过程,包括从产品的市场调研到售后服务以及最终处置都需要适当运用数据分析,以提升有效性。如一个企业领导人通过市场调查,分析所得数据判定市场动向,从而制订合适的生产及销售计划。
2.数据分析的基本方法
数据分析的基本方法除了包括较简单数学运算之外,还包含下述几种常用方法。
2.1统计
统计有合计、总计之意,指对某一现象的有关数据进行搜集、整理、计算、分析、解释、表述等。在实际应用中,统计含义一般包括统计工作、统计资料和统计科学。
(1)统计工作。统计工作指利用科学方法对相关数据进行搜集、整理和分析并提供关于社会经济现象数量资料的工作的总称,是统计的基础。统计工作也称统计实践或统计活动。现实生活中,统计工作作为一种认识社会经济现象总体和自然现象总体的实践过程,一般包括统计设计、统计调查、统计整理和统计分析4个环节。
(2)统计资料。统计资料又称为统计信息,是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。统计资料是通过统计工作获得反映社会经济现象的数据资料的总称,反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编、统计分析报告和其他有关统计信息的载体中。统计资料也包括调查取得的原始资料和经过整理、加工的次级资料。
(3)统计学。统计学是统计工作经验的总结和理论概括,是系统化的知识体系,主要研究搜集、整理和分析统计资料的理论与方法。统计学利用概率论建立数学模型,收集所观察系统的数据,进行量化分析与总结,进而推断和预测,为相关决策提供依据和参考。
统计分析的流程是确定分析目标,收集、整理和分析数据,提出分析报告。
2.2快速傅里叶变换
1965年,Cooley和Tukey提出了计算离散傅里叶变换(DFT)的快速算法――快速傅氏变换(FFT)。FFT根据DFT的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进,将DFT的运算量减少了几个数量级。从此,数字信号处理这门新兴学科也随FFT的出现和发展而迅速发展。根据对序列分解与选取方法的不同而产生了FFT的多种算法,基本算法是基2DIT和基2DIF。FFT在离散傅里叶反变换、线性卷积和线性相关等方面也有重要应用。
2.3平滑和滤波
平滑和滤波是低频增强的空间域滤波技术,其目的是模糊和消除噪音。空间域的平滑和滤波一般采用简均法进行,就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关,邻域越大,平滑的效果越好,但邻域过大,平滑会使边缘信息损失增大,从而使输出的图像变得模糊,因此需合理选择邻域的大小。
2.4基线和峰值
基线是项目储存库中每个工件版本在特定时期的一个快照。它提供一个正式标准,随后的工作基于此标准,只有经过授权后才能变更这个标准。建立一个初始基线后,每次对其进行的变更都将记录为一个差值,直到建成下一个基线。
峰值功率就是最高能支持的功率。电源的峰值功率指电源短时问内能达到的最大功率,通常仅能维持30s左右的时间。一般情况下电源峰值功率可以超过最大输出功率50%左右,由于硬盘在启动状态下所需要的能量远远大于其正常工作时的数值,因此系统经常利用这一缓冲为硬盘提供启动所需的电流,启动到全速后就会恢复到正常水平。峰值功率没有什么实际意义,因为电源一般不能在峰值输出时稳定工作。
2.5列表与作图
(1)列表。将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的物理关系;此外还要求在表栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等;最后还要求写明表格名称,主要测量仪器的型号、量程和准确度等级,有关环境条件参数(如温度、湿度)等。
(2)作图。作图可以显式地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果,如直线的斜率和截距值等,读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系通过一定的变换用直线图表示出来。
3.数据分析的类型
3.1探索性数据分析
探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统汁学假设检验手段的补充。探索性数据分析侧重于在数据之中发现新的特征。
3.2定性数据分析
定性数据分析又称为定性资料分析,是指定性研究照片、观察结果等非数值型数据(或者说资料)的分析。
3.3离线数据分析
离线数据分析用于较复杂和耗时的数据分析和处理。由于大数据的数据量已经远远超出单个计算机的存储和处理能力,离线数据分析通常构建在云计算平台之上,如开源的Hadoop的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时问为几分钟、几个小时、几天甚至更长。
3.4在线数据分析
在线数据分析(OLAP,也称为联机分析处理)用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。尽管与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQLm系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。
4.数据分析步骤
最初的数据可能杂乱无章且无规律,要通过作图、造表和各种形式的拟合来计算某些特征量,探索规律性的可能形式。这就需要研究用何种方式去寻找和揭示隐含在数据中的规律性。首先在探索性分析的基础上提出几种模型,再通过进一步的分析从中选择所需的模型。通常使用数理统计方法对所选定模型或估计的可靠程度和精确程度作出推断,数据分析的具体步骤如下。
(1)识别信息需求。识别信息需求可以为收集数据、分析数据提供清晰的目标,是确保数据分析过程有效性的首要条件。
(2)收集数据。有目的的收集数据是确保数据分析过程有效的基础,需要对收集数据的内容、渠道、方法进行策划,主要考虑:①将识别信息需求转化为更具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定性等相关数据;②明确由谁在何时何处,通过何种渠道和方法收集数据;③记录表应便于使用;④采取有效措施,防止数据丢失和虚假数据对系统的干扰。
(3)分析数据。分析数据是指将收集到的数据通过加工、整理和分析后,将其转化为信息的过程。常用的分析数据方法有排列图、因果图、分层法、调查表、散布图、直方图、控制图、关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。
5.大数据分析基础
大数据分析是指对规模巨大的数据进行分析,在研究大量的数据的过程中寻找模式、相关性和其他有用的信息,可以帮助需求者更好地适应变化,做出更明智的决策。
5.1可视化分析
大数据分析的使用者有大数据分析专家和普通用户,他们对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观地呈现大数据特点,让数据自己说明,让观者看到结果。
5.2数据挖掘
大数据分析的理论核心就是数据挖掘。各种数据挖掘的算法基于不同的数据类型和格式能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据的价值也就无从说起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入数据内部去挖掘价值。这些算法不仅能够处理大数据的数据量,也一定程度地满足处理大数据的速度要求。
5.3预测性分析
预测性分析可以让分析员根据可视化分析和数据挖掘的结果作出预测性判断。
5.4语义引擎
由于非结构化数据与异构数据等的多样性带来了数据分析的新的挑战与困难,需要一系列的工具去解析、提取、分析数据。语义引擎需要被设计成能够从文档中智能提取信息,使之能从大数据中挖掘出特点,通过科学建模和输入新的数据,从而预测未来的数据。
5.5数据质量和数据管理
大数据分析离不开数据质量和数据管理,高质量数据和有效的数据管理能够保证分析结果的真实和有价值。
6.大数据预测分析
预测分析是大数据技术的核心应用,如电子商务网站通过数据预测顾客是否会购买推荐的产品,信贷公司通过数据预测借款人是否会违约,执法部门用大数据预测特定地点发生犯罪的可能性,交通部门利用数据预测交通流量等。预测是人类本能的一部分,只有通过大数据分析才能获取智能的、有价值的信息。越来越多的应用涉及到大数据,大数据的属性描述了不断增长的存储数据的复杂性。大数据预测分析突破了预测分析一直是象牙塔里统计学家和数据科学家的工作,随着大数据的出现,并整合到现有的BI、CRM、ERP和其他关键业务系统,大数据预测分析将起到越来越重要的作用。
6.1大数据预测分析要素
大数据预测分析可帮助企业作出正确而果断的业务决策,让客户更开心,同时避免灾难的发生,这是众多数据分析者的终极梦想,但是预测分析也是一个困难的任务。实施成功的预测分析有赖于以下要素。
(1)数据质量。数据是预测分析的血液。数据通常来自内部数据,如客户交易数据和生产数据,但我们还需要补充外部数据源,如行业市场数据、社交网络数据和其他统计数据。与流行的技术观点不同,这些外部数据未必一定是大数据。数据中的变量是否有助于有效预测才是关键所在。总之,数据越多,相关度和质量越高,找出原因和结果的可能性越大。
(2)数据科学家。数据科学家必须理解业务需求和业务目标,审视数据,并围绕业务日标建立预测分析规则,如如何增加电子商务的销售额、保持生产线的正常运转、防止库存短缺等。数据科学家需要拥有数学、统计学等多个领域的知识。
(3)预测分析软件。数据科学家必须借助预测分析软件来评估分析模型和规则,预测分析软件通过整合统计分析和机器学习算法发挥作用,,需要一些专门的大数据处理平台(如Hadoop)或数据库分析机(如Oracle Exadata)等来完成。
(4)运营软件。找到了合适的预测规则并将其植入应用,就能以某种方式产生代码,预测规则也能通过业务规则管理系统和复杂事件处理平台进行优化。
6.2大数据预测分析相关问题
大数据预测分析应用广泛。大数据将组群分析和回归分析等较常用的工具交到日常管理人员手中,然后可以使用非交易数据来作出战略性的长期的业务决定。客户服务代表可以独立决定一个问题客户是否值得保留或者升级,销售人员可以基于人们对零售商在网站上的评价来调整零售商的产品量。大数据并不是要取代传统BI工具,而是让BI更有价值和更有利于业务发展。在颅测中,虽然具有相关性,并不存在因果关系。如果仔细地查看使用收集到的历史交易数据,就会发现最新定位活动更倾向于参考来自大数据技术处理的结果。
1)分析社交媒体中的非结构数据。
社交媒体中存在很大的商机,需要结合大数据开源技术、摩尔定律、商品硬件、云计算以及捕捉和存储大量非交易数据来实现预测目的。预测者将大数据中非结构化数据(如视频和电子邮件)、来自各种引擎获得的信息(追踪用户对品牌的评价)和现有结构化客户数据结合起来,通过博客和用户论坛与地理数据相关联,运用上述技术。可以获得强大的预测能力。
2)缩短大数据分析时间。
运用大数据分析可以缩短预测时间,数据科学家过去需要用几个月来建立查询或模型来回答关于供应链或生产计划的业务问题,现在只需要几个小时就可以完成,其原因是大数据技术可以自动化建模与自动执行。
3)非结构化数据与数据仓库的数据不同。
仅用一种技术完成大数据预测分析比较困难,应融合各种技术。传统的数据仓库系统是从关系型数据库中获取数据,而今超过80%的数据是非结构化数据,无法转化为关系型数据库中的数据,传统的数据仓库技术对非结构化数据的处理无法满足需求。所以,需要存储管理人员更快地跟上技术发展,更新自己的技术和知识结构,提高对大数据的管理和分析能力,从非结构化数据类型中抽取有价值的信息。
7.大数据分析的发展方向
新的数据分析范型是目标导向,不关心数据的来源和格式,能够无缝处理结构化、非结构化和半结构化数据,将取代传统的BI-ETL-EDW范型。新的数据分析范型能够输出有效结果,提供去黑箱化的预测分析服务,可以面向更广泛地普通员工快速部署分析应用。Hadoop和NoSQL正在占领大数据的管理方式,R和Stata语言冲击了传统的黑箱式分析方法。R是一种自由软件,是为统计计算和图形显示而设计的语言及环境,其特点是免费且功能强大。Stata是一个用于分析和管理数据的功能强大的统计分析软件。我们将从以下3个方面推动大数据分析的发展。
1)数据管理。
Hadoop已成为企业管理大数据的基础支撑平台。随着Greenplum Pivotal HD、HortonworksStinger和Cloudera的Impala的,Hadoop的技术创新速度正在加快,它在Hadoop HDFS之上提供实时、互动的查询服务,将众所周知的SQL查询处理与具备指数级扩展能力的HDFS存储架构整合到一起。
2)去黑箱化。
预测分析是管理者进行数据化决策的关键。预测分析面临的最大问题是黑箱化问题。随着越来越多地凭借预测分析技术作出重大决策,预测分析技术需要去黑箱化,主要包括应用的数据表示、对底层数学和算法解释等。去黑箱化有利于管理者掌握数据分析工具,不但使管理者看到数据分析结果,还知道如何得到的分析结果和分析工具的设计原理等。
3)应用普及。
即使实现了分析的去黑箱化,数据分析应用在企业中的部署依然面临能否可复用应用、创建最佳实践、组织范围内的横向协作、无缝重组模型等问题,能否在最终用户(员工)中应用普及是数据分析成功的关键。
8.结语
随着客服中心的规范化、精细化管理成为行业发展的方向,数据分析在运营管理及决策支撑中扮演了越来越重要的角色,很多客服中心认识到数据分析的重要性并积极开始追求各种复杂数据分析技术的应用,但效果往往不佳。其实,笔者认为就国内客服中心运营管理的发展状态而言,能够熟练运用基础的数据分析方法就能够解决运营管理中的大部分问题。分析方法的优劣不在于数学复杂度或者理论高度,而应该注意的是能否科学有效地达到分析目的。
说到分析工具的选择,笔者认为有两点原则需要分析人员注意: 第一条原则是选择能够达到分析效果的最简单工具,第二条原则是选择最能够清晰展现分析结果的工具。在目前服务运营分析中出现最多的工具就是Excel,Excel的好处是操作简单,不像SAS、MATLAB需要输入代码命令,对于没有统计分析基础的人来说使用Excel是再好不过的选择。但这是有前提的,就是数据分析人员必须对业务有深刻的了解,因为数据是属于业务的,一个不了解业务的分析人员分析出来的结果往往会偏离现实,不会对管理层的决策与执行层的实施起到任何帮助。下面介绍一些利用Excel就可以实现的简单有效的数据分析方法。运用最多的基础方法,对比分析适用于指标间的横纵向比较、时间序列的比较分析、不同业务或不同人员的比较。
举个例子,拿中国移动某省客服中心接通率数据来看,从时间的维度上分析,我们可以看到品牌A、品牌B与品牌C三个品牌之间接通率随时间的变化趋势,了解到在此期间哪个品牌的接通率相对较高、趋势比较稳定。再例如我们分析各品牌话务量情况,首先可以从单一品牌做分析(如图1),各年份话务量基本保持在一致的水平上,但2009年11月份与12月份相对于其他年份话务量明显过高,这可能是由于某些突发事件导致。其次还可以从某一时间点上做分析(如图2),整体上来看,2011年的话务量相对于前两个年份显著降低了很多,这就需要进一步挖掘原因了,一方面可能是已经有一部分客户流失,需要我们找出客户流失的原因并马上制定出客户挽留计划,防止客户继续流失;另一方面就是我们在日常运营时通过有效的方法对话务做分流处理,缓解了一线的话务压力。
帕累托法则又称20/80定律、最省力法则、不平衡原则,指的是原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。比如对一个公司来讲,80%的利润常常来自于20%最畅销的产品;80%的利润来自于最忠诚的20%客户;80%的收获往往来自于20%的时间或投入,而其他80%的投入只产生了20%的收益。所以经典的商业理论都是提醒大家找到那最有效的20%的热销产品、渠道或者销售人员,在最有效的20%上投入更多努力,尽量减少浪费在80%低效的地方。
例如各项业务的投诉情况(如图3),前五项业务类型的投诉量占总体投诉的80%以上,我们只需要重点关注这前五项业务类型,及时有效地降低其投诉量,就能够在整体上降低投诉,提高日常运营水平。帕累托分析
根据规范要求,我们在进行实验分析时读取数据,只能读到一定的准确度。无论读取到多少位数,绝不可能把准确度增加到超过测定方法所能允许的范围,这个准确度主要决定于所用仪器刻度的精确程度。如万分之一的分析天平称得的物质的质量,不仅表明物体的总体质量,还表明可以称到万分之一克,但最后一位数不可靠。如0.5060g,实际质量为.0.5060g±0.0001g。所以在化验分析结果中正确记录分析数据的有效数字位数是很重要的。分析化验中使用测量仪器测量的数据,其有效数字位数应和测量仪器的精度相适应。一般来讲是以最小分度值的十分之一为测量仪器检测数据的有效数数字最后一位。如最小分度值为0.1mL常量滴定管,读数时应保留到小数点后第二位,最小分度值为1℃的温度计,检测结果可保留一位小数等。在另一方面也与我们所采用的方法和测定对象有关。有明确规定,则应按规定来确定有效数字位数。如《GB/T6536-2010石油产品蒸馏测定法》中就有明确规定体积读准至0.5mL,温度读准至0.5℃,就应按规定准确记录。所以数据读取记录的位数,其中末位数字为可疑数字或不确定数字外(即为估读数字),其余位数都是准确的。实际操作中,常常要根据方法要求的测量精度来选测量仪器。例如油料化验常用的恒重操作中,要求恒重至0.0002g,此时就应在万分之一天平进行称量,又如石油产品水分测定中要求试样称准至0.1g,此时选择普通托盘天平称量即可。
2化验数据的正确计算
正确计算分析数据,是得到正确结果的关键。试验所计算的结果不仅表明被量的大小,而且表明化验分析的准确程度,采用过多或过少的位数都是不适当的。因此在化验计算数据分析时要注意以下几个问题:一是运算中的倍数、分数都是准确数字,不适用于有效数字运算规则。二是平均测量值的精度高于单次测量值的精度。在测量值个数不少于4时,平均值有效数字位数可比单次测值多取一位。三是当涉及到各种常数时,一般视为准确的,不考虑其有效数字位数。四是当计算结果为中间过程时,可比结果多保留一位有效数字。例如开口闪点的结果要求保留整数位,在计算大气压修正值或温度计修正值时可将修正值保留一位小数。五是表示误差时取一位有效数字,最多取两位,有关化学平衡的计算,一般保留两位或三位有效数字。
3化验结果数据有效保留位数要正确
在油料化验分析中,结果数据位数的保留直接影响着测定结果的准确度。计算结果所保留的位数必须与油料化验分析的精确度一致,测定结果的数值应当与平行测定允许差数的保留位数相同。一般来讲石油产品化验分析结果数据的保留位数,检测方法中都有明确规定。方法中没有明确规定时,检测结果的记录的有效位数应该保留一位可疑数字,或根据方法精密度中的允许误差来确定结的有效位数。关于石油产品分析结果保留数据可按表执行。
4按石油产品试验方法进行精密度验证提高数据的准确性
在石油产品试验方法测定中,对于同一指标,有时是同一操作者测定,有是不同操作者或不同实验室测定,不同的测定情况精密度的要求也不一样,通常用重复性和再现性来分别表示。重复性是指同一操作者在同一实验室,用同一台仪器按方法规定的步骤,在连续的时间里,对同一试样的同一性质进行重复测定所得结果的允许误差。再现性是指不同实验室的不同操作者,使用同类型的仪器按方法规定的步骤,对同一试样的同一性质进行测定所得结果的允许误差。在每个石油产品试验方法中,对精密度都有明确规定,其计算基本有以下几种类型:
4.1重复测定结果的差值不得超过某一规定值。即:第一次测定结果-第二次测定结果≤某一规定值这“某一规定值”有时是一具体数值,如GB264酸值的精密度要求;有时是较小结果的百分之几,如GB509测定油品实际胶质的精密度要求;有时是算术平均值的百分之几,如GB265的精密度要求。
4.2单次测定结果与算术平均值的差数,不得超过算术平均值的某一规定数值。即:单次测定结果-算术平均值≤算术平均值×所规定的百分数如SH0079KOH溶液标定的计算
4.3平行测定几次结果的最大值与最小值的差数,不应超过某一规定数值。即:最大值-最小值≤某一规定值因此我们要求对照实验方法严格按以上方式,验证其精密度,证明其数据有效性,减少数据的偏差提高检测数据的准确性。油料化验分析检测项目较多且形成的数据有一次性数据,有多次平行试验的数据,这些数据在形成的过程中受到试验环境、仪器设备、人员素质等因素影响从而形成一定的误差,这些误差的累积会使测定结果偏离真实值,所以我们只有严格按照上述方式进行正确的数据记录、处理、计算及精密度的验证才能得到与真实值最接近的结果,才能使我们出具的实验数据报告更具权威。
有了高级数学,有了概率论,有了统计学,数据分析终于有了科学的方法,可以进行各种各样的抽样调查,也可以基于方程式进行未来的预测,人的作用变成了选择模型和进行计算。随着统计学的深入发展,相关分析、回归分析、聚类分析、因子分析、生存分析、神经网络逐渐被应用到各行各业,数据分析成为了国家行政的依据,也成为了企业制定战略和执行计划的抓手。
计算机的出现本来就是为了解决人们手工计算的无奈。如今的智能手机,小小的身躯就可以超过十年前巨型机的运算能力。
2016年,谷歌的围棋程序横空出世,战胜了人类的顶尖棋手,也标志着这一被认为是人类最复杂的智力运动遭遇到机器人的暴力破解。在这个时代,我们在进行数据分析的时候,存储不再需要人工干预,计算不再需要手工操作,留给我们的只有制定规则、给出算法,然后等待结果,等待各种漂亮绝伦的图标表呈现。
对于很多企业来讲,以前的数据分析需要的是专业的咨询机构,或者企业内部高级的数据分析人员。现在,很多企业的业务系统架设在云上,云计算厂商提供了各种各样的分析工具,简单的学习就可以上手操作,甚至连CEO本人都可以自主的看到报表。于是,信息的传递的层级最大的被简化,数据的利用率最大化地提高。
摘 要: 2016年9月《普通高中各学科课程标准(征求意见稿)》正式公布,数学课程标准修订组提出了六个数学核心素养。本文选择了其中的数据分析素养,结合现在中职教育的数学课程改革,着重研究中职学生数据分析素养的现状,为进一步的研究做好准备。
关键词:中职;数据分析;现状
近5年来,职业类院校入学的学生中考的分数普遍都不低,绝大数都达到普通全日制高中的分数线。家长和学生选择职业类院校的原因有两个:(1)从就业的角度,职业类院校的高就业率第一考虑要素;(2)从学历的角度,双元制的培养模式既能保证学生拥有高技能也能保证学生获得大专或者本科学历。
中职生现状问题
1.缺乏对数据分析素养的认识
数据分析素养就是针对研究对象获取数据,运用统计方法对数据进行整理、分析和推断,形成关于研究对象知识的素养。例如,数控车床专业的必修课之一就是机械制图,该课程的一项基本功就是画三视图,从简单三维零件的测量数据,再整理出有效的数据,分析三维图象数据如何让转换成二维图像数据,最后画在纸上。只有对简单零件的理解,才能推断出复杂零件的构造,并能成功画出零件图。简单的说,学生不知道数据是什么,怎么获得数据,如何处理数据,数据能告诉我们什么,这些认识都很缺乏。
2.缺乏对数据分析素养的的培养
职业类院校的学生接受素养的培养,却往往是被动的、盲从的,尤其是对非专业知识、技能的一些职业素养。教师在教育的过程中,共性的培养―知识、技能等相关职业素养关注的多,而突出逻辑思维能力的数据分析素养关注的少。对绝大多数学生而言,除了老师教的就不知道自己还应该学些什么,他们只能完成对“依葫芦画瓢”的工作。
设计问卷
本问卷对象选取的是苏州某职业院校在读的300名学生。调查样本构成情况如下:
性别构成:女生:80人,占 26.7%;男生:220人,占73.3%。
专业构成:机电专业:119人,占39.6%;电气专业:86人,占28.7%;信息专业:41人,占13.7%;创意专业:54人,占18%。
年龄构成:15岁:21人,占7%;16岁:101人,占33.7%;17岁:108人,占36%;18岁:38人,占12.7%;19岁:7人,占2.3%;20岁:18人,占6%;21岁:7人,占2.3%。
年级构成:16级:129人,占43%;15级,93人,占31%;14级:48人,占16%;12级:30人,占10%。
调查数据分析
1提取信息
第一题能提取的信息:(1)统计学中的平均数、方差是学生在不同时间所学的数学知识,平均数是在小学三、四年级所学的知识点,方差是在初二所学的知识点。学习知识点的时间上,学方差离的更近些,只有16.7%的学生还会正确使用。(2)学生能收集同一属性的随机数据,80.5%的学生都使用统计学的方法整理数据。在学生的所学数学知识中,八成的学生选择了合理的数据分析的方法,理解与掌握了平均数的概念,并能灵活使用。
第二题能提取的信息:(1)95%的学生选择了匹萨A或者匹萨B,只有5%的学生认为这两个匹萨是一样合算的。说明学生绝大多数审了题目,知道要通过比较得到哪个匹萨更合算。这种对数据的敏感绝大多数学生还是有的。(2)阐述理由时,44%的学生知道对于圆,要先计算面积,然后计算价格与面积的比值,比较大小,得出结论。数据分析的过程性只有不到一半的学生能意识到。51%的学生的答题纸上有“去超市买同样的东西,通常量越大的越便宜”等这样的理由,全凭生活的经验做出了推断。
第三题能提取的信息:(1) 96.8%的学生能明确表示同意或者不同意严同学的观点,3.2%的学生放弃了答题。当数据量有所增多时,学生开始有放弃答题的现象出现了。(2)只有一成的学生能整理出数据中的有用信息,计算差值,求差值与原价的比值,归纳数据,推断减幅不小,得出结论。高大75.2%的学生无法在表格的两个日期同样蔬菜的价格中提取出有用的信息了,接下来数据分析的过程就中断了。面对同样的数据,试卷中有学生去计算同样物品价格的平均值,也有学生计算10元能买三样物品的单价,得到了不同的结论。在分析方法上学生会的很少。
2做出推断,得出结论
第一题的结论:学生对数据分析有一定的意识,但处理数据的方法很单一。题目给出了数据,学生并没有亲自参与收集数据,因此只能说明学生看到数字或者图形的数据有一定的意识。平均数是统计学中最通俗易懂的数据分析方法,也是最简单的处理数据的方式。学生掌握程度很好,也说明学生只学了统计学的一个皮毛而已。如何计算方差是初二的教学内容,对方差这个知识点的理解就不太好,更不知道如何来使用。
第二题的结论:学生能感受到数据分析很广泛,但能完成数据分析的过程不多。比较两种匹萨哪个更合算,类似这样的问题在生活中很常见。学生能感受到数据分析的普遍存在,能联想到超市常遇到的情况。不到一半的学生有理性的思考和实践,完成整理数据、提取信息、构建模型、做出推断、得出结论这一过程。另一半学生就是感性的思维,在生活中累积的经验做出推断,不会深究其中的原因。
第三题的结论:面对随机的大量数据,大多数学生无法进行数据分析。生活中碰到的实际问题,数据的数量有些多时,大多数学生缺乏数据分析的意识
附件:
问卷
这份调查问卷想了解同学们数据处理方面的情况,帮助我们进行调查研究。希望同学们认真填写。谢谢你的合作!
年:________ 专业:______________ 年龄:_______性别:______
1.某班需要推荐一名学生参加比赛,有3位候选人,你最想推荐谁去参赛,最主要的理由是什么?
3位候选人的成绩如下:
⑴请问你最想推荐谁去参赛? (只能选一名)⑵最主要的理由是什么呢? (可写多个理由)
2.一家匹萨店提供厚度相同、直径不同的两款匹萨,价格如下:
匹萨A: 直径30厘米的匹萨30元,匹萨B:直径40厘米的匹萨40元。
请问:你认为哪种匹萨更划算? 请说明理由。
3.2015年11月4日,某媒体北京报道:在2013年3月13日曾经报道过京城“菜篮子”,记者在一个菜市场调查,用10元钱买同样的三种蔬菜,可以买3.3斤油麦菜,或者10斤胡萝卜,或者4根大葱;现在记者又来到菜市场调查,用10元钱买同样的三种蔬菜,可以买到3.3斤油麦菜,或者5斤胡萝卜,或者10根大葱。记者由此给出结论:现在京城“菜篮子”物价水平与两年前变化不大。
严同学看到上述信息,指出:这样的结论不可靠。
⒈你同意严同学的观点吗?为什么?
关键词:大数据;大数据分析;未来趋势
大数据分析面临的主要挑战
大数据是一项艰巨的挑战。众所周知,当今时代,数据正以爆炸式的速度增长,世界上总共有多少数据,没人能给出确切的答案。
谷歌前首席执行官埃里克·施密特称,“我们现在创造出来的信息量相当于过去整个人类历史创造出来的文明。从数字时代开始到2003年,我们只创造出5艾字节的信息。但是,我们现在每两天就能创造出5艾字节的信息,而且信息增长的速度还在不断加快。”
这个数据似乎有些言过其实。RJMetrics首席执行官Robert J. Moore,在最近的TEDx演讲栏目中提到,2002年,只有23艾字节的信息被记录和复制,但我们现在每七天就能更新和转移这么多数据。
Gartner称,企业数据在未来5年内将增长650%。IDC的说法是,全世界的信息在一年半内即可翻一倍。IDC称,2011年,我们创造了1.8泽字节(1.8兆GBs)的信息,若要将这些信息储存在电子设备中,则需要575亿台规格为32G的iPad,将如此多的iPad连接起来,长度是万里长城的两倍。
数据的创造脚步势必加快,尤其是当今机器对机器通讯技术的成本降低,人们获取技术更为便捷。试想一下,所有传感器网络、防盗警报器、车辆远程通讯系统等加在一起,将会创造出多么庞大的数据。
IBM称,我们每一天都能创造出2.519字节的信息。数据正在指数式增长,并且,当今世界上90%的数据都是在过去两年内创造出来的。这些数据来自各个地方,比如传感器收集气象信息上传到社交网站,数字图像和数字视频,电子商务交易记录,GPS坐标等等。
当然,在早期人类历史上,像推特之类的简短信息并没有记录下来,所以对比只能到此为止。实际生活中,每一天我们都在创造如下数据:
·超过2.04亿封电子邮件消息;
·超过200万的谷歌查询;
·48小时更新的YouTube视频;
·68.4万条分享在Facebook上的内容;
·10万余条推特;
·27.2万美元的电子商务投资;
·3 600张分享在Instagram新照片;
·将近350篇新的WordPress博客。
大数据面临的挑战在于,不同系统中到处都能储存数据。打破相互独立的数据系统,标准化操作是当今面临的主要任务。另外一个主要任务是创建大数据平台,可以存储结构化数据和非结构化数据。
当你进入大数据这块领域时,你会发现更多神秘的挑战。比如,传统数据库最初并没有用到多核处理器。因此,它们在处理数据的时候速度较慢。这导致“快速数据”概念的出现,像ParStream之类的小型公司正试图克服数据库遗留的问题。
从累积到分析
我们需要处理许多数据。积累数据是一回事,而处理数据则是另外一回事。收集报纸、吞拿鱼空罐子和小野猫的人,不会被人们视作为一个有辨别力的收集者。想象一下,你也不会到废物囤积者家中学习历史,因为那儿可用的信息不多。相反,我们一般会去从古董收藏家那获得知识。
尽管有了数据,这个世界上还是有很多囤积者。当今数字储存价格低廉,因此人们把所有数据都储存起来。确切地说,他们从不会自找麻烦,删除数据。网络存储方面也是一样,在开始低收费之前,在线存储供应商甚至还会定期免费放出几个GB的数据,供客户使用。
当今,许多企业正在努力处理无止境扩张的数据,因为如果不这么做的话,企业将失去竞争力。
IBM称,数据的指数化增长将给许多企业留下严重的盲点。IBM研究发现,企业领导经常许可一些无数据支撑的决策,或者他们的决策是基于置信度不高的信息之上。更令人惊讶的是,半数企业领导者表示,他们尚未找到可以让工作效率变高的信息途径。
虽然大多数企业领导者和有关人员知道,与工作相关的数据确实存在,但不知道哪里可以获得这些数据。即使他们已经有一个大致的想法,他们还不清楚如何将想法提炼,应用到实际生活中。他们试图寻找这些相关数据,但始终没法确定数据的实时性和准确性。
大数据分析旨在处理上述问题。我们追求的不只是原始数据,而是分析这些数据的技术。
大数据分析体系
当技术达到能将数据独立性打破、数据分析能力提高时,商业即可转换成各种形式。分析大数据技术的进步能让研究人员在数分钟之内解码人体DNA,这项技术让基因公司(如23andme公司)成功运转。
同时,研究人员能够预测预谋的袭击地点,特定的疾病是由哪种基因引起,分析你在Facebook上最有可能回复的广告内容。
事实上,由PNAS的最新研究显示,你在Facebook上点击“赞”的内容表明了自己的性格特征,比如你的智力、性别、性取向、政治倾向或者其他个人信息。
然而,部分商业观察并没有令人惊讶,比如喜欢“小商业星期六”的人可能比典型Facebook用户的年龄要大;有些商业观察让人困惑,比如喜欢油条与智商高有关。当然,关联并不等于因果关系,这有可能是随机的统计噪声。但是,大数据分析能识别统计噪声。
经营大数据的商业案例比喜欢油条更有说服力。例如,为提高最近热门剧集《纸牌屋》的收视率,网飞公司(Netflix)挖掘用户数据,从中加入一些必要的因素。运用用户数据,同样促使他们的情景喜剧《发展受阻》起死回生。
另外一个例子是来自世界上最大的移动运营商之一—— 法国电信,该运营商了Data for Development项目,为象牙海岸的客户提供用户数据。数据有共计25亿条匿名记录,包括500万人之间的通话记录和互通短信。
许多研究人员访问数据集,给法国电信发出建议,认为这些数据可以成为公司发展项目的基础。在所提议的项目中,有一项是通过追踪手机数据,了解人们在紧急情况下的去向,以此来提高公共安全的。另一个项目是怎样用手机数据来了解疾病的传播。事实上,推特已在海地霍乱爆发时成功运用了该项功能。
美国国家安全局的Prism项目就是依赖大数据分析而运行的。这个项目将手机通话记录、电子邮件来往、即时通讯聊天、社交媒体等数据元导出,并进行处理。
政府官员支持这个项目,因为他们认为大数据分析是关键的防御措施。如果某人被认定为恐怖组织的嫌疑人,他的通话记录可以显示出其他的行踪,帮助国土安全部的官员锁定最有可能即将被袭击的目标。
大数据分析市场
当今,大数据分析市场仍处于起步阶段。Software AG、Oracle、IBM、Microsoft、SAP、EMC、HP等大型软件公司互相争抢充满生机的新企业,如Datameer、Alpine Data Labs、SiSense、Cloudmeter。
大型公司花费数十亿美元,收购数据管理和分析的软件公司,如Apema、Jacada、More IT Resources、Vertica、Vivisimo等,这些新公司都是依靠风险投资基金得以运行的。
更为复杂的是,一些老公司在市场中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。
许多研究大数据分析的新型企业也有其市场定位,如分别定位于社会营销(DataSift)、电视广告购物(Rocket Fuel),应用性能(Cloudmeter)、求职招聘()等领域。
根据Wikibon的调查,2012年大数据市场总额将达到114亿美元。2013年则将达到181亿美元,比2012年增长61%。到2017年,总额将达470亿美元。以上数字意味着,在2012—2017年,大数据市场总额在以年均31%的速度增长。
显然,投资商们还有很大空间,因为市场领域仍是商家抢占的地盘。他们希望,在不久的将来,有更多数据能被整合。
这就是大数据的目标,我们追求的不只是初始数据,而是分析数据的技术。图2所示是大数据分析的主要分布。
展望未来—— 大数据的趋势
(1)开放源代码
大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop和NoSQL数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。
毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。
(2)市场细分
当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台(如Hadoop、NoSQL)。
人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等。
同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。
(3)预测分析
建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。
但是,当数据累加时,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。
当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。
当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007年和2008年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。
另一方面,预测分析在许多领域流行起来,例如欺诈发现(比如在外省使用信用卡时会接到的诈骗电话),保险公司和顾客维系的风险管理。
重新聚焦于人为决策?
机器学习能力不断提升,逐步成为分析套件里的必要工具。此时,不要惊讶,人类因素正渐渐淡化。
企业主经常尝试限制人为误差。任何网络安全专家,通过详细讨论后指出,安全漏洞是由人为误差而引起的,比如过度依赖弱口令,不慎进入钓鱼网站或其他安全系数低的网站。
然而,即使机器学习能力不断提升,机器也只能提问我们事先设定的问题。这会给我们带来很大限制:若依赖于机器,我们究竟可以得到多少。
人为因素对大数据的出现十分关键。大数据领域最有名的两位预言家和先驱者是Billy Beane和Nate Silver。Beane曾推广一个想法:将各种各样的数据联系起来,这些数据都是关于被低估的运动员的特质。接着把这些运动员召集起来,组成一支棒球队上场比赛。这支较为经济的团队竟能与实力雄厚的队伍(比如洋基队)进行抗衡。
有部分人不相信Nate Silver的预测,开发出不依赖于数据分析的软件,比如Unskewed Polls(中文译为非倾斜民意调查,但其实不然)。因为许多人认为Silver只是数据库轮询方面的专家,但实际上他在大数据分析领域也十分在行。
在不同情况下,最重要的不是机器搜集数据、得到初始数据,而是人为顶端分析,只有人为因素才使这些数据有意义。人们可以将民意调查的数据视为罗夏墨迹测验的结果。
Silver则不然,他输入大量数据,观察各种民意调查在不同阶段的情况,并参考影响差误范围的因素,最后他能做出惊人的准确预测。
相似地,每个棒球队经理十分看重占垒率和其他得分统计,但是很少能像Beane领导的A’s队伍一样,他用如此少的资金就能抗衡实力雄厚的球队。寻找被低估的运动员比寻找天才球员更需要投入精力。你需要知道怎样合理地和其他球队经纪人协商、交易,你还需要思考,究竟哪一位球员能适应新创建的队伍。
IBM日前宣布了在华的大数据战略,并表示,目前已经构建了完整的大数据价值体系。对于大数据这个未来重要战略的业务。IBM预测,到2015年大数据分析方面的收入将有望达到160亿美元,而每年在相关领域的研发投入达30至40亿美元。
国外有早先的klout、splunk等公司,也有刚刚获得60万美元种子轮融资的文字分析引擎Synapsify。
文字数据分析系统Synapsify可以帮助用户快速的去分析文本内容。
Synapsify有着非常广泛的应用领域,网站可以借助Synapsify这个分析系统来提供内容质量,而出版商可以用Synapsify来评估市场,政府还可以用Synapsify来进行网络舆情监控。
参与此次融资的有ICG ventures,Fortify Venmres和Middleland Capital。
最近几个月各类数据分析公司的估值一直在飙升,而自从去年起人们开始逐渐发现付费数据分析的价值所在。
阿里巴巴的前瞻性投资
阿里巴巴向金融领域的扩张终于迈出了一大步。
经过一系列调整,在多个领域摆出扩张的姿态,例如近期成立小微金融集团,为商家和用户提供支付、小贷、担保及保险业务。
其中,最为人传道的是被金融届人士称为“虚拟信用卡”的“信用支付”,它是阿里巴巴面对网上个人买家的个人消费金融信贷服务产品,将在今年4月由阿里金融正式推向市场,首先在湖南、浙江两地试点。
一些银行界人士由此担心,由于阿里巴巴集团拥有的庞大客户群和宝贵的数据库。阿里“虚拟信用卡”可能构成对银行信用卡的竞争,对传统银行造成一定冲击。
对此,阿里巴巴回应称,“阿里的小微金融业务仍只是在现行金融机制框架内对银行业的一个补充。”阿里金融真正的利益诉求并非金融业务,而是面向金融业务的数据服务。
按照阿里金融设计的“信用支付”商业模式。通过数据来确定买家信用支付额度,合作银行通过支付宝来授信,阿里巴巴成立的商诚担保公司将为买家的“信用支付”做担保,买家在手机支付时可使用自己的“信用支付”额度购物,合作银行把钱支付给卖家。支付宝从合作商家那里抽取1%的“信用支付”服务费。
有分析人士指出,阿里巴巴是个痴迷于平台和入口的公司,投身具体业务向来不是他们感兴趣的事情。从阿里金融拉开的庞大架势来看,其目的并不在于服务自有的小贷公司,可以想象得到,阿里金融面向个人卖家和买家开放的信贷业务,只是他们构建小贷平台的抛砖引玉之举,目的在于吸引银行和其他信贷机构加入这个平台,使用其提供的金融数据服务,将现有的金融和信用数据变现,成为纯粹的金融数据提供商。
事实上,不得不佩服马云的前瞻性。
2009年9月,阿里巴巴集团就投资设立阿里云计算有限公司,在杭州、北京和硅谷等地设有研发中心和运营机构。阿里云的目标是要打造互联网数据分享的第一平台,成为以数据为中心的先进的云计算服务公司。
在2011年,阿里巴巴收购了流量统计技术服务提供商CNZZ,意味着阿里巴巴在其电子商务产业链整合布局上又完成关键性一步。
而据了解,CNZZ是由IDG投资的网络技术服务公司,专注于为互联网各类站点提供独立的第三方数据统计分析。同时,CNZZ拥有互联网数据采集、统计和挖掘三大技术,从事互联网数据监测、统计分析的技术研究、产品开发和应用。
可以说,在大数据时代。阿里巴巴下了一盘很大的棋。
社交网络数据分析工具微脉搏
社交网络数据分析与挖掘也成为目前的热点创业方向,开年以后,很多公司的招聘目录上多了数据分析师这一职位。
在国内,创新工场投资的脉搏网因李开复的推荐,为圈内人所知晓。
脉搏网是北京乐享天下科技公司旗下的产品,是一个基于社交网络、大数据、兴趣图谱和语义分析的社会化网络营销服务引擎,北京乐享天下科技公司成立于2011年8月。
该团队主要关注三个业务点:
首先是大数据分析,通过云计算,机器学习和语义分析技术提供高级的数据流过滤、分析、抽象和汇总功能。近几年,社交网络从开心网、人人网,发展到饭否、微博,再到微信、陌陌,虽然形式在发生改变,但每天产生的数据量只增不减。这些消息中有噪声,更多的却蕴含着大量社交关系,互动信息,而分析这些数据则是社会化营销的前提。
其次是社交定向,通过其大数据分析,不仅能为商户提供营销方案,对于用户个体而言也非常有意义。通过对用户日常行为的每日抽象分析,在保护用户隐私的情况下为用户甄选、推送更符合用户胃口的营销信息。
另外还包括推荐引擎业务,社交网络建立了用户与用户之间的消息网络,但随着信息不对等,僵尸、营销用户激增,用户在维护社交关系时会遇到困难。微脉搏研发的基于社交网络的推荐引擎服务能够构建一个新人网络,基于数据分析算法,将用户的关系和可信任程度量化。
脉搏网分管理工具、分析工具。可同时添加5个关键词,展现和关键词有关的微博历史统计,可分析传播因素、检测传播效果。
目前还没有开放,用户可以申请测试,通过审核后系统通过微博私信的方式告知用户。
数据分析的营销生意
独到科技是来自清华大学,以及原微软,百度等人员组成的年轻团队。这个团队立志于研发围绕社会关系网络数据进行挖掘的应用。
创始人张文浩和马扬由于一直在做微博数据方面的研究,两个人找到了一个新的可能――基于微博数据分析做精准营销。
这需要对于文本和用户行为做更准确的识别。但是中文的语义相对复杂,如果要全面做好,又是一个比较大的系统工程。这很可能是个新的陷阱,活不到赚钱就死了。
张文浩决定从更小的方向做起。他们把其中“传播路径分析”这个功能拆出来。单独做成一个产品,直接面向广告和营销群体。
应用上线后,经过圈子和朋友间的口碑传播,这个产品迅速积累起第一批用户、
张文浩和马扬都是计算机专业,所以这第一批用户也主要来自IT圈,大家觉得好玩,却没有商业性需求。如何让更多广告和营销人群了解这个工具,成了当务之急。
由于“独到传播分析”可以过滤和识别僵尸粉,刚好赶上小米手机青春版,在微博上实现200多万次转发。这个热点事件让张文浩找到了推广工具的机会。“独到传播分析”识别和计算了这200多万次转发中的僵尸粉比例,找到真正参与的用户数。并生成了一份报告。这份报告随即在广告营销圈传播开来,工具的用户人群也开始发生质的变化――需要高级需求的付费用户渐渐增加。
2012年5月,独到科技做成了第一笔生意,与一家广告公司合作,收入几千元。
张文浩说,通过独到科技对微博数据分析,可得出微博传播过程中的KOL(关键意见领袖),从而对品牌微博营销的传播质量进行评估。
目前,独到科技的主要业务是对某些品牌的微博营销活动进行事后的效果评估。
“如果是一年前,让我们做这样一个很小的市场,是根本不会考虑的”,马扬还会时常想起创业之初的心态。这对今天的他们来说,是一种对照和警醒。“那时候没受过挫折,意气风发。但慢慢地,时间和现实教育了我们,创业不是原来想得那么简单。今天,我们不再给创业强加一些光环,它变成了整个职业生涯的事情。”今天的独到科技已经慢慢实现了收支平衡。
总而言之,云计算和大数据的结合,将对今后的经济、科技、民生产生难于估量的影响。无论是做硬件、做平台,还是做应用、做服务,归根结底都是以数据为核心、以数据为动力,并提升产品对用户的引力。
张文霖,资深数据分析师,著有畅销书《谁说菜鸟不会数据分析》。从本期开始,这位数据分析达人将以通俗易懂的方式讲解数据分析必知必会的知识、方法和技巧。还等什么,快来和我们一起玩转数据吧!
随着经济的快速增长,各行各业的各种客户数据信息、交易数据信息也呈爆炸式增长,尤其是通信、电商等行业所积累的数据更不可小觑。如今,大部分企业管理者开始意识到数据所带来的无限潜力与价值,数据分析技术随之受到重视并逐渐被广泛应用。数据分析人员也俨然成为职场上的热门行业,呈现出供不应求的态势。据麦肯锡咨询公司的一份报告显示,到2018年,仅在美国,数据分析人才缺口就约150万。
面对数据分析专业良好的就业前景,你是否已经跃跃欲试了呢?然而目前数据分析行业并没有统一的规范标准,大部分大学里也都没有开设专门的数据分析专业。从事数据分析工作的人员大都出身统计学、数学、信息计算、管理学、心理学等专业,对数据分析并没有一个清晰系统的认识,有的甚至连数据分析是什么都无法说清楚。
那么数据分析到底是什么?
简单来说,数据分析就是对数据进行分析。用专业的视角,数据分析可理解为根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,以求最大化地开发数据的功能,发挥数据的作用。
弄清楚数据分析的目的,这个很重要
数据分析的目的在于把隐藏在大量看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律与趋势。在实际工作中,数据分析能够帮助管理者进行决策,以便采取适当的策略与行动。例如,企业管理者希望通过市场分析和研究,把握当前产品的市场动向,从而制订合理的产品研发和销售计划,这就必须依赖数据分析才能完成。
数据分析如要实现为管理者有效决策提供有价值信息的目的,那么我们在日常数据分析工作中该做些什么呢?其实日常通报、专题分析等,这些就是数据分析具体工作的体现。而什么时候做通报工作,什么时候开展专题分析,这都需要我们根据实际情况做出选择。很多人经常做这些工作,但不知为何而做,只是为做而做,也没有想清楚为何要做。当你对数据分析目的及作用有了足够清晰而系统的正确认识时,那么你的数据分析工作也将如鱼得水,游刃有余。
如何从昨天走向明天,让数据分析告诉你
数据分析在我们日常经营分析工作中主要有三大作用,如下图所示。
现状分析
简单来说就是告诉你过去发生了什么。具体体现在:
第一,告诉你企业现阶段的整体运营情况,通过各个经营指标完成情况来衡量,以说明企业整体运营是好还是坏,好的程度如何,坏的程度又到哪里。
第二,告诉你企业各个业务的发展及构成情况,让你了解企业各业务发展及变动情况,对企业运营情况有更深入的了解。
现状分析一般通过日常通报来完成,如日报、周报、月报等日常通报形式。
原因分析
简单来说就是告诉你为什么会发生。
经过第一阶段的现状分析,对企业的运营情况有了基本了解,但你可能不知道是什么原因引起的。这时就需要开展原因分析,以进一步确定业务变动的具体原因,以便运营策略做出调整与优化。如今年运营收入比去年运营收入下降30%,是什么原因导致的呢?是各个业务或各个地区业务收入都出现下降的共性问题引起的,还是个别业务、个别地区业务收入下降的个性问题引起的?这就需要我们开展原因分析,进一步确定收入下降的具体原因。
预测分析
简单来说就是告诉你将来会发生什么。
在了解企业运营现状后,有时还需要对企业未来发展趋势做出预测,为制订企业季度、年度运营目标及策略提供有效的参考决策依据,以保证企业的可持续健康发展。
数据分析:从挖金土豆到筛金沙
大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”
但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。
Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。
从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C++)新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。
北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。
职场新贵:数据科学家
针对大数据而生的新一代分析工具――Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。
除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛,如此一来,一种新的IT职业――数据科学家会越来越火。
张新宇介绍,近十年来做数据分析的从业人员数量急剧上升,已经占到所有行业从业人数的0.01%。数据科学家有很强的技术功底,除了传统的会写SQL,还会与非关系型数据打交道,熟悉很多数据分析的软件,有很强的数据功底,对业务也很敏感。另外,数据科学家也会有很强的好奇心或求知欲,他要很明确地知道,当发现业务问题的时候如何通过业务模式的调整去解决。他既是一个数据分析的专家,也可能是一个SaaS的专家,也可能是个超级用户,或者是一个Java的程序员,自己写程序处理。
一家中国手机大公司,要从社交平台的海量数据中倾听“客户的声音”。于是,带有机器学习技术的大数据分析系统被采用,每天从300多个网站抓取2000万条原始社交数据,从中辨识出100个危机预警,5万个客户问题。这些问题被立刻输送到产品维修、客户服务、产品设计部门……得到主动解决。而在过去,采用人工处理方式,每人每天只能看800条信息。自动化系统让分析能力和效率提升100倍!
一家中国金融公司,要在海量交易中实时辨识欺诈交易。这可不是件容易事。要知道,在2016年,使用移动支付的中国用户已达4.7亿人,这个数字甚至是美国总人口的1.5倍以上,每天创造天量级金融零售交易数据,而交易欺诈规模也庞大得惊人,仅信用卡欺诈一项就让银行业每年损失几百亿元。但现在,通过采用具备机器学习技术的高级分析系统,这家金融公司每秒可处理10万笔+交易量,成功阻绝90%的欺诈犯罪。
在这两个典型的案例中,企业都采用了大数据分析企业SAS的新技术。
SAS可不是一家新公司,它已有41年历史,源自美国北卡罗来纳州立大学的一个数据分析软件研究项目。虽然根据市场调研公司IDC的统计,SAS目前在全球高级和预测分析市场占有31.6%的份额,但这家老牌数据分析企业却面临前所未有的挑战。
SAS起步的时候,数据分析还是一个很小很专的市场。但F在,数据分析世界已发生翻天覆地的变化,成为全球最广袤的技术市场之一。互联网、物联网带来了海量实时数据分析需求,“人人都是数据分析师”的理念被越来越的企业接纳,机器学习特别是深度学习加速了智能化的脚步,开源技术对传统商业模式发起冲击……SAS的变化就是在这样的背景下发生的――如何在一个越来越热闹、竞争越来越白热化的市场“不被后浪拍在沙滩上?”
“行业变迁已经迫使我们去做出变化。”SAS首席技术官Oliver Schabenberger说,“分析将无所不在,分析将被自动化,将结合强大的现代机器学习、深度学习和认知分析技术。同时,物联网引发的边缘分析、流数据分析将加速我们将分析能力带入网络和移动设备中。”
Oliver从去年起担任SAS首席技术官,目前正努力带领全球的研发团队,通过技术变革塑造一个我们“既熟悉又陌生”的SAS。
小设备中的数据分析
“物联网正在改变数据科学。”Oliver说。被业界广为引用的数字是,思科预计,到2020年全球将有500亿台设备连联;到2030年,这一数字将增长10倍。
在物联网环境中,数据流动在前端移动设备和后端服务器里。“我们不能只考虑在云中处理数据,也必须考虑边缘分析,也就是最前沿设备上的事件流处理(ESP,Event Stream Processing),这是物联网非常重要的部分。”Oliver说。
这让SAS考虑将高性能“事件流处理软件”从云端拿下来,不断精简,放到各种小设备、车辆甚至网络路由器上运行。
“物联网不仅仅关乎软件,我们也要与网络设备公司合作。”今年4月,SAS与思科联合推出了业内首个从边缘到企业的物联网分析平台。“这是重要的一大步。”Oliver说。SAS的事件流处理软件运行在思科物联网网关上,在传感器和那些产生数据的设备附近,在亚秒级时间内就地处理数据。经过过滤、处理的数据集,再被传输到数据中心或云端,与更多企业数据组合,应用机器学习等先进分析技术,来获得新洞察。
“我们注意到事件流处理可以处理图形,这是即将推出的新技术,令人激动。”Oliver补充说。
Oliver了解到中国制造2025。“我们希望把物联网分析平台部署到工厂中,给工厂的运营带来大不同。”
分析的未来是自动化
不久前,海尔数据科学家表示,智能制造面临的巨大挑战是源源不断流入的数据是人工方式所清洗、治理和分析不了的。
数据科学家现在大概花80%的时间来清洗和治理数据,而业界希望他们能把更多时间用于针对数据建模或评估工作上。
“分析的未来将更加自动化,但它将以巧妙的方式自动化。”Oliver说。传统上,人们针对某类数据,选择一种他们认为最适合的统计模型。现在,这将被数据驱动的机器学习所取代。但业界有两类机器学习――经典和现代。
“经典机器学习并不是纯粹意义上的自学习,而是训练一个系统来形成和分类数据。”Oliver说,“真正令我感兴趣的是现代机器学习,其中的算法没有明确程序去做任何事情。但它让你不用深入了解某个领域,不需要研究信用卡诈骗,也能开发反欺诈模型――你只需要拥有足够的交易数据,让人工智能网络学习如何对其进行分类。”
“同时,单一技术不足以解决问题,我们要提供工具、技术的组合,如数据建模、机器学习、人工智能的有效结合。”Oliver说。
Oliver提醒,不能盲从自动化。他希望自动化能在大规模上帮助人们去解决问题,去建立一些系统或具体机制,搞清楚不同领域之间的边界在哪里,这样的自动化才是最有效的方式。
谈到目前的人工智能时,Oliver说它具备两个特点:属于弱人工智能,和基于深度学习。他补充说,分析软件正在快速转变为“认知空间”,其中感知、听力和手势将成为常见的投入形式,而具备人类反应的读和写将成为常见的输出形式。
SAS在人工智能领域有超过15年经验。SAS深度学习和认知分析将有3个主要目标,一是添加到经典方法中,实现更多自动化,让人们具备更少专业领域知识也能解决问题。二是为客户提供深入的学习工具,使他们在其数据上训练现代机器学习模型。三是将认知计算和深度学习输入到产品中,让用户与软件的交互更人性化,支持更多个性化和更多动态行为。