数据分析范文

时间:2023-10-27 23:38:56

数据分析

数据分析篇1

关键词:大数据;大数据分析;未来趋势

大数据分析面临的主要挑战

大数据是一项艰巨的挑战。众所周知,当今时代,数据正以爆炸式的速度增长,世界上总共有多少数据,没人能给出确切的答案。

谷歌前首席执行官埃里克·施密特称,“我们现在创造出来的信息量相当于过去整个人类历史创造出来的文明。从数字时代开始到2003年,我们只创造出5艾字节的信息。但是,我们现在每两天就能创造出5艾字节的信息,而且信息增长的速度还在不断加快。”

这个数据似乎有些言过其实。RJMetrics首席执行官Robert J. Moore,在最近的TEDx演讲栏目中提到,2002年,只有23艾字节的信息被记录和复制,但我们现在每七天就能更新和转移这么多数据。

Gartner称,企业数据在未来5年内将增长650%。IDC的说法是,全世界的信息在一年半内即可翻一倍。IDC称,2011年,我们创造了1.8泽字节(1.8兆GBs)的信息,若要将这些信息储存在电子设备中,则需要575亿台规格为32G的iPad,将如此多的iPad连接起来,长度是万里长城的两倍。

数据的创造脚步势必加快,尤其是当今机器对机器通讯技术的成本降低,人们获取技术更为便捷。试想一下,所有传感器网络、防盗警报器、车辆远程通讯系统等加在一起,将会创造出多么庞大的数据。

IBM称,我们每一天都能创造出2.519字节的信息。数据正在指数式增长,并且,当今世界上90%的数据都是在过去两年内创造出来的。这些数据来自各个地方,比如传感器收集气象信息上传到社交网站,数字图像和数字视频,电子商务交易记录,GPS坐标等等。

当然,在早期人类历史上,像推特之类的简短信息并没有记录下来,所以对比只能到此为止。实际生活中,每一天我们都在创造如下数据:

·超过2.04亿封电子邮件消息;

·超过200万的谷歌查询;

·48小时更新的YouTube视频;

·68.4万条分享在Facebook上的内容;

·10万余条推特;

·27.2万美元的电子商务投资;

·3 600张分享在Instagram新照片;

·将近350篇新的WordPress博客。

大数据面临的挑战在于,不同系统中到处都能储存数据。打破相互独立的数据系统,标准化操作是当今面临的主要任务。另外一个主要任务是创建大数据平台,可以存储结构化数据和非结构化数据。

当你进入大数据这块领域时,你会发现更多神秘的挑战。比如,传统数据库最初并没有用到多核处理器。因此,它们在处理数据的时候速度较慢。这导致“快速数据”概念的出现,像ParStream之类的小型公司正试图克服数据库遗留的问题。

从累积到分析

我们需要处理许多数据。积累数据是一回事,而处理数据则是另外一回事。收集报纸、吞拿鱼空罐子和小野猫的人,不会被人们视作为一个有辨别力的收集者。想象一下,你也不会到废物囤积者家中学习历史,因为那儿可用的信息不多。相反,我们一般会去从古董收藏家那获得知识。

尽管有了数据,这个世界上还是有很多囤积者。当今数字储存价格低廉,因此人们把所有数据都储存起来。确切地说,他们从不会自找麻烦,删除数据。网络存储方面也是一样,在开始低收费之前,在线存储供应商甚至还会定期免费放出几个GB的数据,供客户使用。

当今,许多企业正在努力处理无止境扩张的数据,因为如果不这么做的话,企业将失去竞争力。

IBM称,数据的指数化增长将给许多企业留下严重的盲点。IBM研究发现,企业领导经常许可一些无数据支撑的决策,或者他们的决策是基于置信度不高的信息之上。更令人惊讶的是,半数企业领导者表示,他们尚未找到可以让工作效率变高的信息途径。

虽然大多数企业领导者和有关人员知道,与工作相关的数据确实存在,但不知道哪里可以获得这些数据。即使他们已经有一个大致的想法,他们还不清楚如何将想法提炼,应用到实际生活中。他们试图寻找这些相关数据,但始终没法确定数据的实时性和准确性。

大数据分析旨在处理上述问题。我们追求的不只是原始数据,而是分析这些数据的技术。

大数据分析体系

当技术达到能将数据独立性打破、数据分析能力提高时,商业即可转换成各种形式。分析大数据技术的进步能让研究人员在数分钟之内解码人体DNA,这项技术让基因公司(如23andme公司)成功运转。

同时,研究人员能够预测预谋的袭击地点,特定的疾病是由哪种基因引起,分析你在Facebook上最有可能回复的广告内容。

事实上,由PNAS的最新研究显示,你在Facebook上点击“赞”的内容表明了自己的性格特征,比如你的智力、性别、性取向、政治倾向或者其他个人信息。

然而,部分商业观察并没有令人惊讶,比如喜欢“小商业星期六”的人可能比典型Facebook用户的年龄要大;有些商业观察让人困惑,比如喜欢油条与智商高有关。当然,关联并不等于因果关系,这有可能是随机的统计噪声。但是,大数据分析能识别统计噪声。

经营大数据的商业案例比喜欢油条更有说服力。例如,为提高最近热门剧集《纸牌屋》的收视率,网飞公司(Netflix)挖掘用户数据,从中加入一些必要的因素。运用用户数据,同样促使他们的情景喜剧《发展受阻》起死回生。

另外一个例子是来自世界上最大的移动运营商之一—— 法国电信,该运营商了Data for Development项目,为象牙海岸的客户提供用户数据。数据有共计25亿条匿名记录,包括500万人之间的通话记录和互通短信。

许多研究人员访问数据集,给法国电信发出建议,认为这些数据可以成为公司发展项目的基础。在所提议的项目中,有一项是通过追踪手机数据,了解人们在紧急情况下的去向,以此来提高公共安全的。另一个项目是怎样用手机数据来了解疾病的传播。事实上,推特已在海地霍乱爆发时成功运用了该项功能。

美国国家安全局的Prism项目就是依赖大数据分析而运行的。这个项目将手机通话记录、电子邮件来往、即时通讯聊天、社交媒体等数据元导出,并进行处理。

政府官员支持这个项目,因为他们认为大数据分析是关键的防御措施。如果某人被认定为恐怖组织的嫌疑人,他的通话记录可以显示出其他的行踪,帮助国土安全部的官员锁定最有可能即将被袭击的目标。

大数据分析市场

当今,大数据分析市场仍处于起步阶段。Software AG、Oracle、IBM、Microsoft、SAP、EMC、HP等大型软件公司互相争抢充满生机的新企业,如Datameer、Alpine Data Labs、SiSense、Cloudmeter。

大型公司花费数十亿美元,收购数据管理和分析的软件公司,如Apema、Jacada、More IT Resources、Vertica、Vivisimo等,这些新公司都是依靠风险投资基金得以运行的。

更为复杂的是,一些老公司在市场中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。

许多研究大数据分析的新型企业也有其市场定位,如分别定位于社会营销(DataSift)、电视广告购物(Rocket Fuel),应用性能(Cloudmeter)、求职招聘()等领域。

根据Wikibon的调查,2012年大数据市场总额将达到114亿美元。2013年则将达到181亿美元,比2012年增长61%。到2017年,总额将达470亿美元。以上数字意味着,在2012—2017年,大数据市场总额在以年均31%的速度增长。

显然,投资商们还有很大空间,因为市场领域仍是商家抢占的地盘。他们希望,在不久的将来,有更多数据能被整合。

这就是大数据的目标,我们追求的不只是初始数据,而是分析数据的技术。图2所示是大数据分析的主要分布。

展望未来—— 大数据的趋势

(1)开放源代码

大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop和NoSQL数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。

毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。

(2)市场细分

当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台(如Hadoop、NoSQL)。

人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等。

同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。

(3)预测分析

建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。

但是,当数据累加时,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。

当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。

当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007年和2008年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。

另一方面,预测分析在许多领域流行起来,例如欺诈发现(比如在外省使用信用卡时会接到的诈骗电话),保险公司和顾客维系的风险管理。

重新聚焦于人为决策?

机器学习能力不断提升,逐步成为分析套件里的必要工具。此时,不要惊讶,人类因素正渐渐淡化。

企业主经常尝试限制人为误差。任何网络安全专家,通过详细讨论后指出,安全漏洞是由人为误差而引起的,比如过度依赖弱口令,不慎进入钓鱼网站或其他安全系数低的网站。

然而,即使机器学习能力不断提升,机器也只能提问我们事先设定的问题。这会给我们带来很大限制:若依赖于机器,我们究竟可以得到多少。

人为因素对大数据的出现十分关键。大数据领域最有名的两位预言家和先驱者是Billy Beane和Nate Silver。Beane曾推广一个想法:将各种各样的数据联系起来,这些数据都是关于被低估的运动员的特质。接着把这些运动员召集起来,组成一支棒球队上场比赛。这支较为经济的团队竟能与实力雄厚的队伍(比如洋基队)进行抗衡。

有部分人不相信Nate Silver的预测,开发出不依赖于数据分析的软件,比如Unskewed Polls(中文译为非倾斜民意调查,但其实不然)。因为许多人认为Silver只是数据库轮询方面的专家,但实际上他在大数据分析领域也十分在行。

在不同情况下,最重要的不是机器搜集数据、得到初始数据,而是人为顶端分析,只有人为因素才使这些数据有意义。人们可以将民意调查的数据视为罗夏墨迹测验的结果。

Silver则不然,他输入大量数据,观察各种民意调查在不同阶段的情况,并参考影响差误范围的因素,最后他能做出惊人的准确预测。

相似地,每个棒球队经理十分看重占垒率和其他得分统计,但是很少能像Beane领导的A’s队伍一样,他用如此少的资金就能抗衡实力雄厚的球队。寻找被低估的运动员比寻找天才球员更需要投入精力。你需要知道怎样合理地和其他球队经纪人协商、交易,你还需要思考,究竟哪一位球员能适应新创建的队伍。

数据分析篇2

关键词:大数据 交易平台 数据资源 数据分析服务 融合

1.引言

目前发展大数据产业已经上升为国家战略,大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明,大数据不仅为政府治理开辟了新思路,还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心,它使得数据资源可以在不同组织之间流动,从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率,更重要的是,当一个组织拥有的数据资源不断丰富和立体化,有助于其通过数据分析发现更多的潜在规律,从而对内提高自身的效率,对外促进整个社会的不断进步。

在现有的大数据交易平台上,数据供应方和需求方各自供需信息,交易双方浏览这些信息,如果发现合适的交易对象,则进行大数据资源的买卖,交易平台只作为信息中介存在。这类大数据交易的本质,其实是单独的大数据资源交易,现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进,设计了一种全新的第二代大数据交易平台,命名为:融合数据分析服务的大数据交易平台,该平台将数据资源交易与数据分析服务进行深度融合,实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴,也丰富了大数据交易的基础理论体系。

2.相关研究

目前大数据交易的相关研究中,比较有代表性的有:

(1)大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究,认为大数据的法律属性会直接影响大数据产业的发展,而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同,它符合信息财产的特征,是信息财产权的客体,应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权,剖析了个人拥有的数据权以及数据的财产权。

(2)大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究,首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略,并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中,由于缺乏足够的历史参考,其数据资源的交易价格很难确定,因此提出一种基于竞标机制的鲁宾斯坦模型,用于大数据交易双方进行讨价还价,以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值,并指出数据在不断变化和更新,加上数据的非独占性等情况的出现,数据资产的价值可能会下降,最后综合这些因素构建了一个评估模型来计算数据资产的价值。

(3)大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响,对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性,再以数据交易所为平台进行交易,并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题,综合考虑技术、政策和管理平台等方面的因素,构建了一种个人数据溯源管理体系,该体系可在数据应用时实现个人数据的追踪溯源,从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易,为应对这种情况,应该建立个人数据交易许可机制,通过发放交易许可证、拍卖授予等措施实现隐私保护。

(4)大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期,大量数据源未被激活,原因是大数据产业价值链的各个专业环节发展滞后,并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造,使其更商品化,并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状,接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题,最后提出应加快相关法律和标准建设,并推动数据开放,加强交易方式的创新。

除了上述四个主要研究方向以外,李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用,这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本,这会改变企业的组织结构,并导致企业边界的变化,企业会进行多方向的扩张,这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看,由于大数据交易本身属于较新的领域,因此相关研究总体上较少,已有研究也大多集中在上述几个研究方向上。实际上,大数据交易平台是实现大数据交易的重要载体,是大数据资源流通转换的主要节点,交易平台本身需要随着整个大数据产业的发展,不断的改进和升级,而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此,本文针对现有大数据交易平台的不足,结合实际设计了一种全新的融合数据分析服务的大数据交易平台,为实践和科研提供借鉴和参考。

3.现有大数据交易平台的不足

大数据本身作为一种新兴事物,当把它作为一种商品进行交易时,其交易平台的设计很自然会参照传统的商品交易模式,即:交易双方先供求信息,再经过讨价还价,达到一个均衡的价格则成交,卖方将大数据资源经过脱敏处理后,交付给买方。目前无论是政府主导的大数据交易所,还是企业或者高校创建的大数据交易平台,都是采用类似的交易模式,这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别,照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。

3.1 数据供需的错配

现有大数据交易平台的第一点不足就是数据供需的错配,即:供应方提供的数据资源往往不是需求方所需要的,而需求方需要的数据在交易平台上找不到,即使有相近的数据资源,也存在很大的数据缺失或冗余,买回去也无法使用。对数据供应方来说,由于无法准确预知数据买方多样性的需求,它只能从自身角度出发,将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说,供应方提供的标准数据很难与自己的应用方向精准匹配,这也是目前大数据交易还不够活跃的原因。当然,当供需双方建立初步联系以后,供应方甚至可以为需求方个性化定制大数据资源,但即使这样,供需错配的问题仍然无法解决,原因就在于单个的数据供应方无法提供多维的数据资源,只有多维的数据资源才具有较高的分析价值。

3.2 大数据资源定价困难

大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同,普通商品可以直接消费或者作为再加工的原材料,其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量,需求方购买它的目的是作为数据分析的信息源,但是否能发现潜在的规律还未可知。因此无法在购买前,准确判断出待售数据资源的价值大小。此外,需求方在不确定某大数据资源是否能真正能给组织带来收益情况下,很难给出一个较高的价格,这在客观上会影响数据供应方的交易积极性,加大了供需双方达成交易的难度。

3.3 数据的时效性不强

现有大数据交易平台的第三点不足,就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主,这是因为数据资源在交易前需要经历脱敏处理,将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外,供应方还需要对原始数据进行初步的清洗,整理成一定的数据格式集中存贮和交付,方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力,只能将采集到的数据资源,经过一段时间的离线处理后,再放到交易平台上,所以只能供应历史数据。随着社会节奏的不断加快,历史数据很可能并不能反映当下的真实情况,越来越多的数据分析都需要用到实时数据作为信息源,这是未来大数据交易必须克服的一个短板。

4.融合数据分析服务的大数据交易平台设计

本文提出将数据分析服务融合到目前的大数据交易中,以此来克服现有交易平台的不足,本节将首先对数据分析服务进行概念界定,再依次介绍平台设计的总体思路和核心模块的设计,具体如下。

4.1 数据分析服务的概念界定

数据分析是指运用各类数据处理模型和信息技术手段,对数据资源进行深度的挖掘,从而发现其中蕴含的规律,作为管理决策的依据。数据分析本身是一种能力,如果一个组织将其数据分析能力提供给其他组织或个人,并收取一定的费用,这就是数据分析服务。在大数据环境下,数据资源不仅体量巨大而且种类多,对数据分析能力的要求不断提高。在这种情况下,只有少数组织具备独立处理大数据的能力,其他的组织比如大量的中小企业,都需要从组织外部寻求专业的数据分析服务,来满足自身的需要。因此,数据分析服务和大数据资源一样存在巨大的市场需求。

4.2 平台设计的总体思路

本文将提出的融合数据分析服务的大数据交易平台,定位为第二代大数据交易平台,它将大数据资源交易与数据分析服务两者进行深度融合,在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介,转变为大数据综合服务商。在融合后的大数据交易平台上,数据需求方不再提交数据资源的需求信息,而是直接提出自己的应用方向和想要得到的结果,交易平台再根据需求方的应用方向,反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找,而是对全平台的数据资源进行有效整合,形成高价值的多维数据,再结合复合型的数据分析技术,得到最终的分析结果,最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的,一是方便需求方进行分析结果的对照,为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘,进一步提高数据的利用效率。平台设计的总体思路绘制成图1。

图1 平台设计的总体思路

4.3 核心模块的设计

融合数据分析服务的大数据交易平台共划分为四大模块,具体如图2所示。

图2 融合数据分析服务的大数据交易平台的主要模块

系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点,主要包含三个方面的功能:第一,负责整个交易平台的系统安全,通过对交易平台进行实时监控,阻止外部的非法入侵行为,保障平台的正常运行。第二,对数据供应方提交的数据资源进行审核,如果发现是非法数据,则阻止其交易,并及时将有关情况反馈给相关的政府监管部门,由它们进行调查处理。第三,检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况,交易平台将负责对该数据资源进行脱敏处理,从而保护数据中的隐私不被泄露。

大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块,是数据与服务两者融合并实现一体化交易的关键,本文接下来将对这三个核心模块的功能进行详细设计。

4.3.1 大数据资源池模块

大数据资源池模块主要包含三个方面的功能:数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。

(1)数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方,因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析,很可能会因部分数据无法准确读取,而影响数据处理的效率,严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一,对部分缺失的数据属性进行补充,对错误的数据格式进行修正。

(2)数据的多维度整合。在上文3.1中提到供需错配的一个重要原因,就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源,这些多维数据使用户或行业多个侧面的信息产生了关联,有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体,将单个数据供应方提供的零散的数据资源,进行多维度的整合,当缺少某一个维度的数据时,再向相应的数据供应方进行定向的采集,最后得到相对完整的多维数据,具有很高的分析价值。

(3)大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后,已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮,以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要,无法上传到交易平台上,或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心,将整合后的多维数据进行统一存放和调用,有助于提高数据资源的存取效率。

4.3.2 数据分析服务模块

数据分析服务模块首先根据数据需求方的应用方向,匹配出合适的多维数据资源,再选择相应的数据分析模型分配所需的计算能力,最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类:基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。

(1)基础性分析服务。基础性分析服务是指那些常规的数据统计,比如:总体中不同对象的占比分析,基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短,分析技术较为简单,只要数据资源本身完备,就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供,可以面对不同的需求方,实现快速交付。

(2)高级分析服务。高级分析服务是指那些较为复杂的数据分析服务,比如:精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术,比如:兴趣建模、视频分析,音频分析、深度语义分析等,必须由大数据交易平台对接第三方的数据分析服务商,由它们来提供高级分析服务。大数据交易平台在同一数据分析领域,应引入多家数据分析服务商,通过动态的竞争,来保证服务的质量。

(3)深度定制的分析服务。大数据分析目前还处在快速发展阶段,很多前瞻性的技术还在试验当中,应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术,在目前的市场上还找不到现成的提供方时,就需要大数据交易平台为其进行深度的定制,交易平台通过多方位的研发能力评估,寻找合适的技术主体来进行专门的技术攻关。

4.3.3 协同模块

协同模块主要包含两个方面的功能:数据分析服务之间的技术协同、交易各方的管理协同。具体如下。

(1)数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时,可能需要用到多个领域的数据分析技术,这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域,都有其行业技术的独特性,需要长时间的专业积累。在这种情况下,就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同,就是通过一定的技术标准和操作规范,让多个数据分析技术提供方,能够在完成同一任务时,在技术上不冲突,能够相互并行的完成对数据资源的处理,按时按质的交付最终的分析结果。

(2)交易各方的管理协同。在融合数据分析服务的大数据交易平台上,交易的参与者一共有四类,分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时,提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果,对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务,则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务,平台自身无法完成,需要用到第三方的数据分析服务商,则整个交易包含了全部四类参与者,是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。

图3 交易各方的利益分配

需求方希望在获得预期结果的同时,其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后,会出现两种不同的情况:第一种情况是在原交易预算下,可以达到需求方预期的结果,则可成交。第二种情况是,原交易预算较低,在该预算下无法达到需求方要求的结果,这时交易平台会和需求方沟通,提出新的报价,需求方经过考虑后,与平台进行讨价还价,它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据,因此原始数据资源供应方的收益,由平台从总交易价中支付,具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说,其价值是不一样的,融合数据分析服务的大数据交易平台根据最终的一体化交易成交价,反向对数据资源进行定价,相对于现有的大数据交易平台来说,是一种进步。交易平台的深度参与,会使数据交易的频率加快,原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务,直接参与由平台发起的竞价,达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。

5.融合数据分析服务的大数据交易平台的优势

本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台,可以很好地克服上述三点不足。除了这三个方面的优势以外,由于融合后可实现数据与服务的一体化交易,这将扩大交易对象的覆盖范围,提升交易的活力,具体如下。

5.1 直接面向应用,从根本上避免了数据供需的错配

在融合数据分析服务的大数据交易平台上,需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合,如果缺失某个维度的数据,可以进行定向的采集和补充,最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源,这是单个数据供应方无法提供的。在得到多维数据后,结合平台自身和第三方数据服务商的分析能力,得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据,这种直接面向最终应用的大数据交易方式,从根本上避免了数据供需的错配。

5.2 融合后定价更有根据

在现有的大数据平台上,数据需求方是将数据资源买回去以后自己分析,而在购买数据资源之前,不能预知数据分析效果的好坏,因此无法进行有效的价值判断,这是定价困难的关键点。在融合数据分析服务的大数据交易平台上,需求方不再直接对数据资源付费,而是对最终的数据分析结果付费,并且数据分析结果是根据需求方的要求反向定制的,是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度,给出适当的交易预算。交易平台以该预算为参照,对数据和服务进行选择,若出现原预算约束下无法实现预期结果的情况,交易平台再与需求方进行沟通,双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说,融合后定价更有依据。

5.3 融合后可提供实时数据

在融合数据分析服务的大数据交易平台上,数据资源采用云存贮的模式,由平台进行统一管理,这提高了数据资源的安全性。在数据安全有保障的前提下,由交易平台出面和数据资源供应方进行实时数据的对接,将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说,实时的数据脱敏难度太大。但大数据交易平台不一样,它可以利用规模优势,组建强大的计算能力,对大数据资源进行实时的脱敏和清洗,极大地提高了数据资源的时效性。

5.4 融合后将扩大交易对象的覆盖范围,提升交易的活力

融合后可实现数据和服务的一体化交易,让很多自身不具备数据分析能力的组织和个人,也能方便地利用大数据,特别是大量的中小企业,这将大大增加交易对象的覆盖范围。

交易对象的增多会促进交易频率的增长,从而为数据资源供应方带来更多的收益,这样会提升它们参与交易的积极性,鼓励它们供应更多的数据资源,从而提升交易的活力,整个大数据交易行业就形成了正向循环的良好发展态势。

6结语

本文对大数据交易平台本身进行了改进与创新,设计了一种全新的第二代大数据交易平台,即:融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向,实现数据和服务的一体化交易,不仅从根本上避免了数据供需的错配,还使大数据交易的定价更有依据,平台的深度参也让提供实时数据成为可能,这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛,鼓励更多组织和个人参与,增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究,为实际应用和学术科研提供更多有益的参考。

参考文献

[1]赵强,单炜.大数据政府创新:基于数据流的公共价值创造[J].中国科技论坛,2014(12):23-27.

[2]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.

[3]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95.

[4]侯锡林,李天柱,马佳,等.大数据环境下企业创新机会研究[J].科技进步与对策,2014,31(24):82-86.

[5]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究,2016,34(2):166-170,202.

[6]王玉林,高富平.大数据的财产属性研究[J]。图书与情报,2016(1):29-35,43.

[7]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报:哲学社会科学版,2015(1):64-70.

[8]刘朝阳.大数据定价问题分析[J].图书情报知识,2016(1):57-64.

[9]刘洪玉,张晓玉,侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育,2015(6):86-91.

[10]翟丽丽,王佳妮,何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践,2016(2):153-156.

[11]史宇航.个人数据交易的法律规制[J].情报理论与实践,2016,39(5):34-39.

[12]殷建立,王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学,2016,34(2):139-143.

[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊,2015(6):131-135.

[14]杨琪,龚南宁 .我国大数据交易的主要问题及建议[J].大数据,2015(2):38-48.

[15]唐斯斯,刘叶婷.我国大数据交易亟待突破[J].中国发展观察,2016(13):19-21.

数据分析篇3

[关键词]数据收集 数据分析 整理 发展 观念

[中图分类号] G623.5 [文献标识码] A [文章编号] 1007-9068(2015)35-077

“数据分析观念”作为《义务教育数学课程标准(2011版)》中明确提出的十个核心关键词之一,充分表明了新课标对数据分析观念的重视。那么,在小学数学课堂教学中,如何发展学生的数据分析观念,提升学生的数学学习能力呢?

一、着眼基础,教会学生收集整理数据的方法

对于数学学习而言,数据分析观念的形成主要有赖于学生统计过程中的经历,这个经历过程主要是指学生收集、整理、描述、分析、判断数据的过程,离开了这一过程,发展学生数学分析观念也就成了无源之水。因此,教师要着眼基础,放眼未来,帮助学生做好数据的收集、整理工作。

例如,在“数据的收集和整理”的教学中,主要要求学生学会简单统计人数、出生年月等,由于教材中呈现的类型较少,学生在进行数据统计时大多会采取“数一数”的方法。但是如果人数增多,如全年级、全校、全市……那么这种方法就会带来许多不便。因此,在教学中,教师要重视教给学生收集、整理数据的方法。在这种情形下,就自然引出了逐个统计或分组统计的方法;然后,再让学生采用自己喜欢的方法给自己分管统计的项目做好标记,可以用上“、、√”等符号来表示。这样一来,可以使学生在统计时一目了然,提高统计整理数据的速度。

在关于数据统计整理分析的教学中,教师要根据学生的具体情况,引导学生掌握数据收集整理的方法,不断发展学生的数据分析观念。

二、问题驱动,整体规划统计整理方案

在数据统计整理的学习过程中,教师一般都会通过具体的问题让学生进行统计、整理、汇报等,在这个过程中学生亲身参与了数据分析整理的各个环节。因此,教师要引导学生对统计整理方案做好规划,逐步培养学生整理数据方案的能力。

例如,在教学“数据的收集和整理”时,在教给学生统计与整理的基本方法后,为了使学生能够对统计过程做好规划,并提升自己统计数据的能力,在统计本班男女生身高的问题上,笔者给学生预留了大量时间,并通过以下问题驱动学生去规划、去完成整理数据的方案。如:你们了解自己的身高吗?你们了解其他同学的身高吗?你们知道在我国我们这个年龄段的人的平均身高是多少吗?请大家做好本班同学身高的统计,然后与全国平均身高做对比,看看你是否符合全国标准?在这个任务的驱动下,学生很快以小组为单位,做好了分工,并很快完成了小组成员的身高统计工作。这样,在问题任务的驱动下,学生做好了整体规划,统计起来方便、快捷、有效。

由此可见,在数据统计和整理教学时,对统计过程与整理方案做好整体规划是很有必要的,它不仅能激发学生主动收集数据的意识,而且还能使学生提高收集、整理的速度,进而提升数据分析、解决问题的能力。

三、瞄准关键,发展观念,多维度运用数据

在数据统计分析中,即使是相同的统计数据,由于分析方法不同,得出的统计结果也会不尽相同。因此,教师应根据问题的背景,瞄准关键点,选择适合的分析方法,让学生能够从多方向、多维度分析运用数据。

例如,在“数据的收集和整理”的教学中,教师让学生统计本班学生的出生年月,然后在数据的收集和整理完毕后,让学生对这些数据进行分析,并说说自己从这些数据中得出了什么结论。从这种统计方式来看,学生得出的结论无非是哪个月份出生的人数较多,哪个月份出生的人数较少。笔者认为,为了发展学生的数据分析观念,在出生月份统计完毕后,教师还应鼓励学生按照季度、年龄、性别等进行汇总,这样不仅可以使数据的分类整理工作变得更有意思,而且也在无形中发展了学生的数据分析观念。

由此可见,让学生对数据进行多维度、多方向的统计汇总,逐步帮助学生积累数据统计汇总的经验,让学生学会自觉地运用“数据”来分析“数据”,提炼结果,可有效发展学生的数据分析观念。

总之,要想使学生的数据分析观念得到有效发展,教师就要加强对学生的数据收集整理过程的指导,并且能够从生活中提取数据,使学生对数据分析产生亲切感,不怕数据分析,愿意去主动分析数据,提炼出相关信息。如此一来,学生的数据分析能力必将会得到极大提升,进而为全面提升学生的数学素养服务。

数据分析篇4

【关键词】大数据分析 系统 高速 数据更新

大数据概念的逐渐兴起,带动了各大行业的发展和更新,那么大数据的具体概念究竟是什么,书中的解释是一般的软件难以概括和捕捉和分析的较大容量的数据,更大的意义是在于能够通过交换、整合海量的数据,发掘新的知识,从而创造更大的价值。大数据系统中包含仓储数据系统、图形处理系统、日志数据处理系统以及MapReduce数据系统等等。本文通过分析其中主要的几个数据处理系统中的差异和共性,分析大数据分析中的主要应用。

1 大数据分析系统中的Velocity

1.1 事物的处理系统

事物处理系统是传统的商业数据库中主要的应用软件之一,必须要支持大量的并存用户,由于每一位用户操作时所读取的数据只占其中的一小部分,并且会随机的分布在每一个数据系统中。例如在银行的存款中,每天都有成千上万的客户利用自动取款机或是人工服务进行交易,每一位客户对自己的银行账号进行操作,对于银行的整个数据系统中是极为微小的一部分,,是随机分布在各个银行的数据之内的。因此在大数据的时代,随着科学技术的不断普及,事物处理的规模和程度也就不断地加大。

在事物处理的系统当中,velocity是数据系统设计中的主要核心,引导每一位客户对其自身的业务进行准确的操作,同时需要尽可能的支持更多的并发业务,在实际的系统中,TPC-C与TPC-E是测试事物处理效率的主要依据。许多数据分析企业简化了数据分析的步骤,这样虽然能够从一定程度上减少分析的成本,提升的分析的性能,但是为了能够实现更多的分析应用,促进大数据系统的高效运行,需要程序员逐一解决实际的分析问题,将研究的重点放到ACID上。

1.2 数据流的系统

向较与事物处理系统,数据流系统的主要任务是分析流过系统中的主要数据,在每一条流过的数据中,计算出事先定义好的查询运算,例如差异监测、统计运算、复杂事件处理等等,系统中的运算需要连续不断的进行,由于不需要对数据进行大面积的存储,因此流过的数据也就是无限量的。我国数据流系统最早出现于20世纪末,最开始被应用于电信流量监控以及交通情况分析等等。同时与实务处理系统相似的是,数据流系统的核心任务也是velocity,其更加注重的是对于数据系统的吞吐量控制,单位时间内流过的数据量能够方便系统的储存,另一方面能够实现更多的恶吞吐率。

1.3 大数据分析系统

大数据的分析是确保数据价值的主要途径,通过对海量的数据进行分析,能够基本的总结出数据中蕴藏的规律,从而能够更好地理解现实,对未来的事件进行预测。大数据系分析系统与事件处理系统与数据流系统存在一定的差异,与事件处理系统相比,大数据分析系统只为极少数的客户进行服务,例如公司的数据分析师、决策人员以及对数据进行分析的管理人员,并发的用户量小于数据的处理系统,但是对于系统进行的数据处理工作并不少于事件处理系统;向较于数据流系统大数据分析系统能够处理系统中所存储的数据,而不是处理流动中的数据,虽然数据不一定 能够全部放入内存,但是大部分系统需要利用外部处理器进行处理。

在大数据的时代之下,velocity的作用越来越突出,数据通过不断产生、流通并加载到数据系统中,从静态的角度分析和优化数据分析系统存在一定的问题,首先是无法反应并及时更新数据,难以适应众多的在线应用需求;其次,静止的状态可能会受到数据更新的干扰,数据分析的性能无法得到最大程度的发挥。因此程序员在设计大数据分析系统的过程中,不仅要注重数据操作的本身,还应该理清整个数据分析的生命周期,从而使其设计理念充分发挥在系统应用中。

2 在数据系统仓储中高速数据的更新

2.1 传统的数据更新对数据分析操作的影响

分析数据系统中的查询工作,在硬盘上进行数据的顺序阅读,一般情况下,常规的数据顺序读性可能会达到100MBps,相对于传统的数据更新对数据页面进行数据的录入和插入以及修改等操作,数据的访问也比较符合前段系统的数据特征,基本上也是随机进行的。同时由于技术水平的限制,大多数硬盘只能支持每秒一百次的随机访问,系统运行的效率大打折扣。再加上随机访问可能会干扰良好的数据信号,在操作的过程中,需要不断更换硬盘的磁头才能进行后续的工作,因此也在一定程度上降低了数据分析的可能性。

2.2 在线高速数据更新的设计目标

在进行设计的过程中,需要准备固态硬盘、硬盘以及内存三种设备,主要的数据内容依然存放于硬盘中,并在系统中增加少许的固态硬盘,用来暂时存储临时更新的数据,利用这样的形式,能够有效的降低系统更新对数据查询的影响,由于固态硬盘的容量也比较小,因此其成本也相对较低。系统中的每一条数据都需要包含其主键、操作流程以及更新后的数值。因此需要在内存缓冲之前及时进行更新数据,当缓冲完成之后,将数据的更新记录录入在固态的硬盘中,在读入的数据系统中记录插入和修改的操作,从而产生最新的数据信息。

为了完成上述的操作,需要保证几个设计的前提:

(1)对查询的结果影响小,这是主要的设计目标,在具体的算法设计中,利用固态硬盘的特征,减少线上更新对数据查询操作的影响;

(2)内存的占用较少,内存的大小可能会影响运算的性能,首先内存能够用于数据的缓存,减少不必要的操作,其次,以排序作为基础的算法,对于内存的大小不同,算法的性能可能会出现很大的变化,因此当数据能够完整的纳入内存之中时,利用计算方法只需要读取以此数据,就能够计算出具体的内存容量,从而减少对于内存的占用,提升数据内存的可靠性能;

(3)高效的迁移和操作,从时间方面来看,以前e累的大量数据记录,每一页的主数据中可能会存在一些新的更新记录,而不是随机的抽取,在空间的数据方面,数据的迁移能够随时空间的转移进行更新,因此只需要使用少量的硬盘空间,就能存储大量的更新数据。

2.3 MaSM算法

在数据更新系统和固态硬盘中加入两层数据结构,归纳并操作时,需要将数据更新的记录按照主键的顺序进行排列组合,并简化外部内存的排列程序,当缓冲完成之后,算法对缓冲区域中的数据更新记录进行修改,从而将排序之后的数据更新记录记载在固态的硬盘中,编写一个新的文件,之后便不再系修改。对于主键范围之内的数据查询工作,需要创建一个table range scan造作的运算部件,将数据更新记录的数值范围精确到固定的区域之内,使程序员能够及时并便捷的找到数据更新的差异和规律,从而对整个大数据分析提供有一个准确的把握。

3 高性能日志处理系统:LogKV

3.1 LogKV系统结构分析

键值系统能够灵敏地表现多种类型日记的信息和记录,并能够提供可靠的数据存储资源,系统由一个调节的管理支点和多个工作的节点通过数据中心的网络系统连接在一起,每一个工作的系统都由两个子系统构成,IngestKV是键值存储的子系统,使日志能够顺利的缓冲和收集,并实现系统的设计理念和设计目标。

3.2 从日志的数据源到系统的映射

需要管理员尽可能的平衡各个节点之间的日志数据流量,优化获取日志的方法,首先,日志的数据源能够运行LogKV的程序,进行直接收集日志资源,由网络信号进行数据的发送和传播;其次,日志的数据源能够通过配置远程的端口和服务器,将日志的数据直接发送到实际的运行系统中,从而促进整个系统的高效运行;最后,日志的数据源能够将数据写入到本地的文件中,并通过文件传输的协议,产品能够数据源中获取到数据文件。

4 总结

综上所述可知,随着经济的发展和社会的进步,科学技术水平也得到大幅的提升,为了能够跟进时代的步伐,体验科技的成果,采用大数据分析以及高速更新数据更新的技术,不仅能够提升人们的生活质量,加快社会进步的脚步,同时也能够促进我国的科技软实力,从而在激烈的国际竞争中找到一席之地。因此程序员在进行数据分析的过程中,需要充分了解设计的内涵,确立在线高速数据更新的设计目标,从而方便大数据的存储和运行。

参考文献

[1]陈世敏.大数据分析与高速数据更新[J]. 计算机研究与发展,2015(02):333-342.

[2]刘中亚.正视大数据――浅析基于大数据分析的高速公路运营管理[J].中国公路,2014(23):108-111.

[3]杜玉辉,蒋姣丽.大数据背景:高速公路收费系统数据的现状、分析与展望[J]. 电脑知识与技术,2012(15):3752-3754.

作者单位

数据分析篇5

【关键词】分布 空间数据挖掘 大数据

随着经济水平的不断提高,人们的生活水平得到了较好的改善。工业、农业以及第三产业的快速发展促使了科学技术不断创新。社会主义市场经济的快速发展,为满足我国经济发展的需要,不断扩展发展的空间成为当前国家发展经济、政治、文化的重要内容。科学技术的发展迫使人们对地球的研究上升到空间的研究,随着大数据时代的到来,挖掘空间数据是历史发展的必然结果,是发展经济、政治以及文化的动力所在。

1 大数据下空间数据的特点

空间数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。随着科学技术的不断发展,经济的快速发展,对地球的研究已经不能满足于大数据背景下经济快速发展的需求了,人们把研究的方向逐渐投向宇宙空间,精确的空间数据有助于为经济的发展做出更好的发展战略和策略。

1.1集成的数据

空间数据仓库的数据是从原有的空间数据库中将数据抽取来的。因此在数据进入空间数据仓库之前,必然要经过统一与综合的过程,这一过程是空间数据仓库建设中关键所在,所要完成的工作包括消除数据中的不一致性和进行数据综合计算。

1.2数据的持久性

对空间数据仓库中的数据进行挖掘主要为经济、政治、文化发展做出最好的决策,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段时间内的数据内容,是不同时间的空间数据库快照的集合。对这些集合快照进行统计、综合和重组导出的数据,而不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些数据将从空间数据仓库中删除。

2 空间数据挖掘的常用方法

2.1空间分析法

随着科学技术的不断创新,为适应经济科学技术的不断发展,利用先进的GIS技术对空数据库的数据进行建模分析,从而获得更新颖的数据,让人们对空间数据的认识更深。利用空间分析的方法可以发现目标在空间上的关联,从而找出最佳的决策方式为数据做出正确的判断。

2.2统计分析法

空间数据的挖掘促使人们对地理空间信息的探索越来越看重。为了是的得到的数据更加的准确和精密,统计分析方法是人们管用的一种,通过对空间物体以及空间各种现象的特性进行分析。在对空间数据进行统计分析的时候,数据的空间特性对统计分析方法的作用不大,在进行分析的时候能清楚的将数据以图形的形式展现出来,但是统计分析方法在字符型数据上很难做到将空间数据进行关联。

2.3遗传算法

遗传算法是对生物进化的过程进行模拟计算,这种方法计算的结果精确,它能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。利用这种方法在空间数据的挖掘方面,能有有效的对空间数据的变化进行详细的定位分析,全方面的进行搜索,从而搜索出更加精确的数据结果。

2.4数据可视化的方法

人类的可视化能力,允许人类对大量抽象的数据进行分析。人的创造性不仅取决于人的逻辑思维,而且取决于人的形象思维。人脑的空间认知分析能力目前尚无法全部用计算机代替,因此可视化技术为知识发现提供了有力的帮助。为了了解数据之间的相互关系及发展趋势,人们可以求助于可视化技术。海量的数据只有通过可视化技术变成图形或图像,才能激发人的形象思维―― 从表面上看来是杂乱无章的海量数据中找出其中隐藏的规律。数据可视化技术将大量数据以多种形式表示出来,帮助人们寻找数据中的结构、特征、模式、趋势、异常现象或相关关系等。从这个角度讲,数据可视化技术不仅仅是一种计算方法,更是看见不可见事物或现象的一种重要手段和方。

3 空间数据挖掘存在的问题

3.1空间数据库类型多样性

随着科学技术的不断发展,空间数据的挖掘也逐渐成型,空间数据的数据类型复杂多样,数据间的联系优势紧密相接的,空间数据库之间的数据源分布不集中,种类繁多,这对空间数据进行挖掘所有类型的空间数据带来了困扰。

3.2空间数据的不断变化

整个宇宙是处于不断运动的状态的,空间数据库里的数据也是处于不断变化的,这种运动变化会使得在空间数据挖掘的过程中对数据的把握度难以拿捏,对一组数据进行挖掘的时候,由于数据不断化,下一秒就会产生新的数据。

3.3空间数据挖掘的智能化问题

随着人们对空间的探究不断加深,空间数据的挖掘也在不断成熟起来,但是由于空间数据库的数据是不断变化的,受到科学技术水平的限制,空间数据智能化程度偏低,对空间数据的挖掘程度难以深入。

4 结语

经济的快速发展推动了科学技术的不断发展,随着大数据时代的到来,人们对空间数据的挖掘正在逐渐深入。在经济快速发展的社会,为了满足经济快速发展的需要,不断加深对空间数据的挖掘有利于给经济发展提供更好的决策。在今后的发展道路上,空间数据的挖掘要不断创新,利用科学的技术水平,不断完善和发展自己的理论和方法,为经济快速发展提供科学的依据。

参考文献

[1]冯弟飞,胡圣武.空间数据挖掘的方法进展及其问题分析[J].测绘科学,2011.09(11):36―37.

[2]胡圣武,李鲲鹏.空间数据挖掘的方法进展及其问题分析[J].地球科学与环境学报,2012,0903):226―227.

[3]王新华,米飞,冯英春,赵玮.空间数据挖掘技术的研究现状与发展趋势[J].计算机应用研究,2011,08(07):111―113.

[4]徐胜华,刘纪平,胡明远.空间数据挖掘与发展趋势探讨[J].地理与地理信息科学,2011,07(03):158―159.

[5]秦昆,李振宇,杜.基于概念分析的空间数据挖掘研究进展[J].地球信息科学学报,2010,10(01):108―109.

作者单位

数据分析篇6

关键词 数据挖掘 基因序列 生物信息学 遗传疾病 患病家族连锁分析

在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。

数据挖掘在DNA数据分析的发展状况

现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。

基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DN段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。

方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。

系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。

其中一个文件所存储的基因信息,见图1。

启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。

没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。

单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。

如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。

选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。

结 论

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。

参考文献

1 黄诒森.生物化学[M].北京:人民卫生出版社,2002:29-37.

2 张国良.遗传算法及其应用[M].北京:人们邮电出版社,1996:130-150.

数据分析篇7

引言

目前人类每年产生的数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别,随着数据量的急剧增长,大数据时代已经到来。

随着计算机处理技术和云计算的迅速发展,人们处理大规模复杂数据的能力日益增强,从大规模数据中提取有价值信息的能力日益提高。经营管理、工业生产等数据都可以直接从互联网中提取并存储到服务器中,然后进行数据挖掘和分析,对于提高企业经营管理水平,进行生产过程控制,提高生产效率发挥着巨大的作用。

数据是德国工业4.0五大特色之一。数据是信息化时代重要的生产要素,数据生产信息,信息改善决策,进而提高生产力。可以预测,未来数据积累量、数据分析能力、数据驱动业务的能力将是决定企业价值的最主要因素,是评价企业价值的核心。

一、大数据时代的数据分析

1.大数据

大数据是维克托?迈尔-舍恩伯格在2008年的著作《大数据时代》中提出的概念。维基百科给出的定义是,大数据指所涉及的资料规模巨大,无法通过目前常规软件工具,在合理时间内达到撷取、管理、处理、整理成为有用信息的数据集合。

大数据的主要特征为大量性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)。

(1)大量性。是指大数据的数据量巨大。在大数据时代,个人电脑、手机、平板电脑等网络工具的使用和高度发达的网络技术的普及,数据资料的来源范围在不断拓展,数据的计量单位从PB到EB到ZB,数据量增长发生了质的飞跃。

(2)多样性。是指数据类型繁多。大数据不仅包括传统的以文本资料为主的结构化数据,还包括信息化时代所有的文本、图片、音频、视频等半结构数据和非结构化数据,且以半结构化和非结构化数据为主。

(3)高速性。指大数据处理时效性高。大数据产生速度快,有价值信息存在时间短,时效性强,在海量的数据面前,处理数据的效率关乎数据是否有使用价值,因此,能迅速有效的提取大量复杂数据中的有价值信息显得非常重要。

(4)价值性。指大数据价值巨大,但价值密度低。大数据中存在反映人们生产、生活、商业等各方面极具价值的信息,但由于大数据规模巨大,数据时时刻刻都在更新变化,这些有价值的信息可能转瞬即逝。因此,如何通过强大的机器算法迅速高效地完成数据的价值“提纯”成为大数据时代亟需解决的难题。

2.大数据时代

大数据时代是指在大量数据信息基础上所形成的新型信息时代,是建立在通过互联网、物联网等现代网络渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示,促进数据发挥价值的信息时代。大数据时代,数据分析过程中数据的管理和应用效率得到提高,人们几乎能够从任何数据中获得可转换为推动人们生活方式变化的有价值的知识。大数据时代的发展会促进众多领域和行业进行变革,会对人们未来生活产生深刻的影响。

3.数据分析

数据分析是指用合适的统计方法及与分析对象有关的知识,定量与定性相结合,对收集到的大量数据进行分析的过程,是为了提取有用信息和形成结论而对大量数据进行详细研究和概括总结的过程。数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息挖掘和提炼出来,进而总结出研究对象的内在规律。

数据分析在企业经营管理中具有重要意义。企业通过统计调查、整理获得的统计资料能够对客观对象的数据特征取得一定的认识,但只是停留在表面的初步认识。通过数据分析,挖掘数据背后隐藏的信息,总结隐藏在其中的内在规律,掌握事物的本质及内在的发展规律,将其应用到实际的经营管理中,可以帮助管理者进行合理的决策管理,并且及时调整企业的运营发展策略,使企业的各项管理工作不断改善和提高。

目前常用的数据分析方法有:

老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图;

新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。

4.大数据时代的数据分析

从大数据中挖掘隐藏的有价值信息的关键在于对数据进行正确的数据分析,数据分析是大数据处理流程的核心。大数据的价值产生于分析过程,从规模巨大的数据中挖掘有价值信息所进行的分析过程就是大数据分析。

大数据分析和传统数据分析最重要的区别在于数据量。数据量的急剧增长及大数据的特征,决定了数据的存储、查询以及分析的难度增加,对数据处理技术的要求迅速提高。大数据分析建立在海量原始数据基础上,不需要预先设定研究目的和方法,而要从大量数据中通过数据挖掘技术找到数据之间的关系并建立模型,寻找导致现实情况的根源因素,甚至形成理论和新的认知,在此基础上对未来进行预测和优化,以实现社会运行中各个领域的持续改善与创新。

传统的数据分析是“向后分析”,分析的是已经发生的情况。而在大数据时代,数据分析是“向前分析”,具有预测性。传统的数据分析主要针对结构化数据,具备一整套行之有效且?V泛使用的分析体系:利用数据库存储结构化数据构建数据仓库构建数据立方体进行分析。对于从大数据中提炼更深层次更有价值的信息的需要促使数据挖掘技术的产生,并发明了聚类、关联分析、分类、回归分析、估计、预测、描述和可视化等一系列行之有效的方法。同时大数据的到来使得在线数据分析成为可能,如Web页挖掘、OLAP等。数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,用于指导以后的行动。

二、大数据分析在企业经营管理中的意义

在企业的经营管理过程中,数据是关键且核心的因素,在关键环节进行科学的数据分析,对于提升企业的经营管理能力具有十分重要的意义与作用。

首先,对企业情况进行完整客观的反映。在收集企业全面数据报表、调查资料的基础上,利用数据分析工具进行严谨的分析,形成科学规范的数据分析报告,能发现数据背后的信息,便于理解、阅读和利用,为企业发展决策提供参考。

其次,对企业运营情况进行有效监督。监督是数据分析在企业经营管理中的一项十分重要的功能。对企业经营管理过程中所产生的数据进行监督具有十分重要的作用。在对企业数据、资料进行收集整理的过程中,能够相对较为全面、如实地知晓行业动态及本企业运行发展状况,能够对企业的相关活动产生的效果进行了解,比如企业方针政策实行与否、经营计划落实情况、经济指标完成情况等,从而进行行业对比和横向、纵向对比分析,以帮助企业良性发展。

第三,参与科学化决策。对收集整理到的数据资料有针对性的进行深层次地研究、分析,挖掘出数据资料潜在的实质涵义,促使企业管理者及相关部门能够更为完整客观地了解企业发展现状及发展方向,从而能够更有针对性地进行企业决策,计划制定,起到数据分析在企业经营管理中的参与科学化决策的作用。数据驱动型决策是大数据时代决策的特点:尽可能全面、完整综合地收集数据,在此基础上使用恰当的统计方法进行建模和分析,挖掘出数据背后的关系,预测事件发生的概率。企业利用大数据和数据分析进行决策时,首先要提高对数据的重视程度,转变思维模式,在遇到重大决策时,先进行数据收集、分析,再进行决策。其次,要重视普通员工日常积累的数据。员工在完成日常工作的同时,积累了大量最基础数据资料,企业将所有日常的数据加以整合分析,可以在决策时起到关键重要的作用。再次是建立数据辅助决策的流程和模板,建立基于决策任务的决策知识的收集、创造、共享、传递和激励机制。

三、大数据分析在工业生产过程中的应用探讨

随着信息化的推进,数据已经成为一种重要的资源。未来大数据和数据分析将在工业生产全过程中进行应用,将大力提升企业内部运营管理效率,提升企业竞争力,同?r提升制造过程中的智能化。

信息技术随着信息化与工业化的深度融合,已经渗透到了工业企业产业链的各个环节,ERP、MES等技术在工业企业中得到广泛应用。工业企业中生产线高速运转,工业设备产生大量数据,工业领域所拥有的数据日益丰富。基于大数据分析平台,对这些数据进行分析,总结经验、发现规律、预测趋势、辅助决策,充分释放和利用海量数据资源中蕴藏的巨大价值,优化公司运营结构,精准决策,降低成本,提高效率。

大数据和数据分析的应用将给工业企业带来创新和变革的新时代。信息化和工业化的深入融合,给工业领域带来深刻的变革,通过互联网、物联网等带来的低成本感知、高速移动链接、分布式计算和高级分析,给工业发展带来了更快的速度、更高的效率和更高的洞察力。大数据分析在工业领域的应用主要包括产品创新、生产流程优化、产品质量管理、生产计划制定、产品定价、产品生命周期管理、库存管理、供应商管理等各个方面。

1.产品创新。客户与工业企业之间的交易产生大量的行为动态数据,同时对产品的使用情况跟踪记录,产生产品使用动态数据,对这些数据进行挖掘和分析,将分析结果使用到产品改进设计、创新等活动中,相当于让客户参与到产品的需求分析和产品设计等创新活动中,对产品创新具有不可估量的贡献。

2.生产流程优化。现代化的工业制造生产线安装有数以千计的小型传感器,在生产的全过程中可以探测温度、压力、振动和噪声等。整个生产流程将产生大量数据,对这些数据从不同角度进行挖掘分析、比如设备诊断、能耗分析、工艺分析等。在此基础上,对生产过程建立虚拟模型,仿真并优化改进生产流程,提高设备使用率、降低能耗、减少质量事故发生几率,优化工艺等,从而提高生产效率。

3.进行质量分析,提高质量管理水平。高度自动化的设备在加工产品的同时记录了庞大的检测结果。利用检测结果进行质量分析,可以提高质量管理水平。在产品的整个寿命周期,包括从市场调研到售后服务等的各个过程中适当运用数据分析过程,可以提高质量管理的有效性。例如QC工具在工业企业的应用。QC指质量控制。针对工业生产全过程特定的工作失误或品质不良运用QC工具展开分析讨论,并将结果可视化显示在大家容易看到的地方,提醒大家,防止再次发生同样的问题,同时谁有新的建议可以随时提出,大家一起讨论修订。

六西格玛也是目前企业质量管理中运用比较广泛的工具,它是一种用于改善企业质量流程管理的技术,它以“零缺陷”的完美追求,带动质量成本的大幅度降低。质量分析工具在广泛使用,可以提高产品质量,从而最终实现财务成本的降低,同时实现企业竞争力的突破。

4.产品故障诊断与预测。无处不在的传感器、互联网技术的利用,使得产品故障诊断实时进行,提高了产品故障诊断的及时性。利用数据挖掘与分析技术,对记录的数据进行建模与仿真,可以对产品故障实行动态预测。

5.生产计划的科学制定。生产环节的大数据具有很大的利用价值,对其进行挖掘与分析,对计划制定具有指导意义。通过对计划与完成的对比分析,发现计划与实际完成的偏差,在考虑产能约束、人员技能、物料供应、工装模具等生产资源的基础上,通过智能的优化算法,建立计划制定模型,从而制定更加科学合理的生产计划。

6.进行科学合理的产品定价。产品定价的合理性需要有详细的基础数据和试验数据作为支撑。一方面能够获取更加详细的微观数据信息,使产品成品的分析更加科学精确。另一方面可以研究客户对产品定价的敏感度。通过这些数据分析,为产品定价提供决策参考。

7.实现产品生命周期管理。随着物联网的发展,条形码、二维码、RFID等能够唯一标示产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术能将产品生命周期的信息进行实时采集和分析,这些数据能够帮助企业在供应链的各个环节跟踪产品,收集产品使用信息,从而实现产品生命周期的管理。这些数据还可以用于售后服务,提高售后服务质量,从而提高产品竞争力。

8.库存管理。信息化高度发达,可以获取工业企业各方面的信息。库存信息将完全展现在管理者面前,通过数据分析和挖掘,可以准确知道产品原材料和产成品库存量。根据原材料库存量和生产计划确定原材料需求量,在此基础上进行采购,可以保证产品生产需求,有最大限度地减少了资源浪费。

9.完善供应商管理,实现准时化采购。在对原材料大量数据挖掘和分析的基础上,可以选择最合适的供应商,保证原材料质量和准时供应,产品质量得到有效控制,同时降低库存成本,增加了制造的敏捷性与柔性。

四、结语

数据分析篇8

【关键词】财务管理;大数据时代;财务分析

随着信息化时代的发展,云平台、物联网等新兴技术逐渐走入我们的生产与生活。大数据作为海量数据的处理技术,能够帮助人们快速实现数据的归集与分析,为管理者决策提供依据,对于财务管理意义重大。本文中,笔者主要从结果分析转向过程管控、单一分析转向多样性分析、阶段分析转向实时分析等方面对大数据时代下财务分析的发展方向进行研究,并提出一些做好财务分析工作的具体策略。

一、财务分析的发展历程

(一)手工处理阶段

早期,会计人员对数据的采集、存储、加工、传递都是依靠纸张和算盘等计算工具进行的,这种手工方式的处理需要阅读大量的会计资料,在整个过程中,会计人员很容易出现差错,除此之外,手工处理的效率也相对低下。

(二)计算机处理阶段

计算机问世后,财务数据的分析与处理效率得到极大提高,但借助计算机的财务分析也仅仅只是手工方式的模拟,即一种程序只能完成一项业务的分析,会计资料、信息的交换与分享仍主要经由光盘、软盘等存储介质。这一阶段,计算机处理的信息具有很大局限性,各部门对资料的决策参考不能实现充分交流,及时性和准确性有待进一步提升。

(三)网络处理阶段

互联网的普及使财务资料和信息能够借助网络进行处理和传递,会计实现了业务流程和信息流程的集成处理,彻底消除了以往“信息孤岛”的现象,极大提高了企业的信息共享性。但这一阶段对于数据的总结、归纳、提炼仍不够精确,数据的使用价值有待提高。

(四)大数据分析阶段

大数据分析是建立在云计算基础上的一项新型技术,大数据下的财务分析,数据的抽取与分析将更为便捷,数据的结构、内涵将更加复杂、多样,加之分析方法更加精确、更加智能,财务分析的时效性与决策参考价值都得到很大程度提升。

二、传统财务分析面临的问题

(一)以事后分析为主,对事前、事中管控不足

传统财务分析只能对已经发生的财务数据进行归集、处理,这时分析结果的实效性和有效性已经大大降低,既不利于企业财务管理的风险控制,也不利于企业的经营决策。加之,通货膨胀等宏观经济原因的影响,企业的资产会被低估,成本偏低,收益虚增的情况时有发生,这将对企业利润表与资产负债表的真实可靠性不利。

(二)以财务报表分析为主,对非财务资料的分析不足

传统财务分析主要参考财务报表,这使得财务分析的数据和结果均有局限性。一方面,企业固定资产折旧、对外投资核算以及存货发出计价等内容可以依据会计准则以及自身实际情况选择不同的会计处理方法,因此,数据的处理结果往往不具有可比性。另一方面,固定资产折旧年限、固定资产净残值率以及坏账准备金比例等受到会计人员主观影响的可能性较大,这些由估算得来的数值也会对财务分析产生一定影响。

(三)以结果为主,过程分析不足

大多数企业的财务分析仅将企业最终的利润作为分析重点,即过分注重经营结果,忽略了财务管理中的先进管理分析、非会计材料分析、资金链分析等过程分析,认为只要企业盈利了就表明经营状况良好。这种分析思路对于控制企业经营成本与风险不利,不能从根本上帮助提高企业投资产出比和资本运营能力。

(四)以应付外部监管、检查为主,参与企业管理与决策的功能不足

目前,大部分企业的财务分析工作只是为了应付外部检查而设置的,其在企业经营管理中的地位较低,不能参与企业的管理决策。此外,财务分析对应的外部检查项目种类较多,检查方式也多为制式表格,会计人员疲于应付填表,无法实现对数据和信息的细致分析。

三、大数据时代下财务分析的发展趋势

(一)由结果分析向过程分析

转变以销售业务为例,以往的财务分析主要针对终端的销售结果进行统计,进而实现对产品渠道、组织、数量、金额等内容的分析,但这种分析方式无法对产品销售进行溯源,只能根据结果进行定性判断,也就不能为决策提供准确参考。大数据时代下,后台人员能够对特殊信息进行采集、处理,还可对消费者评价、促销活动情况等中间数据与信息进行归集、分析,这对于企业及时调整经营策略,提高经营效率具有重要意义。

(二)由单一分析向多样性分析

转变要判断某个客户的经营状况,按照传统财务分析的思路分析其财务报表是不全面的,必须要有大量的财务数据和非财务数据支撑才能得到更精确的结论。在大数据时代下,财务分析要从以往的单一分析向多渠道信息分析转变,实现对数据内容的拓展,帮助企业更全面地了解自身经营情况。(三)由阶段性分析向实时分析转变以往对终端信息的采集以及财务分析报告的出台多是定期的,这对于突发项目考虑不够全面,不利于企业的风险管控。在大数据时代下,个性化的策略和精细化的财务分析能够做到实时查询,信息能够通过网络及时传递,企业也能及时参考分析结果进行经营调整。

四、大数据时代下做好财务分析工作的具体策略

(一)提高财务分析人才素养大数据时代,财务分析将在企业管理中扮演更重要的角色,因此,财务人员要更深入地学习新的分析方法,提高自己使用新技术的能力,培养自身敏锐的判断力,积累财务分析的经验,树立大财务思维,重视大数据的开发和运用。一方面,财务人员要苦练内功,具备扎实的会计业务能力,另一方面还要将视野扩大至决策分析与支持、信用管理、风险管理、作业成本管理等综合管理领域,提升自身财务大数据的处理能力和分析能力。

(二)制定清晰的财务分析战略

行业和企业不同,对于大数据的使用也会存在一定程度的差异,因此,企业要根据自身所处的行业特点与企业属性制定财务战略,构建适合自己的财务分析体系。具体来讲,企业一方面要明确自身实际,确定自身业务量和信息量,并针对数据的规模确定财务分析的层次、结构以及配备的人员数量和目标结果;另一方面,财务分析战略的建构是一个宏大的工程,企业要制定中长期计划,逐步完成,不可盲目求大,要从IT架构等基础设施做起,逐步向各环节业务领域实现拓展。

(三)完善财务分析新系统的主要功能

首先,要实现大数据财务分析的灵活查询功能。企业要依据职能不同为各环节各部门分配不同权限,用户可查阅权限以内的相关数据,同时,还要进一步完善财务系统建设,筛选真正有价值的指标进行收集与处理,为企业决策提供更准确的参考内容。其次,要引入多维分析技术。在实际过程中,财务人员面对的资料和数据往往较为复杂,这就需要我们引入多维分析处理技术,进一步整合数据源,提高指标计算的自动化程度,进而提升财务分析的综合性。最后,要引入人机交互的操作模式。大数据时代的财务分析系统要能够根据实际需要进行信息性质和范围的变动,方便财务人员及时进行人为调整,提高财务分析的适应性。

五、结语

总之,大数据时代的到来为企业的发展提供了机遇,作为企业管理核心部位的财务分析应主动适应时代,找准自身定位,做发展的引领者,广大财务人员要进一步创新工作方式,拓展财务分析的外延与内涵,使之成为企业决策、发展的智库。

【参考文献】

[1]涂子沛.大数据:正在到来的数据革命[J].广西师范大学出版社,2012(08)

[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(01)

[3]迟红梅.发挥财务分析在企业财务管理中的核心作用的研究[J].时代金融,2011(04)

[4]程平,王晓江.大数据、云会计时代的企业财务决策研究[J].会计之友,2015(02)

上一篇:数据结构范文 下一篇:财务统计范文