大数据分析方法及应用初探①

时间:2022-08-15 09:31:24

大数据分析方法及应用初探①

摘 要:大数据在很多的行业和企业得到了应用,对大数据的研究和分析也受到了很多的学者的青睐。大量非结构化流式数据已成为大数据时代的主要数据形态,这给传统的数据处理系统架构带来非常大的挑战,必将使大数据处理系统渐渐由流程设计转变为数据设计。为此,该文主要从大数据分析的方法理论入手,对现今各行各业即将运用的大数据处理方法进行研究,总结出一种较适用的大数据分析方法及其应用,以供行业和企业在未来的业务活动中作参考。

关键词:预测分析 大数据处理 大数据应用 数据挖掘

中图分类号:TP393 文献标识码:A 文章编号:1672-3791(2017)06(c)-0053-03

随着云计算、大数据、物联网和移动互联网等新一代信息技术的发展,传统企业级IT架构正在朝基于互联网的分布式新架构转型。大数据作为新一代信息技术的核心,正在使各个领域变得越来越可感知,并走向智能化。大数据将会发挥自身独特的优势,带给我们更多的方便和便捷。大数据分析的方法理论有哪些、在行业、企业的活动中有哪些应用。

1 大数据分析的五个基本要素

1.1 大数据预测性分析

大数据技术的主要应用是预测性分析,如在线教学资源网站通过数据分析用户会对推荐的教学模是否感兴趣,保险公司通过数据预测被保险人是否会违规,地震监测部门通过对大数据的分析,预测某地点发生地震的大致时间,气象部门利用数据预测天气变化等。预测是人类本能的一部分,通过大数据预测人类才可以获得有意义的、智能的信息。许许多多的行业应用都会涉及到大数据,大数据的丰富特征表述了快速增长的存储数据的复杂性。大数据预测分析打破了数据预测一直是象牙塔里数据科学家和统计学家的工作,伴随着大数据的出现,并融合到现有的MIS、MRPII、DSS 、CIMS和其他核心业务系统,大数据预测分析将起到越来越重要的作用。

1.2 数据管理和数据质量

大数据分析跟数据质量和数据管理紧密相关,而质量高的数据和有效的数据管理可以使分析结果有价值、真实并得到有力的保证。

1.3 可视化分析

普通用户和大数据分析专家是大数据分析的直接使用者,因此他们对大数据分析的基本要求就是要可视化,因为他们想通过可视化分析获得可观的大数据特征,让用户直观看到结果。

提高解释信息的能力可以通过数据的可视化展示来实现,而可视化展示主要由图形和图表来呈现。要从大量的数据和信息中找寻相关性非常的不容易,而图形或图表能够在短时间内展示数据之间的相关信息,并为用户提供所需的信息。

1.4 语义引擎

语义引擎是把现有的数据标注语义,其实可以把它理解为结构化或者非结构化的数据集上的一个语义叠迭层。它是数据分析及语义技术最直接的应用,好的语义引擎能够使大数据分析用户快而准地获得比较全面的数据。

数据分析的新挑战及困难主要表现在非结构化数据与异构数据等的多样性,必须配合大量的工具去分析、解析、提取数据。语义引擎的设计可以达到能够从文档中自动提取有用信息,使语义引擎能挖掘出大数据的特征,在此基础上科学建模和输入新的数据,来预测未来的可用数据。

1.5 数据挖掘算法

大数据分析的理论核心就是数据挖掘。各种数据的算法基于不同的数据类型和格式,能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据价值也就无从f起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入挖掘数据内部的价值,并且这些算法能够处理大数据的数据量,也可以满足处理大数据的效率要求。

2 大数据处理方法

大数据处理技术在社会的发展中占有重要的地位,现在有很多的研究者对大数据处理技术进行研究,将大数据处理技术与交互设计结合,让交叉科学得到发展,计算机技术的进步,让交叉技术被广泛应用,并引起了很多人的重视,例如:计算机技术可以在艺术中被应用,进行色彩搭配,还可以将计算机技术应用到垃圾分类里,这些都是研究人员对计算机和交叉设计的结合。这种结合让设计学与计算机技术紧急的结合在一起,将传统的调研方式和测试方式应用到交叉科学领域,这种方法的研究可以为用户调研和测试方法提供依据,能够减少人工的成本。大数据处理方法其实有很多,笔者根据长时间的实践,总结了几种基本的大数据处理方法,如非结构数据处理法、自然语言处理法等,该文主要介绍非结构数据处理流程涉及到的主要方法和技术。非结构化数据处理流程主要以网页处理为例来阐述,包括3个阶段,分别是信息采集、网页预处理和网页分类。

2.1 信息采集

信息采集主要是根据相关主题由固定的专业人士来完成,其采集的数据只能用于所针对的主题和相关的模块,出于对效率和成本的考虑完全不必对整个互联网进行遍历,因此,模块信息采集时往往需要研究以哪种方式预测链接指向的页面与主题的关联性,并测算其是否值得访问;然后研究以哪种相关策略访问Web,以在采集到主题相关页面的同时,尽可能地减少采集到主题无关的页面。

预先设定好种子链接是信息采集的基本方法,充分使用HTTP协议下载被访问的页面,运用分析算法对页面与主题的相关性进行分析,然后确定待访问的相关链接,预测可能指向主题相关页面的链接,最后循环迭代地运用不同的相关策略访问网页。

2.2 网页预处理

网页预处理最主要涉及到网页去重处理,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。

网页去重是先抽取文档对象的特征,再对文档内容进行分解,将文档的特征集合表示出来,然后有目的针对特征集合的压缩编码,通过将哈希编码等文本转为数字串映射方式,为后续的特征存储以及特征比较提供方便,这样可以起到减少存储空间,提高比较速度的作用,最后就是计算文档的相似度,此步需要根据文档特征重复比例来确定文档内容是否重复。一般是提取网页的某一个信息特征,通常是一组关键词,或者是关键词加权重的组合,调用相应的算法,转换为一组关键代码,也被称为指纹,若两个页面有大数量的相似指纹,那么可以预测这两个页面内容具有很高的重复性。

2.3 网页分类

网络时代,人类所面临的一个非常重要且具有普遍意义的问题就是网页分类。将网络信息正确分类,方便人们更好地使用网络资源,使杂乱无章的网络环境变得有条理。而网页分类一般是先对网页中的文本素材进行分类,通常采用文本分类来完成。文本分类主要应用于电子邮件分类、信息过滤、文献翻译、数据检索等任务,文本分类的一个关键问题是特征词的选择问题及其权重分配。

在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等。

网页分类方法有SVM分方法和朴素贝叶斯方法,其中比较推荐的是支持向量机分类方法(SVM),该算法主要基于统计学理论及线性分类器准则之上,从线性可分入手,再扩展到线性不可分的情况。甚至有时会扩展到使用非线性函数中去,这种分类器统称为支持向量机。近年来,支持向量机分类方法越来越多的受到网页分类技术人员的青睐。

3 大数据分析在行业活动中的应用

非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。

3.1 电信行业

某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。

3.2 地产行业

某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。

3.3 证券行业

某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。

3.4 金融行业

某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。

4 结语

大数据处理数据的基本理念是用全体代替抽样,用效率代替绝对精确,用相关代替因果。证券、微商、地产等行业每天都会产生巨大的数据量,大数据分析与处理已成为大数据技术的最重要的应用,通过大数据技术从海量数据中提取、挖掘对业务发展有价值的、潜在的信息,找出产品或服务未来发展趋势,为决策者提供有力依据,有益于推动企业内部的科学化、信息化管理。

参考文献

[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.

[2] 国际电子商情2013年大数据应用与趋势调查[Z].

[3] 大数据时代来临:国内IT企业布局已然落后[EB/OL].新浪网,2012-06-01.

[4] 大数据时代降临[EB/OL].半月谈网,2012-09-22.

[5] 王惠.大数据时代下数据分析理念研究[J].中国市场,2015(22):74.

[6] 高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015(3):1-12.

[7] 张荣建,张志强,祖述勋.钢管混凝土拱桥安全性评价的SVM机器模型[J].混凝土,2011(11):8-10.

上一篇:基于虚拟现实平台下的高铁线路安防管控研究① 下一篇:辽宁省小微企业成长及相关政策分析①