大数据技术之一“数据标识”

时间:2022-07-10 01:49:21

大数据技术之一“数据标识”

摘 要:DT时代,最重要的是“大数据”。目前,大数据开发和应用正如火如荼地开展,然而真正实现落地的项目并不多见。大数据现在只呈现的是一个研究热点,迫切需要一种技术实现大数据精准开发应用。该文通过导入大数据概念,解释大数据包含的二元概念,分析“大统计”与“大数据”的区别,引出大数据技术之一“数据标识”方法与应用,用以标识人类行为数据和医学大数据开发应用的方法,文章进一步阐明“数据标识”的科学性和准确性,为大数据开发应用指引道路。大数据是人类行为轨迹生产出来的数据资源,大数据是关于人的研究,由于物理人体的边界清晰,医学大数据应用或将早于人类行为数据应用的成功,未来的人工智能离人们不再遥远。

关键词:大数据 大数据技术 医学大数据 数据标识 精准营销

中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2016)09(a)-0011-02

大数据[1]一定是人类进入DT时代的关键技术,也将是人类实现人工智能的关键技术。自大数据概念[1]提出以来,大数据的重要性和大数据的开发与使用已经得到各国政府、各界人士的高度重视[2-3]。大数据研究也方兴未艾、如火如荼地开展起来。如何开发好和利用好大数据是摆在所有人面前的一个非常急迫和现实的问题,笔者在医科院信息所工作中有一些思考,也发表过一些论文阐述自己的观点,其中《互联网医学的未来:数据医学》指出的是医学大数据应用的未来及方向,《大数据及其应用前景研究》论述的是大数据的二元概念及更适合的应用方向;笔者认为大数据是个二元概念,一个是大量的数据,一个是大数据技术,文中除了特别强调外,写到的大数据都是包含以上二元概念。

1 大数据开发应用需要一项新技术

目前大数据应用还处在启蒙和探索阶段,能够成功落地的项目不多。大数据是一种以数据为资源的高科技,数据在大数据中的地位相当重要,其一,拥有资源数据本身就是不容易做到的事情;其二,拥有资源数据还要有使用数据的想法、数据目标和数据技术。能够拥有以上所述中的一点已经很难了,大数据项目落地则需要拥有以上两点,这可能也是大数据项目目前落地少的原因。需要第一点大数据资源数据的各单位有其各自的解决办法,这里不讨论获得数据的方法,只谈谈第二点中大数据准确应用的一些方法。

大数据是人类发展的第五个阶段,第一个阶段:农耕时代;第二个阶段:工业时代;第三个阶段:电汽时代;第四个阶段:IT时代;第五个阶段:DT时代;第六个阶段:AI时代-人工智能。梳理一下人类发展的进程可以看出,人类的发展是由人力的简单粗放开始,逐渐发展为机器代替体力,精细的电汽文明逐渐代替简单粗放工作,解放了人类的双手,随后计算机的发展代替了人脑部分功能,人类进入了IT时代。简单看以上人类发展进程:人类科技的发展是由简单粗放到精细准确,由机器代替人工的进程。进入DT时代的大数据技术应该是更精确、更高级的技术,数字是最精准的表达方式,数字集合出来的数据也应该是最精准的表达方式,事实上不是这样简单。

由大量数字或是数据进行运算,可以得到精确结果的方法是统计学,应该叫做大统计比较好,不是大数据。

2 大数据精准使用需要“数据标识”

2.1 “数据标识”的原理和方法

人类科技发展是向着更精准、更智能化的方向发展,DT时代的大数据是可以满足人类更精准和更智能化的需求。前面提到目前大数据落地项目少,尤其能够产生价值的项目少,归纳为不能很好地使用大数据是相当重要的原因,大数据是数据在模型中准确应用的科学技术。好的模型制作相当重要,但数据的理解也非常重要。理解好大数据中的数据才能很好地使用数据,才能做好大数据。在《大数据及其应用前景研究》中笔者写到过数据的理解是每个人的知识水平决定的。理解好大数据的数据还要掌握如何使用数据的技术,这种使用数据的技术是需要把数据精准地放入大数据模型上在计算机中运行,输入精准数据才能有精准运算结果,做到数据精准使用必须学会“数据标识”。

“数据标识”是笔者在做医信天下医学大数据医院排行榜的思考和心得,这里同大家分享和探讨。“数据标识”的方法是笔者在中国医学科学院医学信息所做医学数据库工作方法的延伸。查阅资料没有查到有关如何做好“数据标识”的文献。先介绍一下初期医学数据库建设的方法,这样可能有助于更好地理解“数据标识”原理、概念、依据和使用方法。

人类社会发展产生了大量文献,同样医学也产生了大量文献。在没有广泛使用计算机搜索以前,如何让学者快速查到需要的文献,需要对每一篇文章进行文献标引[4],标引方法是人工给每篇文章加上医学主题词,现在每篇论文由作者写好关键词,医学上叫做主题词。论文属性除了作者、题目、作品时间、作者单位不能改变之外,按照主题词查找更加重要,主题词是相同专业、甚至相同疾病、相同药物的精准查找。所以文献的标引在医学数据库建设中非常重要,也是文献精准查找的重要方法。再来看看医学数据库,按照文章作者、作者单位、题目、作品时间、媒体、关键词、被引、摘要等构成,这些构成要素组成一个模型,数据库中有大量的论文、题目、关键词、作者等,所以说数据库结构是模型结构,内容是大数据,精准使用好数据库方法是关键词,也就是前面提到的文献标引,用在使用好大数据上就需要做好大数据的“数据标识”。

2.2 “数据标识”是精准营销成功的关键

“数据标识”需要对标识目标数据有深入理解。以大数据精准营销解决方案为例,大数据精准营销是顾客的心理行为轨迹需求和商品属性碰撞产生的购买行为,如何做到精准营销[5],首先需要不断标识顾客行为轨迹,年龄、性别、职业、消费能力、旅居地、饮食爱好、饮食时间....等等,在即将进入餐饮时间向该顾客推荐餐馆,餐馆数据标识为菜系、特点、名菜、点评、环境等,按照餐馆标识和预判顾客行为轨迹,把数据标识中共性按照概率大的部分结合地理位置逐渐推荐给顾客。餐馆、商品、衣服的大数据精准营销方法一致。精准营销的准确性关键取决于预判顾客行为的数据标识的准确性和商品属性的数据标识的共鸣。

大数据研究刚刚开始,精准的大数据应用必须要有精准的数据标识。目前在精准营销领域使用比较频繁的词是给客户画像,画像方法让人感觉是一种模糊的,猜测性比较大的技术。描述一个商品属性时习惯使用标签标识商品。精准营销是人的行为轨迹碰撞到商品中相同属性数据产生的购买,数据标识的准确性决定了精准营销的准确。人的行为轨迹数据也是未来人工智能解决方案中非常重要的数据,精确的数据需要准确地标识数据。商品营销也是网络大数据解决方案的一部分,商品的准确描述和精准数据标识,将会决定商品营销的成功与否。

2.3 医学大数据的“数据标识”更容易实现

作为医生,医学大数据的开发和使用一直是笔者研究的课题,医学大数据的精准应用可以预判人体健康并进行疾病预防[6]。相对于人类行为数据,医学大数据的数据标识相对容易,医学大数据应用成功可能会早于人类行为数据的应用,理由有以下3条。

(1)医学大数据是关于人类物理实体的大数据,人体是一个相对固定物理实体,数据边界清晰,数据外延有限。

(2)医学大数据表达的是人体生理活动和健康指标,这些数据的内涵只有医生能够理解,非医学专业人士不能很好地理解医学大数据的内涵,非医学专业人士很难准确分析医学大数据,也很难标识医学数据,这是医学数据的专业性和数据围墙阻挡了非医学专业人士对医学大数据的研究。

(3)医学大数据中医学数据标识需要医生的参与,目前能够做数据标识的医生需要培养,笔者正在做这个方面的工作,笔者是第一个提出建立互联网医学标准的学者,互联网医学标准中有一部分工作是做数据标识。

3 结语

做好大数据应用需要各方努力,探索方法落地项目。“数据标识”技术的核心是用数据来标识数据,让计算机可以分辨不同环境下产生的外表相同的数据中包含的不同信息,真正做到大数据的精准应用。大数据是人类活动中生产出来的重要资源,反映的是人类生活活动和人类生理健康状态,因此大数据也是研究人的技术,研究好大数据,人工智能就离人类很近了。

参考文献

[1] 徐立水,辛敏.大数据及其应用前景研究[J].企业科技与发展,2016(6):21-23.

[2] 王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察,2012(6):44-46.

[3] 国发〔2015〕50号,国务院关于印发促进大数据发展行动纲要的通知[Z].2015.

[4] 黎盛荣.什么是文献标引学[J].图书情报论坛,1997(1):2-5.

[5] 刘征宇.精准营销方法研究[J].上海交通大学学报,2007(S1):143-146.

[6] 徐立水,辛敏.互联网医学的未来:数据医学[J].科技创新与应用,2016(15):82.

上一篇:电信业务平台云计算资源池建设方案探讨 下一篇:例谈构建新型的阅读思维方式(二)