数据挖掘隐私保护综述

时间:2022-09-01 11:33:17

【前言】数据挖掘隐私保护综述由文秘帮小编整理而成,但愿对你的学习工作带来帮助。【 Abstract 】 With the development of E-commerce and E-government, and deepening use of the data mining technology, the problem of privacy preservation becomes one of the key factors in data mining. In this dissertation, we briefly introduce the h...

数据挖掘隐私保护综述

【 摘 要 】 随着社会信息化和电子商务与电子政务的不断发展,数据成为社会的重要资源,数据挖掘技术的应用逐渐深入。与此同时,隐私保护方面的问题已经成为数据挖掘研究的热点问题之一。本文介绍了数据挖掘隐私保护的发展现状,阐述了相关的概念、特征、分类和研究成果,并从数据扰动和多方安全计算两个方面介绍了数据挖掘隐私保护的相关技术,提出了未来的研究方向。

【 关键词 】 隐私保护;数据挖掘;数据扰动;多方安全计算

A Survey of Privacy Preserving Data Mining

Li Zhan-yu Zhu Jian-ming

(School of Information, Central University of Finance and Economics Beijing 100081)

【 Abstract 】 With the development of E-commerce and E-government, and deepening use of the data mining technology, the problem of privacy preservation becomes one of the key factors in data mining. In this dissertation, we briefly introduce the history and current situation of Privacy Preserving Data Mining (PPDM). Some basic concepts, characters, classifications and research results related to PPDM are presented. In addition, we exhibit PPDM technology in data perturbation and secure multi-party computation respectively, pointing out the research area in the future.

【 Keywords 】 privacy preservation; data mining; data perturbation; secure multi-party computation

1 引言

数据挖掘隐私保护(Privacy Preserving Data Mining,简称PPDM)是关于隐私和安全研究的热点问题之一。数据挖掘的过程,就是自动发现高层次的数据或隐藏在其中的模式。在数据挖掘中,假设所有数据都是容易获取的,并且存储在一个中心位置,或通过集中的访问机制存储在联合数据库、虚拟数据仓库中。然而,这些数据有时候分布在众多的参与者中。出于隐私保护、法律要求和商业上的考虑,参与者们可能不会直接共享某些敏感数据。敏感数据通常涉及到个人的健康信息、金融方面的隐私等。参与者怎样在保护隐私的情况下进行数据挖掘成为一个巨大的挑战。这个问题的产生并不是源于数据挖掘本身,而是进行数据挖掘的方式。本文主要介绍数据挖掘隐私保护方面的研究现状。

随着电子商务、电子政务的发展以及越来越多的个人数据在线交换,数据隐私成为全社会关注的重要问题之一。无论是国家层面,还是商业交易层面,在数据使用方面的未授权访问是隐私保护中的主要问题。在数据库中,数据挖掘和知识发现就是从大量的数据中自动的提取未知的模式。现如今,企业和政府机构都收集了大量的数据,这自然导致了隐私保护方面的问题。因此,在数据挖掘者收集到大量隐私数据之后,为了防止隐私信息的披露,这些数据必须要以不同的方式进行扰乱,但同时又要保留数据中所包含的有价值的模式。随着追踪技术的发展,隐私保护在很多领域都成为重要问题。基于上述情况,人们开始在“数据挖掘隐私保护”的框架下提出各种特殊的数据挖掘技术。数据挖掘隐私保护(Privacy Preserving Data Mining,简称PPDM)研究的目的,就是寻找在不破坏个体隐私的情况下进行数据挖掘的技术。近年来,数据挖掘隐私保护问题成为研究的热点。

隐私保护数据挖掘的研究可以分为两个方面。第一个方面是数据公布,也就是在隐私数据公布给数据挖掘者之前进行数据变换,把隐私隐藏起来。第二个方面是修改数据挖掘的算法,进行分布式数据挖掘,这样隐私的信息就不会透露给其他的参与者。

PPDM研究的目的是消除合作的数据挖掘与数据机密性之间的隔阂。这涉及到许多领域,例如统计学、计算机科学、社会科学等。这对于国家安全、现代科学和我们的社会具有根本的重要性。

隐私的暴露包括两个级别:身份信息暴露和价值信息暴露。身份信息暴露涉及到在数据库中暴露个体的身份信息,而价值信息暴露涉及到暴露个体的某些机密的属性。表1是n个顾客原始个人信息的情况,包含了各种属性。毫无疑问的是,身份信息(例如姓名Name、社会保险号SSN)应该在数据公布之前隐藏起来。然而,一些范畴属性(例如邮政编码Zip、种族Race、性别Gender)连接到某些公共数据库时,也可以用来识别个人隐私。这些属性被称为准识别码。有很多研究都是关于预防身份暴露的,例如著名的统计披露控制(SDC)方法、k-匿名方法。为了防止价值信息披露,许多基于随机化的方法被提出来。

数据挖掘中的隐私问题于20世纪90年代开始研究。在过去的几年中,越来越多的成功技术被提出来,这些技术可以在保护隐私的条件下获得有效的数据挖掘结果。

2 隐私的定义

安全和隐私是两个相关的概念,但又有所不同。通常情况下,实现隐私的保护要依赖于安全技术。在数据挖掘中保护共享数据的隐私是一个具有挑战性的问题。诸如访问控制、身份认证等数据库中的传统方法在数据挖掘中并不适用。这些方法可以防范对于数据库的直接披露,但不能防范经过推理的数据披露。因此,我们需要寻找新的方法来保护数据挖掘中的隐私。

上一篇:艺·博客 第8期 下一篇:基于Hadoop云存储系统在设计院的应用研究