基于关系网络的个人信息保护模型研究

时间:2022-06-07 01:19:48

基于关系网络的个人信息保护模型研究

[摘要]针对社会网络(SNS)中个人信息保护的特殊问题,设计基于关系网络的个人信息保护模型,其关键在于将SNS中用户关系网络转换为量化的信任度网络,并据此决定用户的信息访问权限。相比现有SNS网络中的信息访问控制模型,此模型更加灵活精致,能较好地处理SNS中个人信息共享与保护之间的平衡,并通过研究此模型实现中的主要困难vAN_解决方案,探讨该模型的改进方向。

[关键词]社会化网络 隐私保护 信息安全

[分类号]G203

1 Web2.0下信息保护与分享之间的困境

社会化网络(SNS)是当前应用最为广泛的Web2.0技术之一。据统计,目前仅“人人网”的注册用户数已达1.6亿,其中的个人信息保护问题不容小觑。与其他内容的网络应用相比,SNS中的隐私保护有一些新特点:①个人信息更加详细真实,用户只有提供真实、详细的个人信息,才能更好地使用SNS网站所提供的各项服务;②个人信息泄露的可能性更大,Web1.0环境中个人信息泄露的威胁主要来自网络服务提供商,而SNS环境中个人信息暴露在广大公众面前;③个人信息保护问题更加复杂,一方面个人信息需要得到一定程度的保护,另一方面SNS又强调信息的开放和共享。这些特点决定了在SNS环境中,个人信息保护应当采取一种不同于其他网络应用的机制。

然而,目前网络服务提供商大多仍采取Web1.0环境中常见的以用户为中心的内容访问控制机制,即用户自己设定其他用户对某些内容的访问权限(如信息是否对好友或陌生人公开)来保护个人数据的安全。

正如文献[4]所指出的那样,这种一维的隐私保护策略已不能适应SNS环境。对此,目前有两种可能的改进方向:①对信息进行分层,允许用户设定好友访问自身信息的层次,目前这方面的研究比较丰富,如文献[5]及文献[6]等;②研究间接关系用户如何访问个人信息的问题,如社交网站中,对于用户主页上的特定内容,用户可以设定只有好友才可访问或所有用户都可以访问,于是就存在这样的问题:处于同一关系网络中的两个用户,他们虽然不是朋友,但他们通过某种关系路径,实际上存在着很强的关系,而在还没有彼此添加好友的情况下,却无法共享一些内容。

目前这方面的研究还在探索之中,为此本文将提出一种基于关系网络的个人数据保护模型,以适应SNS环境中个人信息控制的复杂需要。这种保护模型的关键在于:①允许用户在自创内容的同时,自主设置内容的访问权限;②采用定量方法将SNS环境中的用户关系网络转为用户之间的信任关系;③由计算机根据用户设置的内容访问权限以及访问者的“被信任度”,决定其是否可以访问此项内容。

2 社会化网络的关系模型

2.1 基本网络关系模型

首先需要对社交网站进行抽象的概括,然后用特定符号表示出来,如图1所示:

通过分析,一个社交网站由以下关键部分组成:

・用户集(U):指一个关系网络中所有用户的结合,其中每一个用户都具有一个唯一的识别符Ui。

・关系类型(Rt):指两个用户之间的关系类型,总的来说包括直接关系和间接关系两种,直接关系指朋友、同学、父子、客户关系等;间接关系指朋友的朋友、朋友的同事等。此外,关系是用一条直线连接起来的,即图中的一条边(Edge)。

2.2 引入保密度和信任度的网络关系模型

通过图1可以发现,对于具有直接关系的两个用户,可以很容易地设定其访问内容的权限。如对具有朋友关系的A和B,对于B拥有的某些信息或内容,B可以直接选择是否让A浏览。但是对于具有间接关系的两个用户,按照现有的访问机制,要想设定访问权限几乎不可能。例如,对于B所提供的信息Ih,B的想法是:首先希望自己的好友可以看到,除此之外,还希望好友的好友(如F)或好友的同事(如H)也能够看到Ib。但目前的SNS系统通常都不支持这样的操作,于是A只能将信息对所有人公开,或添加其为自己的好友。

然而,无论采取哪种措施都存在一些问题。对第一种方式,如果将信息的访问权设定为所有人都可见,对于B可能是不接受的,特别是涉及一些隐私信息;对第二种方式,即B必须将其加为好友,表面上看是可行的,但当好友的好友及好友的同事数量非常多时,操作将会变得非常繁琐。在人人网、开心网等SNS网络上可以看到,用户的好友一般都是几十人之多,当关系网络扩展到二级、三级甚至更高级别时,用户需要添加的好友数据将呈几何级增长,这显然是B无法承受的。

为解决这个问题,需要在SNS中建立一套自动化的用户关系判断规则。为此,笔者首先设定下面三个参数来描述这一关系网络:

・关系路径长度(rstp):即在一个关系网络中,需要经历几条关系线才可以将两位用户联系起来,对具有直接关系的两个用户,关系路径长度是1,如B和G;而对于具有间接关系的两个用户,如果两者之间只有一条关系路径,则取这条关系路径的长度,如有多条路径连接,则取最短的路径长度。以计算B和c之间的关系为例,B与C之间有多条关系连接路径,包括:BAC、BDAC、BGHEC、BGAC等,其关系路径长度分别为2、3、4、3,按照选择最短路径原则,可以确定B与C之间的关系路径长度为2。

・保密度(confidential):保密度是用户对拥有的特定信息的保密程度,并假设保密度的取值范围是0-1,1表示该信息完全保密,0表示该信息完全公开。例如,对于具有直接关系的A和B,B可以将自己的某信息Ih的保密度设置为0,即完全公开这部分的信息给A看,也可以将其保密度设置为0.5,即在一定条件下A可能会看到这一信息(具体情况见下文分析)。

・信任度(trust):与保密度相关的另一个变量是信任度,表示关系网中的某个用户对另一用户的信任程度,并假设信任度的取值范围是0-1。例如,B将其特定信息Ih保密度设定为0.5,同时将自己对A的信任度设定为0.6,按照本文设定的规则(这一读取控制规则将在下文阐述),认为A具备了读取B的信息Ih的必要条件。因此,这种情况下用户只需要设置与其具有直接关系(即关系路径长度等于1)的其他用户的信任度。而对于两个具有间接关系的用户,其信任度按以下方式取值:①找出两个用户之间长度最小的关系路径;②将此路径上的所有关系边对应的信任度相乘,即为两个用户之间的信任度。如B与C之间具有多种路径:BAC、BDFC、BGHEC,长度最短的关系路径为BAC,则B对C的信任度为1*0.8等于0.8,见图2。

2.3 网络关系模型的构建

对于具体的SNS系统而言,网络关系模型的构建无非是将SNS中的二维结构数据转为关系网络数据。在一个社会化网络之中,网络节点非常多,结构十分复杂。但通常情况下,人际关系网络具有复杂网络中典

型的小世界、无标度和地域性特性。因此,有可能通过次数较少的网络遍历来构建网络关系模型:①过滤掉SNS数据库中所有无相关用户(如朋友、同事等)的用户,即网络孤点;②选择任意一个用户,通过深度优先遍历的方法遍历所有与该用户存在直接或间接关系的用户,并标注他们之间的关系(包括关系类型和信任度),形成一个连通图;③选取未遍历到的用户,同样采用步骤②的方法进行深度遍历,形成新的连通图,直到所有用户都被遍历到。由此,可以得到一个由多个连通图组成的网络关系图。

3 社会化网络中的个人信息获取控制模型

为了有效地保护网络用户的个人数据,且能够按照用户的意愿去分享信息,还需要设计一个信息获取控制模型。为此,本文将建立一种基于一系列规则的信息获取控制,。这一系列规则都可以由信息所有者根据自己的偏好来设定。

3.1 信息获取条件与规则

为便于表述,定义以下符号:

Psn――关系网络中的一个用户;

Isn――用户的信息;

Esn――连接两个用户的边;

Rtsn――关系的类型;

Ci――信息的保密程度;

Tsn――一个用户对另一用户的信任度;

Rstp――关系路径的长度。

・信息获取条件(requirement)。为了让信息所有者保证个人数据的安全,同时根据自己的偏好将特定的信息分享给特定的群体,可让其设定一定的信息获取条件,只有满足条件的用户才可以访问相应的信息。对于这样的条件(requirement)可以用一个数组表示(p,rt,Stpmax,tmin),其中p∈Psn u{#},rt∈Rtsn u{*},Stpmax∈Rstp u{*},tmin∈Tsn u{*}。此处有几点需要特别说明:当rt=*时,表示对于特定信息的访问不受访问者和信息所有者之间关系的限制;当Stpmax=*时,表示对于特定信息的访问不受关系路径长度的限制;当tmin=m时,表示对特定信息的访问不受信任度高低的限制。对于一个特定的信息,信息所有者可以设定一组信息获取条件,下面将建立信息获取规则模型。

・信息获取规则(rule)。信息获取规则就是对指定了保密度的信息所设定的访问条件的集合,可以用{isn(ci);(requirementI,requirement2,,require―ment。)}来表示,其中isn(ci)表示信息isn的保密度为ci,ci∈Ci u{Ci JO≤Ci≤1},isn∈Isn u{*},(require―mentl,requirementz,…requirement)表示访问控制条件的集合。对于任何访问者,要获得相应信息的访问权,首先要满足控制条件集合中的某一个条件,即这些条件之间是requirementl U requirement2 U...U require―ment。的并集关系。其次,在信息获取条件(requi‘re―ment)满足后,还需要比较信息保密度(ci)和信任度(tsn)的大小,如果tsn≥ci则该访问者对某项信息具有访问权,否则访问失败。一般来说,一个人对另一个的信任度直接反映了二者之间关系的亲密程度,一个人对另一个人的信任度越高表示相互之间的关系越密切,两者也就可以分享更多的隐私信息。通过将信息保密度(ci)和信任度(tsn)进行比较,可以更灵活地表达社会关系的密切程度对信息访问权限的影响。

3.2 运算规则

通过上文的分析,已经基本构建出了信息访问的控制模型,即网络中的用户首先需要确定跟自己有联系的用户的关系类型(如朋友关系、同事关系、同学关系等);然后再根据他们之间关系的密切程度,设定一个信任度值,这个值的取值范围在0-1之间;之后再对具体的信息设定保密度值和信息读取规则,保密度的值也在0-1之间,具体的信息获取规则根据自己的偏好来设置,主要包括可访问者的关系类型、可访问者的最长关系路径长度以及最低信任度;最后再判断关系信任度与信息保密度之间的大小,进而最终确定信息是否能够被访问。

假设信息所有者用Provider表示,获取信息者用Requestor表示,对于这样一个过程,可以用下面的逻辑公式表达出来:

第一步:Requestor(rel,x)n Provider(reI,y)nType(rel,rt)n Rstp(reI,rstp)≤(rel,Stpmax)n Trust(rel,t)≥(rel,tmin) (1)

第二步:Trust(reI,t)≥ci(i,ci)――>available(x,Iy) (2)

下面将以实例来说明这一信息获取控制模型的运算过程,现假设B有某项信息Ib,他认为这项信息属于自己比较私密的信息,所以他将Ib的保密度设置为0.4,同时设定访问者的条件必须满足:是自己的直接朋友,且对其信任度不低于0.6;或是自己的间接朋友且对其信任度不低于0.5;或是自己朋友的同事,且对其信任度不低于0.7,可以用以下公式表示:

{Ib(0.4);(B,朋友,1,0.6)}

{Ib(0.4);(B,间接朋友,3,0.5)}

{Ih(0.4);(B,朋友的同事,3,0.7)}

现假设C欲读取B的信息Ib,通过图2的路径可以看出,B与C之间有多条路径可连通,包括BGHEC、BGAC、BAHEC、BAEC、BAC、BDAC、BDAHEC、BDAEC,不同路径显示的关系也是不一样的,为此首先判断哪一条路径符合B所设定的访问条件中对关系的设定,可以发现只有BAC符合朋友的同事这一条件,因此,其他路径不再考虑。显然BAC的关系路径长度是2,符合条件的要求,取信任度最小的边上的信任度作为整条路径的信任度,即B对C的信任度为0.8。于是可以列出如下表达式:

Requestor(r1,C)n Provider(r1,B)n Type(r1,朋友的同事)n Rstp(r1,2)n Trust(r1,0.8)

并且有:

Requestor(r1,C)n Provider(rl,B)n Type(rl,朋友的同事)n Rstp(r1,2)n Trust(r1,0.8)≤(r1,3)nTrust(r1,0.8)≥(rl,0.7)

这就是说,C的条件符合B所设定的访问规则中的第三条,但此时还不能确定C可以读取Ib,还需要进一步判断Ib的保密度与B对C的信任度之间的大小,可以发现Trust(r1,0.8)≥ci(r1,0.4),即可确定C可

以读取信息Ib。

4 模型实现中的问题及改进方法

对上述个人信息保护模型,笔者在一些模拟SNS网络上进行了试验。在模型实现过程中发现两个问题并提出了初步改进办法。

4.1 用户如何设定参数

通过上文的分析已经发现,信息所有者可以根据自己的隐私偏好,设定自己信息可能的阅读群体,这比当前多数Web2.0服务所使用的方法要灵活很多,因为他们往往只能设定某一信息只能给好友阅读,或是设定成对所有人开放,这样的模式已经越来越不符合Web2.0下的信息分享方式,更没有在隐私保护与信息分享之间形成有效的平衡。

然而,任何技术的使用都可能带来负面的效用。例如,通过使用这样一种隐私信息分享模式,可能会使用户的操作变得复杂。原先用户只需要设置某信息是否对好友或陌生人开放,而现在他需要设定保护与自己有联系的用户的关系类型、对其的信任度以及特定信息的保密度。那么如何解决好这一问题,才能让用户的操作变得比较简单?下面来分别考虑:

4.1.1 关系类型的设定 关系类型是这三个参数中最容易确定的,一方面模型中可以提供默认的关系类型供用户选择;另一方面对模型中没有提供的关系类型,可让用户自己去定义。此外,对于特定的关系类型还可以根据用户自己的偏好设定信任度,如可以将朋友类型的信任度设定为0.9,这样在设定具体某一位朋友的信任度时就可以将该值作为默认值。当然,关系类型的信任度效力应该低于针对某一朋友设定的信任度的效力。例如,设定某位朋友的信任度为0.6,虽然前面已经将朋友关系类型的信任度设置为0.9,但仍然认为该朋友的信任度为0.6。

4.1.2 信任度的设定 对于信任度的设定要比对关系类型的设定复杂得多,因为信任度本身是一个很抽象的概念,现在要将它用0-1之间的一个数字表示出来,就显得比较困难。通常我们会用不信任、比较信任、非常信任这样的词来描述对一个人的信任程度,于是可以采取5分量表来表示信任度,即O代表完全不信任,0.25表示比较不信任,0.5表示信任,O.75表示比较信任,1表示完全信任。那么在具体操作时,不是让用户来填写上面5个值中的一个,而是将信任度做成一个滑动条,并标注以上5种信任度的描述性文字,用户可以通过滑动上面的游标很容易地设置信任度。而在这背后,会根据游标的位置生成一个具体的信任度值,以便于后面的计算。

4.1.3 信息保密度的设定 对信息保密度的设定与对信任度的设定基本是一样的,即可以用O表示完全公开信息,0.25表示不太需要保密信息,0.5表示一般保密信息,0.75表示比较需要保密信息,1表示完全不公开信息,然后同表示信任度一样将其用滑动条的形式表示出来。

4.2 如何解决信任关系计算带来的系统负载

该模型除了在确定上述三个参数方面比较麻烦外,由于用户操作的增加,程序运算的次数也将会增加,特别是在某些同时在线人数上千万的网站上,这样的操作无疑会加重服务器的负载。为此需要设计一个有效的系统结构,一方面保证这样一种信息获取控制模式能够很好地运作,另一方面又不影响系统服务器提供正常的服务。

通过分析,确认了以下几处需要系统进行大量计算的节点:①需要通过运算确定一个关系网络中任意两个有联系的个体的关系路径及其信任度;②当某用户请求查看另一用户的特定信息时,系统会根据用户设定的信息获取控制规则计算前者是否符合条件。

对第一个问题,可以将网络中的成员分为两类:新注册成员和长期成员。前者注册时间通常小于1个月,其间他们会不断增加(或删除)好友、同事等相关用户,关系网络不太稳定,但这些新成员的好友、同事数量通常比较少,其关系网络相对简单,可以由系统根据需要临时计算关系路径长度和信任度。对于长期成员,笔者通过对开心网、人人网等SNS的实际观察,发现这些长期成员的关系网络相对比较稳定,对这些用户可以事先由系统进行关系路径长度和信任度的运算,得到一系列的固定值,这些值可以存储在服务器端的一个专门的数据库服务器中,为了不影响其他服务,可以为这一服务单独建立一个服务器,以处理一个关系网络中新个体的加入、退出以及关系的改变所引起的关系路径及信任度值的变化。

对于第二个问题中涉及的运算完全可以由客户端计算机来完成,客户端计算机根据用户所设定的信息获取控制规则,向服务器端发出请求,服务器将符合规则要求的个体及其信任度和关系路径长度返回给客户端,由客户端完成判断,则可以大大减轻服务器的负载。

5 小结与进一步研究的方向

本文针对社会网络(SNS)之中个人信息保护的特殊问题,设计了一套基于关系网络的个人信息保护模型,此模型的关键在于将SNS之中用户关系网络转换为量化的信任度网络,并据此决定用户的信息访问权限。相比现有SNS网络中的信息访问控制模型,这种模型更加灵活和精致,能较好地处理SNS中个人信息共享与保护之间的平衡。同时,该模型在以下方面需要做进一步的优化:

5.1 增加信息访问控制的层次

从用户的角度来看,现有SNS中的信息访问策略是“要么仅对好友开放、要么对所有人开放”,而本文提出的个人信息保护模型解决了好友之外的其他人如何访问个人信息的问题;但从信息的角度来看,本文所提出模型的策略是“要么访问此项信息的全部内容、要么不能访问此项信息的任何内容”,而实际中信息是有层次的,如对于博客上发表的文章,标题、摘要和全文代表了不同层次的信息。对于不同层次的信息,用户的保护要求不一样,例如用户可能希望信任度高于0.8的人可以看到博客全文,高于0.5的可以看到摘要(或第一段),其他人可以看到标题。

5.2 增加自动学习和自调整功能

现有模型中的保密度、信任度都是由用户设置的,是一个静态模型。然而实际中要用户精准地设置这些值是十分困难的,为此,模型中可以增加保密度和信任度的自动学习能力,根据用户的行为来调整这些值。以信任度为例,在用户凭感觉设置初始值之后,系统可以根据用户与其他人的联系状况(相互之间查看对方博文、转贴、发送短消息等行为的密度),来自动判断是否应该提高或降低信任度。

参考文献:

[1]朱琳,张建勋浅议Web2.0时代个人网络隐私的保护[J]重庆科技学院学报,2011(9):73―75

[2]张国荣.社会网络数据的隐私保护[J].网络安全技术与应用.2009(7).42―44

上一篇:基于Web2.0的个人信息环境研究 下一篇:专利计量指标研究进展及层次分析