新闻动态
NEWS


数据脱敏2 | 数据脱敏:不同法域下匿名化、去标识化、假名化的含义一致吗?


作者:杨建媛 邬丹



合规科技系列文章 Compliance-Tech Series

高速发展的时代背景下,一方面行业分工在层层细化,一方面跨学科的交叉研究又越来越不可或缺。科技与法律表面上是两个相去甚远的专业领域,但就数据治理、个人信息保护,乃至自动化系统和人工智能风险防范而言,只有跨界互通才可能找到最佳的合规和风险解决方案。

“合规科技研究”旨在兼顾科技与法律的双重视角,深度解读数据和人工智能技术的逻辑原理与法律合规的法律要求,从而促进技术人与法律人的双向理解,探讨技术利用与个人权益保护协调发展的可行思路和落地方案。

上期回顾(点击蓝字即可回顾上期原文)

数据脱敏并非一个特定的法律概念或技术概念,而是一个包罗万象的框架性概念。可以从两个维度理解数据脱敏,它既包括技术处理的过程,也包括对处理效果的法律评价。脱敏处理之后所实现的不可识别程度,是区分匿名化、去标识化、假名化等法律概念的本质特征。

中国、欧盟、美国等法域都有匿名化(anonymization)、去标识化(de-identification)、假名化(pseudonymization)等术语。实践中极易引发混淆的是:数据脱敏语境下,同一法律概念在各个法域的覆盖区间并非完全一致。例如,我国的匿名化仅指“不可复原的不可识别”,而欧盟的匿名化还包括“合理可能的不可识别”;美国虽然没有匿名化的概念,但它的去标识化覆盖了“合理可能的不可识别”,而我国的去标识化则并无此含义。

如下图所示,在数据脱敏的光谱上,真正本质的区分是不可识别的程度,包括单独可识别、结合其他信息可识别/不借助其他信息不可识别、合理可能的不可识别、不可复原的不可识别。

一、中国

我国主要使用去标识化和匿名化这两个概念。根据《个人信息安全规范》,去标识化是指通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别或者关联个人信息主体的过程。匿名化是指通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程。

值得注意的是,《个人信息保护法(草案)》 第69条在对去标识化和匿名化的定义中删去了“关联”,仅强调了“识别”特定自然人的结果。由于关联的信息并不一定能识别出个人,这一改动实质上降低了去标识化和匿名化的门槛,解放了可关联但不可识别的信息。《个人信息保护法(草案)》 第24条要求第三方接收匿名化信息时,不得利用技术等手段重新识别个人身份。这一规定间接说明立法者认可匿名化也并非绝对地不可识别,“合理可能的不可识别”是否可能被认可满足匿名化的要求有待观察。

此外,我国并没有将假名化作为一类效果评价,而仅视为一种去标识化技术。《个人信息去标识化指南》 中详细列举了多种去标识化技术,假名化就是其中一种,下期文章中将详细介绍相关技术。

二、欧盟

欧盟主要使用匿名化和假名化这两个概念。根据《通用数据保护条例》(GDPR),匿名化是基于“合理可能”(reasonably likely)标准而言的——综合考虑技术、成本、时间等因素,如果数据控制者或其他人采用了所有合理可能的方法,仍无法直接或间接识别数据主体,则数据是匿名化的。假名化是指通过对个人信息的技术处理,使其在不结合额外信息的情况下,无法识别特定数据主体,且额外信息被分开存储并受技术、管理措施的保护。

欧盟第29号工作组《关于匿名化技术的意见》进一步要求,匿名化应当实现不可复原的去标识化(irreversible de-identification),与删除(erasure)一样具有永久性。该意见中明确指出假名化不属于匿名化,并主要承认了泛化、随机化这两种匿名化技术,而这两种技术均属于我国《个人信息去标识化指南》中列举的去标识化技术。

值得强调的是,技术并不是区分数据脱敏相关概念的本质标准。即使同一技术,不同的实施强度也会产生不同的脱敏效果,实践中,应根据技术处理所实现的不可识别程度来进行法律评价。下期文章将进一步展开这一观点及实践案例。

三、美国(加州)

美国主要使用去标识化和假名化这两个概念。根据《加利福尼亚州消费者隐私法案》(CCPA),去标识化是指信息无法合理地、直接或间接地识别、关联到特定的个人,并且信息处理者通过技术措施、业务流程、自我承诺等方式确保其不会进行重识别(re-identification)。假名化是指不使用额外信息无法识别个人,且额外信息被分开存储并受技术、管理措施的保护。将于2023年生效的《加利福尼亚州隐私法案》(CPRA)则将去标识化定义为无法合理地用于推断或关联特定个人,同时强调信息处理者应公开承诺自己不进行重识别,并通过合同约束信息接收方也不进行重识别。

由是观之,美国法下的去标识化仍然存在重识别的可能性,并未达到我国与欧盟的不可复原的匿名化的程度;其独特的一点是强调了信息处理者主观承诺不进行重识别,以此补足客观标准较低可能导致的保护不充分。

四、国际标准化组织(ISO)

国际标准化组织(ISO)曾在若干个的国际标准中混用匿名化、假名化、去标识化等概念,并于2018年在《隐私增强数据去标识化术语和技术分类》(ISO/IEC 20889)中进行了术语梳理和定义。

去标识化是指通过技术处理去除或降低标识符与个人之间的关联,包括泛化、随机化、假名化等技术。ISO对去标识化技术的列举和中国相似,详见下期的技术介绍。匿名化是指使用了泛化和/或随机化技术的数据处理。假名化是指采用了假名化技术的数据处理,又区分是否允许重识别的两种情形。



本期小结与下期预告:匿名化、去标识化、假名化……中国、欧盟、美国的话语体系看似统一,但实际上,不同法域下同一概念的内涵外延并不一致。在全球化视角下讨论数据脱敏问题时,应当首先理解每个概念在特定法域的尺度。除了不可识别的程度,技术是理解数据脱敏的另一个维度。下期文章将为您介绍脱敏技术的基本原理,并厘清另一个容易混淆的问题,即法律是如何评价技术的。