环球第一财经

绘制个人可识别信息与公开推断的见解之间的敏感界限

更新时间:2021-01-19 14:20:26

侦听是一种从稀疏,断开和看似随机的数据进行智能推理的技术。像任何熟练的分析师一样,侦探也都善于使用这些推论来解决现实世界中的问题。分析是一个经常需要独创性的专业,您需要如何处理自己拥有的数据。

当分析人员遇到敏感数据时,必须小心,不要随意处理。随着欧盟《 通用数据保护条例》 合规期限的临近,许多企业正在重新审视其分析,存储和保护客户个人数据的程序。隐私是严肃的事情。分析人员必须假设客户明确选择使用的范围,而不是假设所有客户数据都是公平的游戏探索者。

GDPR强有力地保护了各种数字数据存储中维护的个人身份信息或PII。为此,世界各地的企业,不仅是欧盟成员国,都在投资平台和工具,例如SugarCRM的最新版,以加强隐私保护,作为涉及以下内容的标准操作程序:

盘点所有客户的PII;

建立流程以获取客户的同意,以获取,存储,描述,处理,披露和管理PII,以及擦除,更正,保留和限制其处理;

标记PII记录以进行擦除,更正,不处理和不转移;

为客户提供对其存储的PII的全面访问;和

记录所有与保护其个人身份信息有关的客户请求;

但是,这些类型的过程对于阻止坚定的分析师使用复杂的工具来推断关于某人的见解(在任何数据库中均未记录为有关他们的特定事实)或如果您知道如何使用这些见解均无济于事。关联两个或多个公共数据源。

这就是本周大事记之一的隐私问题:在数十年历史的“金州杀手”案中,一名嫌犯被捕。简而言之,在一组调查人员通过犯罪现场DNA与可公开访问的家庭遗传数据库的关联进行追踪之后,在许多谋杀,性攻击和入室盗窃中涉嫌犯罪的嫌疑人受到指责。从隐私的角度来看,此案最值得注意的是它如何通过仔细关联可公开获得的信息而进行的,只有很少的个人识别DNA证据的缺点,这些证据不符合PII的传统范围。

自从犯下“金州杀手”罪行以来的几十年里,调查人员没有找到有用的线索,耗尽了犯罪DNA数据库,犯罪现场指纹和告密者技巧的潜力。因此,他们采取了另一种解决方案:利用犯罪嫌疑人的DNA作为在可公开访问的遗传数据库中通过家庭联系寻找罪犯的钥匙。他们采取了以下步骤来指责嫌疑人:

是否有一个实验室将犯罪现场的DNA样本转换为GEDmatch可以读取的格式,GEDmatch是一个提供用户可上传的遗传概况的简洁网站,可以分析成千上万个DNA数据点以确定家庭联系;

从GEDmatch获悉,凶手在数据库中有10-20个远亲,这些亲戚实质上是三兄弟,从1800年代起将他们的血统追溯到普通的曾曾曾祖父母那里。

利用这些亲戚的遗传资料,在Ancestry.com绘图工具中构建25棵不同的家谱;

依靠其他可公开获得的数据来源,包括人口普查数据,旧报纸剪报,墓地定位器,警察数据库和LexisNexis,来填补​​这些家谱中的空白;

为犯罪嫌疑人在犯罪发生时的估计年龄附近筛选家谱,重点放在与事件地点在加利福尼亚有联系的人;

将嫌疑犯缩小到两个;

通过亲戚的DNA测试消除了一位;和

通过对他丢弃的物品进行DNA分析来确认嫌疑犯。

这与GDPR或任何其他隐私保护法规有什么关系?当任何人都可以将两个和两个放在一起而不使用PII时,很难保护隐私。

可个人识别的信息与可公开推断的人的见解之间存在模糊的界限。GDPR和类似的授权仅涵盖保护数字数据库和其他记录保持系统中离散的数字PII。但是一些观察者似乎在争辩说,它还包含了将来可能通过对不受保护的数据进行分析而获得的有关某人的见解。这就是我解释大卫·洛辛(David Loshin)的说法的“性取向也 包括在GDPR中”。

我对Loshin立场的推论是指出,除非企业专门为LGBTQ社区的一个或多个细分市场服务,否则企业或非营利组织记录人们的性取向并不十分普遍 -即便如此,它也毫无意义,而且可能会刺耳要求人们正式声明自己的入会资格,以此作为成员资格的条件。因此,您不太可能会找到维护PII个人资料记录说明某人是同性恋,女同性恋,双性恋或其他任何事物的企业。

但是,如果某人属于这样一个以LGBTQ为重点的小组,那么您可能会很合理地推断出他们的性取向,尽管这一比例并非100%(某些成员可能只是表示对属于自己的朋友或家人的声援)。同样,您可以使用机器学习通过将可公开获得的大数据的不同来源进行关联来自动进行此类推断。您还可以使用对他们的Facebook朋友的社交图分析进行此类推断。而且,您可以对公开数据进行复杂的多变量行为和人口统计分析,这些数据可能不符合PII的规范定义,从而可以对个人进行高度准确的推断。

以此为前提,让我们回到从公共数据库中推断有关人的私人事务的问题上,这些问题包括可搜索的基因组数据库,这些数据源涌现于区块链以及几乎所有其他地方。尽管其中许多方法允许人们以匿名格式出售其DNA谱图,但众所周知,从其遗传谱图中分析重新鉴定个体的技术是众所周知的。通过图形分析工具,这确实打开了一个非常现实的可能性,即即使他们像您一样从未授权透露您的身份,也可以在这些数据库中识别您的血亲。

这只是简单的智能推断,尽管有些人(如这位头条作家)将其视为对DNA数据的“黑客入侵”形式。所有这些都表明,在涉及隐私保护措施的情况下,无论保护原始个人识别信息(GDPR和其他授权的重点),还是防止对敏感的个人事务进行复杂的推断,无论其原始数据在何处,实际区别都将继续模糊。这些见解来自。人们将能够从非常明显的数据中对您和您的亲戚做出各种对隐私敏感的推断,尽管由于在此过程中未使用任何PII,所以没有人获得您的同意。

随着越来越多的人获得并共享自己的基因组PII(无论是通过雇主赞助的程序,由医生监督的测试,自己动手的工具包 等),这些意想不到的“隐私黑客”将变得更加频繁。功能强大的图形分析工具的可用性不断增长,将使您的大家庭面临更多风险。即使没有一个人受到刑事怀疑,但与医疗,育儿和其他敏感问题有关的许多秘密,社会也有最大的兴趣来尽我们最大的保护。

随着这类“隐私黑客”变得越来越普遍,它们嘲笑了GDPR的核心前提,即PII数据管理平台和工具可以确保“设计隐私”和“默认隐私”。这种趋势甚至使人怀疑,您可以围绕GDPR兼容的数据治理环境建立一个安全的边界,在此环境中,客户的个人事务始终可以不被窥探。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。