来自科技 2020-03-02 14:12 的文章

第四范式AI平台通过GDPR，保护隐私有哪些关键技

欧盟GDPR认证

日前，第四范式先知(Sage)企业级AI平台完成了PrivacySealEU认证工作程序，率先通过欧盟GDPR认证，成为国内第一款通过该认证的AI平台产品。

众所周知，数据隐私保护一直是大众和企业用户关心的AI应用焦点问题，而欧盟GDPR则是隐私保护领域最为权威和细致的立法，是全球个人数据保护和企业AI应用的最高标准，被称为“史上最严个人数据保护法”，其通过约束信息处理行为，赋予公民对其个人数据更大的控制权。

此次先知（Sage）平台通过欧盟GDPR认证，在证明第四范式产品及隐私计算技术的数据安全性和可信任性的同时，也带来给我们一些思考，国内的AI企业想要走出去，GDPR是一张不可或缺的入场劵和法律保障，更进一步从行业角度来分析，眼下我们距离拿到这张门票还有多远的路要走，路又该怎么走？

“先知”完成欧盟GDPR认证，其中蕴含了哪些逻辑？

欧盟GDPR认证的这条路，并不好走。

“我们一年多前就开始准备相关的申请，PrivacySealEU不同于其它标准认证，在条款上已经细化到具体数据流问题，GDPR的条款‘多且细’，只有在确保所有条款‘绝对合规’时，对方才会给予通过，因此我们准备了大量的材料，涉及产品架构设计、数据处理流程、技术端和法律、管理端等方方面面。”在接受钛媒体专访时，第四范式主任科学家涂威威对钛媒体表示。

在谈及先知平台之所以能够通过欧盟GDPR认证时，涂威威告诉钛媒体，主要有以下两个方面的原因：

其一，得益于第四范式在隐私保护领域的持续投入和深厚积累，第四范式很早便投入到隐私保护技术探索中，并取得了一些实质性的成果，比如第四范式的差分隐私算法，与其它差分隐私工作相比，在获得相同隐私保护强度的同时，拥有着还能得到更有效的分析结果；

其二，第四范式在安全性和合规性的意识较好，自成立之初便开始服务于金融类客户，而金融正是安全高敏感行业，因而客户对于数据隐私的要求往往比其它领域要高，因此第四范式也更加了解企业对于隐私保护的要求和标准。

近年来，企业逐渐认识到了AI的价值，将其视为“数智化转型”的利器。AI的本质在于能更有效、更精细化地挖掘数据的价值，而挖掘数据的同时，伴随着泄露隐私的风险。因此，企业以及AI技术厂商在应用AI的同时，更加注重在流程规范、人员培训、产品设计及功能、技术等方面“把好每一道关”。

从产品侧来看举个简单的例子，为了提高AI模型效果，业界有些做法是通过网络上爬数据或从第三方获得一些数据来使用。而第四范式在先知产品的建模技术不依赖于任何第三方数据，“客户在完成工作后，其相应的数据也随之销毁，数据无痕是先知平台的基本特性。”第四范式国际化产品负责人王荣兴对钛媒体补充到。

不仅如此，第四范式资深研究员郭夏玮介绍说：“先知平台从一开始的系统设计以及算法设计就做了很多合规性方面的准备。因为我们的理念是将AI赋能给企业，让企业拥有AI的能力，我们提供安全合规的数据治理加上客户提供的合规数据，再基于我们自研的保护隐私的AI算法，在保护用户隐私的同时也可实现优秀的效果，这样的理念也得到了客户的认可和信任。因此，我们主要集中在技术上的打磨和产品的迭代。”

另外，先知平台还提供数据破解保护，对于用户地址、电话、身份证号、姓名等敏感信息进行常规的匿名化处理，同时还支持更加严格的防止撞库、差分攻击等攻击手段的先进数据匿名化技术，所有的可访问接口均由完善的多层权限保护系统来控制。值得一提的是，先知平台无论是公有云、私有云还是私有化部署，均达到了GDPR的要求。

在隐私保护中，技术起到了哪些关键作用？

事实上，AI模型训练涉及到大量用户数据的使用，这些数据或多或少包含了敏感信息。

然而，以往常用的加密手段并不能完全保证数据安全，攻击者还可以对分析结果的差分攻击以及查表撞库等方法反推原数据。此前，卡内基梅隆大学Latanya Sweeney教授在《简单的人口统计往往能识别出人的独特性》报告中提到，在基于美国选举人公共注册信息的基础上，87%的美国人基于邮编、性别、出生日期即有可能被识别出个人身份。“甚至是统计数据也可能泄露用户隐私”，涂威威提到，“有一种针对统计数据的重建攻击，可以通过数据方发布的大量统计数据、模型等，反向求解重建数据信息，例如美国2010年人口普查，基于3亿人口，发布50亿统计指标，通过求解线性系统就可以很大程度上重建原数据，早在2003年就有公开论文详细描述了这种攻击方法”。