致力于隐私保护的数据应用管控

发布时间：15年04月17日

编译穆扬

摘要

随着政府及商业机构大规模数据采集行为的泛滥，传统的隐私保护措施正面临着巨大的挑战。旧有的隐私保护方法有两条核心原则：（1）知情原则，不允许存在秘密的数据收集系统；（2）许可原则，未经用户同意不得将以原始目的收集而来的数据转作它用。但当数据信息的碎片化程度日甚，作为上个时代隐私保护的基本规范而存在的知情原则已经在越来越多的场景中显得捉襟见肘；同时，鉴于决策量与决策复杂性的直线飙升，授权原则也不再具有实际应用场景中的可操作性。因此，通过控制数据使用来实现隐私保护的努力开始得到越来越多的关注。在下文中我将讨论与此相关的技术、政策及法律问题，并将对一些能够澄道明理的实例进行剖解。

我们正处在一个数据爆炸的时代。政府与私人机构肆无忌惮的数据采集，相关性计算的日渐易用（并不存在于原始数据中的用户信息也会被追溯挖掘出来），各式各样的原因使得传统的隐私保护措施逐渐失效。数据使用权限的控制策略非常复杂，但将技术、政策和法律相结合的协作方式无疑是现阶段对抗政府与商业机构数据入侵的最佳手段。

数据保护的规范原则已经存在了40年之久。为了应对1960年代计算机数据系统的兴起，经济合作与发展组织（OECD, the Organization of Economic Cooperation and Development）在美国卫生教育与福利部（the U.S. Department of Health, Education, and Welfare）一份原始报告的基础上，修订出台了FIPs。覆盖面更广的OECD隐私保护原则多年来一直是许多国家及国际隐私保护条例所参照施行的通用惯例基础。

　　运行软件的许可对话框已经变得越来越眼花缭乱。当用户点下“我接受”（通常是使用一项应用操作所必不可少的步骤），表示他同意当下在其设备上发生的数据收集与使用行为。这些数据内容可能并不全为用户所了然，一些不为用户所熟知及理解的信息内容及对内容进行拓展的可能性往往也包含在内。

知情，许可，情境

　　用户控制是FIPs（Fair Information Principles，信息公平原则）的核心理念。透明原则（知情原则）规定不允许存在秘密的数据收集系统；权限原则规定数据提供者应获得某种方式或权限使其能够了解其所提供的数据记录中包含的信息内容以及这些信息曾/正/将作何用；许可原则（有时也被称作选择原则）规定未经用户同意不得将以原始目的收集而来的数据转作它用；修正原则规定数据提供者必须得到对数据进行修正的权限与能力；完整性与安全性原则规定数据收集者必须保证数据收集记录的完整性与安全性。美国联邦贸易委员会（FTC,the U.S.Federal Trade Commission）于1998年认定以上原则为“隐私保护五项核心原则”，并将知情原则列为最基本原则，将知情原则列为“第二（被普遍接受的）核心原则”。

　　虽然美国和欧洲采取了不同的策略来保护数据隐私（美国采用了针对具体部门的分类保护措施（金融数据、银行信息、医疗记录），而欧洲则诉诸更宽泛的数据保护方案），但双方都不吝强调各自对于知情原则和许可原则的重视。然而，尽管FIPs曾在帮助个人进行针对数据采集行为的识别和应对方面做出了巨大的贡献，但情况却今非昔比。

　　以智能手机上的数据采集为例。基于对来自手机用户自身的信息以及来自他人整合数据的协同收集策略能够有效提高数据采集效率。对于企业来说，这种数据类型带来的是更加迅捷有针对性的服务（及广告投放），能够增加客户粘着度，提升利润率。对于研究人员来说，大量数据资料的获得使得之前不易被察觉的要素关联变得显明，深层的因果关系也会籍此被探索挖掘出来。

　　数据使用权限的控制策略非常复杂，但技术、政策和法律相结合的协作方式无疑是现阶段对抗政府与商业机构数据入侵的最佳手段。

　　由于数据收集所涉及到的汇编数据类型碎片化倾向日甚，知情原则与许可原则在用户实际应用场景中的可操作性要求越来越难以达成。当交通事故使得热门路线陷入瘫痪时是否应该临时加大对于手机位置信息的采集力度？假使答案是肯定的，那么如果用户当时恰好正在进行私人约会呢？并不是所有的用户都能意识到（尽快他们应该意识到）一项提供即时路况信息的应用服务同时会收集用户即时的位置信息。通常有关数据收集的许可提示都会出现在一个用户会于不经意间点击“同意”的应用场景――这实在算不上是隐私保护的胜利。

　　知情原则在应对碎片化数据收集场景时实在显得力不从心。其初衷是为了照顾到所有的特殊情况，而非针对个人的使用场景量身打造。2008年的一项研究显示，一个拥有正常阅读水平的人需要花费244小时才能读完她在一年中所访问网站的所有隐私保护声明。

　　许可原则往往在实际场景中无所作为。几乎在十年前，Fred Cate曾指出，“用户在创建帐户或申请服务时，当被问及是否许可相关的数据收集操作时，总是可以得到相当高的回应率。但据总统科技顾问委员会（PCAST,President’s Advisory Committee on Science and Technology）2014年给出的一份关于大数据与隐私保护的报告显示，“只有在虚幻世界中用户才会在点击通过许可之前认真阅读并试图理解他们的许可行为究竟意味着什么。”

　　用户有时甚至根本没有机会去进行许可与否的选择。面对铺天盖地的复杂信息，凭借安卓系统占领了智能手机市场极大份额的谷歌决定将信息获取权限提醒以弹出窗形式向用户展现。至此，用户彻底丧失了决定向应用程序开放哪一部分信息获取权限的能力。用户通常只是习惯性地进行下一步操作，很少会去仔细斟酌或撤销之前已经做出的许可。

　　问题的关键在于，看似无关紧要的数据可能会引发非常严重的隐私泄露事件。通过读取其他客户的购买历史数据，塔吉特公司根据维生素购买种类成功预测了一名少女的怀孕；而座驾分享公司Uber则声称能够通过接送服务类型选择信息分辨出哪些用户使用场景是一夜情。Solon Barocas和Helen Nissenbaum指出，一部分愿意暴露自己隐私信息人的信息共享行为可能会牵连到那些本不想暴露隐私但却碰巧分享了一些看似无足轻重但却与已经泄露的信息存在某种相关性的用户。

　　类型区分在隐私保护中非常重要。这个十年前由Nissenbaum提出的观点正逐渐得到包括白宫消费者人权法案（the White House Consumer Bill of Rights）与最近的FTC报告在内的决策层的大力支持。

控制使用

　　FIPs通过知情原则与许可原则来保护隐私。但出于各种原因（大量的碎片化数据收集、大量的数据再收集），曾经的固若金汤如今已形同虚设。尽管如此，知情原则在数据透明方面仍可发挥余热；而许可原则在处理特定类型的数据与数据使用行为时（以及在类型控制方面）也依然尚有可取之处。

　　说着容易做着难。大数据给了我们更加便捷与高效的资源调用途径。然而该如何在继续收集与使用大数据的基础上去控制它的应用却是个极其复杂的命题。技术、政策与法律的结合无疑是最好的工具，这里有一些实例或许能够为我们照亮前路。

　　阅读作为曾经最为私密的活动之一正逐渐失落其隐秘性，变得不再仅仅是读者与读本之间的事了。亚马逊以及其他一些电子书供应商拓展出了大量追踪用户行为的方法：读者从哪里开始读，反复阅读了哪些内容，是否做了标记，是否读完了全本等等。当然与这些相比，同样也有其他一些使追踪用户阅读信息变得更困难的方法。

　　Shibboleth便是其中的一个。这款软件允许身处某个会员机构（比如密歇根大学）的用户能够在线使用其他会员机构（比如伊利诺伊大学）数据库中的电子资料。用户在密歇根大学完成身份认证，但当其试图获取伊利诺伊大学的数据认证权限时，所使用认证工具并非是其个人信息而是其对所有会员机构的资料使用权限。此权限的获得可能源于用户是密歇根大学的成员（学生或员工）、某门课程的参与者或是对于某项资源拥有使用权限的用户组成员。除非伊利诺伊大学出于某种特殊原因需要这个用户的个人信息数据，否则这些信息将不会被主动提供。家庭教育权和隐私权法案（The Family Educational Rights and Privacy Act，其初衷为保护学生的受教育记录隐私）以及保护读者隐私心切的图书管理员们共同促成了这些隐私保护机制的开发成型。

　　一种极具实效潜力的数据使用控制机制名为“accountable http”，是http协议的一种变体。这种由麻省理工大学两位名叫Oshani Seneviratne和Lalana Kagal的研究员合力研发的httpa构建出了一套追踪信息使用的系统，其中包括一个想要获取具有使用限制（比如，禁止共享，禁止在未经数据拥有者授权的情况下进行共享，等等）数据的用户、一个使用httpa协议服务器的数据提供者以及一个来源跟踪网络（PTN,Provenance Tracking Network）。PTN是一个用来载入数据原始提供者以及任意下游用户数据权限及使用情况的服务器网络。

　　隐藏在系统背后的奥秘则是httpa本身，一个用来将数据使用限制在用户提供者与用户使用者之间互相传达的协议，每当被保护的资源被申请调用时，它都会在PTN中创建一条记录。这些记录并不强制执行数据调用但可以用作决定是否被调用的参考。此数据使用控制方案迄今为止还只限于小规模的情景测试，是否适用于大规模网络应用还有待探讨。但可预见的是，此方案在某些特殊应用场景中或许可以大显身手（例如由健康保险携带和责任法案HIPAA牵头的病例数据保护，美国法律禁止进行病例数据共享）。

　　在日常的网络应用中，运用线上身份对管控数据（例如，付费订阅权限或仅限于大学成员的图书馆资料获取权限）进行调用的请求每时每刻都在发生着。另外，在被管控空间内（例如YouTube）留言以及在某家银行或线上券商地盘上开展业务等操作也和数据调用行为息息相关。尽管对于在线身份的安全性、跨界操作以及凭证易用性需求显而易见，相关工具的开发与上线仍然处于严重滞后状态。

　　美国联邦政府终于坐不住了，出台了网络空间可信身份国家战略（NSTIC,the National Strategy for Trusted Identities in Cyberspace），为致力于提供兼顾隐私保护与安全性的数据服务试点项目与长期研发提供资金支持。以接入联邦政府网站的数据权限为杠杆，NSTIC要求独立网络身份供应机构尝试保护用户访问联邦政府网站的数据信息隐私。

　　跟踪用户何时访问.gov域名网站的浏览习惯能够揭示他们的私人信息（例如他们感兴趣的是HIV和艾滋病还是偷税漏税的政策）。联邦法律禁止线上身份提供商将用户访问官方网站的追踪数据用作除认证、审核或执行法律之外的其他用途。换句话说，禁止商业广告用途、禁止与第三方共享以及禁止利于数据信息为自身产品牟利。签约用户在访问美国国家癌症研究所的网站时比在访问美国癌症协会网站时能够获得更可靠的数据隐私保护。政策有效地控制了数据使用并使之在技术研发设计过程中得到反馈与体现。

　　法律亦可成为对抗数据滥用行动的强有力后盾。早在1970年，先于FIPs出台的美国公平信用报告法（FCRA,U.S.Fair Credit Reporting Act）并未制定任何控制数据收集的相关条例，而是对用户信用信息的获取权限进行了极其严格地限制（信息内容主要集中在信用记录与就业记录方面）。

　　另一个数据使用控制案例是2008年颁布的致力于反对医疗保险与就业过程中基因信息歧视的反基因信息歧视法案（GINA,the Genome Information Nondiscrimination Act）。但GINA也同样具有其自身特定的局限性。如果一名女性在基因测试中发现其BRAC1-或BRAC2-指标呈阳性（说明其在70岁时得患乳腺癌的概率分别为55～65%与45%），GINA将会保护她获取医疗保险以及受雇就业的能力，但却对她是否具有获得长期残疾医疗护理或人身保险能力问题上缄口不言。

　　能够解读技术、政策和法律在控制数据使用方面如何协同作战的例子不胜枚举。其中一个非常著名的案例发生在医疗研究领域。HIPAA隐私条例决定了理疗机构的科研人员们应当如何处理病人的医疗信息；同时也控制着科研人员之间可能发生的信息互动行为。达到此种监管目的的方式有很多：诉诸法律本身；诉诸法律在相关条例中的应用；诉诸机构审查委员会（Institutional Review Boards）来监控科研人员对病人数据的获取及使用；亦或诉诸社会监管手段。如果一名科研工作者在医疗记录隐私处理中留下了污点，那么未来她将很难再有机会接触到此类数据。

隐私与国家安全

　　在讨论隐私保护与大数据问题时，往往不被重视的一个方面是出于国家安全考虑的数据采集行为。随着斯诺登曝光了政府针对美国国内及国外的大范围数据监控行为，数据采集及使用问题一时间引起了全国上下的热议，尽管出于人尽皆知的原因知情原则与许可原则在涉及国家安全的数据采集案例中并不会被过分提及。

　　最近我参与了一项由美国国家科学院（National Academies）发起的批量数据信号收集软件替代方案的相关研究。批量采集，尤其是针对电话通讯元数据的相关操作（NSA每天都会从主要运营商处获取包括通话目标、来源、日期、时长信息的电话通讯元数据）已经引发了广泛的质疑。元数据指的是记录通话事件本身的数据，并不涉及通话内容，但移动通讯设备往往都与单个用户绑定，也就意味着这些元数据本身也携带着大量的隐私数据信息。包括一个有关情报与通信技术的总统级评审小组和隐私与公民自由监督委员会（the Privacy and Civil Liberties Oversight Board,美国一个作为行政分支单位的监督委员会）在内的诸多机构都呼吁政府尽快停止该电话通讯元数据监控项目。

　　在此次研究项目中，我们的职责有些特别（研究该监控项目的技术替代方案），而我们所得出的结论同样非常特别。鉴于项目所提供的数据信息无法经由其他途径获得，我们断定不存在任何替代方案能够完成等效的信息供给。需要特别指出的是，如果过去发生的事件在当下变得引人侧目（一个无核国家被发现正在研制核武器或是某个新的目标被认定为恐怖分子），过去的事件历史中可能隐含着有价值的新线索。而一般来讲，只有该历史事件发生的相应阶段中进行过批量数据采集，对于该事件的重新探索与研读才成为可能。

　　我们无法评判是否应该继续施行批量数据采集项目；这是政治决策的范畴，而非技术分析与科学研究可以评断。我们注意到，面对此种类型的批量数据采集，唯一能够有效保护数据隐私的方式就是控制数据使用――与针对独立机构大数据采集问题的解决方案如出一辙。

　　我们并没有证据证明美国国家安全局将收集来的信息作了不当之用。然而，我们认为数据使用的控制工作还有很大的提升完善空间。我们建议提高自动控制审核效率，同时坚持进行人工控制审核。针对数据使用的自动管控意味着数据管控规则必须达到相当的精确程度。这种理念与发展益处良多，能够防止可能导致数据库不当写入的数据矛盾发生。针对数据应用的自动管控同时也使得数据使用更加透明。在未来，我们将致力于研究来源于外部的数据隐私保护措施。

针对数据应用的管控

　　我们认为，“针对数据应用的管控作为一种隐私保护措施，提供了控制数据采集行为的新思路。”这个结论在国家安全维度之外依然成立。隐私侵犯无处不在。新技术的兴起（智能手机及其应用，谷歌服务的普及――占据了美国搜索市场68%以及欧洲市场90%的份额，以及互联网终端在汽车、桥梁、货运等领域的应用等等）振奋人心，但新技术以及社会文化更迭所带来的隐私侵犯问题同样引人担忧。早在1890年，相同的境况（黄色新闻与手持摄像机）促使Samuel Warren和Louis Brandeis联合撰写出了《隐私权利》，为美国的隐私保护打下了坚实的基础。Warren和Brandeis指出，“我们时常会发现，每隔一段时间，重新定义隐私保护的实质与维度便再次显得迫在眉睫。”当下则正值革新之时。对于实质与维度的重新定义将围绕控制使用展开，并确定哪些是恰当有效的管控手段。路漫漫其修远兮，即使任重道远，吾辈万难不辞。

资料来源 Science

责任编辑李辉