在很多方面,“大数据”和“加密”是对立的,前者收集、存储和分析信息,以此来揭示对学者、法律实施和企业有用的规律;而后者的目标是窥探隐藏的数据。这个议题(tension)是本周的一个由白宫科技政策办公室和麻省理工共同举办的会议的核心,这次会议有来自学术界、政界和商界的许多专家人士出席,他们探讨了加密技术以及其它以隐私为导向的技术,可以保护大数据所涉及的信息。
麻省理工计算机科学与人工智能实验室(CSAIL)的Shafi Goldwasser教授在座谈小组中说到,加密功能是必须要走的路。她还补充道,其余的选择比如匿名的数据记录并非有效。如今,在社交网络和其它的公共网站上,可以免费获得大量关于个人的数据,任何一个想要做坏事的人都可以从任意数量的在线资源通过交叉引用来建立关于他们的目标的轮廓(profile)。
一名来自麻省理工学院CASIL的副教授在周一的“隐私增强技术”座谈小组中谈道,如果数据只是简单地被存储起来,那么加密就可以非常完美地工作。而当你真的需要处理和分析被存储起来的数据时,问题就出现了。然后他补充说,这也就是为什么现在需要一个实用性的处理加密数据的系统。
这种实际的努力通常是指所谓的“同态”加密,这使得它可以在不先对加密数据解密时而执行对加密数据的计算。20世纪70年代末,研究者一直强调完全同态加密是可能的,所谓的完全同态加密是指,在加密过程中,可以对信息以任意种方式进行切片或切块,而同时不显示实际的数据。这种系统可能对云计算特别有利,因其提供了一种分析信息的方法,这种方法对信息提供者来说有最小的隐私风险。
然而,实际上,计算机科学家在对加密数据进行更多语义操作上,还没有开发出方法。IBM声称,2009年计算机科学家Craig Gentry已经开发出一个实用的且完全同态的系统,但批评者说,这项技术在实际的云计算的应用中太过于复杂、速度缓慢且不实用。IBM已为Gentry的成果申请了专利且继续开发完善。
目前正在努力开发中,如果没有完全同态的系统,那么可以用其它的创新的方法来处理加密数据。
其中一个这样的项目就是CryptDB,这个系统通过将请求数据的软件和存储加密数据的数据库之间的放置一个代理服务器,来保证对加密数据的分析。这个代理使用旨在比较和分析加密信息的算法,在某些情况下,代理需要去除不同的加密层来更好的分析数据,但是这种想法就是不会将数据完全的加密成为纯文本。尽管CryptDB 只能进行有限种类的查询,谷歌是该技术的一大支持者,并使用它在其基于云计算的、搜索大量数据集的BigQuery服务中提供加密查询。增加一个额外的设备,比如在搜索和检索过程中的代理服务器,通常会减慢速度,但是Zeldovich 和他的同事表示他们正在为解决这个问题而努力着。
麻省理工的小组成员还提出了不依赖于加密的安全措施,例如,有差异的隐私是一种替代的匿名数据。哈佛的Salil Vadhan 教授说,这种方法使用一个自动化的数据管理者,它可以在提供给数据请求者有用的信息的同时,保护数据集中个人隐私。正如2012年12月份的科学美国人网站上文章所指出的,差异化的私人数据发布算法允许研究人员提问关于有敏感信息数据库的任何问题,同时提供经过模糊化处理的答案,因此,实际上不会暴露任何私人数据,即使某人是排在数据库中的首位也不会被暴露。
另一种选择就是在收集、存储和分析数据的软件中直接为工程师们编写隐私政策的要求。麻省理工一位首要研究科学家Daniel Weitzner说,写入这样的“责任系统”可以自动的分析对数据的一个特定的运用是否违反了法律,他还补充说,通过类比,我们可以在全世界范围内以一个较高的公众信任度运行经济,我们这样做是因为我们一套有适用于一致方式的一致性的规则。
周一的会议起源于Pres,奥巴马在今年早些时候呼吁要对大数据对美国人民的生活以及与政府之间的关系进行全面的审查。奥巴马任命白宫顾问John Podesta 来领导这项审查过程,这项过程将会从现在开始持续几个月,并得出一个期望会影响关于大数据的政策、资金和研究的报告。
CIO之家 www.ciozj.com 公众号:imciow