别再拿数据隐私做陪葬 —— 数据加密在大数据和云计算领域的应用

Դ未知

ߣ老铁SEO

15

2019-08-03 11:08:43

小线菌

当人们在讨论云计算、大数据分析等科技议题和个人隐私侵犯时,往往认为二者是一种tradeoff,想要企业获得较大算力或者从数据中挖掘出宝藏般的洞察,一定要以隐私为代价。而在现代密码学的发展下,这样壮烈的牺牲并非必须。

本篇文章简要概况了密码学的发展历程,呈现了我国商用密码行业目前的发展状况,并在最后介绍了密码学在大数据和云计算领域应用的前沿案例。密码学在商业的应用仍处于萌芽阶段,在数据安全重要性日益凸显的情况下,该领域将会迎来极大的发展前景。

本文作者:第八期“小线肉计划”成员李卓融Ricky,耶鲁大学 - 香港科技大学管理学在读研究生。

文章长度为5608字,全文阅读时间约为6分钟

数据是21世纪最重要的资产 —— 但无论你情愿与否,1984老大哥式的大屏已经全方位地渗入我们的生活,更可怕的是,作为数据的所有者,你完全不知道背后的老大哥究竟是谁。或许一只韭菜的数据一文不值,但对于需要大运算力的电商平台,或需要通过高成本复杂试验获取宝贵实验数据的医药公司,在委任第三方进行数据分析和模型训练的过程中和上传至云端过程的数据流失和窃取造成的损失,可能是真金白银。公司如何利用科技保护自身免遭损失,是现在需要学习的命题。

01

从密码学到大数据与云计算安全

密码学最早可以追溯到公元前1世纪所使用的凯撒密码(Caesar cipher)。1949年Shannon发表的《保密系统的通信理论》则标志了现代密码学的诞生。从此,密码学从单纯依靠直接和设计的艺术变成一门基于数学推理的科学。

1976年,Diffie和Hellman发表了《密码学新方向》,提出了公钥加密的猜想。在这个划时代的发现之前,人们一直依靠共享彼此的密钥来进行通信。

比如说,小明如果想要给小红传递一个加密的信息,他必须得教小红他的密钥,小红依据小明给她的密钥进行解密,这样才能看得懂对方的信息。

而新的猜想则使得通信双方在没有事先共享任何秘密信息的情况下能够通信。加密和解密可以使用不同的规则,只要这两种规则之间存在某种对应关系即可,这样就避免了直接传递密钥,大大提高了安全性。

还是小明和小红的例子,如果小明想给小红传递加密的信息,小红生成两把密钥,一副是所有人都可获得的公钥,一副是保密的私钥;小明依据小红公开的公钥进行加密,而小红则用自己保密的私钥进行解密。

1978年Rivest,Shamir和Adleman设计的RSA公钥密码算法则实现了1976年的猜想,使数字签名和基于公钥的加密成为可能。

除了非对称的RSA之外,1977年美国制定的数据加密标准(DES)则提供了一种可以由解密密钥中推出加密密钥的算法。

在大数据和云计算的背景下,密码学的重要性日益凸显。一方面,数据之大不仅在于数据量的多,也在于从海量数据中挖掘的洞察价值高,在这样的背景下,良好的数据加密技术能为企业保护更大的经济价值。另一方面,传统的加密是基于本地服务器中的,现在更多“在云端”的操作,包括未来5G技术的广泛应用,创造了更加复杂的加密和解密技术来保护企业的数据资产的需求。而基于物理硬件之上的虚拟机安全平台让商业应用中的登录认证、加密储存和密文检索等密码学应用成为可能。

在此背景下,现阶段的公钥加密算法受到了一定的威胁。基于计算安全机制的传统公钥加密算法,如基于大数的质数分解困难性的RSA算法以及基于计算离散对数困难性的Diffie-Hellman算法,是建立在攻击者具有有限的计算能力而无法在短时间内破解该算法的假设上的。然而,随着大数据、云计算的飞速发展,个人终端的计算能力得到大幅度提升,严重威胁到了传统的基于计算安全的传统公钥加密算法的安全性。我们需要重新审视密码学与大数据、云计算之间的关系

02

商用密码行业:规模大,增长快,声音小

根据我国对信息安全的分类,信息安全分为涉及领导人及绝密单位的“核密”,国家党政军机关的“普密”及保护企业级别的“商密”。

随着企业数字化程度的飞跃进展,商业密码产业拥有较大的发展空间即便行业拥有国家法律规定和资质审批的准入门槛,根据统计,2017年我国商用密码产业规模达到239.41亿,较2016年增长57.9%。近三年产业规模的平均增长率为35%。

数据来源:数观天下

目前商用密码领域产品繁多,可以分为以下几大类:

  • 基础层以计算力为核心。支撑计算力的密码算法芯片为基础层的主要产品,该层产品构成密码应用基础的提供密码运算功能的产品。

  • 技术层关注技术开发和输出。关注数据加解密算法、身份认证和密码鉴别、数字证书、密钥管理、密码防伪等功能和技术。

  • 应用层提供商业化解决方案。基于提供计算力的软硬件和密码领域技术的发展,提供针对具体领域的商业化解决方案,包括密码机、密码钥匙、密码应用等,企业数目最多。

目前,行业内的龙头企业集成了从提供计算力的芯片,到支持具体应用领域的系统和硬件设备,涵盖商用密码领域的多个环节。但现阶段商用密码领域存在一定的问题

  • 一是目前绝大部分企业聚焦技术层和应用层,在计算力和算法上鲜有突破;

  • 二是关注行业和密码应用领域较为保守,仅对传统的金融客户数据、电力发电输电变电环节等应用领域进行服务,较少对互联网场景进行产品形态的改造;

  • 三是国内关注互联网场景的企业,目前的技术应用停留在电子签名应用场景,或是依托区块链“非对称加密”的特性,尚未看到针对更高价值的算法和数据的商用密码发展。

我们把目光投向国外,会发现已经有一些非常前沿的初创科技企业在密码领域里做出卓越的试探,本文会分别讨论商用密码在大数据和云计算领域内的应用。

03

案例:加密在大数据领域的应用

业界内,最新发展下的密码学拥有几个显著特征:

  • 零知识证明(Zero-knowledge proofs)零知识证明或零知识协议是一方(证明者)可以向另一方(验证者)证明他们知道值x的方法,而不传达任何信息,除了证明者知道价值x这一事实

  • 安全飞地(Secure enclaves)加密数据进入到受保护的飞地进行解密和处理,完工后再加上密才出飞地

  • 多方计算(multi-party computation)针对无可信第三方的情况下安全地计算一个约定函数的问题

在数字经济的背景下,数据分析是新时代的风口。现阶段的数据分析存在一定的问题一方面,现代公司乃至普通消费者的共识是海量的数据成为当代最宝贵的资产,但是除了雇佣in-house的数据处理人才,很难解决数据流失的问题;另一方面,处理数据的算法和掌握数据算法的人才的价值相对被低估,并且经常存在模型被窃取的问题。

为了解决上述问题,基于上述大数据分析内存在的显著特征,以及现阶段数据分析存在的痛点,国外已有企业给出对策。比较著名的案例是提供基于同态加密的数据分析和隐私保护方案的Duality,其旗下拥有较为成熟的产品SecurePlus™,为企业提供安全的数据分析方案。绿盟科技在今年2月份对该公司进行了较为详细的报道,在这里不再赘述。

今天介绍的公司Decentriq是一家瑞士的初创公司,提供的是基于加密数据集的数据分析服务。这一服务的对象既是拥有数据的企业用户,也是拥有训练数据所需模型的开发者。

我们以电商平台阿里叭叭和数据科学家小红为例,来阐述Decentriq如何在保护双方数据和模型的同时,提供安全、高效、富有洞察力的解决方案。

阿里叭叭手中握有海量的消费数据,小红手中握有高效的模型。在现阶段下有两个情景:

现阶段情景一小红把模型交给阿里叭叭,阿里叭叭买断并完全拥有模型。

对小红而言,小红的算法完全为阿里叭叭拥有,算法完全遭到了揭露;而阿里叭叭虽然拥有了这套算法,但是自己的算法只能被一次性的使用,没法再次用数据不断训练小红的模型,让模型学习的结果更优化。

现阶段情景二阿里叭叭把数据发给小红,小红将经过模型训练得出的结果发给阿里叭叭。

情景二则是阿里叭叭比较吃亏了,阿里叭叭需要把所有的数据发给小红,小红通过模型得出结果之后将结果返还给阿里叭叭。在这样的情况下,小红拥有所有的数据,阿里叭叭无法保证小红把数据卖给英语留学还是游泳健身了解一下。

那么Decentriq的做法则提出一种新的传输解决方案,通过成熟的加密协议(多方计算和零知识证明)与机器学习算法相结合,提高传输隐私性和安全性。新的解决方案如下图三个步骤所示:

新方案步骤一通过Decentriq的算法将数据和模型拆分成加密的部分

新方案步骤二阿里叭叭和小红协同对共享数据进行操作,生成结果的一部分

新方案步骤三阿里叭叭获得另一部分的结果,获得完整的可应用的结果

那么在这样的情况下,现阶段情景1下的模型无法持续改进,以及现阶段情景2下数据安全性问题的两大难题得到解决。同时,由于新的方法是不受大数据和云计算的计算能力的威胁的,同时具有安全性和可靠性的特定,并且针对现阶段日益增长的数据分析需求,具有非常强的应用前景。

但也需要看到的是,Decentriq作为一家初创公司,目前尚未得到市场的验证。官网上展示了该模型在电商数据和医疗实验数据方面的应用,而在其他细分领域的应用程度目前尚不清楚,需要更多的成功案例来证明其算法的应用广泛性。

04

案例:加密在云计算领域的应用

随着“云”这一概念的兴起,越来越多企业已着手开始布局自己的云战略,并逐渐扩大云在企业的应用,同时铺设相关的基础设施。从诞生之初,“云”这一概念受到的最大质疑之一就是安全性。

虽然大多数云服务商(诸如亚马逊的AWS,阿里巴巴的阿里云)都提供了相对完备的保护安全性的基础设施,但对于很多拥有宝贵数据的企业而言,由于每家企业已有的安全性能不同,他们仍需要专有的服务供应商对他们的企业设计端对端的安全方案

在这样的大背景下,云安全管理行业应运而生。整个行业的特点如下:首先,应用的常见的技术可能从最常见的防火墙,到邮件、网络的加密,再到通过行为预测和安全警告对企业进行提前的防范,大部分是多种技术的混合;其次,提供的安全管理服务应用范围也需要覆盖到云服务三兄弟——公有云、私有云、混合云;最后,在保证安全性的情况下,对于企业端用户操作需要尽量简单易懂,用户体验也很重要。

行业内成熟的玩家包括领导厂商Palo Alto Networks(派拓网络),其依靠和AWS、谷歌和微软等著名公有云的合作伙伴关系,包括目前其在国内和阿里云的技术合作伙伴关系,通过收购自动化和容器安全等领域的公司和发展旗下重要的云安全套件Parisma,其愿景在加速构建云安全生态建设;Barracuda(梭子鱼网络),核心业务包括网络和应用安全、邮件保护和归档、数据恢复,公司提供了较为丰富的产品矩阵和全面的解决方案。除此之外,云安全行业也有很多由初创公司起家发展长成的独角兽,包括NetSkope,Hy Trust,IONIC等等。

今天介绍的案例来自CipherCloud,其提供的云网关服务对客户发送的数据进行实时加密。我们引用一个在美国的案例,说明在数据安全性法规日益更新的政策背景之下,CipherCloud如何通过识别和保护被法律禁止曝光的个人信息,对数据进行加密。

现阶段情景客户提供给公司的信息里包括客户的姓名和社保号码。

那么在现阶段情境下,当公司需要传输一定的客户信息,需要员工手动检查表里有无社保号这样隐私的信息。在数据量十分大的情况下(比如说,一个数据库记录了客户的基本信息、行为数据等等,条目繁多),这种信息很容易被忽视。而美国的法律规定了包含社保号码的信息,尤其是在没有被加密的情况下,是不可以被上传至云端的。这么一来,公司就面临着合规风险和数据泄露带来的经济损失。

那么CipherCloud则提供了一种预防数据丢失的方案,这其中包括了面向客户定制的云端应用程序。应用程序不仅包括了法律规定禁止泄露的数据,也包括了针对各个行业和企业设定的保密数据。

新方案在新方案下,这个云端应用程序会实时识别上传或者分享的数据内有无隐私信息。一旦监测到违规(无论这里的“规”指的是法律亦或是公司章程),程序首先会警告使用者,更严重的会是限制共享或对文件自动加密。更加源头的解决方案是,在创建数据时,就对这类隐私数据进行标记,这样无论其在本地还是云端,都可以受到追踪和保护。

除了实时警告和对数据的处理之外,CipherCloud的解决方案也包括了事前教育的服务,对公司雇员在数据隐私方面进行训练。

当然,没有一种解决方案是完美的。在云安全领域需要面临的博弈是在一个完整的安全解决方案和某一细分领域内特别出众的安全工具之间的。像CipherCloud这种预防数据流失上先行的玩家,在这一细分领域上领先,但却在安全方案的完整上可能不敌诸如派拓网络这样的领导厂商。

05

小结

数据安全作为现阶段云服务、大数据和人工智能基础层更为基础的保护计算力的核心,处于产业价值被低估的阶段。无论是大的互联网科技公司,还是针对科技领域进行投资的投资方,应该多加关注对冲数据分析所带来的数据安全风险的相关技术和企业。或许有朝一日,我们真的不需要和魔鬼做交易,可以在享有便利的同时享有高计算力和保护数据与算法。
 

 

win7系统qq游戏大厅登陆不上的几种原因和解决方法

ServiceTemporarilyUnavailable的503错误是怎么回事

新浪博客软件

新浪博客外链代发包收录

如何高效的长尾关键词库挖掘

中兴42岁程序员跳楼自杀妻子讲述其跳楼始末

淘宝网涉嫌抄袭搜狐白社会原创应用池塘边

如何快速搭建一个强大的站内搜索引擎

告诉你深度一键还原怎么用

淘宝一件代发货源太贵怎么办(微商美丽说蘑菇街男装女装男

解决lol一直崩溃的办法

IS组织宣布对伦敦恐怖袭击负责跨境电商供应链遭袭风险已达史上最

如何让百度收录网站的方法

告诉你qq空间打不开的解决方法

文档分享赚钱的正能量实操经验分享

羽绒服不能水洗怎么洗才好

联想g455声卡驱动

非法捐精直接发生性关系暗藏地下的人类繁殖计划

WordPress建站之初十大必备插件

佭ϴý Ѷ Media8ý

在线客服

外链咨询

扫码加我微信

微信:juxia_com

返回顶部