大数据安全研究综述
添加时间:2020-05-07 点击次数:399
随着人工智能、云计算、移动互联网和物联网等技术的融合发展,传统的基于边界安全域和基于已知特征库的网络安全防护方式已经无法有效应对大数据环境下新的安全威胁。
通过对大数据环境下面临的安全问题和挑战进行分析,提出基于大数据分析和威胁情报共享为基础的大数据协同安全防护体系,将大数据安全技术框架、数据安全治理、安全测评和运维管理相结合,在数据分类分级和全生命周期安全的基础上,体系性的解决大数据不同层次的安全问题。
基于该安全防护体系,分析了数据安全的关键技术及其目前的发展现状,并展望和分析了大数据安全领域面临的挑战。全面的分析和研究了大数据安全的威胁、政策、标准、方案、关键技术和挑战,对开展大数据安全建设和工程应用有重要参考意义。
以大数据为代表的数据化、数字化是全球信息技术发展趋势之一。大数据技术的发展,引发了全球范围内技术、学术、产业以及安全的变革,已经成为全球发展的趋势,是国家和企业间的竞争焦点,直接关系到国家安全、社会稳定、经济发展和民计民生等诸多方面。
数据是网络的血液,是信息化时代得以持续发展的核心。云计算和物联网技术的快速发展,引发了数据规模的爆炸式增长和数据模式的高度复杂化。大数据技术成为继云计算技术之后,各国竞相争夺的信息化战略高地。
十八大以来,我国陆续发布《促进大数据发展行动纲要》、《大数据产业发展规划(2016-2020)》和《国家网络空间安全战略》等一系列重大文件,在夯实国家网络安全战略任务中,提出实施国家大数据战略、建立大数据安全管理制度、支持大数据信息技术创新和应用的纲领性要求。这些重要文件,为相关产业的融合发展、健康发展打开了巨大政策空间。
但是在大数据技术催生了大量创新业务应用模式并在党政军行业大规模应用的同时,也带来了许多前所未有的安全威胁,数据泄露、恶意代码、非法访问、拒绝服务攻击、账户劫持、不安全的API、基于大数据技术的新型攻击等安全问题,已成为大数据产业健康发展的最大障碍。
以数据为视角进行信息安全建设,对数据全生命周期为主线进行分类分级保护,明确“数据从哪里来(Where)、放在什么环境下(What)、允许谁(Who),什么时候(When)、对哪种信息(Which)、执行什么操作(How)”,做到全生命周期、全流转过程“可管可控”,满足“大数据参与者数据安全的要求”,是当前大数据安全建设的重要目标。
传统的信息安全侧重于信息内容(信息资产)的管理,更多地将信息作为企业/机构的自有资产进行相对静态的管理,无法适应业务上实时动态的大规模数据流转和大量用户数据处理的特点。
大数据5V的特性和新的技术架构颠覆了传统的数据管理方式,在数据来源、数据处理使用和数据思维等方面带来革命性的变化,这给大数据安全防护带来了严峻的挑战。大数据的安全不仅是大数据平台的安全,而是以数据为核心,围绕数据全生命周期的安全。数据在全生命周期各阶段流转过程中,在数据采集汇聚、数据存储处理、数据共享使用等方面都面临新的安全挑战。
1.1 大数据采集汇聚安全
大数据环境下,随着IoT技术特别是5G技术的发展,出现了各种不同的终端接入方式和各种各样的数据应用。来自大量终端设备和应用的超大规模数据源输入,对鉴别大数据源头的真实性提出了挑战:数据来源是否可信,源数据是否被篡改都是需要防范的风险。
数据传输需要各种协议相互配合,有些协议缺乏专业的数据安全保护机制,数据源到大数据平台的数据传输可能给大数据带来安全风险。数据采集过程中存在的误差造成数据本身的失真和偏差,数据传输过程中的泄漏、破坏或拦截会带来隐私泄露、谣言传播等安全管理失控的问题。因此,大数据传输中信道安全、数据防破坏、数据防篡改和设备物理安全等几个方面都需要着重考虑。
1.2 大数据存储处理安全
大数据平台处理数据的模式与传统信息系统对数据的处理模式不同。传统数据的产生、存储、计算、传输都对应明确界限的实体(视为分段式),可以清晰地通过拓扑的方式表示。这种分段式处理信息的方式,用边界防护相对有效。
但在大数据平台上,采用新的处理范式和数据处理方式(MapReduce、列存储等),存储平台同时也是计算平台,采用分布式存储、分布式数据库、NewSQL、NoSQL、分布式并行计算、流式计算等技术,一个平台内可以同时采用多种数据处理模式,完成多种业务处理,导致边界模糊,传统的安全防护方式难以奏效。
(1)大数据平台的分布式计算涉及多台计算机和多条通信链路,一旦出现多点故障,容易导致分布式系统出现问题。此外,分布式计算涉及的组织较多,在安全攻击和非授权访问防护方面比较脆弱。
(2)分布式存储由于数据被分块存储在各个数据节点,传统的安全防护在分布式存储方式下很难奏效。
①数据的安全域划分无效;
②细粒度的访问存储访问控制不健全,用作服务器软件的NoSQL 未有足够的安全内置访问控制措施,以致客户端应用程序需要内建安全措施,因此产生授权过程身份验证和输入验证等安全问题;
③分布式节点之间的传输网络易受到攻击、劫持和破坏使得存储数据的完整性、机密性难以保证;
④数据的分布式存储,增大了各个存储节点暴露的风险,在开放的网络化社会,对于攻击者而言更容易找到侵入点,以相对低成本就可以获得“滚雪球”的收益,一旦遭受攻击,失窃的数据量和损失是十分巨大的;
⑤传统的数据存储加密技术,在性能效率上面很难满足高速、大容量数据的加密要求。总结大数据的分布式存储主要的安全挑战归结为两方面:数据丢失和数据泄露的风险。
(3)大数据平台的访问控制的安全隐患主要体现在:大数据应用中的用户多样性和业务场景多样性带来的权限控制多样性和精细化要求,超过了平台自身访问控制能够实现的安全级别,策略控制无法满足权限的动态性需求,传统的角色访问控制不能将角色、活动和权限有效地对应起来。因此,在大数据架构下的访问控制机制还需要对这些新问题进行分析和探索。
(4)针对大数据的新型安全攻击中最具代表性的是高级持续性攻击(APT) 。由于APT的潜伏性和低频活跃性,使其持续性成为一个不确定的实时过程,产生的异常行为不易被捕获。传统的基于内置攻击事件库的特征实时匹配检测技术,对检测APT攻击无效。大数据应用为入侵者实施可持续的数据分析和攻击提供了极好的隐藏环境,一旦攻击得手,失窃的信息量甚至是难以估量的。
(5)基础设施安全的核心是数据中心的设备安全问题,包括传统的安全风险和特有的安全风险,传统的安全防范手段如网络防DDOS攻击、存储加密、容灾备份、服务器的安全加固、防病毒、接入控制、自然环境安全等;特有的安全风险,主要来自大数据服务所依赖的云计算技术引起的风险,包括如虚拟化软件安全、虚拟服务器安全、容器安全,以及由于云服务引起的商业风险等。
(6)服务接口安全。由于大数据平台支撑的业务应用多种多样,对外提供的服务接口千差万别,这对攻击者通过服务接口攻击大数据平台带来机会,因此,如何保证不同的服务接口安全是大数据平台的又一巨大挑战。
(7)数据挖掘分析使用安全。大数据的应用核心是数据挖掘,从数据中挖掘出高价值信息为企业所用,是大数据价值的体现。然而使用数据挖掘技术,为企业创造价值的同时,容易产生隐私泄露的问题。如何防止数据滥用和数据挖掘导致的数据泄密和隐私泄露问题,是大数据安全一个最主要的挑战性问题。
1.3 大数据共享使用安全
(1)数据的保密问题。
频繁的数据流转和交换使得数据泄露不再是一次性的事件,众多非敏感的数据可以通过二次组合形成敏感的数据。通过大数据的聚合分析能形成更有价值的衍生数据,如何更好地在数据使用过程中对敏感数据进行加密、脱敏、管控、审查等,阻止外部攻击者采取数据窃密、数据挖掘、根据算法模型参数梯度分析对训练数据的特征进行逆向工程推导等攻击行为,避免隐私泄露,仍然是大数据环境下的巨大挑战。
(2)数据保护策略问题。
大数据环境下,汇聚不同渠道、不同用途和不同重要级别的数据,通过大数据融合技术形成不同的数据产品,使大数据成为有价值的知识,发挥巨大作用。如何对这些数据进行保护,以支撑不同用途、不同重要级别、不同使用范围的数据充分共享、安全合规的使用,确保大数据环境下高并发多用户使用场景中数据不被泄露、不被非法使用,是大数据安全的又一个关键性问题。
(3)数据的权属问题。
大数据场景下,数据的拥有者、管理者和使用者与传统的数据资产不同,传统的数据是属于组织和个人的,而大数据具有不同程度的社会性。一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的隐私问题。在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。如何管控大数据环境下数据流转、权属关系、使用行为和追溯敏感数据资源流向,解决数据权属关系不清、数据越权使用等问题是一个巨大的挑战。
2.1 国际发展现状
随着大数据的安全问题越来越引起人们的重视,包括美国、欧盟和中国在内的很多国家、地区和组织都制定了大数据安全相关的法律法规和政策,以推动大数据应用和数据保护。
美国于2012年2月23日,发布《网络环境下消费者数据的隐私保护-在全球数字经济背景下保护隐私和促进创新的政策框架》,正式提出《消费者隐私权利法案》,规范大数据时代隐私保护措施。并在《白皮书》中呼吁国会尽快通过《消费者隐私权利法案》,以确定隐私保护的法治框架。
欧盟早在1995年就发布了《保护个人享有的与个人数据处理有关的权利以及个人数据自由流动的指令》(简称《数据保护指令》),为欧盟成员国保护个人数据设立了最低标准。2015年,欧盟通过《通用数据保护条例》(GDPR),该条例对欧盟居民的个人信息提出更严的保护标准和更高的保护水平。
在《2014至2017年数字议程》中,德国提出于2015年出台《信息保护基本条例》,加强大数据时代的信息安全。2015年2月25日,德国要求设置强硬的欧盟数据保护法规。
澳大利亚于2012年7月发布了《信息安全管理指导方针:整合性信息的管理》,为大数据整合中所涉及到的安全风险提供了最佳管理实践指导。11月24日,对1988年的《隐私法》进行重大修订,将信息隐私原则和国民隐私原则统一修改为澳大利亚隐私原则,并于2014年3月正式生效,规范了私人信息数据从采集、存储、安全、使用、发布到销毁的全生命周期管理。
在数据安全的标准化方面,美国走在前列,在大数据安全方面,ITU-T SG17制定了《移动互联网服务中的大数据分析安全要求和框架》《大数据即服务安全指南》《电子商务业务数据生命周期管理安全参考框架》等,NIST发布了《SP 1500-4 NIST 大数据互操作框架:第四册 安全与隐私保护》等标准,ISO/IEC也发布了关于隐私保护框架、隐私保护能力评估模型、云中个人信息保护等标准,对大数据的安全框架和原则进行了标准化定义。
在数据安全的产品解决方案和技术方面,国外知名机构和安全公司纷纷推出先进的产品和解决方案。著名咨询公司Forrester提出“零信任模型”(Zero Trust Model),谷歌基于此理念设计和实践了BeyondCorp体系,企业可不借助VPN而在不受信任的网络环境中安全的开展业务;IBM InfoSphere Guardium能够管理集中和分布式数据库的安全与合规周期;老牌杀毒软件厂商赛门铁克(Symantac)将病毒防护、内容过滤、数据防泄漏、云安全访问代理(CASB)等进行整合,提供了包含数据和网络安全软件及硬件的解决方案;操作系统霸主微软聚焦代码级数据安全,推出了Open Enclave SDK开源框架,协助开发者创建以保护应用数据为目的的可信应用程序。CipherCloud联合Juniper推出了云环境下数据安全的产品解决方案,提供云端企业应用的安全访问和可视化监控。
2.2 国内发展现状
鉴于大数据的战略意义,我国高度重视大数据安全问题,近几年发布了一系列大数据安全相关的法律法规和政策。
2013年7月,工业和信息化部公布了《电信和互联网用户个人信息保护规定》,明确电信业务经营者、互联网信息服务提供者收集、使用用户个人信息的规则和信息安全保障措施要求。
2015年8月,国务院印发了《促进大数据发展行动纲要》,提出要健全大数据安全保障体系,完善法律法规制度和标准体系。
2016年3月,第十二届全国全国人民代表大会第四次会议表决通过了《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出把大数据作为基础性战略资源,明确指出要建立大数据安全管理制度,实行数据资源分类分级管理,保障安全、高效、可信。
在产业界和学术界,对大数据安全的研究已经成为热点。国际标准化组织、产业联盟、企业和研究机构等都已开展相关研究以解决大数据安全问题。2012年,云安全联盟(CSA)成立了大数据工作组,旨在寻找大数据安全和隐私问题的解决方案。2016年,全国信息安全标准化技术委员会正式成立大数据安全标准特别工作组,负责大数据和云计算相关的安全标准化研制工作。
在标准化方面,国家层面制定了《大数据服务安全能力要求》《大数据安全管理指南》《大数据安全能力成熟度模型》等数据安全标准。由于数据与业务关系紧密,各行业也纷纷出台了各自的数据安全分级分类标准,典型的如《银行数据资产安全分级标准与安全管理体系建设方法》《电信和互联网大数据安全管控分类分级实施指南》《JR/T 0158-2018证券期货业数据分类分级指引》等,对各自业务领域的敏感数据按业务线条进行分类,按敏感等级(数据泄漏后造成的影响)进行数据分级。安全防护系统可以根据相应级别的数据采用不同严格程度的安全措施和防护策略。
在大数据安全产品领域,形成了平台厂商和第三方安全厂商的两类发展模式。阿里巴巴不但是全国最大规模电子商务公司,也是最大规模公有云服务商,围绕其掌握的电子商务、智慧城市数据,致力于数据治理,反欺诈等数据安全工作;通信巨头华为依赖其布局全球的通信运维网络,建立了可共享访问的“华为安全中心平台”,可实时查看全球正在发生的攻击事件;第三方安全厂商阵营,除了有卫士通、深信服、绿盟等传统综合性网络安全企业,诸多创业公司也如雨后春笋般出现,包括明朝万达、天空卫士、中安威士等,上述企业围绕数据防泄漏(LDP)、内部威胁防护(ITP)和数据安全态势等产品的数据安全整体解决方案和产品也各有优势;与此同时,物流行业霸主顺丰深知数据安全重要性,也在自身业务领域积极开展了围绕物流全生命周期、基于区块链的数据安全实践,成效显著。
大数据与传统数据资产相比,具有较强的社会属性。如图1所示,为实现安全防护目标,需要融合安全治理、技术、标准、运维和测评来系统性地解决大数据的安全问题。从安全治理着眼,以安全技术、安全运维和安全测评为支撑,构建流程、策略、制度、测评多重保障体系。同时,需要以标准为保障,实现安全互联协同,达到多维立体的防护。
图1 大数据安全保障框架
3.1 大数据安全总体技术框架
大数据的安全技术体系是支撑大数据安全管理、安全运行的技术保障。以“密码基础设施、认证基础设施、可信服务管理、密钥管理设施、安全监测预警”五大安全基础设施服务,结合大数据、人工智能和分布式计算存储能力,解决传统安全解决方案中数据离散、单点计算能力不足、信息孤岛和无法联动的问题。大数据的总体安全技术框架如图2所示。
图2 大数据安全技术框架
3.2 大数据安全治理
大数据的安全治理体系的目标是确保大数据“合法合规”的安全流转,保障大数据安全的情况下,让其价值最大化,来支撑企业的业务目标的实现。大数据的安全治理体系建设过程中行使数据的安全管理、运行监管和效能评估的职能。主要内容包括:
(1)构架大数据安全治理的治理流程、治理组织结构、治理策略和确保数据在流转过程中的访问控制、安全保密和安全监管等安全保障机制。
(2)制定数据治理过程中的安全管理架构,包括人员组成,角色分配、管理流程和对大数据的安全管理策略等。
(3)明确大数据安全治理中元数据、数据质量、数据血缘、主数据管理和数据全生命周期安全治理方式,包括安全治理标准、治理方式、评估标准、异常和应急处置措施以及元数据、数据质量、数据标准等。
(4)对大数据环境下数据主要参与者,包括数据提供者(数据源)、大数据平台、数据管理者和数据使用者制定明确的安全治理目标,规划安全治理策略。
3.3 大数据安全测评
大数据的安全测评是保证大数据安全提供服务的支撑保障,目标是验证评估所有保护大数据的安全策略、安全产品和安全技术的有效性和性能等。确保所有使用的安全防护手段都能满足大数据中主要参与者安全防护的需求。主要内容包括:
(1)构建大数据安全测评的组织结构、人员组成、责任分工和安全测评需要达到的目标等。
(2)明确大数据场景下安全测评的标准、范围、计划、流程、策略和方式等,大数据环境下的安全分析按评估方法包括基于场景的数据流安全评估、基于利益攸关者的需求安全评估等。
(3)制定评估标准,明确各个安全防护手段需要达到的安全防护效能,包括功能、性能、可靠性、可用性、保密性、完整性等。
(4)按照《大数据安全能力成熟度模型》评估安全态势并形成相关的大数据安全评估报告等,作为大数据安全建设能够投入应用的依据。
3.4 大数据安全运维
大数据的安全运维以技术框架为支撑,主要确保大数据系统平台能安全持续稳定可靠运行, 在大数据系统运行过程中行使资源调配、系统升级、服务启停、容灾备份、性能优化、应急处置、应用部署和安全管控等职能。具体的职责包括:
(1)构建大数据安全运维体系的组织形式、运维架构、安全运维策略、权限划分等。