大数据智能下数据脱敏的思考

大数据时代下，海量数据中蕴藏的价值得以挖掘，但也带来隐私信息与关键性敏感数据保护方面的困难。数据脱敏技术是解决这一问题的重要手段之一。传统的脱敏方法人工干预大，配置成本高，对用户的专业素养要求高。

为解决这一问题，如果将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力相结合，则无需过多人工干预，会显著加强数据脱敏系统的可靠性和易用性，在保证安全性的同时，实现易学习、免配置、自动脱敏和自适应脱敏算法等功能。

相关概念及内涵

数据脱敏是在保存数据原始特征的同时改变其数值，从而保护敏感数据免于未经授权而被访问，同时又可以进行相关的数据处理，可以在保留数据意义和有效性的同时保持数据的安全性，并遵从数据隐私规范。借助数据脱敏，信息依旧可以被使用，并与业务相关联，不会违反相关规定，而且也避免了数据泄露的风险。

传统的数据脱敏工作流程，一般如图所示

传统数据脱敏系统工作流程

传统数据脱敏系统的敏感数据发现和关联关系识别，一般都是通过人工配置和正则表达式匹配来实现的。

规则式脱敏系统示意

其识别准确程度主要取决于正则表达式的规则设置是否精准合理。然而性能与准确性不可兼得：正则匹配规则越简单，系统性能越好，识别率相对较差；而复杂的正则规则下提升了识别率，但系统性能却有所下降，对人工配置的经验和技术要求较高，一般业务人员难以胜任。

大数据时代下的数据脱敏系统机制

大数据时代下的数据脱敏系统设计提供多种预置算法库，包括映射、随机、散列和加密四大类，每一大类中都包含若干算法。系统可以根据用户的业务需求，灵活搭配，使针对敏感数据的脱敏能够满足数据原始属性、可重复性、可逆性、关联性、可追踪性以及准确性要求。其一般原型工作流程逻辑如图所示。

数据脱敏系统工作逻辑流程图

系统实施步骤可以分解为：

（1）收集用户当前业务系统需求进行数据模型分析，建立系统原型及使用环境；

（2）对用户当前业务系统数据进行智能数据分析，通过机器自学习识别出当前业务系统敏感数据，进行自动聚类，提出敏感数据分类分级规则方案；

（3）对智能发现的敏感数据进行关联关系分析以及数据变形规则分析，同时对系统进行分析；

（4）根据第3步的分析，对用户权限、脱敏规则、脱敏数据表、脱敏函数、脱敏数据关联关系及脱敏流程进行配置，导入到系统原型；

（5）对敏感数据进行数据的变形工作，包括脱敏函数库的自定义、扩展及丰富；

（6）进行脱敏数据的分发，包括数据加载到其他库、数据加载到本地库、数据在线脱敏使用；

（7）通过脱敏后的结果对系统原型支撑技术进行验证。

大数据智能化背景下的数据脱敏技术分析

基于人工智能的敏感数据自动分类和识别、机器学习的数据关联关系识别和保持、用户使用模型学习的智能自适应脱敏算法等三个角度，本文对大数据背景下的数据脱敏进行了技术分析。

典型案例实验分析

文章以一个典型的运营商应用业务场景中的数据脱敏作为案例进行了实验分析。该案例采用智能自适应脱敏算法在海量运营商用户中随机抽取36万个用户的静态属性表、套餐开通数据表、Top10APP使用数据表，月流量语音使用数据表总共 31列的属性中进行智能自适应脱敏。

讨论

文章指出随着目前大数据与人工智能的飞速发展，数据脱敏将面临诸多挑战：

如何将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力有机结合；

如何利用大数据智能分析及人工智能建模算法从传统的静态脱敏方式到自适应的动态脱敏模式转变，有效满足多模态数据交互流量的不断增长和复杂多变的安全处理业务场景需求，例如在电力、运营商这种关乎国计民生的行业的应用；

如何应对大数据智能化场景下用户信息透明导致的数据所有权及使用权的伦理问题，仅仅依赖智能化的技术是否能使数据脱敏评价机制的可靠性、敏感数据准确识别方法多样性及数据治理体系的全面性达到预期目标。

结论

最后，文章从技术、需求和法治、管理机制方面提出了数据脱敏的3点思考和建议：