您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[京东]:数字水印在数据泄漏溯源中的应用与挑战 - 发现报告
当前位置:首页/其他报告/报告详情/

数字水印在数据泄漏溯源中的应用与挑战

2021-08-28-京东杨***
数字水印在数据泄漏溯源中的应用与挑战

数据治理与安全在线峰会数据安全论坛2021.08.28,09:00 -17:302021D a t a F u n S u m m i t 小鱼京东安全架构师|数字水印在数据泄露溯源中的应用和挑战D a t a F u n S u m m i t2021 CO N T E N T S目录数据泄露现状Subject01数字水印技术Subject02水印在电商的应用Subject03思考与探索Subject04| S u b j e c t01数据泄露现状数字经济高速发展,伴随着数据泄露问题逐年严重,泄露溯源作为数据安全的重要环节面临诸多挑战。| 数字经济高速发展•2020年全球数字经济规模达32.6万亿美元,其中中国以5.4万亿美元的数字经济规模位列全球第二,占GDP比重为38.6%。[1]•据IDC预测,2025年中国将成为全球最大的数据圈[2][1]《全球数字经济白皮书——疫情冲击下的复苏新曙光》,中国信通院,2021[2]《数据安全白皮书》,工信安全&华为,2020中国数字经济规模数据来源:中国信息通信研究院| 数据泄露风险概述•2020年全球数据泄露的数量超过过去15年的总和。•数据泄露的根本原因[1]•系统故障(25%)•人为失误(23%)•恶意攻击(52%)[1]《2020数据泄露成本报告》,PonemonInstitute &IBM Security | 数据泄露黑色产业链数据获取方•内鬼、黑客、运营商等数据中间商•分类清洗•售卖数据购买者•精准营销•电信诈骗| 数据全生命周期安全保护采集•分类分级•权限管控•身份认证传输•身份认证•传输加密•数据加密存储•存储加密•隔离•容灾备份处理•访问控制•日志审计交换•数据脱敏•水印添加销毁•安全擦除| 传统水印的困境|网页明水印示例明水印去除效果 传统水印的困境[1]LehtinenJ, MunkbergJ, HasselgrenJ, et al. Noise2noise: Learning image restoration without clean data[J]. arXivpreprint arXiv:1803.04189, 2018.[2]Ulyanov D, VedaldiA, LempitskyV. Deep image prior[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 9446-9454.|[1][2] S u b j e c t02数字水印技术数字水印是永久镶嵌在其它数据(宿主数据)中具有可鉴别性的数字信号或模式,且不影响宿主数据的可用性。多用于版权保护和数据溯源。| 数字水印通用框架|原始数据水印水印添加算法含水印数据水印提取算法密钥数据提取到的水印水印添加阶段水印提取阶段 数字水印评价指标水印评价维度隐蔽性容量鲁棒性安全性实用性| 图片水印-LSB水印|原始图像水印图像LSB水印算法生成含水印图像82828283818283848282848681828385111111001001100183838383818382848382848781828285 图片水印-变换域水印|原图和水印图片含水印图片和提取结果剪裁攻击提取结果遮挡攻击提取结果 文本水印•基于排版的文本水印•行间距、字间距、字体、字号等•基于特定字符的文本水印•零宽字符、空格、换行符等•基于自然语音处理的文本水印•同义词替换、句法变换等| 基于零宽字符的文本水印北京市朝阳区5317 4EAC 5E02 671D 9633 533A北京市朝阳区5317 4EAC 5E02FEFF 2060 2060 200D 200B 2060 200C671D 9633 533A零宽度空格(zero width space)U+200B零宽度非连接符(zero width non-joiner)U+200C零宽度连接符(zero width joiner)U+200D零宽度词连接符(word joiner)U+2060零宽度不间断空格(zero width non-breaking space)U+FEFF| 基于不同空格的文本水印不同空格在文本水印中的应用。不0020同00A0空2000格2001在2004文2005本2006水2007印2008中2009的202F应205F用。空格(space)U+0020不间断空格(no-break space)U+00A0半宽空白(enquad)U+2000全宽空白(emquad)U+2001半宽空格(enspace)U+2002全宽空格(emspace)U+2003三分之一空格(three-per-emspace)U+2004四分之一空格(four-per-emspace)U+2005六分之一空格(six-per-emspace)U+2006数字空格(figure space)U+2007标点空格(punctuation space)U+2008薄空格(thin space)U+2009头发空格(hair space)U+200A狭窄的不间断空格(narrow no-break space)U+202F中等数学空格(medium mathematical space)U+205F表意空格(ideographic space)U+3000| 基于自然语言的文本水印原始文本:我的妈妈今年30岁,她是北京人,是一名医生。同义词替换:我的母亲今年30岁,她是北京人,是一位大夫。句法变换:我妈妈今年30岁了,北京人,她是名医生。| 数据库水印•2002年首次提出[1],加入水印后仅引入很小的数据失真,不影响数据可用性。•不可逆水印到可逆水印•数值型:•最低有效位(LSB)•直方图平移(HS)•差值直方图平移(DHS)•差值扩展(DEW)•字符型:•基于特定字符•基于自然语言|[1] Agrawal R, Kiernan J. Watermarking relational databases[C]//VLDB'02: Proceedings of the 28th International Conference on Very Large Databases. Morgan Kaufmann, 2002: 155-166.水印预处理水印嵌入水印提取 S u b j e c t03水印在电商生态的应用电商生态涉及到多个环节,内部人员泄露比例高达49%。常见泄露途径包括截图、拍照和批量导出等。| 电商生态数据泄露概述•电商生态构成•平台、商家、ISV、物流•核心敏感数据•用户个人隐私•姓名、手机号、地址、身份证号等•电商交易数据•商品、金额等•内鬼泄露比例高达49%•泄露方式:•截图、拍照•批量导出数据来源:《2017年电子商务安全白皮书》| 典型内部人员泄露案例•案例一:•打开订单系统某用户订单记录•截屏或拍照•截取敏感数据(姓名、手机号,收货地址,商品)区域•马赛克某些信息•保存图片•通过社交软件外发•案例二:•获取数据库权限•批量查询导出•通过移动存储设备/上传云存储/邮件/打印等方式外发数据| 水印应覆盖的场景•截图、拍照•网页水印、桌面水印•批量导出•数据库水印•文件打印•打印水印•非结构化数据保护•文本水印、图片水印、音频水印、视频水印等| 水印在实际应用中面临的挑战仿射变换、畸变、摩尔纹图像剪裁涂改、遮挡图像压缩二次压缩载体转换格式化、过滤、筛选、二次加工|•案例一:•打开订单系统某用户订单记录•截屏或拍照•截取敏感数据(姓名、手机号,收货地址,商品)区域•马赛克某些信息,涂抹去除明水印•保存图片•通过社交软件外发•案例二:•获取数据库权限•批量查询导出•通过移动存储设备/上传云存储/邮件/打印等方式外发数据•黑产清洗售卖 重点业务系统前端水印保护方案•网页水印•明暗结合的解决方案•明水印:•事前提醒、威慑•可包含人员ID、时间、公司信息、系统、提示语等•暗水印:•隐蔽性•鲁棒性•文本水印•敏感字段添加多重文本水印•抗载体转换,截图后亦可追踪•适用于超短文本| |数据库水印方案•数据库水印方案•可包含人员id(who)、时间(when)、系统(how)等•在敏感属性添加水印•删除属性列将丧失重要信息•全元组插入•情报获取环节经常只能获取少量数据样本•多重水印•基于特定字符•基于自然语言•添加纠错码进行水印验证和篡改检测•效果:•可抵抗筛选、排序、格式化等 S u b j e c t04思考与探索泄露溯源的意义不仅在于找到单一泄露事件的源头,更在于指导完善安全体系,对潜在风险进行预警。| 对数字水印的思考•通用性的水印添加方式经常伴随着和被保护内容的分离,被探测后容易过滤。•对于超短文本、特定信息的水印添加方式需要更多的探索。•水印添加的时间消耗、存储空间消耗如何优化。| 溯源不是终点•数据泄露溯源要回答的问题•泄露源头•泄露途径•泄露给谁•数据泄露溯源的意义•发现源头彻底阻断,避免长期泄露•还原泄露途径,完善安全体系•挖掘背后黑产链,给予打击•了解泄露详情,对潜在风险预警| THANKS!Ending2021|D a t a F u n S u m m i t