您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[计算机辅助设计与图形学学报]:黑灰产网络资产图谱构建与可视化 - 发现报告

黑灰产网络资产图谱构建与可视化

AI智能总结
查看更多
黑灰产网络资产图谱构建与可视化

赵颖1),付铄雯1),赵鑫1),徐雅琦1),赵勇1),陈运鹏1),周芳芳1)*,黄鑫2),李玉伟2),陈卓2) 1)(中南大学计算机学院长沙410083)2)(奇安信科技集团股份有限公司北京100015)(zff@csu.edu.cn) 摘要:黑灰产团伙的网络化运作严重破坏着网络生态和社会治安.查封黑灰产团伙掌握的核心资产,如重要IP地址和安全证书,是目前打击黑灰产的主要手段之一.文章提出了一个黑灰产网络资产图谱构建方法,从多源异构数据中广泛获取黑灰产网络资产信息及关联关系,并整合到点边双异质有向图;提出了一组黑灰产网络资产图可视化方法,基于资产图拓扑特性改进了经典力导引布局算法和社区检测算法,帮助用户观察和理解资产间复杂关联,并快速识别核心资产及其影响范围;公布了一个大规模黑灰产网络资产图谱数据集,梳理了数据集可支持的黑灰产治理需求,展望了图谱分析面临的技术挑战,旨在推动面向黑灰产治理的大数据分析技术的发展和创新. 关键词:黑灰产;网络资产图;可视化;公开数据集中图法分类号:TP391.41DOI:10.3724/SP.J.1089.2022.19958 Constructing and Visualizing Cyber Asset Graphs of Cybercrime Gangs Zhao Ying1), Fu Shuowen1), Zhao Xin1), Xu Yaqi1), Zhao Yong1), Chen Yunpeng1), Zhou Fangfang1)*, Huang Xin2),Li Yuwei2), and Chen Zhuo2) 1)(School of Computer Science, Central South University,Changsha 410083)2)(Qi An Xin Technology Group Incorporated,Beijing 100015) Abstract:The internet ecosystem is being severely disrupted by cybercrime gangs, such as online gamblingand online drug trafficking. Deactivating and banningcorecyber assets of cybercrime gangs are widely-usedmanners to fight against cybercrimes. In this paper, we propose a cyber asset graph construction method formining and integrating the information of and associations between cyber assets of cybercrime gangs from het-erogeneous online data sources. We also propose a set of visualizationmethods, including graph layout meth-ods, core asset identification methods and community detection methods that present cyber asset graphs for as-set association analysis,core asset and its sphere of influence identification. Furthermore, a large-scale cyberasset graph dataset is released to the public, aiming to promote the development and innovation of advanceddata analysis technologies for cybercrime fighting. Key words:cybercrime; cyber asset graph; visualization; open dataset 网络黑灰产是指网络世界中违法违规的产业形态,它们依托于网络技术和互联网环境,进行有组织、有目的、有分工的规模化违法违规活动,影响着网络生态的健康发展,甚至威胁着网民生命财产安全[1-3].下文把网络黑灰产简称黑灰产.“黑产”业务直接触犯法律,例如,网络诈骗和违禁品交易等;“灰产”业务游走在法律边缘并为黑产提供辅助,例 如,垃圾信息、恶意注册、虚假认证等.近年来,黑灰产呈现加速蔓延之势, 2018年《网络黑灰产治理研究报告》显示[4],当年国内超7亿网民受黑灰产影响,造成经济损失估算达900亿元,且网络诈骗案以每年超过20%的速度增长. 2020年《全球风险报告》指出[1],黑灰产的市场效益比肩世界第3大经济体,网络犯罪将是未来10年全球最大风险之一. 黑灰产主要特点是链条化、团伙化、资产化、跨域化[2,4-5].链条化是指产业的上、中、下游紧密配合完成非法牟利.上游负责收集信息资源,如手机黑卡和网民隐私;中游负责提供技术支持,如软硬件系统和网络环境;下游负责收入变现,如非法支付和洗钱.团伙化是指整个业务链中多人分工明确,各司其职.资产化是指黑灰产团伙掌握大量且关联复杂的多种网络资产,以支撑产业链运转,例如,上游信息盗取需要木马和钓鱼网站;中游业务网站运维需要域名和IP地址;下游支付需要安全证书.跨域化是指黑灰产团伙为躲避追查,将一部分网络资产和成员布置在境外.黑灰产网络资产分为外围网络资产、普通网络 特性.然后,本文改进了经典的SE(spring embedder)力导引布局算法以更快、更好地呈现上述拓扑特性.最后,本文综合采用度中心性和随机游走中心性识别了图谱的核心资产,并改进了LFM(local fitnessmaximization)社区检测算法来检测核心资产的影响范围.这些方法可以帮助用户观察网络资产图的拓扑形态,理解资产间的复杂关联关系,找出需重点打击的核心资产和预估打击后的影响范围,甚至发现真实世界中黑灰产团伙关联人的相关线索.综上所述,本文进行了3方面工作: (1)提出了 一种黑灰产网络资产图谱构建方法,能有效地从多源异构数据集中挖掘与整合网络资产信息及其关联关系. (2)提出了一组黑灰产网络资产图可视化方法,能友好地呈现网络资产图拓扑结构,有效地识别图中的核心资产并检测其影响范围. (3)公开了一个黑灰产网络资产图谱数据集,梳理了数据集可以支持的黑灰产治理需求,展望了图谱分析面临的技术挑战,旨在推动面向黑灰产治理的大数据分析技术的发展和创新. 资产和核心网络资产(下文简称核心资产).外围网络资产主要是向网民直接公开的业务网站域名.普通网络资产是普通不直接向网民公开的资产.核心资产是关系到许多外围网络资产运行或关联多个业务线的网络资产,例如,某IP地址可能同时支持多个网站域名运行,同一团伙掌控的赌博业务和贩毒业务可能使用了同一数字安全证书.查证和封堵核心资产是目前打击黑灰产的主要手段之一.有3个原因.(1)封堵外围资产效率低且被动滞后,因为网站复本多,存活周期短,域名更换频繁; (2)封堵核心资产可以让许多非法网站失效或陷入安全风险,造成高额恢复成本;(3)深度分析核心资产能挖掘多资产或多业务间的关联,有利于还原整个产业链,甚至发现虚拟网络世界背后的真实犯罪人员的线索. 1相关工作 1.1黑灰产治理现状黑灰产有四类,分别是内容秩序威胁型黑灰产、 数据流量威胁型黑灰产、技术威胁型黑灰产和暗网[2,4].内容秩序威胁型黑灰产是最常见的黑灰产类型,主要以网站为载体来传播违法违规内容,以网络赌博、网络色情、违禁品交易最为猖獗.数据流量威胁型黑灰产通过流量劫持、恶意点击、刷单刷量、数据窃取等违法手段牟取不法利益.技术威胁类黑灰产为网络犯罪提供技术支持,例如,恶意注册、木马植入、钓鱼网站、恶意软件等.暗网是无法通过常规互联网搜索和访问的不可见网,充斥着大量违法犯罪交易,具有很强的匿名性、隐蔽性,是各类黑灰产的寄生平台[6].本文主要关注内容秩序威胁型黑灰产,该类黑灰产的业务需将网站暴露在公共网络中,因此,可以得到相关网站的域名,并以此为线索,进一步在网络中挖掘相关网络资产信息.我国一直积极关注黑灰产治理工作.近年来, 然而,监管部门在打击黑灰产核心资产时面临2个难题.(1)缺乏自动的网络资产信息整合手段.外围网络资产信息可以通过群众举报和网络搜索获得,但核心资产信息不直接向网民公开,并分散或隐藏在多个异构数据源中,例如,服务器IP地址存于域名解析数据库中,网站安全证书隐含在域名服务器资源请求返回内容中.监管部门亟需一种信息整合手段,从少量举报的非法网站域名为起点,广泛从多源数据中自动挖掘网络资产信息,并整合它们之间的关联关系. (2)缺乏直观的网络资产信息呈现手段.一个黑灰产团伙通常掌握成百上千甚至上万个复杂关联的网络资产.监管部门亟需对信息整合后的网络资产进行分析,理解资产间复杂关联关系,结合经验与场景决策需重点打击的核心资产和预估打击后的影响范围,甚至找到真实世界中关联人员的相关信息.针对第1个难题,本文提出一种黑灰产网络资 国家司法机关相继推出多项指导政策和多部法律法规,如《民典法》、《网络安全法》、《国家网络空间安全战略》等,使得黑灰产治理有法可依[4,5,7]. 2020年全国网安部门联合发起“净网2020”行动,重拳打击网络诈骗和网络赌博等违法犯罪活动[8].各大平台企业也群策群力,积极承担网络黑灰产治理责任,例如, 2020年抖音封禁5万多个涉黑灰产的账号[9];百度、阿里巴巴等企业联合发布了《网络黑灰产治理研究报告》[4]、《网络犯罪防范治理研究报告》[2]等.但黑灰产治理之路仍然任重道远,需要政府、企业、法律工作者、安全专家、学者等群策群力,加强跨界协同,推进技术攻坚,共同营造和谐的网络环境[10-13]. 产图谱构建方法.首先,本文定义了黑灰产常用的8类网络资产和11类网络资产间的关联关系.然后,本文构建了一个点边双异质的抽象图模型描述网络资产类型及其关联类型.最后,本文综合使用了爬虫、检索、页面解析等技术手段,从3个外部数据源和1个内部数据源中挖掘与整合网络资产具体实体信息及其关联关系,形成黑灰产网络资产图谱数据集.本文公开了经过脱敏处理的黑灰产网络资产图谱数据集,包含237万个节点和328万条边.本文期望通过公布大规模、高质量的真实数据集,吸引更多科研人员关注黑灰产治理,推动面向黑灰产治理的大数据分析技术的发展和创新.针对第2个难题,本文提出一组黑灰产网络资 1.2知识图谱构建知识图谱能结构化地描述客观世界中的概念、 实体及其关系,将信息表达为更接近人类认知的形式[14-15].知识图谱有强大的语义处理和互联组织能力,已经被广泛用于知识推理、智能推荐、自动问答、语义搜索等领域[16-19].知识图谱构建一般经过知识建模、知识获取、知识融合、知识存储等过程,涉及 产图可视化方法.首先,本文总结了黑灰产网络资产图谱具有全局稀疏、局部稠密、多簇多桥的拓扑 实体抽取、关系抽取、属性提取、实体消歧、知识合并等技术[15,20-21].本文黑灰产网络资产图谱的构建参考了知识图谱的构建过程和构建技术.黑灰产网络资产图谱与知识图谱的相同点有3 布局结果.经典算法包括文献[38-40]等.该类算法的优点是布局速度快,能应对大规模网络的高效布局需求;但在降维过程中利用的信息较少,导致局部结构表现力不好,布局结果可读性差.综合上述讨论和网络资产图拓扑特性(见第3.2 个方面.(1)网络资产图谱与知识图谱都用点边双异质图作为基本数据结构.(2)两者都有抽象概念层面的图模型和具体实体层面的图模型.知识图谱有本体层和实体层