研报总结:
本研报探讨了机器语言大模型在软件自主可控与安全可信方面的应用。以下为关键内容:
背景:
- 软件是网络空间的基石,但面临自主可控和安全可信的难题。
- 关键软件长期由国外主导,存在断供、安全、知识产权风险。
- 软件安全风险未知,成为网络攻击的重要突破口。
关键问题:
- 软件开发与安全:分析、理解目标(闭源)软件,防范安全问题。
- 软件分析:二进制信息缺失,中间表示IR缺失。
- 软件理解:人在回路缺失,安全分析、单作系统研发设计。
智能化解决方案:
- 大语言模型:信息人在硬件设备应用领域缺失回路。
- 现有大语言模型难以分析二进制程序(闭源软件)。
- 方案简介:大语言模型Transformer架构,海量算力,适量算力,少量算力。
- 关键技术突破:数据技术工程,大规模机器语言-自然语言,全自动数据生成,标·自研机器语言模型训练,多模态对注、对齐,数据优化模型设计。
关键技术:
- 融合领域知识的模型优化。
- 基于对比学习的语义理解。
- 基于多模态学习的语义理解。
解决方案:
- 机器语言大模型MLM:安全分析性能优化、功能拓展。
- 多平台语义分析,多场景语义,语义功能,语义函数,函数输入。
- 语义理解超越人类专家水平,高效辅助逆向分析。
- 多架构结构分析,x86, ARM, MIPS, PPC, 指令函数,跳转,反控制,反编,边界调用,边界关系,汇编,AMD-Z流图,OBROADCOHIBM译图,反汇编。
- 核心功能全面超越IDAPro。
典型应用:
软件自主可控、安全可信解决方案:
- 大语言模型在硬件设备经营管理应用领域。
- 信息人在SAP, Oracle, 高欣型制造业缺失回路。
- 软件开发工具,操作系统研发设计,Windows, DASSAULT, SIEMENS, ptc, Linux, AAUTODESK, Ansys, synopsys, 软件分析,软件理解。
广泛应用场景:
- 软件逆向分析。
- 软件生态迁移。
- 软件供应链分析。
- 漏洞挖掘破解取证难题。