您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国汽车标准化技术委员会]:多模态大语言模型技术及应用标准领航研究报告 - 发现报告

多模态大语言模型技术及应用标准领航研究报告

AI智能总结
查看更多
多模态大语言模型技术及应用标准领航研究报告

多模态大语言模型技术及应用 标准领航研究报告 中国汽车标准化技术委员会智能网联汽车分技术委员会车用人工智能标准专项组 2025年7月 前言 近年来,人工智能(AI)技术的飞速发展为智能汽车领域带来了前所未有的机遇。智能座舱作为智能汽车的重要部分,得益于AI技术的支持,有了很大程度上的进步,也逐步向着实际应用靠齐。作为智能交通的重要组成部分,智能汽车正逐步走向商业化,并成为全球汽车产业技术创新和竞争的核心。 在全球智能网联汽车发展的竞争中,中国正处于关键的技术突破期,面临着从传统汽车制造到智能化、网联化转型的巨大挑战。AI技术在智能汽车相关领域的突破为中国汽车产业提供了巨大的发展潜力。为了在激烈的国际竞争中占据一席之地,中国必须紧抓智能驾驶、车联网与共享出行等新兴技术的发展机遇,推动汽车产业的快速转型升级,实现AI驱动的“智能化”成为中国汽车产业的核心竞争力。 本报告涉及了智能座舱AI技术及其应用场景的标准化问题,首先对智能座舱的现状进行了分析,基于此进行了对于AI和大模型的应用场景和技术路线的探索,也对其中最为重的视觉和多模态的交互进行了发展趋势和技术路线的讨论;最后进行了在AI应用上关键技术的讨论,将之前的讨论拉入实际,也对其测试和评价的需求进行了一定的规定。 因此,为了推动智能座舱AI技术的全面应用与发展,推动产业升级与技术创新,中国汽车技术研究中心有限公司联合科大讯飞股份有限公司、小鹏汽车、北京车和家汽车科技有限公司、比亚迪汽车工 业有限公司、清华大学苏州汽车研究院、东软集团股份有限公司、重庆长安汽车股份有限公司、上海临港绝影智能科技有限公司、上汽大众汽车有限公司、厦门金龙旅行车有限公司、中国移动上海产业研究院、一汽解放汽车有限公司、中国汽车工程研究院股份有限公司、中国软件评测中心(工业和信息化部软件与集成电路促进中心)、中兴通讯股份有限公司、蔚来汽车科技(安徽)有限公司、北京与之科技有限公司、中国汽车战略与政策研究中心、北京汽车研究总院有限公司等19家单位,共同编写完成《多模态大语言模型技术及应用标准领航研究报告》。 在本研究报告编制过程中,各起草单位参阅了大量材料,并借鉴了行业的部分素材,鉴于篇幅有限,这里不一一列举,仅作诚挚的感谢! 在此,再次衷心感谢参与研究报告编写的各个单位和组织:中国汽车技术研究中心有限公司、科大讯飞股份有限公司、小鹏汽车、北京车和家汽车科技有限公司、比亚迪汽车工业有限公司、清华大学苏州汽车研究院、东软集团股份有限公司、重庆长安汽车股份有限公司、上海临港绝影智能科技有限公司、上汽大众汽车有限公司、厦门金龙旅行车有限公司、中国移动上海产业研究院、一汽解放汽车有限公司、中国汽车工程研究院股份有限公司、中国软件评测中心(工业和信息化部软件与集成电路促进中心)、中兴通讯股份有限公司、蔚来汽车科技(安徽)有限公司、北京与之科技有限公司、中国汽车战略与政策研究中心、北京汽车研究总院有限公司。 主要编写人:华一丁、刘俊峰、雷琴辉、童鹏、王雪初、王潼、李淑玲、卢俊蓉、陈品瑄、张伟豪、姜彦吉、王欣蕊、郭佳鑫、孔麒、何子豪、贾龙、李天然、苏鹏飞、王路宝、范亦卿、周泽杨、王和俊、陈艳梅、朱丽敏、王峰、俞海山、刘彦革、丁俊勇、王小亮、卢晶、谢良辉、张志新、李庆庆、吴天舒、常婉渲、王荣、李绍鹏、陈晓、黄程、陈思云、王凯、牟文珺、陈韵巧、赵佳、王金奎、郭璋。 目录 第一章智能座舱AI技术应用现状5 1.1智能座舱AI技术应用场景和效果分析5 1.2智能座舱AI技术应用的问题和难点9 1.3智能座舱AI技术应用相关标准分析11 第二章智能座舱AI技术应用场景与技术路线探索13 2.1智能座舱语音交互场景发展趋势与技术路线13 2.2技术路线分析16 2.3挑战与展望19 第三章智能座舱视觉交互场景发展趋势与技术路线21 3.1发展概述21 3.2场景应用22 3.3技术路线26 3.4未来展望31 第四章智能座舱多模交互场景发展趋势与技术路线33 4.1发展概述33 4.2场景应用33 4.3技术路线36 4.4未来展望38 第五章智能座舱大模型应用场景与技术路线探索40 5.1大模型应用于语音交互场景42 5.2大模型应用于视觉交互场景46 5.3大模型应用于多模态交互场景47 5.4大模型应用于开放式任务场景50 第六章智能座舱AI应用的关键技术54 6.1智能座舱感知技术54 6.2智能座舱认知技术59 6.3智能座舱表达技术65 第七章智能座舱AI技术应用测试与评价的流程和要求70 7.1场景交互评测的流程和要求70 7.2内容安全评测的流程和要求83 第一章智能座舱AI技术应用现状 自1956年“人工智能(ArtificialIntelligence,AI)”概念的诞生以来,这一领域已经历了数十年的蓬勃发展。1970年标志着人工智能的第一个春天,当时推出了首款人工智能软件LogicTheorist和第一部神经网络著作《Perceptron》。随着第五代计算机的兴起,1990年人工智能迎来了第二个黄金时期,其标志性事件包括1997年“深蓝”计算机在国际象棋比赛中战胜世界冠军。然而,随后第五代计算机的失败使得人工智能领域进入了一段寒冬。 直到2006年,深度学习在语音识别领域的显著突破将人工智能推向了第三次浪潮。在此期间,DNN(深度神经网络)、CNN(卷积神经网络)、GAN(生成对抗网络)、Attention机制和Transformer等人工智能架构不断更新迭代,AlphaGo、Squad等杰出产品也不断涌现,展现了人工智能技术的巨大潜力和广泛应用前景。 进入2022年,ChatGPT的问世标志着人工智能进入了第四次浪潮,这次浪潮以大模型产业的新变革为特点。ChatGPT等先进模型展示了人工智能在自然语言处理领域的巨大进步,为未来的智能应用开辟了新的道路。人工智能的第四次浪潮预示着更为智能化、自动化的未来,将深刻影响社会的各个方面。 图1-1人工智能发展趋势 1.1智能座舱AI技术应用场景和效果分析 智能化已成为智能网联汽车在电动化之外的另一重要发展方向,AI在座舱中的应用将重构用户的智能座舱体验。目前在座舱领域,AI技术主要应用于车 载语音交互、视觉交互、多模态交互、其它开放性任务场景,实现效率、智能、情感、舒适等多方面提升。 1.1.1车载语音交互 车载语音交互是指车辆内部的交互界面采用语音作为主要的输入和输出方式进行操作和反馈的技术。这种技术通过语音识别技术将驾驶员的语音指令转化为计算机可理解的指令,并通过语音合成技术将系统的反馈信息以语音形式传达给驾驶员。 针对当前车载语音系统智能化、个性化、情感化、交互性不足等问题,自然语言处理类大模型可以赋予车载语音系统以智能和情感,从而使车载语音系统能够处理完整对话并可以保持对前后文的理解,能够记录用户的喜好和习惯,提供更加准确和个性的响应。 图1-2车载语音交互示例 1.1.2视觉交互 座舱视觉交互是指在车辆内部,通过视觉显示技术与驾驶员或乘客进行信息交换和互动的过程。它通常涉及车辆内部的各种显示屏,如中控屏、仪表盘、HUD(抬头显示系统)等,以及与之相关的软件和界面设计。座舱视觉交互旨在提供直观、清晰、易于理解的视觉信息,以便驾驶员或乘客能够迅速了解车辆状态、导航信息、娱乐内容等,从而增强驾乘体验和安全性。 相较于通用的拨杆、按键、触屏等被动人机交互方式及车载语音“问答式”人机交互方式,以DMS、OMS、儿童监控等代表的视觉AI的应用,通过车内 乘员的监控,自动监测和识别乘员的行为、意图和身体状态,提供主动式推荐服务,极大提升座舱智能化体验。 目前DMS等视觉交互功能,识别准确性和触发时机都存在较大不足,造成用户体验不佳。搭载AI算法模型,在用户使用中不断积累数据,持续训练,能够提升识别准确率,获取用户真实意图,并根据用户习惯和喜好给出最合理的反馈,提升座舱视觉交互体验,真正实现千人千面的座舱极致体验。 图1-3广汽传祺超感交互智能座舱 1.1.3多模态交互 多模态交互是指通过融合多种感知模态(如声音、视觉、动作、环境等)来实现的人与机器或人与人之间的交互方式。这种方式模拟了人类之间自然、多样的交流形式,旨在提供更直观、高效、自然的人机交互体验。 在车载语音上车之前,座舱交互的方式较为单一,主要通过按键和触屏方式实现座舱功能操作。随着语音交互、视觉交互、手势识别、香氛、智能灯光等功能搭载应用,座舱交互方式更加丰富。在座舱复杂应用场景下,单个交互方式受技术本身的限制,交互的效率和准确性会存在一定的技术瓶颈,需要通过多模融合丰富座舱应用场景,提升座舱交互体验。 多模态大模型可以助力融合语音、视觉、手势、文字等多种交互方式,满足用户在不同场景下的不同使用习惯,从而赋予用户良好的人车交互体验。 图1-4长城CoffeOS智慧座舱系统 1.1.4开放式任务 开放式任务指的是通过AI技术来检索完成某一任务需要的信息,并通过系统传感器、数据库等渠道获取跨领域信息来完成复杂的任务。除了提供卓越的交互体验外,基于先进AI技术开发的智能座舱产品还能实现一系列令人瞩目的功能,极大地提升了驾驶的便捷性、安全性和个性化体验。 首先,智能推荐功能能够根据驾驶员的偏好和习惯,自动推荐音乐、电台、导航路线等,使驾驶过程更加愉悦和高效。通过学习和分析驾驶员的日常使用数据,智能座舱能够准确理解并满足他们的个性化需求,从而显著提升每次出行的体验。 其次,行车辅助功能利用AI技术,为驾驶员提供全方位的安全保障。通过实时监测车辆周围环境、交通状况以及驾驶员的驾驶行为,智能座舱能够提前预警潜在危险,并自动采取紧急制动、车道保持等辅助措施,有效避免事故的发生。 再者,车辆设置功能允许驾驶员通过简单的语音指令或触摸屏操作,轻松调整座椅、空调、车窗等设备的设置。智能座舱能够记忆驾驶员的偏好设置,并在他们再次上车时自动调整至最佳状态,为驾驶员提供舒适的驾乘环境。 最后,服务支持功能通过智能座舱的联网能力,为驾驶员提供丰富的在线服务。无论是查询天气、路况、加油站等实用信息,还是预约维修、保养等售后服务,驾驶员都能通过智能座舱轻松完成。此外,智能座舱还支持多种支付方式,让出行更加便捷无忧。 总之,基于AI技术开发的智能座舱产品通过实现智能推荐、行车辅助、车辆设置、服务支持等功能,为驾驶员带来了前所未有的智能出行体验。这些功能的加入不仅提升了驾驶的便捷性和安全性,还使每一次出行都更加个性化、舒适和愉悦。 1.2智能座舱AI技术应用的问题和难点 1.2.1AI大模型部署问题 1)云端部署难点 硬件兼容性问题:国产化的云端硬件可能与国外主流AI硬件平台存在差异,这可能导致AI大模型在部署时面临硬件兼容性问题。需要对AI大模型进行适配和优化,以适应国产云端硬件的性能和特性。 软件生态与工具链支持:国产云端平台可能缺乏完善的软件生态和工具链支持,如深度学习框架、模型训练与推理工具等。这将增加AI大模型在云端部署的难度和复杂性。 算力与资源调度:AI大模型通常需要大量的计算资源,而国产化平台可能面临算力不足的问题。需要设计高效的资源调度和分配策略,以充分利用有限的计算资源。 2)端侧部署难点 硬件性能限制:端侧设备(如车机芯片、带宽等)的硬件性能通常有限,可能无法满足AI大模型的实时性和高效性要求。需要对AI大模型进行压缩和优化,以适应端侧设备的硬件性能。 能耗与散热:端侧设备通常需要考虑能耗和散热问题,以保证设备的持续运行和稳定性。AI大模型的部署需要在保证性能的同时,降低能耗和散热。 模型更新与维护:端侧设备的AI大模型需要定期更新和维护,以保证模型的准确性和时效性。然而,由于端侧设备的分散性和多样性,模型更新和维护的难度较大。 1.2.2安全和隐私问题 AI应用于智能座舱,需要本地存储和上传大量的个人信息、视频、语音等数据,如何保证数据存储安全,不被网络攻击和窃取,也是人工智能在汽车广泛