AI智能总结
洞悉智能发展之势,探索智能尚善之路 上海财经大学数字经济研究院2025年11月 智能经济系列研究具身智能项目组 指导:高红冰成员:杨军杨健霍丽丽萌延平建彬 前言 《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出,前瞻布局未来产业,探索多元技术路线、典型应用场景、可行商业模式、市场监管规则,推动量子科技、生物制造、氢能和核聚变能、脑机接口、具身智能、第六代移动通信等成为新的经济增长点。具身智能作为推动经济增长和社会发展的新技术新产业力量,近年来在大模型和多模态感知技术的推动下取得了显著进展。本报告从十个角度观察具身智能之技术突破、产业发展、应用场景和治理体系,试图在具身智能发展全景中捕提一些值得关注的亮点和思考。 具身智能在生产制造、服务、特种作业等领域的应用不断拓展,展现出巨大的市场潜力。然而,具身智能产业发展仍面临诸多挑战,包括技术瓶颈、数据治理与隐私保护、伦理与安全规范、人才短缺以及国际竞争等。为应对这些挑战,本报告提出了技术创新、人才培养、数据治理、政策支持和国际合作等多方面的建议。同时,强调“智能向善”是智能产业发展的终极目标,需要各方协同务力,确保技术进步服务于人类福扯提升。 本研究主要采用了文献综述、案例分析和专家访谈等研 究方法。道过对国内外相关文献的梳理和分析,展示具身智能产业发展历程、现状和趋势:通过对典型企业和项目的分析,探讨具身智能产业的商业模式、技术创新和应用实践:通过对行业专家的访谈、分享和报道,获取最新行业信息和专业见解,为深入研究分析提供有力支持。 在数据来源方面,本研究主要参考了政府部门发布的统计数据、相关行业研究机构的报告、企业公开技露的信息以及相关学术文献等。同时,为了确保数据的准确性和可靠性,对所获取的数据进行了筛选和验证。 我们将根据人工智能技术、产业和应用发展动态,陆续出系列研究报告。敬请关注! 目录 引信观漆一:大模型与多模态融合是发展具身智能的核心驱动技术,一、大模型技术开启具身智能新篇章二、多模态感知与交互技术进展三、技术突板面临的挑战与应对策路观察二:核心零部件和高端模型算法等关链节点仍存在瓶颈一、身智能产业链全最剂析.0二、产业链上游核心零部件的技术与供应现状4三、中游系统集成与软件开发的发展困境5四、下游应用市场的需求与反馈对产业链的影均17观察三:工业制造成为具身智能多元化应用场量的首要实破口9、人形机器人开启工业制造的“实习“浪潮二、工厂场量有望成为是身智能机器人最先实观规模化落地的突破口。21三、月身智能助力服务机器人拓展多元应用场量2四、具身智能推动特种机器人攻克危险复杂作业难题五、应用场悬拓展面临的障碍与突被方向观察四:市场竞争日益白热化27、具身智能市场状与预测二、,国内外主要企业的布局与竞争第略三、初创企业与巨头企业的竞争优势与挑战6 察五:数据治理与总私保护对具身智能产业发展至关平要39一、月身智能对据的特殊需求与依赖9二、数据收集、标注与管理40三、数据安全与总私保护在具身智能中的重要性与应对案路观察六:提前布局伦理和安全的标准规范护航产业发展44一、其身召能可能引发的伦理与安全风险二、国内外在伦理与安全规范制定方面的进展三、企业在应对伦理与安全问题上的责任与实践观察七:智能向普足具身智能产业的终极目标一、具身智能向普的内涵与亚要性18二、实现从设计、应用到监管的全链向普三、企业、政府、科研机构需要担当的自色与患任观察八:月身智能呼焕人才培养体系创新53其身智能领域的人才需求状况二、高校与科研机构在人才培养方面的举措,4三、企业与行业组织在人才培养与引进中的作月观索九:扶持改筛加速具身智能创新和应用、国家及地方政笑对是身智能产业的扶持措施二、月身智能技术创新、产业协同、应用落地加速发展观察十:具身智能国际竞争日趋激烈64国际竞争态势二、我国应对策路 三、全球化背景下的机逆与挑战 展望一、回顾67二、展望67恭考文献。.69 引言 在科技飞速发展的当下,具身智能产业正逐渐薪露头角,成为新质生产力的排头兵和推动高质量发展的童要力量。从古代的“木牛流马”,到人工智能概念提出,到如今的技术实破和应用场景,具身智能经历了“漫长“的发展历程。 自图灵提出人工智能的设想以来,现代具身智能的概念雏形就开始出现,随后在罗得尼·布鲁克斯和罗尔夫·普费弟等人的研究推动下,具身智能的理论体系逐渐完善。近年来,随者多模态感知与交互(MultimodalPerecptionandInteraction,MPI),深度学习(DeepLearning,DL),化学习(ReinforcementLearning,RL)、计算机视觉(ComputationalVision,CV)、自然语言处理(NaturalLanguagcProcessing,NLP)、高精度驱动、大模型等技术的快逐发展,具身智能迎来了新的发展契机,其应用场景不断拓展,产业规模持续扩大。 具身智能产业的发展对于推动科技创新、提升产业竞争力、改善人们生活具有重要意义。,在技术层面,具身智能产业的发展将带动相关技术的创新与突破,如算法优化、机器人硬件升级、传感器、伺服控制电机等,这些技术的进步创新将扩散到其他产业,为培育壮大新兴产业和未来产业提供新动力新支持。在产业层面,具身智能产业的应用将提高生产效率、降低成本。提升产品质量,推动传统产业的转型升级,加快构建现代化产业体系,巩国壮大实体经济根基。在社会层面,具身智能在医疗、教育、养老、娱乐等领域的广泛应用,将为人们提供更加便捷、高效、个性化的服务,改善人们的生活质量,提升社会福社水平。 观察一:大模型与多模态融合是发展具身智能的核心驱动技术 一、大模型技术开启具身智能新篇章 大模型技术的发展为具身智能带来了前所未有的机逼,成为推动具身智能产业发展的关键因素。大模型凭借其强大的语言理解、内容生成和推想能力,为具身智能提供了更加智能的“大脑”,使得机器人能够更好地理解人类指令,做出更加合理的决策。 在语义理解方面,大模型能够对自然语言进行深入分析,准确把提指令的含义。例如,当人类向机器人发出“把办公桌上那只蓝色的笔放入笔筒重”的指令时,大模型可以理解“办公桌%疏色笔%笔简等关信息,并将这此信息转化为机器人能够执行的任务。与传统的自然语言处理技术相比,大模型的语义理解能方更加准确和灵活,能够处理更加复杂和模糊的指令。 在决策能力方面,大模型可以根据对环境的感知和对任务的理解,快速生成最优的行动方案。以机器人在复杂环境中进行导航为例,大模型可以实时分析传感器传来的环境信息,如障碍物的位置、地形的状况等,结合任务目标,规划出最佳的行走路径。这种基于大模型的决策方式,大大提高 了机器人的任务行动效率和执行指令的准确性,使其能够在复杂多变的环境中完成任务。 在泛化能力方面,大模型技术还为具身智能带来了更强的环境适应性。传统的机器人往往只能在特定的环境和任务中表现良好,一环境发生变化或任务有所调整,就可能无法正常工作。而基于大模型的具身智能系统,通过在大规模数据上的训练,学习到了率富的知识和经验,能够更好地适应不同的环境和任务。经过大量训练的机器人可以在不同的室内环境中完成物品搬运任务,即使环境中的家具布局,物品位置发生变化,它也能根据已有的知识和经验,灵活调整行动策略,完成任务。例如,Figure公司准山出的基于Figure02的通用视觉一语言一动作(Vision-Language-Action,VLA)大模型Helix,仅带500小时训练数据,就展现出了良好的泛化性。在官方演示中,两台Figurc02机器人无需预设指令即可协作完成冰箱物品收纳,这表明其对未知物体具有零样本泛化能力。 二、多模态感知与交互技术进展 多模态感知与交互技术是具身智能的重要组成部分,它通过融合视觉、听觉、触觉等多种感知模态,使机器人能够更加全面地感知环境,与人类进行更加自然、高效的交互。 计算机视觉的发展便得机器人能够像人类一样“看”到同围的世界。机器人可以通过摄像实获取环境图像,利用图像识别、自标检测、语义分割等技术,对图像中的物体、场景进行识别和理解。例如,在工业生产中,机器人可以通过视觉技术检测产品的质量,识别产品的缺陷;在家庭服务中,机器人可以通过视觉技术识别家庭成员,提供个性化的服务。 听觉技术也是多模态感知与交互技术的重要组成部分。机器人可以通过麦克风阵列采集声音信号,利用语音识别、语音合成、语音理解等技术,实现与人类的语音交互。在具身智能领域,听觉技术的应用使得机器人能够更好地理解人类的语言,与人类进行更加自然的交流。 触觉技术则为机器人赋予了“触摸”的能方,使机器人能够感知物体的形状、质地、硬度等物理特性。道过在机器人的手部、身体等部位安装触觉传感暑,机器人可以在与物体接触时获取触觉信息,从而更加准确地操作物体。例如,在医疗手术中,机器人可以通过触觉技术感知组织的硬度和弹性,避免对周国组织造成损伤:在抓取易碎物品时,机器人可以通过触觉技术调整抓取力度,防止物品损坏。 余了视觉、听觉、触觉等单模态技术的发展,多模态融合技术也取得了显著进展。通过将多种感知虞态的数据进行融合处理,机器人能够获得更加全面、准确的环境信息,做出更加合理的决策。例如,在人机协作场景中,机器人可以结合视觉和听觉信息,同时理解人类的手势和语音指今,更好地与人类协作完成任务。多模态融合技术还可以提高机器人在复奈环境中的鲁棒性和适应性,使其能够在不同的场景下稳定工作。 三、技术突破面临的挑战与应对策略 尽管大模型与多模态融合技术为具身智能产业带来了巨大的发展机会,但在实际应用中,仍然面临着诸多挑战。 第一,计算资源需求巨大是当前具身智能面临的主要桃战。大模型的训练和推理需要大量的计算资源,如高性能的GPU、大规模的计算集群等,这使得具身智能系统的部暑和应用成本高昂。此外,多模态感知数据的处理也需要消耗大 量的计算资源,如何在有限的计算资源下实现高效的多模态融合和智能决策,是呕得解决的问额,特别是器要机载GPL芯片在低能耗下实现高性能和低建时。为应对这一挑战,一方面需要不断提升硬件计算能力,开发更加高效的计算芯片和计算架构;另一方面,需要优化算法,采用分布式计算、模型压缩和蒸馆等技术,降低计算资源的开销。 第二,数据质量和多样性不足是具身智能发展面临的重要同题。高质量、多样化的数据是训练优秀具身智能模型的基础,但目前的数据采集和标注工作仍然面临诸多困难。例如,在真实场景中采集数据时,受到环境复杂性、数据采集设备限制等因素的影响,数据的质量和完整性难以保证。在数据标注方面,由于具身智能任务的复杂性,标注的准确性和一致性也存在较大跳战。为解决数据质量和多样性不足的间题,需要建立更加完善的数据采集和标注体系,来用众包、自动标注等报术,结合人工推检,提高数据采集和标注的效率与质量;同时,需要加强数据的清洗和预处理工作,确保数据的准确性和可靠性。当然,物理本体的标准化也有助于动作驱动训练数据集的聚合与复用,提升运动智能训练效率。 在真实数据不足的情况下,使用合成数据训练具身智能任务成为另一种解决方案。例如,英伟达基于CosImos世界基础模型推出IsaacGRooTBlueprint,可生成海量合成运动数据,加速人形机器人训练。 首先,通过GROOT-Teleop工作流,用户可以借助AppleVisionPro在数字李生环境中捕提人类动作。这些人类动作 会被记录下来作为金标准,并在仿真环境中由机器人模仿学习。 其次,GRO0T-Mimic工作流会将捕提到的人类示范数据,扩展成更大的合成运动数据集。基于NVIDIAOmnivcrsc和NVIDIACoSmOS平台构建的GROOT-Gen工作流,会通过域随机化和3D提升技术,指数级扩增这个数据集。 最后,该数据集可作为机器人策略的输入,在NVIDIAIsaacLab(--个用于机器人学习的开源模块化框架)中,教会机器人如何在其环境中高效且安全地移动和互动。 GROOTN1是NVID