您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[博思艾伦]:计算机视觉的未来:塑造未来应用的新兴技术与用例 - 发现报告

计算机视觉的未来:塑造未来应用的新兴技术与用例

信息技术2025-04-28-博思艾伦刘***
AI智能总结
查看更多
计算机视觉的未来:塑造未来应用的新兴技术与用例

新兴技术与用例塑造着未来的应用 目录 概述.............................................................................................2计算机视觉:当前状态..................................................3数据、软件和硬件融合驱动突破性能........................................................4数据现在更加丰富和无处不在......................4 软件变得更智能..........................................5 更快、更高效的硬件.......................................6 展望未来.....................................................................7 边缘范式...............................................................7 多模态人工智能推动人工智能采用....................................8 生成式人工智能初具雏形.................................................8将虚拟现实变为现实...........................................9 构建计算机视觉技术平台............11平台组件.........................................................11 概述 计算机视觉因其可靠性和适应性而变得理所当然。在高速公路上行驶时,你的通行费账户会被正确扣除,这要归功于一种通过大小和类型对车辆进行分类的计算机视觉工具。但这种日常的普遍存在让人们更难认识到这类人工智能(AI)带来的变革力量。计算机视觉之所以独特和宝贵,很大程度上是因为它使计算机能够像人类一样看见和体验世界。正如本报告将探讨的那样,最近的技术进步正开启一个增强性能和洞察力的时代——对于准备好抓住机遇的企业来说,这是计算机视觉的黄金时代。 当今计算机视觉系统的鲁棒性和多样性正将它们推向许多任务应用的前沿。 越来越多地,计算机视觉正超越其传统的识别和分类焦点,扩展到更复杂的评估和分析任务。例如,传统的计算机视觉通常在图像中识别物体并将它们归入类别,例如在照片中区分狗和猫。相比之下,新的应用可以评估场景的上下文,检测微妙的异常,甚至根据视觉数据预测未来事件。 因此,虽然一个专注于基础设施弹性的传统应用程序可能有助于在卫星图像中定位桥梁、道路和建筑物,但一个新的应用程序可以检测桥梁跨度的磨损并提供丰富的数据洞察,供决策者用于规划维护。向更强大的功能转变是由许多与人工智能其他领域加速发展的技术变革所推动的,这意味着计算机视觉的重要性和普遍性将进一步提升。 计算机视觉利用机器来查找、解读和从我们周围世界中的丰富视觉及其他电磁信息表示中提取意义。它是一个已经证明具有显著影响,同时具有新的创新潜力的领域。通过计算机视觉体现的“高级视觉”使用机器学习(ML)算法和神经网络来快速大量地识别和处理数据,使操作人员能够专注于高价值任务。准确性的不断提高 飞越分析 发现:02重型车辆周转区材料检测03。 推荐:在05小时内移除以避免对第32周日程造成干扰。 计算机视觉:当前状况 算法对图像像素进行解释,以进一步处理和分析。但它们也能通过发现和处理人类无法检测到的视觉及其他刺激来增强人类能力。这些现代系统结合了关于人、环境、物体及物理学规律等既有知识,在图像识别、语义分割和目标检测等任务中高效运作,从而极大地提高了准确性,为操作员节省了时间、精力和注意力。 例如,现代预训练多模态模型结合了语言理解能力与捕捉关键光学概念的能力。它们使零样本分类等能力成为可能,零样本分类指的是一个无需显式训练即可识别和分类其从未见过的事物的系统。换句话说,这些模型可以将学到的见解应用于对新的、未见过的类别进行分类,这与操作员手动构建这种“知识”形成对比。虽然大型语言模型(LLM)已经展示了通过摄入和上下文化大量文本来学习概念的能力,但视觉和多模态基础模型也可以类似地解释视觉数据,并以语言概念为基础来建立关系。 计算机视觉应用支持实时处理,以增强数字作战空间的态势感知,其中低延迟和高精度至关重要,并且对于人脸识别工具,需要能够进行特征提取和匹配的鲁棒算法。应用扩展到通过密切分析医学图像的健康医疗诊断、农作物监测和病虫害检测的精准农业,以及零售企业的智能结账系统,以及公共和私人部门中无数其他用例。 不再是一个孤立的或单维度的应用,计算机视觉已经成熟,变成了多模态、多时序和超谱的: • 多模态计算机视觉,包括视觉基础模型,处理和解释文本、照片、视频和音频等各种形式的信息,通过模拟人类感知整合感官数据,提供对上下文的更深入理解,从物体和模式识别到深度感知和运动跟踪。 随着超级计算、物联网(IoT)系统、边缘设备、人工智能集成和快速5G网络的不断发展,计算机视觉正从自动化和识别持续演进到更深层次的理解和分析。这种进化就像从单个捕捉图像的摄像头过渡到一个复杂的多层光学系统——一个能够从图像的上下文中读取并获取洞察的系统,就像人类大脑理解视觉刺激一样。因此,当组织需要尽可能快地获取和使用可见和不可见数据时,计算机视觉现在能够提供切实的影响。 • 多时相计算机视觉跟踪随时间的变化,有助于更好地理解动态过程和事件,并提高对未来状态和行为的预测。 • 超光谱计算机视觉捕捉和分析电磁波谱中的数据,为人类肉眼无法看见的信息单元提供详细的了解。 影响这一进展的是从静态本体到更动态的人工智能系统的转变。静态本体是预定义的结构,它巩固了概念和对象之间的关系。它们通常由人工创建,当工程师使用新数据集时缺乏灵活性。相比之下,最新的系统利用语言理解领域的进展变得敏捷并能随着时间的推移进行适应,机器学习算法使其保持一致的性能 这些动态共同强调了计算机视觉通过增强对光学数据的感知、处理和解释,为所有行业生成企业洞察力来解决现实世界挑战的日益增强的力量。 数据、软件和硬件融合驱动突破性能 关于视觉模型。例如,ImageNet和MS-COCO等数据集已成为该领域的基准,能够对不同且广泛图像集合进行模型训练。使用这些数据集以及更近期的示例,如LAION-400M,Ego4D,objects365,和ImageBind,减少了手动标注所需的时间和精力,使得应用程序能够更快地部署。 计算机视觉于20世纪60年代兴起,早期的系统可以区分圆形、方形和三角形等形状,并识别简单的模式。然而,整体性能受到计算能力不足、大型数据集访问有限以及学习算法不够灵活的限制。最近,数据、软件和硬件方面的创新革命性地提升了这些系统的能力,提高了它们的准确性、效率和实用性,广泛应用于各种领域。 合成数据集成 合成数据是用于训练机器学习模型的人为生成的数据。当真实世界数据不足、昂贵或难以获取时,它特别有用。合成数据使组织能够利用计算机视觉应对新的场景和未见过的世界或物体,从而降低开发新模型的成本。例如,在国防和情报领域,这种能力使工程师能够通过在虚拟战场上模拟罕见事件和复杂场景,更准确地预测当前模型将如何响应新的或假设的威胁。 数据现在更加丰富和普遍 在计算机视觉领域,数据是驱动模型创建、训练和运行的基本燃料。近年来数据管理方面的进展使得合适的数据更容易获取,这显著提升了计算机视觉系统的性能和实用性。数据标准和通用存储模式的兴起已经为计算机视觉社区更快地创新铺平了道路。 3D建模和仿真以及生成对抗网络(GANs)等技术用于创建逼真或风格化的图像。这些方法能够生成多样化的数据集,模拟用真实世界数据难以捕捉的边缘情况。合成数据通过避免使用真实世界数据来确保隐私和合规性,这在医疗保健等敏感领域至关重要。 预标记数据集的发展 预标记数据集的更广泛可用性简化了计算机视觉模型的训练。标记数据集提供了大量标注数据,工程师可以利用这些数据更高效地训练模型。这些数据集通常由专家策划,包含各种标记图像,有助于提高准确性和鲁棒性。 数据管道自动化和标注 越来越多地,使用专业工具自动化了涵盖数据摄取、预处理、转换和模型训练的工作流程。这些集成数据管道确保数据高效地通过计算机视觉系统的每个阶段,最大限度地减少人工干预和重复性任务,并导致数据处理效率、可扩展性和一致性得到提高。 作为数据管道的关键部分,数据标注专门聚焦于用相关信息对图像或视频进行标注,以识别出它们所展示的对象、人脸或动作。虽然商业的、开源的和学术的标注数据集仍然 像实时和高度精确的图像识别和分类这类问题变得可以处理了。此外,由于资源需求较低,这些模型架构非常适合便携式设备,并且至今仍在发展中。然而,卷积神经网络存在严格限制。没有调整大小或池化,它们需要固定输入图像尺寸。此外,它们的感受野相对较小,这是视觉应用在评估所见内容时关注的图像特定区域。 重要,它们并不总是满足需要使用定制数据输入来训练或调整模型的专业用例的需求。 如果手动进行,标签化过程会非常耗时且昂贵,特别是对于大型数据集。因此,组织正面临一个不再可行拥有数百名人工工作者标签数据的点。自动化数据标签使用诸如预训练模型的技术,这些技术利用现有模型来预测新、未标记数据的标签;主动学习,机器学习模型只在不确定的数据点请求人工输入,减少所需的标签数量;以及半监督学习,它将少量标记数据与大量未标记数据相结合,允许系统自动为后者生成标签。 然而,在当今最先进的计算机视觉研究中,视觉转换器(ViTs)在很大程度上占据了中心地位,在许多前沿讨论中掩盖了CNNs——尽管像YOLO这样的CNNs仍然广泛使用且非常有效。与CNNs根本不同,ViTs将图像分成块,并将它们转换为称为“标记”的特征表示。然后将每个特征使用自注意力机制与每个其他特征结合,并传递到一个前馈网络。由于整个图像都被模型摄取,ViTs不会受到感受野有限的影响。因此,它们是超强的上下文学习者,这意味着它们擅长解释和使用图像包含的所有信息。 通过这些技术,自动化数据标注显著减少了手动标注大型数据集所需的时间、成本和可扩展性挑战,其结果是小型团队可以丰富他们自己的数据集。它支持使用预训练模型、算法或合成数据生成进行快速标注。这种自动化降低了人工成本并高效扩展,无需人工约束即可处理海量数据。它还通过减少人为错误来提高一致性和准确性,确保为性能优异的模型提供统一的数据集。 作为一项附加好处,视觉 Transformer(ViT)中的自注意力机制与用于自然语言处理的 大型语言模型(LLM)中的机制几乎相同,这一发现为多模态人工智能 的蓬勃发展铺平了道路。通过 ViT 架构,工程师可以用 用户描述提供的上下文来补充训练,或者以统一 的“观察”方式整合多种波段(如可见光、红外和 雷达)。缺点是 ViT 训练需要海量的数据,即便是 以 CNN 的标准来看也是如此。 软件变得更智能 计算机视觉应用结合了用于管理和处理数据的一体化工具以及用于分析各种媒体类型的专用算法。鉴于媒体类型和业务应用的多样性,通常使用多种组合来最好地满足特定需求。 自监督学习也已成为一项强大的创新。传统上,深度学习模型需要大量标记数据集进行训练。自监督学习利用未标记数据,使模型能够在无需大量人工标记的情况下学习图像表示。这促进了图像分类领域的突破,使模型能够在不同的数据集上表现更好。 算法改进 卷积神经网络(CNN)的发明,加上在图形处理单元(GPU)硬件上的实现,代表了基于学习的计算机视觉领域的突破。CNN为将空间分布信息灵活地编码到模型的学到的参数中提供了一个数学形式化方法。此外,C