
【AI多模态进展简评】国金计算机 9月底,META和OpenAI相继发布各自在多模态领域的进展(AnyMAL和GPT-4V),推动了AI在多模态领域的持续进步。要点如下:AnyMAL在LLAMA-2的基础上做了提升,除了视觉信号之外,也允许输入音频、IMU传感器数据等其他模态的信号,利好具身智能/人机交互的发展。此外,70B的AnyMAL模型在单个80GB VRAM的GPU上面就可以跑,资源节约了一半,预计训练效率会大幅提升。GPT-4V从多项任务上探索了多模态大模型的潜能,认为多模态能力的进步可能会催生新的人机交互方法,未来在比如制造业缺陷检测、自动收银、医学图像、保险定损、图像生成/编辑、物理世界/网页浏览导航(自动驾驶/进阶的RPA)等等这些方向上可能会有较强的应用潜力。多模态算法的进步预计会催生相应应用的飞速发展,建议关注: 1)模型应用:科大讯飞、商汤科技;2)数据加工:海天瑞声、易华录、浙数文化、零点有数;3)算力支撑:中科曙光、易华录、神州数码、寒武纪、海光信息、拓维信息、浪潮信息;4)应用场景:金山办公、同花顺、恒生电子、宇信科技、汉得信息、泛微网络、致远互联、虹软科技、万兴科技、福昕软件、海康威视、大华股份、千方科技、彩讯股份、汉仪股份、拓尔思、萤石网络,鼎捷软件;5)AI安全治理:永信至诚、安恒信息、奇安信、美亚柏科、三未信安; 点此跳转:【AI多模态进展简评】国金计算机9月底,META和OpenAI