本周AI新闻速递。1)微软AI作曲功能上线:微软Copilot近日与AI音乐创作平台Suno达成合作;2)ChatGPT可以存档聊天记录;(3)根据IT之家消息,今年4月以来,托管人工智能创建的虚假新闻网站增加了1100%以上,平均每月增幅接近144%,从49个网站激增至600多个;(4)H&R Block正式发布AI报税助手,该助手由微软Azure OpenAI提供支持,该产品每月收费35美元。 本周AI应用体验。1)Midjourney v6:版本升级,图像效果增强,新增文字编辑新变化(注:体验案例来源于社区,仅供参考);2)DemoAI:文生图、图片转动漫或者现实图片、图片生成视频、视频生成动漫视频;(注:关于AI应用体验的视频生成漫画内容为德邦计算机团队实测体验,相关内容均由团队自行把握,具备随机性。) AI科研前线。Carnegie Mellon University的研究人员发布了一篇论文,结合互联网数据大规模的模拟训练,将语义(affordances)与低级控制(sim2real)相结合,实现了机械臂对锤子、钻头等工具的抓取行为。 风险提示:AI技术落地不及预期、市场需求不及预期、全球供应链风险加剧 1.本周AI新闻速递 1.1.AI应用 (1)微软AI作曲上线:微软Copilot近日与AI音乐创作平台Suno达成合作,推出了一项新功能:只需输入简短的文字描述,Copilot就可以自动生成包含器乐、歌词和演唱的歌曲片段。 (2)ChatGPT可以存档聊天记录,并且可以在设置中查看存档的聊天记录。 (3)根据IT之家消息,今年4月以来,托管人工智能创建的虚假新闻网站增加了1100%以上,平均每月增幅接近144%,从49个网站激增至600多个。 (4)H&RBlock正式发布AI报税助手,该助手由微软AzureOpenAI提供支持,该产品每月收费35美元。 1.2.AI硬件 (1)摩尔线程的KUAE智算中心正式启用,为全国产千卡千亿模型平台。 (2)三星电子和LG电子都将在明年推出具备人工智能(AI)效能的笔记型电脑,三星电子表示,这款产品是历来最智能与最强力的Galaxy Book笔电。LG以AI驱动的Gram笔电,将在明年1月上市,同样安装英特尔Core Ultra处理器。 2.本周AI应用体验 该体验环节素材来源于应用官方社区或由德邦计算机团队在相关工具官网自行注册账号实测体验,所有体验创意及对应Prompt均由我们自行把握,因此结果存在一定的随机性。 2.1.Midjourney v6:新版本迎来更灵活的变化 社区反馈的新进步:(1)提示词长度变长;(2)可以指定颜色和其他细节; (3)可以在画布上放置想要的东西,例如添加文本;(4)可以提示多个主题;(5)可以和Midjourney聊天;(6)V6能够理解标点和语法的细微差别;(7)可以使用V6制作niji类似的漫画;(8)可以为图像添加边框。 官方发布的V6基础模型的新特性:(1)更精准的遵循prompt,支持更长的提示内容;(2)改进了连贯性和模型知识;(3)图像提示和混合效果得到改善; (4)简单的文本绘制功能(you must write your text in "quotations" and--style raw orlower--stylize values may help)/imagine a photo of the text "Hello World!"written with a marker on a sticky note--ar 16:9--v 6。 价格方面:比V5贵,V6 is slower / more expensive vs V5, but will get faster as we optimize. Relax mode is supported! (it's about 1 gpu/min per imagine and2 gpu/min per upscale) 图1:MidjourneyV6创始人David Holz提出的新的prompt结构 社区中用户要求Midjourney作出的带文字效果的案例:Midjourney给出的效果整体符合电影效果,文字风格和位置也很恰当。 图2:Midjourney社区案例 艺术效果增强,文本绘制功能比较符合图片整体色调以及位置布局较为合理。这位创作者的Prompt加强了对电影广告效果的描述,并且强调了人在水 下。Midjourney的理解能力加强,产生的效果与描述相符,同时文本绘制整体效果接近电影海报的样式。 图3:Midjourney社区公开素材 2.2.DemoAI:现实与漫画间的转换 DemoAI主要功能包含:(1)文生图;(2)图片转动漫或者现实图片;(3)图片生成视频、视频生成动漫视频。 图4:DemoAI文生图(官方案例) 图5:现实图片转漫画风格(官方案例,左图为转换后): 官方展示的作品集中,不仅实现了将真实图片转化为漫画风格的效果,还可将玩偶的照片转化为真实人物风格的照片。 图6:玩偶照片转为真实人物照片(官方案例,左图为转换后): 视频转漫画风格:最终生成效果如下,生成了三秒钟长度的动画视频,对于视频中的房子、天空、树木、河流以及露出一部分的船等要素识别准确,音频和视频的对齐没有受到影响,整体生成的动态视频,画面还有一些抖动,不够稳定。 图7:流程图风格和样式编辑界面 3.AI科研前线:研究人员在机械臂领域将语义与低级控制相结合 Carnegie Mellon University的研究人员发布了一篇论文,结合互联网数据大规模的模拟训练,将语义(affordances)与低级控制(sim2real)相结合,实现了对锤子、钻头等工具的抓取。 论文提到,研究人员结合了互联网数据和大规模模拟的优势。利用基于匹配DINOv2特征的affordance模型对对象进行定位,并靠近对象物体的功能区域。 然后,反应策略是拿起物体,并将其移动到手掌内,并且牢固的紧握,以便于执行紧握后的动作,如钻孔、锤击等。 论文效果的演示视频链接:https://dexfunc.github.io/ 图8:论文中的展示图片 论文中将问题分为预抓、抓取中和后抓三个阶段。这结合了来自互联网和模拟的大规模数据。互联网数据有助于概括到一组视觉上多样化的物体,并告诉机器人“在哪里”掌握。模拟数据允许训练自适应策略,处理不同物理属性的对象,甚至对预抓取中的错误具有鲁棒性。 (1)为了获得预抓握姿势,研究人员使用了一种一次性可用性模型。在对一个物体进行注释之后,可以通过特征匹配来获得该类别中其他物体的可用性。对于一个新的物体,机械臂被移动到那个点,并且与物体掩模的主成分垂直定向。 (2)接下来,执行在模拟中训练的策略。研究人员使用了一种新颖的特征抓握动作空间缩减方法来使训练成为可能。收集了一小批手部姿势的数据集,并从中提取了9个抓握特征。这个策略是在这些抓握的线性空间中训练的。 图9:论文中的展示图片 4.风险提示 AI技术落地不及预期、市场需求不及预期、全球供应链风险加剧。