AI智能总结
制 作 谷歌发布可生成高保真音乐的 AI 模型 MusicLM.................................07QuickVid 集成 AIGC 工具实现“一键生成”短视频...............................07Meta 发布首个文本生成 3D 动态场景系统...........................................08佳能推出新型 HDR 相机传感器,可在一次拍摄中捕捉多种曝光......08谷歌发布视频智能化编辑新方法,实现“AI 导演”...........................08索尼发布具有 AI 分析功能的智能中心构图摄像机..............................09 传 输 Transmission 网络切片自适应动态分配技术将提升 5G 传输实时视频的服务质量...10英国电信拟用高空无人机补点 5G 网络.....................................................10EchoStar 拟利用 75MHzS 波段部署 5G/NGSO 网络................................11 终 端 京东方展示 110 英寸 8K 裸眼 3D 显示屏...................................................11视觉交互界面提升智能终端设备的使用体验...........................................12MIT 提出制造高分辨率小尺寸 LED 显示器新方法..................................12LG 推出高能效、高亮度、宽视角的 OLED 新产品.................................13三星联手谷歌及高通打造 XR 生态系统与 MR 平台................................13预测:MiniLED 屏幕市场将进一步快速增长............................................14 摘要 制作Production 谷歌发布可生成高保真音乐的 AI 模型 MusicLM谷歌发布可生成高保真音乐的 AI 模型 MusicLM P07 谷歌发布音乐生成 AI 模型 MusicLM,MusicLM 拥有庞大的模型和 280000 小时音乐训练数据库,能够通过文本或图像生成多种曲风、作曲复杂的高保真音乐。 QuickVid 集成 AIGC 工具实现“一键生成”短视频QuickVid 集成 AIGC 工具实现“一键生成”短视频 P07 QuickVid 网站集成 GPT-3 和 DALL-E2 等 AIGC 工具,只需要用户输入提示语、描述清楚想要创建的视频主题,就能自动生成配音、背景乐、图片兼备的短视频,实现“一键生成”短视频。 Meta 发布首个文本生成 3D 动态场景系统Meta 发布首个文本生成 3D 动态场景系统 P08 Meta AI 团队提出首个基于文本描述的 3D 动态场景生成系统MAV3D,MAV3D 无需任何 3D 或 4D 数据,只需输入简单文本描述即可输出相应的三维动态场景,并能从任意位置和角度观看。 佳能推出新型 HDR 相机传感器,可在一次拍摄中捕捉多种佳能推出新型 HDR 相机传感器,可在一次拍摄中捕捉多种曝光曝光 P08 佳能推出一款新型高动态范围(HDR)传感器,可以在传感器的不同区域同时实现多种曝光设置,无需合成多个图像就可以快速生成 HDR 照片。述即可输出相应的三维动态场景,并能从任意位置和角度观看。 谷歌发布视频智能化编辑新方法,实现“AI 导演”谷歌发布视频智能化编辑新方法,实现“AI 导演” 谷歌研究院的研究人员提出基于文本条件视频扩散模型的视频编辑新方法 Dreamix,可根据文本描述和输入视频 / 图片生成新的视频,从而实现智能化编辑视频内容的目标。 P08 索尼发布具有 AI 分析功能的智能中心构图摄像机索尼发布具有 AI 分析功能的智能中心构图摄像机 P09 索 尼 发 布 两 款 具 有 AI 分 析 功 能 的 智 能 中 心 构 图 摄 像 机 新 品SRG-A40 与 SRG-A12,能实现自动识别拍摄目标,智能构图,可广泛应用于教育、政府、企业、医疗、广播以及现场活动等领域。 摘要 传输Transmission 网络切片自适应动态分配技术将提升 5G 传输实时视频的服务质网络切片自适应动态分配技术将提升 5G 传输实时视频的服务质量量 P10 欧洲演示了实时、自适应的 5G 网络切片分配技术,可为远程节目制作的实时视频传输提供更高的服务质量(QoS),标志着在5G 网络上传输实时视频方面取得了显著进展。 英国电信拟用高空无人机补点 5G 网络英国电信拟用高空无人机补点 5G 网络 P10 英国电信(BT)计划测试一种安装在高空无人机上的新型 5G 天线,能覆盖 1.5 万平方公里的区域,可用来填补 5G 移动网络的空白,以满足偏远、通信基础设施薄弱地区的网络连接需求。 EchoStar 拟利用 75MHz S 波段部署 5G/NGSO 网络EchoStar 拟利用 75MHz S 波段部署 5G/NGSO 网络 P11 EchoStar 将通过发射 28 颗卫星,在全球范围内利用 75MHz S波段部署 5G/NGSO 网络,实现扩展 S 波段战略。EchoStar 还希望创建一个独特的 S 波段频谱组合,用于开发下一代移动卫星服务。 终端Terminal 京东方展示 110 英寸 8K 裸眼 3D 显示屏京东方展示 110 英寸 8K 裸眼 3D 显示屏 京东方在 ISE 2023 展览会上展示了自主研发的 110 英寸 8K 裸眼3D 显示屏,用户无需佩戴任何辅助设备就可以体验到极速流畅的高清 3D 显示效果。该屏突破了裸眼 3D 观看位置受限的难题,可满足多人在任意角度自由移动观看的需求。 P11 视觉交互界面提升智能终端设备的使用体验视觉交互界面提升智能终端设备的使用体验 P12 国际消费电子展 CES 2023 有几千家公司发布各种基于用户自身或家庭数据的设备,但几乎没有一家公司主动说明对收集到的客户数据如何进行处理以及设备的安全和保障机制,新型电子产品的隐私安全问题引人担忧。 摘要 MIT 提出制造高分辨率小尺寸 LED 显示器新方法MIT 提出制造高分辨率小尺寸 LED 显示器新方法 2023 年消费电子展 (CES 2023) 推出了可以在 VR 中复制感觉甚至气味的终端产品,包括一款带有八种气味墨盒的耳机,可以组合生成不同的气味。将嗅觉和触觉整合到 VR 中,旨在为用户提供更加身临其境的体验。 LG 推出高能效、高亮度、宽视角的 OLED 新产品LG 推出高能效、高亮度、宽视角的 OLED 新产品 相 关 研 究 报 告 指 出,2027 年 全 球 投 入 使 用 的 智 能 联 网 车 辆数量将从 2023 年的 1.92 亿增长至 3.67 亿,推动增长的主要因素在于高级驾驶辅助系统和车载信息娱乐系统的发展。 三星联手谷歌及高通打造 XR 生态系统与 MR 平台三星联手谷歌及高通打造 XR 生态系统与 MR 平台 P13 IPTV 领域第一个跨界合作团体标准“IPTV 健康和养老服务技术规范”标准编制近日启动,IPTV 利用本地化的长项,发挥其在健康科普、提供远程医疗和养老服务方面的优势,实现广电 + 卫生健康的跨界合作共建。 预测:MiniLED 屏幕市场将进一步快速增长预测:MiniLED 屏幕市场将进一步快速增长 P14 据报告显示,2022 年全球移动应用需求提升,其中以 TikTok 为首的短视频应用吸引了用户的主要注意力,全球用户每天观看时长达 31 亿小时,同比增长 22%;全球用户支出 56 亿美元,同比增长 55%,而全球游戏应用用户支出则同比下降了 5%。生健康的跨界合作共建。 制作 1谷歌发布可生成高保真音乐的 AI 模型 MusicLM 继 ChatGPT 之后,音乐可能是 AI 内容生成的下一个重要前沿领域。1月 27 日,谷歌推出 AI 模型 MusicLM,可直接从文字、图像中生成多种曲风的高保真音乐。 MusicLM 并不是第一个文本生成音乐的 AI 模型,此前的可视化 AI 工具 Riffusion 和 OpenAI(当前最热门的聊天机器人 ChatGPT 的研发公司)推出的 Jukebox 都可以通过文字自动创作音乐。但是,由于技术和数据等因素的限制,这些系统创作出的音乐都比较简单。与之前模型不同的是,MusicLM 拥有庞大的模型和训练数据库(280000 小时音乐),使其能制作出特别复杂或保真度特别高的乐曲。 通过 AI 技术,MusicLM 还可以识别乐器,融合音乐流派,使用计算机通常难以掌握的抽象概念来编写曲目。此外,MusicLM 也可通过图像生成音乐,例如世界名作《呐喊》《格尔尼卡》《星空》等皆可作为素材来源。 (信息来源:IT 之家 www.ithome.com) 2QuickVid 集成 AIGC 工具实现“一键生成”短视频 1 月 29 日消息,一个名为 QuickVid 的新网站将集成大部分 AI 生成内容(AIGC)工具,用于自动创建短格式 YouTube、Instagram 和 TikTok 视频。用户只需输入提示语、描述清楚想要创建的视频主题,便可自动生成短视频。 基于用户给出的提示,QuickVid 先利用 GPT-3(自回归语言模型,采用 AI 生成人类自然语言)的生成文本功能生成短视频脚本,再根据从脚本中自动提取或手动输入的关键字,从免费的 Pexels 库(设计图库和视频库)中选择背景视频,同时叠加由 DALL-E2(OpenAI 文本生成图像系统)生成的图像,并调用 Google Cloud 的文本转语音 API 添加 YouTube 免税版音乐库来合成画外音和背景音乐。 尽管 QuickVid 目前仍存在受限于 Pexels 库以及 DALL-E2 从文本到图像生成技术的局限性等问题,但它让我们看到了现有技术下生成短视频的一种可能,进一步释放了像抖音、快手等短视频平台上普通用户的生产力。 (信息来源:凤凰科技 tech.ifeng.com) 3Meta 发布首个文本生成 3D 动态场景系统 1 月 30 日消息,Meta 的研究团队结合视频和 3D 生成模型的优点,提出了一个新的文本到 4D(3D+ 时间)生成系统 Make-A-Video3D(MAV3D)。MAV3D 是第一个基于文本描述生成 3D 动态场景的方法,可为视频游戏、视觉效果或 AR/VR 生成动画 3D 场景。 该系统使用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)的扩散模型,对场景外观、密度和运动一致性进行了优化。同时,由特定文本生成的动态视频可以从任何摄像机位置和角度观看,并且可以合成到任何 3D 环境中。 MAV3D 的实现不需要任何 3D 或 4D 数据,而且 MAV3D 还可以通过多模态预训练模型 CLIP 完成由图像到 4D 应用的转换。 (信息来源 1:学术头条公众号)(信息来源 2:arXiv 网站 arxiv.org) 4佳能推出新型 HDR 相机传感器,可在一次拍摄中捕捉多种曝光 目前,只有一种方法可以在光线条件变化很大的情况下捕捉高动态范围(HDR)图像:用不同的曝光量拍摄多张照片,然后使用不同图像中的适当曝光的区域合成最终照片。以这种方式拍摄 HDR 图像需要相当严格的控制条件,拍摄对象不能在多次曝光之间移动,且需要一定的处理能力以便在拍