您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ABP]:科技动态2023年第11期(总第11期) - 发现报告

科技动态2023年第11期(总第11期)

2024-08-05-ABP李***
AI智能总结
查看更多
科技动态2023年第11期(总第11期)

AI 图像编辑技术 DragGAN 新近问世....................................................07Meta 开源新 AI 语言模型,可识别超过 4000 种口语...............................07清华大学发布文本 AI 生成 3D 内容新算法...........................................08AI 生成广告首次通过图灵测试....................................................................08 传输 英国超高速宽带推广速度缓慢...............................................................09LTN 公司通过支持组播的 IP 网络为全球媒体传输服务......................09 终 端 Q-Pixel 推出超高分辨率全彩 Micro LED 显示屏......................................10报告预计 2023 年全球 VR/AR 设备市场低迷........................................10机顶盒已成为制约 4K/8K 超高清电视产业发展的因素...........................11爱奇艺电视果投屏器新品支持真 4K 超高清投屏.....................................11 市 场 因有线电视用户减少,ESPN 频道将推出流媒体服务.............................12未来 5 年全球付费电视收入将下降 260 亿美元....................................122028 年全球 SVoD 订阅量将增至 17.6 亿...............................................13 应 用 虚拟数字人热潮正在影响直播乃至整个视听行业................................13 摘 要 A IArtificial Intelligence AI 图像编辑技术 DragGAN 新近问世AI 图像编辑技术 DragGAN 新近问世 由 MPII、MIT、宾大、谷歌等机构的学者联合发布的 DragGAN技术可实现交互式的 AI 精准修图,不仅能利用 AI 来重新生成底层对象,甚至还能旋转 3D 图像,可应用于绘图、动画、电影、电视剧制作等领域。 P07 Meta 开源新 AI 语言模型,可识别超过 4000 种口语Meta 开源新 AI 语言模型,可识别超过 4000 种口语 P07 5 月 22 日,Meta 公司推出了一款开源 AI 语言模型——大规模多语言语音(MMS)模型。该模型可以识别超过 4000 种口语,还可以将文本语音互转技术从 100 多种语言扩展至 1100 多种。 清华大学发布文本 AI 生成 3D 内容新算法清华大学发布文本 AI 生成 3D 内容新算法 P08 清 华 大 学 TSAIL 团 队 发 布 了 一 种 文 本 AI 生 成 3D 内 容 新 算 法ProlificDreamer,在无需任何 3D 数据的前提下即能生成超高质量的 3D 内容,为构建高保真的虚拟世界和元宇宙提供了技术支持。 AI 生成广告首次通过图灵测试AI 生成广告首次通过图灵测试 P08 在一项衡量广告创造力和激发情绪反应潜力的测试中,AI 生成广告的表现优于传统的美国平面广告,并首次通过图灵测试。不过,使用 AI 技术制作更高质量的广告仍需利用营销专业知识来编排AI 生成的图像和文本。 传输Transmission 英国超高速宽带推广速度缓慢英国超高速宽带推广速度缓慢 P09 英国信息通信管理局 Ofcom 发布的数据显示,尽管英国政府正在推动千兆项目,但千兆宽带业务的普及与全光纤千兆宽带覆盖率的增加并不匹配,超高速宽带 (>300Mbit/s) 推广速度缓慢。 LTN 公司通过支持组播的 IP 网络为全球媒体传输服务LTN 公司通过支持组播的 IP 网络为全球媒体传输服务 媒体技术和视频传输解决方案提供商 LTN 公司表示,它已经通过其专有的支持组播的全球 IP 网络提供了 100 万个实时视频源。该网络可以提供小于 200 毫秒的延迟和 99.999% 的可靠性,为高价值内容提供可靠、可扩展和智能的分发。 P09 摘 要 终端Terminal Q-Pixel 推出超高分辨率全彩 Micro LED 显示屏Q-Pixel 推出超高分辨率全彩 Micro LED 显示屏 P10Q-Pixel 公司宣布推出全球首款全彩、超高分辨率的 MicroLED显示屏,该显示屏首次使用专有的多色 MicroLED 技术,像素密度高达每英寸 5000 像素(PPI),可以大幅度地提升 AR/VR 的视觉和使用体验。 报告预计 2023 年全球 VR/AR 设备市场低迷报告预计 2023 年全球 VR/AR 设备市场低迷 集邦咨询发布报告,预计 2023 年全球 VR 及 AR 设备出货量共计745 万台,全年减少 18.2%。集邦咨询认为,2023-2025 年 VR及 AR 设备市场发展进程受限,预期 2025 年才会看到市场明显成长,出货量年长幅度有机会接近 4 成。 机顶盒已成为制约 4K/8K 超高清电视产业发展的因素机顶盒已成为制约 4K/8K 超高清电视产业发展的因素 2022 年全球电视的平均尺寸为 48.9 寸,中国电视的平均尺寸为57.4 寸。然而我国有近 50% 的有线电视用户、约 96% 的直播卫星用户仍然使用的是标清机顶盒,机顶盒已成为制约 4K/8K 超高清电视产业发展的因素。 爱奇艺电视果投屏器新品支持真 4K 超高清投屏爱奇艺电视果投屏器新品支持真 4K 超高清投屏 P11 爱奇艺电视果投屏器 5K 新品近日发布,该产品采用 2.4G+5G 双频传输技术,操作简单、画面稳定流畅,全面满足真 4K 超高清投屏需求,可以让普通电视秒变“互联网智能电视”。 市场Market 因有线电视用户减少,ESPN 频道将推出流媒体服务因有线电视用户减少,ESPN 频道将推出流媒体服务 ESPN 体育电视频道是美国有线电视的主要卖点,随着越来越多的消费者告别有线电视,ESPN 准备在未来几年推出流媒体业务,直接为取消了有线电视的消费者服务。这一转变对该公司和更广泛的电视行业将产生深远影响。 未来 5 年全球付费电视收入将下降 260 亿美元未来 5 年全球付费电视收入将下降 260 亿美元 P12 相关报告显示,2022 年到 2028 年全球付费电视收入将累计下降260 亿美元。其中,卫星电视收入将减少近 120 亿美元,有线数字电视收入减少近 130 亿美元,有线模拟电视再损失近 10 亿美元基本消失,IPTV 则减少约 6 亿美元。138 个国家中有 71 个国家的付费电视收入都将下降。 摘 要 2028 年全球 SVoD 订阅量将增至 17.6 亿2028 年全球 SVoD 订阅量将增至 17.6 亿 P13 全 球 SVoD 预 测 报 告 显 示, 全 球 SVoD 订 阅 量 在 2022 年 至2028 年 间 将 增 加 4 亿, 达 17.6 亿。 到 2028 年,24 个 国家的 SVoD 订阅量将超过 1000 万 , Netflix 仍将是订阅量最大的平台。 应用Apply 虚拟数字人热潮正在影响直播乃至整个视听行业虚拟数字人热潮正在影响直播乃至整个视听行业 P13 随着技术的发展,虚拟数字人的热度不断提升,其中以虚拟主播的受众最为广泛。虚拟主播凭借场景灵活多变、高效不知疲倦、制播成本低等特点成为备受关注的媒介形态,对直播乃至整个视听行业的影响正在不断扩大。 A I 1AI 图像编辑技术 DragGAN 新近问世 由 MPII、MIT、宾大、谷歌等机构的学者联合发布的名为《Drag YourGAN》的论文最近引爆 AI 绘图圈,论文中提及的 DragGAN 技术可实现交互式的 AI 精准修图,不仅能利用 AI 来重新生成底层对象,甚至还能旋转3D 图像,可应用于绘图、动画、电影、电视剧制作等领域。 DragGAN 是一种基于点的交互式图像编辑方法,可以轻松对图像进行任意拖动操作。通过使用 DragGAN,不论是改变对象的形状、布局、姿态、表情、位置还是大小,都能实现精准控制。《Drag Your GAN》论文中展示了一些演示案例,包括增加山峰的高度,改变模特的姿势和衣服的长度、形状,张开或闭合狮子的嘴巴,以及将一个人的表情从平淡变成微笑。下图所示即为通过交互式编辑实现的“让动物转身”。 DragGAN 具 有 广 泛 的 应 用 场 景,Midjourney、Stable Diffusion、Dalle-E 等 AI 绘图工具生成的图像,都可以用 DragGAN 来微调细节,生成任何想要的效果。DragGAN 类似于 Photoshop 中的扭曲变形 (Warp) 工具,但更加强大,因为它不是“挤压像素”,而是使用 AI 来“重新生成底层对象”,甚至可以旋转 3D 图像。DragGAN 的问世带来了一种更加直观和灵活的图像编辑方式,它不仅让我们能够轻松地实现各种图像编辑需求,还展示了机器学习在图像处理方面的巨大潜力。 (信息来源 1:Arxiv arxiv.org) (信息来源 2:新浪看点 k.sina.com.cn) 2Meta 开源新 AI 语言模型,可识别超过 4000 种口语 Meta 开源了一种新的 AI 语言模型,叫做大规模多语言语音(MassivelyMultilingual Speech,MMS)模型。该模型可以识别超过 4000 种口语,是以往任何已知技术的 40 倍;该模型还将文本语音互转技术从 100 多种语言扩展到 1100 多种。 MMS 模型是一个基于 wav2vec 2.0 技术的自监督语音表示学习模型。它可以在无标签的数据上进行训练,比如不同语言的人们说话的音频录音。研究人员使用了一个超过 1100 种语言的“《新约》阅读数据集”,以及其他各种宗教类读物的无标签录音。这些数据集提供了大量多样化和高质量的语音数据,涵盖了许多稀有或濒危的语言。MMS 模型在多个基准测试中表现出色,相较于现有模型,它在覆盖更多语言的同时保持了较低的错误率。 目前,Meta 开源了 MMS 模型,并将持续改进此模型,旨在探索更多 与多语言相关的应用场景。这一创新的语言模型为全球范围内的跨语言交流和合作提供了强大的支持,并为语音技术的发展开辟了新的前景。 (信息来源:Meta 官网 about.meta.com) 3清华大学发布文本 AI 生成 3D 内容新算法 清 华 大 学 TSAIL 团 队 最 新 提 出 的 文 本 AI 生 成 3D 内 容 新 算 法ProlificDreamer,在无需任何 3D 数据的前提下能够生成超高质量的 3D 内容,为文本生成 3D 内容领域带来重大进展。 ProlificDreamer 算法将 3D 参数建模为随机变量 , 并用粒子来表示其分布 , 达到了更加逼真和高质量的 3D 场景生成效果。它解决了现有“蒸馏采样”方法容易产生的 3D 场景过饱和、过平滑和低多样性的问题。利用该算法,输入文本“一个菠萝”,就能生成非常逼真且高清的 3D 菠萝;给出难一些的文本,比如“一只米开朗琪罗风格狗的雕塑,正在用手机读新闻”,算法也能生成高质量的 3D 内容。 这项研究为构建高保真的虚拟世界和元宇宙奠定了技术基础。未