您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ABP]:科技动态2023年第9期(总第9期) - 发现报告

科技动态2023年第9期(总第9期)

信息技术2024-08-05-ABP付***
AI智能总结
查看更多
科技动态2023年第9期(总第9期)

复旦大学发布国内首个插件增强的开源对话语言模型........................07英伟达 VideoLDM 可根据文本生成 4.7 秒视频......................................07Synthesis AI 通过文本创建逼真虚拟数字人......................................08浙大、北大和 CMU 联合推出音频理解与生成系统 AudioGPT...............08OpenAI 拟推出 ChatGPT 企业版订阅服务..............................................09ChatGPT 带来三大数据安全新挑战........................................................09 传 输Transmission DVB 通过 DVB-AVC 规范修订版,支持 VVC 和 AVS3 视频编码..............10我国 6G 通信新突破:实现 100Gbps 无线实时传输.............................10欧洲光纤到户稳步推进,但距全面覆盖仍有差距...............................11英国搭建全球首个 sub-THz 高吞吐量 6G 测试台.................................11 终端与应用Terminal and Application Exit Suit 开发新型外骨骼:旨在实现 VR 沉浸式全身交互..............12仿真预测模型将辅助设计出可与人体紧密贴合的柔性电子设备........13索尼 XR 认知芯片再次迎来算法和功能升级........................................13长虹发布国内首款全程 288Hz 高刷新率系列电视...............................14 市 场 预测:到 2028 年,全球 FAST 收入将增加两倍....................................15三大增长引擎助力谷歌成为媒体技术行业最大供应商........................15 摘 要 A IArtificial Intelligence 复旦大学发布国内首个插件增强的开源对话语言模型复旦大学发布国内首个插件增强的开源对话语言模型 P7 复旦大学发布国内首个插件增强的开源对话语言模型——新版MOSS 模型,它与 GPT-4 一样,能使用搜索引擎、图像生成、计算器、方程求解器等插件工具,为用户提供更多的服务。 英伟达 VideoLDM 可根据文本生成 4.7 秒视频英伟达 VideoLDM 可根据文本生成 4.7 秒视频英伟达和康奈尔大学研究团队推出 VideoLDM 模型,该模型有 P7 41 亿参数,专注于通过文本创建视频,可根据文本描述自动生成最高分辨率 2048×1280、24 帧 / 秒、最长 4.7 秒的视频。 Synthesis AI 通过文本创建逼真虚拟数字人Synthesis AI 通过文本创建逼真虚拟数字人Synthesis AI 公司发布虚拟数字人 AI 生成方案,可通过文本描述 P8 创建高分辨率、高质量的虚拟数字人,将加速 AR/VR 游戏、视觉特效、智能城市等多个行业的 3D 应用开发。 浙大、北大和 CMU 联合推出音频理解与生成系统 AudioGPT浙大、北大和 CMU 联合推出音频理解与生成系统 AudioGPT北京大学、浙江大学和卡内基梅隆大学联合推出全新的音频理解与生成系统 AudioGPT,通过将 ChatGPT 与音频基础模型相结合,能够完成语音识别、语音合成、语音翻译、音频生成、歌声合成等 20+ 种多语种、多模态的 AI 音频任务。 P8 OpenAI 拟推出 ChatGPT 企业版订阅服务OpenAI 拟推出 ChatGPT 企业版订阅服务OpenAI 拟在未来几个月内推出 ChatGPT 企业版订阅服务,以满 P9 足企业级客户的需求,同时还在探索 ChatGPT 更多的付费计划。 ChatGPT 带来三大数据安全新挑战ChatGPT 带来三大数据安全新挑战ChatGPT 将给数据安全带来三大全新挑战:一是降低了网络犯 P9 罪门槛,加剧数据遭遇外部攻击的风险;二是增加了数据泄露的途径,会让数据在使用过程中“被动”泄露;三是信息识别成为难题,深度伪造攻击逐渐流行。 摘 要 传 输Transmission DVB 通过 DVB-AVC 规范修订版,支持 VVC 和 AVS3 视频编DVB 通过 DVB-AVC 规范修订版,支持 VVC 和 AVS3 视频编码码 P10 DVB 决策委员会通过了 DVB-AVC 规范的新修订版,其中增加了VVC 和 AVS3 两个新的编码技术,能够支持 4K/8K 分辨率、高动态范围和高帧率,将大幅增强广播和在线音视频体验。 我国 6G 通信新突破:实现 100Gbps 无线实时传输我国 6G 通信新突破:实现 100Gbps 无线实时传输 太赫兹通信是 6G 通信关键技术之一,中国航天科工二院最新实验实现了在 110GHz 频段 10GHz 带宽上完成 100Gbps 无线实时传输,将为移动通信基站和核心网设备间数据无线回传提供重要支撑,未来还可应用于航天领域。 欧洲光纤到户稳步推进,但距全面覆盖仍有差距欧洲光纤到户稳步推进,但距全面覆盖仍有差距 欧洲 FTTH 理事会报告显示,欧盟 27 国 + 英国的光纤网络覆盖率超过了总家庭的一半,达到 55.1%,未来五年将稳步增长。未来大部分光纤网络覆盖工作将集中在德国、英国和意大利。 英国搭建全球首个 sub-THz 高吞吐量 6G 测试台英国搭建全球首个 sub-THz 高吞吐量 6G 测试台 是德科技联合英国国家物理实验室 (NPL) 和萨里大学在英国搭建了全球首个 sub-THz 高吞吐量 6G 测试台,用以针对未来 6G 使用场景,研究 sub-THz 信号的性能,以打造出优化数据路径和校准方法的新技术。 终端与应用Terminal and Application Exit Suit 开发新型外骨骼:旨在实现 VR 沉浸式全身交互Exit Suit 开发新型外骨骼:旨在实现 VR 沉浸式全身交互 英国制造商 Exit Suit 开发了一种包含力反馈系统的新型外骨骼,能够同步用户的动作,并通过触觉反馈对 VR 中的事件做出反应,加强了沉浸式全身交互 VR 体验。 P12 摘 要 仿真预测模型将辅助设计出可与人体紧密贴合的柔性电子设仿真预测模型将辅助设计出可与人体紧密贴合的柔性电子设备备 P13 美国研究人员开发了计算柔性电子设备与球形表面贴合程度的即时预测模型,开创了柔性设备与人体各个部位无缝集成的新时代,未来贴合人体部位或特殊表面的柔性显示器将应运而生。 索尼 XR 认知芯片再次迎来算法和功能升级索尼 XR 认知芯片再次迎来算法和功能升级 P13 2023 年,索尼 XR 认知芯片再次迎来算法升级和功能升级,不仅使音视频信号的处理效果更加出色,对不同显示技术面板的驱动能力进一步提升,还能够充分发挥各类新型显示技术的潜能,实现更加出色的画质水准。 长虹发布国内首款全程 288Hz 高刷新率系列电视长虹发布国内首款全程 288Hz 高刷新率系列电视 P14 近 期, 长 虹 发 布 国 内 首 款 支 持 全 程 288Hz 显 示 的 高 刷 新 率系 列 电 视, 能 实 现 全 程 满 帧 288Hz 的 无 损 显 示, 带 来 更 流畅的画面,可以增强打游戏、看球赛的视效体验。 市 场Market 预测:到 2028 年,全球 FAST 收入将增加两倍预测:到 2028 年,全球 FAST 收入将增加两倍 分析公司 Digital TV Research 预测,2028 年全球广告支持的免费流媒体电视(FAST)收入将达到 180 亿美元(164 亿欧元),比 2022年的 60 亿美元增加两倍。 三大增长引擎助力谷歌成为媒体技术行业最大供应商三大增长引擎助力谷歌成为媒体技术行业最大供应商 P15 研究公司 Caretta Research 通过深度分析指出,机顶盒市场、联网电视(CTV)广告解决方案市场、公共云存储服务市场是助力谷歌成为媒体技术行业最大供应商的三大增长引擎。 A I 1复旦大学发布国内首个插件增强的开源对话语言模型 4 月 21 日,复旦大学计算机科学技术学院自然语言处理实验室开发的新版 MOSS 模型上线,成为国内首个插件增强的开源对话语言模型,支持搜索引擎、图像生成、计算器、方程求解器等插件工具。与 2 月发布的MOSS 模型相比,升级版拥有更加丰富的中文世界知识、更为流畅的中文对话体验,并可以接入外部插件工具来增强自身能力。 开发者介绍,新版 MOSS 模型是国内第一个插件版对话语言模型,能使用搜索引擎、图像生成模型、方程求解器等外部工具,为用户提供越来越多的服务。“GPT-4 也能接入各种插件,这种能力在大模型落地应用过程中会很有价值。” 目前,MOSS 项目的代码、数据、模型参数已在一些平台开放。开源代码涵盖模型训练和推理代码,开源数据包括超 100 万条对话训练数据,开源模型包括 160 亿参数中英双语基座语言模型、对话模型以及插件增强的对话模型。未来,MOSS 将陆续开源更多训练数据及模型参数,促进人工智能领域的科学研究和开源社区的生态繁荣,同时也为企业私有化部署人工智能模型、开展相关服务提供解决方案。 (信息来源:复旦大学计算机学院官网 cs.fudan.edu.cn) 2英伟达 VideoLDM 可根据文本生成 4.7 秒视频 4 月 20 日消息,英伟达和康奈尔大学的研究团队在视频生成领域开展合作,推出 VideoLDM 模型,该模型有 41 亿个参数,可根据文本描述自动生成最高分辨率 2048×1280、24 帧 / 秒、最长 4.7 秒的视频。 英伟达通过潜在扩散模型 (LDM) 实现了高质量图像合成,并通过在压缩的低维潜在空间中训练扩散模型来减少计算量。研究团队首先仅在图像上预训练低维扩散模型,然后通过引入时间维度并对编码的图像序列(即视频)进行微调,将图像生成器转变为视频生成器。同时,在时间上对齐 扩散模型上采样器,将低维扩散模型变成时间一致的视频超分辨率模型。 VideoLDM 模型还能创建驾驶场景的视频,分辨率为 1024×512 像素,最长 5 分钟。英伟达表示,目前该项目处于研究阶段,暂时不会向公众开放。 (信息来源:NVIDIA 官网 research.nvidia.com) 3Synthesis AI 通过文本创建逼真虚拟数字人 4 月 19 日消息,从事合成数据技术的公司 Synthesis AI 公布了一种生成式 AI Avatar 新方案“3D Generative AI”,可以通过文本提示生成高分辨率、高质量的虚拟数字人。 在 3D Generative AI 方案中设计了一种创新方法,利用基于扩散模型的生成式人工智能架构,构建了由性别、年龄、种族、发型和服装等关键参数控制的网格模型。用户输入所需数字人的文字描述,系统便会生成符合规格的 3D 数字人。此外,用户还可以通过更改文字描述或使用滑块来调整面部表情和光线等功能,对 3D 数字人进行编辑。 该方案可用于游戏、VR、电影等应用,加速 AR/VR 游戏、视觉特效等多个行业的 3D 应用开发。Synthesis AI 表示,他们是第一家在如此高质量和细节水平上演示文本到 3D 数字人合成的公司。 (信息来源:新浪 VR vr.sina.cn)