您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:科技动态2023年第4期(总第4期) - 发现报告

科技动态2023年第4期(总第4期)

信息技术2024-08-05--x***
AI智能总结
查看更多
科技动态2023年第4期(总第4期)

制 作 英国学者推出文本到音频生成系统 AudioLDM...................................07浙大、北大联合火山语音推出文本到音频生成系统...............................07看到科技与 PICO、抖音打通一键 3D 全景 VR 直播...........................08爱奇艺应用百度“文心一言”探索影视产业新模式...............................08松下一体化摄像机 AW-UE160 亮相 ISE2023.........................................08Ai-Media 公司与英国 GBNews 频道推出实时字幕...............................09 传 输 高通推出全球首个 5GNR-Light 调制解调器及射频系统......................09高通推出 5GAdvanced-ready 调制解调器及射频系统..........................10全球广播公司的欧洲光纤主干线将扩容至 100G......................................10中兴发布 FTTR 家庭及商企两大场景系列新品....................................11 终 端 Meta 携手 SK 海力士、LGD 合作开发 MicroOLED,发力 XR 市场....12MicroLEDinPackage 技术再次引发大屏显示竞逐...................................12生成式 AIChatGPT 或将革新智能家居交互..............................................13韩国研发出智能隐形眼镜 3D 打印显示技术.............................................13元宇宙热度消退,搜索量下降约 80%........................................................14 摘要 制作Production 英国学者推出文本到音频生成系统 Audio LDM英国学者推出文本到音频生成系统 Audio LDM P07 英国学者推出文本到音频生成系统 Audio LDM,在生成质量和计算效率上表现优异。该系统可以从文本生成音乐、语音和音效,还能在不做额外训练的情况下支持文本引导的音频风格的迁移、音频缺失填充和音频超分辨率。 浙大、北大联合火山语音推出文本到音频生成系统浙大、北大联合火山语音推出文本到音频生成系统 P07 浙大、北大联合火山语音推出文本到音频生成系统 Make-An-Audio,能够实现文本、音频、图像、视频等任意模态输入的高质量音频合成,未来将在电影配音、短视频创作等领域发挥重要作用。 看到科技与 PICO、抖音打通一键 3D 全景 VR 直播看到科技与 PICO、抖音打通一键 3D 全景 VR 直播 看到科技与 PICO、抖音开放平台达成合作,降低了 VR 内容创作和分享的门槛。创作者可使用看到科技旗下 QooCam 系列全景相机进行 VR 全景直播,并支持一键推流至抖音和 PICO 视频双平台。 P08 爱奇艺应用百度“文心一言”探索影视产业新模式爱奇艺应用百度“文心一言”探索影视产业新模式 P08 爱奇艺全面接入百度“文心一言”,丰富的在线视频娱乐资源与AIGC 前沿技术相结合,将拓展爱奇艺在影视内容创意、制作效率、用户体验等方面的生产能力,推动影视产业变革与升级。 松下一体化摄像机 AW-UE160 亮相 ISE2023松下一体化摄像机 AW-UE160 亮相 ISE2023 P08 松下在 2023 年 ISE 视听设备展上展示了一体化 4K 摄像机 AW-UE160,体现了一体化、全 IP、自动化远程控制和制作的新场景、新理念。 Ai-Media 公司与英国 GB News 频道推出实时字幕Ai-Media 公司与英国 GB News 频道推出实时字幕 P09 得益于 Ai-Media 公司将自动语音识别技术与专家人工策划相结合的字幕解决方案,英国 GB News 频道能够以高达 98.5% 的准确率在24/7(一周 7 天,一天 24 小时)全时段提供实时字幕。 摘要 传输Transmission 高通推出全球首个 5G NR-Light 调制解调器及射频系统高通推出全球首个 5G NR-Light 调制解调器及射频系统 P09 高 通 技 术 公 司 推 出 首 个 5G NR-Light 调 制 解 调 器 及 射 频 系 统骁 龙 X35, 能 够 支 持 5G 和 4G 语 音、 精 准 定 位、 超 低 时 延 和220Mbps 峰值速率这四大性能。NR-Light 技术填补了高速连接的移动宽带终端与极低带宽的 NB-IoT 终端之间的空白,并使 5G扩展到更多应用和行业。 高通推出 5G Advanced-ready 调制解调器及射频系统高通推出 5G Advanced-ready 调制解调器及射频系统 P10 高通技术公司推出全球首个 5G Advanced-ready 调制解调器及射频系统——“骁龙 X75”,旨在实现更高的连接速度、能效、 全球广播公司的欧洲光纤主干线将扩容至 100G全球广播公司的欧洲光纤主干线将扩容至 100G P10 全球广播公司 Globecast 将从今年 3 月起将其欧洲光纤主干线( 该公司全球光纤网络的一部分 ) 扩容至 100G,特别是伦敦、法兰克福和巴黎的接入网点,旨在满足远程制作和 4K 视频传输等领域不断增长的带宽需求。 中兴发布 FTTR 家庭及商企两大场景系列新品中兴发布 FTTR 家庭及商企两大场景系列新品 P11 中兴发布了家庭及商企两大主流场景下的 FTTR 系列新品,在带宽速率、Wi-Fi 覆盖能力及安装部署便捷性等方面均实现了显著提升,可承载 4K IPTV、绿色上网、视频 / 游戏加速、全屋智能以及跌倒检测等创新应用。 终端Terminal Meta 携手 SK 海力士、LGD 合作开发 Micro OLED,发力 XR 市Meta 携手 SK 海力士、LGD 合作开发 Micro OLED,发力 XR 市场场 P12 Micro OLED 更薄、体积更小且非常精细,是用于头戴式 XR 设备的新一代显示面板。Meta 将携手韩国 SK 海力士和 LG Display进行 Micro OLED 开发和量产,用于 Meta 未来的 XR 设备。 Micro LED in Package 技术再次引发大屏显示竞逐Micro LED in Package 技术再次引发大屏显示竞逐 P12 在索尼等海外企业积极布局 Micro LED in Package(MiP)技术并推出相关大屏显示设备后,MiP 技术再次引起国内产业界关注。2023 年伊始,芯映光电、晶台等国内企业也带着 MiP 技术产品亮相国际 ISE 展会。 生成式 AI ChatGPT 或将革新智能家居交互生成式 AI ChatGPT 或将革新智能家居交互 P13 聊天机器人 ChatGPT 的爆火使生成式 AI 有望以其极高的理解能力和自主学习能力解决智能家居交互吸引力不足的问题,从而提高智能家居渗透率。国内外科技巨头已纷纷开始准备推出相关产品和类似应用。 韩国研发出智能隐形眼镜 3D 打印显示技术韩国研发出智能隐形眼镜 3D 打印显示技术 P13 韩国蔚山国立科学技术研究院和韩国电工研究院合作开发出了智能隐形眼镜的核心技术,可通过 3D 打印实现基于增强现实(AR)的导航,有望将先进的智能隐形眼镜商业化。 元宇宙热度消退,搜索量下降约 80%元宇宙热度消退,搜索量下降约 80% P14 据 Google Trends 数据显示,metaverse(元宇宙)一词的搜索流量在过去一年间下降了约 80%,并且 Meta 的元宇宙业务也呈持续亏损趋势。随着 2023 年初 ChatGPT 的出现,整个互联网的风向由元宇宙转变成了人工智能。 制作 1英国学者推出文本到音频生成系统 Audio LDM 2 月 13 日消息,来自英国萨里大学等机构的学者推出文本到音频生成系统 Audio LDM。该系统可以通过给出的文字生成音乐、语音和各种音效,甚至是想象的声音。由于其在生成质量和计算效率上的优势,Audio LDM在发布之后迅速火遍国外,并在开源后出现了大量衍生工作。 Audio LDM 基于隐式扩散模型和对比学习框架,模型亮点包括:1)可以从文本同时生成音乐、语音和音效;2)能用更少的数据和更低的计算资源实现目前最好的效果;3)使用自监督的方式训练生成模型,使文本到音频生成不再受限于文本 - 音频数据对缺失的问题;4)可以在不做额外训练的情况下实现音频风格的迁移、音频缺失填充和音频超分辨率;5)在声学环境、音乐的情绪和速度、音调高低以及先后顺序等方面模型展现出了很强的控制能力。 在作者发布可用接口后,网友们使用 Audio LDM 生成了各种各样具有创造性的声音,甚至生成了一系列不同风格的音乐专辑;还有网友结合图片生成文字的模型和 Audio LDM,制作了图片指导音效生成的应用。 (信息来源:机器之心公众号) 2浙大、北大联合火山语音推出文本到音频生成系统 由于高自由度音频生成需要依靠大量文本 - 音频对数据,且长时波形建模还有诸多困难,音频音效领域的 AIGC 技术一直没有重大突破。2 月 9 日消息,浙江大学与北京大学联合火山语音,共同推出了一款创新的文本到音频生成系统 Make-An-Audio,可以将任意模态(例如文本、音频、图像、视频等)的自然语言描述作为输入,输出符合描述的音频音效。 研究团队提出“Distill-then-Reprogram”的文本增强策略来解决音频 -自然语言对数据稀少的问题,同时基于隐式扩散模型避免了直接预测长时波形。但现阶段的 Make-An-Audio 并不完善,由于丰富的数据来源中不可避免的样本对质量问题,导致可能在训练过程中产生副作用,生成不符合文字内容的音频。 音频合成 AIGC 将会在未来电影配音、短视频创作等领域发挥重要作用。Make-An-Audio 在技术上被定位是“辅助艺术家生成”,借助 Make-An-Audio 等 AIGC 模型,或许在未来人人可能成为专业音效师,可以凭借文字、视频、图像在任意时间、任意地点,合成出栩栩如生的音频和音效。 (信息来源:机器之心公众号) 3看到科技与 PICO、抖音打通一键 3D 全景 VR 直播 2 月 12 日,3D 全景 VR 影像技术品牌“看到科技”与 PICO、抖音开放平台达成合作,创作者可以使用看到科技旗下 QooCam 系列全景相机进行 VR 全景直播,并支持一键推流至抖音和 PICO 视频双平台。 看到科技与 PICO、抖音开放平台通过接入抖音 SDK 完成了技术对接合作,大大降低了 VR 内容创作和分享的门槛,简化了直播流程。通过QooCam 8K 行业版开启全景直播后,观众可直接在抖音平台观看,跟随手机重力感应移动手机或上下左右滑动屏幕画面,可以自由切换视角。同时,直播内容也会同步推流至 PICO 视频,观众佩戴 PICO VR 头显观看,视觉冲击感更强。 (信息来源:IT 之家 www.ithome.com) 4爱奇艺应用百度“文心一言”探索影视产业新模式 “文心一言”(ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品。近日,爱奇艺将全面接入百度“文心一言”,双方共同探索将AIGC(人工智能生成内容)技术应用于爱