行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

FPGA加速超低延迟大并发实时智能语音识别

信息技术 2023-10-15 - Achronix 庄晓瑞

全网查研报首选站点发现报告（www.fxbaogao.com），国内知名度高的专业研报平台之一，全维度布局各类研报内容，报告总量巨大、分类体系完整清晰。覆盖各行各业深度研究、宏观经济研判、企业财报盘点，平台日常活跃用户数量庞大，简洁设计让信息查找变得省时省心。

这篇研报主要讨论了自动语音识别（ASR）技术在实时智能语音识别中的应用。ASR系统通常由三个阶段组成：特征提取、声学建模和语言模型。ASR的工作原理是将音频输入通过声学模型转化为统计参数，然后通过语言模型确定可能的单词序列。ASR系统需要满足实时响应的确定性低延迟、字错误率低、高吞吐量、低成本和低能耗的要求。为了满足这些要求，ASR系统可以采用最新的深度学习模型，如RNN-Transducer模型和Transformer模型。这些模型可以实现实时流式ASR，并且模型尺寸小，精度和计算能力相当。

什么是对话式人工智能? ▪像人一样与计算机交互 ▪通常有3个阶段，具体取决于所实施的服务级别‒STT/ASR自动语音识别将语音转换为文本‒NLP自然语言处理去理解文本的语法和上下文‒TTS/SS语音合成，用于将输出文本再次翻译成语音 ASR的工作原理 ▪第一步是识别从语音或音频文件输入的音素和单词‒英语中约有50个不同音素(语音发出不同的声音) ▪ASR系统的主要构成‒特征提取•识别口语单词的音调、音量和重音‒声学建模•将提取的特征转化为统计参数语音模型，并与其他模型进行比较‒语言模型•使用语法规则和某些声音同时出现的概率来帮助确定哪些单词序列是可能的‒分类/评分•评估输出是否正确(字错误率)•常见的深度学习算法▪Listen, Attend and Spell (LAS)▪Recurrent Neural Network Transducer (RNN-T)▪Connectionist Temporal Classification (CTC)▪Transformer models“….Tom… is… on… PTO….” RNN-Transducer模型 ▪ASR的所有组件都集中在一个模型中▪不需要解码器图(可能很大)▪可以在小型的终端设备上实时流式ASR▪与模块化(混合)系统相比，模型尺寸要小得多，精度和计算能力相当▪构成部分‒音频编码器作为声学模型（例如LSTM、Transformer）‒文本预测器作为语言模型（通常是LSTM）‒Joiner结合了编码器和预测器的输出‒Linear layer线性层和Softmax产生输出单元上的分布概率 Transformer模型 ▪不依赖卷积或递归来生成输出 ▪遵循编码器-解码器结构‒编码器将输入序列映射到连续表示序列‒解码器接收编码器和上一步的解码器输出，生成输出序列 ▪解决RNN的几个缺点‒处理长序列困难‒难以并行化 ▪非实时性‒对比实时流处理仅适用于离线模型自动语音识别系统要求 ▪实时响应的确定性低延迟▪字错误率(WER)低，可实现准确回复▪高吞吐量，低成本和低能耗▪灵活采用最新的深度学习模型 Achronix和Myrtle.ai的ASR解决方案 ▪ASR设备 ‒1U CPU服务器加上Speedster7t1500 PCIe加速卡•可以通过工作站进行本地部署‒Myrtle.AI提供的CPU和FPGA应用程序‒来自Myrtle.ai的PyTorch中的机器学习再训练库 ▪与更高级别软件组件相连的简单WebSocket API接口 Myrtle.ai的ASR解决方案 The quick brown fox jumps over… ▪基础产品‒通用目的‒英文转录 ▪产品定制客户可以使用自己的数据集用于 ‒其他语言‒特定的词汇‒最高的精度云演示给客户带来的好处 ▪实时语音ASR的低确定性延迟‒与A100 GPU相比减少了90%（<60毫秒端到端延时vs250毫秒计算延时） ▪英语ASR直接可以使用‒可针对其他语言和自定义数据集重新训练 ▪吞吐量比CPU高出200倍 ▪每个实例支持最多4000个语音流 ▪与CPU相比，成本和功耗降低20倍以上 ▪可以缩小或移植到更小的FPGA上(比如7t800)‒当前实施使用4个MAU（ML加速器单元）产品差异化 Achronix ASR解决方案比较适合于 ▪处理实时交互语音‒非离线或者事后处理▪用户想要去处理成百上千条语音流‒非单个用户，嵌入式产品▪响应速度，低延时对于用户非常重要‒低延时对于服务提供商来说是一个关键的指标语音流ASR的应用 ▪Speedster对于低延迟的语音流应用中有着技术上的差异‒它可以比其它的方案转录更多的实时语音流 ▪ASR的流模式Streaming和非流模式Non-streaming‒流模式只能看到句子已经说出来的部分‒流模式实时转录说出来的每个词，而不是播客 ▪低延时语音流ASR的应用例子‒呼叫联络中心，自动填写表格‒视频会议：实时字幕+翻译‒语音个人助手‒实时字幕 ASR Accuracy ▪单词，字错误率WER‒一组转录中的错误百分比‒越低的错误率越好，就像打高尔夫失误越少越好‒正确率，我们通常用100-WER%表示‒人也不能做到100%的正确率‒一般来说ASR系统的错误率WER在2%到25%之间‒大部分的ASR API提供商出售的产品大于90%正确率如何谈论ASR的正确率 ▪ASR的WER非常依赖于应用，比如金融，医疗 ▪始终是参考特定的数据集‒比如在Earnings-22这个数据集WER为17.6 ▪数据集之间的WER差异比ASR系统之间的WER差异要大我们的ASR系统的WER要小于10% 使用自定义模型的用户流程 ▪早期的采用者可以将他们自己的模型写入加速器‒使用他们自己的数据集‒加上我们开源的代码库 ▪这个需要用户自己去做▪用户通常会有很多数据集去覆盖不同的语言，环境和不同的说话方式。直接使用ASR解决方案的用户流程 ▪为每个音频流打开一个websocket接口的连接▪将音频流传到服务器，并接收传回的英语转录文本▪用户的应用程序可以跑在另外的单独服务器上，甚至可以远程运行 ▪接口和其他现有的ASR APIs类似性能优势 ▪和Nvidia A100对比‒延迟降低到1/8‒当前的吞吐量提高了7倍‒完整产品的吞吐量会提高15倍 ▪Speedster在低延时的语音流场景的表现要优于Nvidia A100 低延时语音流的性能具有小的块大小(Chunk size)的快速响应系统，适用于实时交互式工作通过具有50M参数RNN-T、60ms块大小的WebsocketAPI演示系统的当前性能成本优势 ▪大型企业呼叫中心▪每24小时50,000个呼叫▪平均通话时长：5分钟▪每分钟的典型成本为0.01美元至0.025美元▪每次通话时都会执行ASR▪购买和部署基于Achronix的ASR设备的成本‒资本支出CAPEX•x86服务器•加速卡•软件•服务器机架‒运营支出OPEX•功耗•数据中心的冷却成本•托管服务器的空间•服务器维护 Notes:1)CAPEX + OPEX2)OPEX only ASR设备如何交付给客户：云用户 ▪直接通过云服务访问Achronix的AVL ASR设备如何交付给客户：本地部署用户 ▪与VectorPath卡和带有WebSocket管理器的Myrtle软件捆绑在一起的工作站或服务器 Q&A

点击免费查看完整报告

FPGA加速超低延迟大并发实时智能语音识别

你可能感兴趣

2023年中国语音识别技术-突破界限-迈入智能交互新时代

【联讯计算机周关注】AI让摩根大通需36万小时工作时长缩至秒级。推荐关注人工智能相关标的：东方网力（智能机器人）、科大讯飞（语音识别）、佳都科技（人脸识别）

超低延时智能加速：腾讯云音视频与EdgeOne的全球化实战密码

获交行信用卡中心大单智能流量业务有望加速启动

公司事件点评:：空悬供给单元总成再获大单，智能底盘加速放量

公司事件点评：轻量化再斩大单，智能底盘业务加速放量

汽车与零部件行业周报：新能源汽车大概率维持高增长、智能汽车产业化加速

FPGA加速超低延迟大并发实时智能语音识别

你可能感兴趣

2023年中国语音识别技术-突破界限-迈入智能交互新时代

【联讯计算机周关注】AI让摩根大通需36万小时工作时长缩至秒级。推荐关注人工智能相关标的：东方网力（智能机器人）、科大讯飞（语音识别）、佳都科技（人脸识别）

超低延时智能加速：腾讯云音视频与EdgeOne的全球化实战密码

获交行信用卡中心大单 智能流量业务有望加速启动

公司事件点评:：空悬供给单元总成再获大单，智能底盘加速放量

公司事件点评：轻量化再斩大单，智能底盘业务加速放量

汽车与零部件行业周报：新能源汽车大概率维持高增长、智能汽车产业化加速

获交行信用卡中心大单智能流量业务有望加速启动