行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2026语音识别全栈国产化技术实践白皮书

信息技术 2026-05-12 - 摩尔线程 💤 👏

语音识别全栈国产化技术实践白皮书总结

一、白皮书简介

《语音识别全栈国产化技术实践白皮书》介绍了一套基于紫光计算机集群和摩尔线程全功能GPU的语音识别解决方案，包含流式语音识别和离线语音转写两大核心服务。该方案具备完整音频预处理与后处理能力（VAD、ASR、标点生成与文本归一化ITN），支持热词增强与垂直领域语言模型定制，输出可选字级/句子级时间戳，满足实时转写、检索索引和高精度后处理需求。系统已通过国家工业信息安全发展研究中心（“国检”）检测，验证其在多种噪声环境下的稳定性和识别准确性。

二、应用场景

电话客服质检与话单转写：支持大批量录音离线转写与准实时通话监控，便于质检、关键词抽取与话单归档。
会议与访谈记录：长时音频离线转写、自动切句和时间索引，便于内容检索和二次编辑。
客服机器人/IVR打点与实时转写：流式模型低延迟输出，结合热词和垂类LM提升行业用语识别率。
媒体转写与字幕生成：自动标点、数字与格式归一化（ITN）保证字幕可读性与同步性。
行业定制场景：金融、电力、医疗等需要垂直语言模型适配的场景，通过语言模型定制提升专业词识别能力。

三、技术介绍

（一）主要功能

支持单声道8k、16k音频请求，覆盖中文普通话、中英混合、英文识别。
全链路语音处理能力：
- 语音活动检测（VAD）
- 端到端语音识别（ASR，流式/离线）
- 自动标点恢复
- 文本归一化（ITN）
- 字级/句子级时间戳输出
行业定制与增强能力：
- 热词自定义（Custom Hotwords）
- 垂类语言模型定制（Domain LM Adaptation）
- 多场景适配（日常生活对话、电话客服、会议访谈等）
多线程调用：支持多线程、多并发请求。
高识别准确率：国检测试显示，底噪、高噪环境下关键词识别、连续语音识别、数字识别准确率均大于90%。
高识别速度：
- 单张MTT S4000显卡，1并发非流式离线转写RTF 0.02，10并发RTF 0.06
- 流式实时识别1并发RTF 0.08，10并发RTF 0.23

（二）核心技术特色

端到端统一架构：支持流式与非流式推理，延迟可控且准确率高。
自注意力机制建模：结合摩尔线程MUSA推理架构，提升识别准确性。
大规模数据驱动与领域自适应：
- 结合质检大模型生成伪标签数据
- 使用NST技术迭代质检大模型
- 训练语料：数十万小时通用语料+数万小时电话客服垂类语料
- 垂类语言模型微调与深度适配
分阶段课程表学习与多任务训练：
- 课程表学习提升模型收敛速度与稳定性
- 多任务联合训练提升边界检测、时序对齐与后处理能力
强化学习技术：增强对长音频、含噪音频的解码能力及关键词识别。
中英混识别能力：通过自研语音合成大模型生成中英混音频数据，增强中英混识别能力。
全链路工程化后处理能力：
- 内置VAD、自动标点恢复、ITN、字级/句子级时间戳输出
- 支持字幕生成、质检索引与精确对齐
- 支持热词注入与偏置、垂直语言模型在线/离线融合
推理优化与高吞吐低延迟：算子融合、显存调度与流水线并发优化，降低单样本延时与并发RTF。
评测与行业基线：在电话客服等行业数据集上使用CER、NIST等指标衡量，保持行业领先准确率与稳定性。

（三）接口协议

流式语音识别接口：
- 交互流程图、接口清单、API调用说明
- 按照0.1s一包发送PCM binary数据
- 示例代码（Python asyncio实现）
离线语音转写接口：
- 交互流程图、接口清单、API调用说明
- 发送PCM binary数据
- 示例代码（Python asyncio实现）

四、系统部署

（一）部署架构

（二）配置要求

五、公司介绍

摩尔线程：以全功能GPU为核心，提供加速计算的基础设施和一站式解决方案，致力于数智化转型AI计算支持。
紫光计算机：提供国产全栈式AI产业解决方案，赋能行业数字化转型，核心业务包括PC终端、智算一体机、智算中心部署实施与运维算力租售。

目录一、白皮书简介.......................................................................................................................................................2二、应用场景...........................................................................................................................................................2三、技术介绍...........................................................................................................................................................3(一)主要功能.......................................................................................................................................................3(二)核心技术特色...............................................................................................................................................5(三)接口协议.......................................................................................................................................................71.流式语音识别接口...................................................................................................................................72.离线语音转写接口.................................................................................................................................16四、系统部署.........................................................................................................................................................21(一)部署架构.....................................................................................................................................................21(二)配置要求.....................................................................................................................................................21五、公司介绍.........................................................................................................................................................22 一、白皮书简介《语音识别全栈国产化技术实践白皮书》阐述了一套基于基于紫光计算机集群和摩尔线程全功能GPU进行训练与推理的语音识别解决方案。该方案包含两大核心服务：适用于实时、低延迟场景的流式语音识别，以及适用于长音频、批量转写场景的离线语音转写。每个服务均自带完整音频预处理与后处理能力（VAD、ASR、标点生成与文本归一化ITN），同时该方案支持热词增强与垂直领域语言模型定制，输出可选字级时间戳与句子级时间戳，满足实时转写、检索索引和高精度后处理需求。该系统已通过国家工业信息安全发展研究中心的检测（即“国检”），并持有相应的检测报告与证书，验证了其在多种噪声环境下的稳定性与识别准确性。二、应用场景 1.电话客服质检与话单转写：支持大批量录音离线转写与准实时的通话监控，便于质检、关键词抽取与话单归档。 2.会议与访谈记录：长时音频离线转写、自动切句和时间索引，便于内容检索和二次编辑。 3.客服机器人/IVR打点与实时转写：流式模型低延迟输出，结合热词和垂类LM提升行业用语识别率。 4.媒体转写与字幕生成：自动标点、数字与格式归一化（ITN）保证字幕可读性与同步性。 5.行业定制场景：金融、电力、医疗等需要垂直语言模型适配的场景，通过语言模型定制提升专业词识别能力。三、技术介绍本产品采用先进的端到端对齐与预测融合架构，针对流式和非流式两类推理场景做了统一设计与专项优化。系统训练和推理均在摩尔线程全功能GPU上完成，结合国产GPU推理架构在算力与吞吐上实现协同提升。 (一)主要功能 1.支持8k、16k单声道音频请求。 2.支持中文普通话、中英混合识别、英文识别。 3.全链路语音处理能力 ⚫系统支持从原始音频到结构化文本的完整处理流程，支持对返回结果进行灵活的配置，包括：a)语音活动检测（VAD）：自动识别语音段落，降低无效计算和错误触发概率。b)端到端语音识别（ASR）：支持流式识别与离线识别两种形式，满足实时场景和长音频转写需求。c)自动标点恢复：智能恢复句读符号，提升阅读体验和文本可用性。d)文本归一化（ITN）：支持数字、金额、单位、字母等表达方式的规范化输出，便于业务处理与检索。 ⚫对于实时（流式）与离线（非流式）两类场景，系统均可输出：a)字级时间戳：快速定位字和词对应时间节点。b)句级时间戳：便于做质检、语音检索、字幕对齐等业务扩展。 4.行业定制与增强能力 ⚫系统为实际业务落地提供多种效果增强能力： a)热词自定义（Custom Hotwords）：支持业务专有名词（如企业名称、产品型号）快速增强识别。b)垂类语言模型定制（Domain LM Adaptation）：可针对客服、金融、电力等领域进行深度LM微调，提高专业词识别率。c)多场景适配：涵盖日常生活对话、电话客服、会议访谈等真实语音场景，支持中英文混合、数字与字母混读等复杂表达方式。 5.多线程调用 ⚫支持多线程、多并发请求。 6.高识别准确率 ⚫本产品已通过国家工业信息安全发展研究中心（以下简称“国检”）的权威检测与评估，检测报告与认证证书可作为第三方资质证明。采用关键词识别、连续语音识别、数字识别等多维度指标进行评估，在底噪、高噪环境下，上述测试的准确率均大于90%。⚫国检结果表明，本产品在低噪与高噪两类典型业务环境下均表现出优异的识别准确性与鲁棒性，尤其在客服通话与日常对话场景对数字、字母及关键词的识别具有显著优势。 7.高识别速度 ⚫摩尔线程的MUSA推理架构与算子级工程优化，在单张MTT S4000显卡上，非流式离线转写在1并发时的实时因子（RTF）仅为0.02，在10并发时RTF为0.06；流式实时识别在1并发时RTF为0.08，在10并发时RTF为0.23。 (二)核心技术特色 1.端到端统一架构 ⚫采用先进的端到端预测融合式结构，使得模型可以同时支持流式和非流式推理，确保延迟可控的同时保持高准确率。 2.自注意力机制建模 ⚫结合摩尔线程MUSA推理架构，使用自注意力机制建模技术，提高识别的内容的准确性。 3.大规模数据驱动与领域自适应 ⚫结合质检大模型技术，生成高质量的伪标签数据，用于流式/非流式识别模型的训练。⚫使用NST（noisestudent training）技术迭代质检大模型，用于提升目标领域的伪标签标注效果。⚫训练使用数十万小时通用语料+数万小时电话客服垂类语料，确保模型在广谱场景与行业场景均有扎实基础。⚫通过专门的垂类语言模型微调与深度适配，实现对专业术语、企业名与业务表达的高命中率。 4.分阶段课程表学习与多任务训练 ⚫采用课程表（curriculum learning）分阶段训练策略，从易到难逐步增加样本复杂度与任务难度，提升模型收敛速度与稳定性，提高噪音环境、长音频的识别准确率。 ⚫实施multitask多任务联合训练，促使模型在边界检测、时序对齐与后处理上具备一体化能力。 5.强化学习技术 ⚫通过强化学习技术，增强标注模型对于原始长音频、含噪音频的解码能力，增强对关键词的识别能力。 6.中英混识别能力 ⚫通过自研语音合成大模型生成大量领域的中英混音频数据，用于训练语音识别模型，增强PC领域频繁出现的中英混识别问题。 7.全链路工程化后处理能力 ⚫内置VAD、自动标点恢复、ITN（文本归一化：数字/单位/字母/金额等）、以及字级/句级时间戳输出，支持字幕生成、质检索引与精确对齐等下游任务。⚫支持热词注入与偏置、以及垂直语言模型在线/离线融合，便于落地快速适配客户专用词表与业务。 8.推理优化与高吞吐低延迟 ⚫针对摩尔线程MUSA推理栈做算子融合、显存调度与流水线并发优化，显著降低单样本延时与并发下的RTF。 9.评测与行业基线 ⚫在电话客服等行业数据集上使用CER（字错误率）、NIST（National Institute ofStandards and Technology）等标准评测指标进行衡量，并保持行业领先的准确率与稳定性，适配企业级质检与合规要求。 (三)接口协议 1.流式语音识别接口 1)交互流程图 2)接口清单 3)API调用说明流式发送音频按照0.1s一包发送pcm binary数据 4)流式结束发送消息 5)流式接收片段结果 6)流式接收断句结果 utt_time_stamp 示例代码 import asyncioimport websocketsimport jsonaudio_file = "audio_8k.pcm"sample_rate = 8000host = ""port = ""async def asr_client():uri = f"ws://{host}:{port}"try:async with websockets.connect(uri, ping_interval=10) aswebsocket:#发送初始化消息init_message = {"mooer-type": "mooer-change","sample_rate": sample_rate,"wav_format": "pcm","do_recognize": True,"itn": True,"punc": True,}await websocket.send( json.dumps(init_message)) #创建发送音频数据的任务async def send_audio

点击免费查看完整报告

2026语音识别全栈国产化技术实践白皮书

语音识别全栈国产化技术实践白皮书总结

一、白皮书简介

二、应用场景

三、技术介绍

（一）主要功能

（二）核心技术特色

（三）接口协议

四、系统部署

（一）部署架构

（二）配置要求

五、公司介绍

你可能感兴趣

智算中心光电协同交换网络全栈技术白皮书

【财联社早知道】字节跳动AI机器人新进展！现已开始对外测试，这家公司基于NLP+云识图+语音识别等技术，以chatbot为载体

2023年中国语音识别技术-突破界限-迈入智能交互新时代

语音识别技术任重而道远

2022年中国语音识别技术行业规模及发展趋势分析（图）

2025年三季报点评讯飞星火全栈国产化，产业生态持续加强

公司信息更新报告：全栈国产化PLC再获宏旺集团订单，彰显国产化强大实力

讯飞星火全栈国产化,产业生态持续加强-2025年三季报点评

得物全栈可观测平台落地实践-李尊

基于微服务分布式架构的全栈信创核心系统建设实践