[DataFunSummit2022：大数据计算架构峰会]：Haoyu-基于大数据的复杂场景的语音识别的探索与实践

自动语音识别技术研报总结

自动语音识别（ASR）技术旨在将音频转换为文本，其核心是生成给定音频的最佳文本输出。传统方法采用声学模型、语言模型和发音词典，而端到端（E2E）方法则使用单一模型，并可选择性地结合语言模型。

ASR 技术经历了从传统方法到端到端方法的演变。传统方法依赖于手工制作的发音词典和复杂的模型组合，而端到端方法简化了架构，提高了灵活性。

当前 ASR 技术在处理实时会议、在线聊天等场景时面临以下挑战：

标准 E2E ASR 架构主要包括 CTC 和编码器-注意力-解码器两种方法，并可结合为 CTC-ATT 架构。训练过程中，损失函数结合 CTC 和注意力损失，推理阶段采用联合解码或重新评分。

模型改进：从 ATT 模型升级到 Transformer 模型，将 LSTM 替换为 Transformer 结构。
Chunked Multi-Head Attention (C-MHA)：由于 ASR 不存在像神经机器翻译（NMT）那样的重排序问题，因此在 Speech-Transformer 中采用 C-MHA 替代传统的多头注意力机制。

分布式模型训练：在 Kubernetes 集群中通过 DDP（分布式数据并行）进行大规模数据模型训练。
技术组件：包括 DL 训练优化（如梯度压缩、PowerSGD）、机器学习框架（PyTorch、TensorFlow）、Kubernetes 优化（SRIOV、虚拟函数）、OS 优化（RDMA、RoCE）、服务器硬件（GPU、智能网卡）和网络优化（PFC、ETS）。
并行性：ASR 模型通常基于 LSTM/Transformer，参数量在 20M 到 200M 之间，数据量从 10 小时到 100,000 小时不等，因此采用数据并行（DPP）进行分布式训练。
DDP 加速：通过混合精度训练（FP16）减少内存占用和带宽消耗，加速数学密集型操作。
智能网卡 + RDMA + RoCE：智能网卡提供硬件级加速，RDMA 和 RoCE 实现低延迟、高吞吐量的网络通信。
RDMA/RoCE 测试结果：多节点 2GPU 训练速度提升约 5 倍。
梯度压缩 DDP：通过 16 位梯度传输（grad_fp16）实现 2 倍压缩，而 PowerSGD 可实现高达 1000 倍压缩，但会牺牲部分精度和计算时间。

总结：提出了半监督 ASR 软件架构，采用 DDP、GPUDirect 加速、混合精度训练和 GPUDirect RDMA。
下一步：模型方面进行调优和半监督 ASR 升级，以及波束搜索加速；训练方面提高通信效率（1-bit Adam 优化器）、模型分布式训练（ZeRO 优化器）和数据 IO 效率（动态缓存、内存加载）。