行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

词元（Token）：大模型时代的语言基石与竞争格局

信息技术 2026-01-28 - - 徐红金

一、纵向分析：词元的进化史诗（2013-2026）（一）起源追溯：被NLP拯救的数据压缩技术 2013年的自然语言处理领域正处于一个尴尬的十字路口。Tomas Mikolov团队在谷歌提出的Word2Vec模型，通过将词语转化为密集向量，革命性地解决了传统one-hot编码的维度灾难问题，让“king - man + woman ≈ queen”的语义类比成为可能。但这个光鲜的突破背后，隐藏着三个致命缺陷：固定词汇表无法处理未登录词（OOV）、德语等形态丰富语言面临词汇爆炸、分词歧义导致语义偏差。当时的行业现状是，神经机器翻译模型在遇到 “奥巴马” 这类专有名词或 “武汉市长江大桥”这类歧义短语时，要么输出 ` 识别，要么因分词错误导致翻译完全失真。谁也没想到，解决这一困境的钥匙，竟然藏在一个诞生于 1994 年的数据压缩技术里。1994 年，PhilipGage提出的字节对编码（BPE）原本用于减少数据存储体积，其核心逻辑是迭代合并频率最高的字节对。这一技术在数据压缩领域沉寂了 21 年，直到 2015 年，来自爱丁堡大学的Rico Sennrich、BarryHaddow和Alexandra Birch团队在研究神经机器翻译时，突然意识到：人类语言的本质也是一种 “可压缩的符号系统”，罕见词、复合词、专有名词都可以拆分为更小的语义单元进行处理。当时的行业环境充满紧迫感：谷歌、百度等科技巨头正全力推进神经机器翻译系统，而未登录词问题成为制约系统落地的最后一道屏障。Sennrich团队观察到一个关键现象：德语 “Donaudampfschifffahrtskapitaensmaetze”（多瑙河蒸汽船公司船长帽）这类超长复合词，本质是基础语义单元的组合；“Obama”这类专有名词虽无固定语义，但可通过字符组合模式识别。这一洞察让他们决定改造BPE技术，将其从数据压缩工具转变为NLP的分词利器。（二）诞生节点：2015 年的技术拐点 2015年 8 月，Sennrich团队在arXiv上发布了里程碑论文《Neural Machine Translation of RareWords with Subword Units》（arXiv:1508.07909），正式将BPE引入自然语言处理领域，这标志着“词元” 作为独立技术概念的诞生。最初的词元形态呈现出三个鲜明特征：一是以字符为基础单位，通过贪心合并算法生成子词级词元；二是词表大小可动态调整，解决了固定词表的局限；三是具备逆向还原能力，确保分词后不丢失原始语义。其核心定位是 “神经机器翻译的未登录词解决方案”，目标用户主要是机器翻译研究者和工程师。一个典型案例能说明其革命性：对于 “loops”“pool”“loot”这组词汇，传统词级分词会将其视为三个独立词，而BPE会先合并最高频的 “oo”形成词元，再合并 “loo”，最终将 “loops”拆分为 “loo”+“ps”，既保留了词根语义，又控制了词表规模。这种 “拆分 - 合并” 的思路，彻底打破了 “词是语言最小单位” 的传统认知，为 “词元” 概念奠定了理论基础。（三）演进历程：从分词工具到智能经济的核心单元 1. 2016-2017：工业验证与技术分化 2016年，Sennrich团队的论文被ACL（计算语言学协会）接收，谷歌随即在其GNMT神经机器翻译系统中采用BPE技术，这是词元首次大规模工业应用。实际应用中，GNMT的未登录词处理准确率提升了 37%，德语 - 英语翻译的BLEU值（机器翻译评价指标）提高 2.3 个百分点，证明了词元技术的实用价值。此时行业面临一个关键决策：是继续优化BPE的贪心合并策略，还是探索新的分词逻辑？谷歌内部出现了分歧：以Schuster为首的团队认为BPE的频率优先原则存在缺陷，可能导致语义不合理的合并；而支持BPE的团队则坚持其简单高效的优势。这种分歧直接催生了 2017 年的技术分化 ——Schuster团队开始研发WordPiece算法，而Sennrich团队则继续迭代BPE。 2017年 6 月，谷歌在《Attention Is All You Need》中提出Transformer架构，这一事件间接推动了词元技术的发展。Transformer的注意力机制对词表大小极其敏感，词元数量直接影响计算复杂度和推理速度，这迫使研究者必须在 “语义准确性” 和 “计算效率” 之间找到更优平衡，为后续词元技术的多样化发展埋下伏笔。 2. 2018：三足鼎立格局形成 2018年成为词元技术的 “爆发年”，三大核心技术相继成型，形成三足鼎立格局： ◦WordPiece的正式发布：2018 年，谷歌在BERT模型中正式推出WordPiece算法。与BPE的频率优先不同，WordPiece的核心创新是 “最大化语言模型概率增益”，其合并标准是 “词对出现频率 /(第一个词频率 × 第二个词频率)”，既保证常见组合合并，又避免过度合并导致语义失真。BERT的成功让WordPiece迅速崛起，其标志性的 “##” 前缀（如 “word”拆分为 “w##o##r##d”）成为行业辨识度最高的词元标识，适配了预训练模型对语义可追溯性的需求。 ◦SentencePiece的跨语言突破：2018 年 8 月 20 日，谷歌研究员Taku Kudo和John Richardson在arXiv发布《SentencePiece: A simple and language independent subword tokenizer》（arXiv:1808 .06226），彻底打破了 “先分词再建模” 的传统流程。SentencePiece的革命性在于将空格视为普通字符，直接处理原始字符流，完美解决了中日等无空格语言的分词难题。它支持BPE和Unigram两种模式，还引入 “子词正则化” 技术，通过训练中采样多种切分方式提升模型鲁棒性。GitHub数据显示，SentencePiece仓库自 2017 年 3 月初始化后，至 2025 年 8 月已更新至 0.2.2 版本，成为多语言模型的首选分词工具。 ◦Unigram的逆向创新：同样在 2018 年，Unigram算法凭借 “逆向思维” 占据一席之地。与BPE、WordPiece的 “从少到多合并” 不同，Unigram采用 “从多到少剪枝” 策略：先构建包含所有可能子串的超大词表，再迭代删除对语料似然性贡献最小的词元。这种方式更适合多语言场景，但计算成本显著高于前两者，主要被T5、mBART等大型预训练模型采用。 2018年 12 月，OpenAI在GPT-2中首次采用字节级BPE（Byte-level BPE），将基础单位从字符改为字节（基础词表固定为 256），彻底解决了多语言字符编码兼容问题，让词元技术实现了 “无语言壁垒” 的突破。 3. 2019-2021：极致优化与形态多样化 2019年后，词元技术进入 “极致优化期”，核心方向是平衡压缩率与语义保留： ◦字节级BPE的普及：2019 年，GPT-2的字节级BPE方案被LLaMA、BART等模型广泛采用。其核心优势是完全消除OOV问题 —— 任何文本都能拆分为字节组合，即使是生僻字、特殊符号也能处理。但这也带来新问题：中文等表意文字的词元数量激增，例如 “中国” 在字节级BPE中可能被拆分为 3-4 个词元，导致计算效率下降。 ◦无分词技术的探索：2021 年，谷歌推出ByT5模型，直接以字节作为词元，完全跳过分词步骤，将词元技术推向 “极简主义”。同年，CANINE模型采用字符级词元 + 下采样压缩技术，在保持语义完整性的同时，将长文本处理效率提升 40%。这两种技术代表了词元形态的两个极端：一个追求极致简洁，一个追求语义精准。这一阶段的行业共识逐渐形成：词元技术没有 “万能方案”，需根据模型场景定制。例如，代码生成模型更适合字节级BPE（处理特殊符号能力强），多语言翻译模型倾向SentencePiece（跨语言兼容性好），短文本任务可选用WordPiece（语义还原度高）。 4. 2022-2026：商业化爆发与术语规范 2022年后，随着ChatGPT等大模型的普及，词元从技术底层走向商业前台，成为智能经济的核心计价单位。2026 年 3 月数据显示，中国日均词元调用量突破 140 万亿，两年增长超千倍，集中在互联网、金融、消费电子等领域，其中非结构化信息处理、教育、内容创作是Top3应用场景。词元的商业化催生了两个关键变化：一是计费模式的标准化，OpenAI、 Anthropic等公司均采用 “词元数 × 单价” 的计费方式，让词元成为可计量、可交易的数字资源；二是行业对术语统一的迫切需求。2026 年 4 月，全国科学技术名词审定委员会正式将 “Token”定名为 “词元”，定义为 “语言文本的基本单位”，“词” 代表语言维度，“元” 代表最小单位。这一定名引发了行业热议：支持者认为 “词元” 精准简洁，符合学术规范；反对者担心其过于生僻，不如 “标记”“切分单元” 通俗，可能重蹈 “鲁棒性” 传播受阻的覆辙。科学网博文指出，“词元” 的优势在于覆盖了从字符、子词到短语的所有形态，完美适配大模型分词的多样化需求，而 “形符”“令牌” 等旧译法要么局限于特定场景，要么脱离语言学本质。（四）关键决策逻辑：技术演进背后的取舍之道 1.2015年：为何选择BPE而非其他压缩技术？ Sennrich团队的核心约束是 “低计算成本 + 高语义保留”。当时可选的压缩技术包括LZ77、霍夫曼编码等，但LZ77依赖滑动窗口，计算复杂度高；霍夫曼编码基于字符频率，无法捕捉组合语义。而BPE的贪心合并策略既能控制词表大小（解决词表爆炸），又能通过子词组合保留语义（解决OOV），且时间复杂度仅为O (nlogn)，适配当时的硬件算力水平。 2.2018年：WordPiece为何放弃频率优先？谷歌团队面临的核心矛盾是 “预训练模型的语义一致性需求”。BPE的频率优先可能导致不合理合并（如 “New”和 “York”因高频合并为 “NewYork”，但 “New”在 “New Jersey”中需单独存在）。WordPiece的似然性增益标准，本质是通过语言模型概率判断 “合并是否符合语义逻辑”，虽然计算成本增加 30%，但为BERT的双向注意力机制提供了更稳定的语义输入。 3.2019年：字节级BPE为何成为大模型首选？ OpenAI的决策背后是 “多语言兼容 + 工程化效率” 的双重考量。当时大模型正从单语言向多语言扩展，不同语言的字符编码（如中文GBK、日文Shift_JIS）带来巨大兼容成本。字节级BPE将所有文本统一为UTF-8字节流，彻底消除编码障碍；同时，固定 256 个基础词元的设计，让词表管理和模型训练的工程化难度大幅降低，尽管牺牲了部分中文处理效率，但换来了全局兼容性。 4.2026年：为何最终定名 “词元”？学界的核心诉求是 “术语的准确性与通用性平衡”。“形符” 仅适用于语料库语言学，“标记” 过于泛化，“令牌” 完全脱离语言场景。而 “词元” 的 “元” 字既呼应了 “元素”“元音” 等术语的构词逻辑，又精准锚定 “最小处理单元” 的核心内涵，同时覆盖了字符、子词、字节等多种形态，成为唯一能适配全场景的译法。二、横向分析：当代词元技术的竞争格局（2026）当前词元技术赛道呈现 “五强争霸” 格局，BPE、WordPiece、Unigram、SentencePiece+BPE、字节级BPE五大技术占据 90% 以上的市场份额，其余技术（如Character-level Tokenization）仅在特定场景应用。以下选取最具代表性的五大技术进行深度对比。（一）核心差异对比（二）用户视角：真实口碑与使用偏差 1.BPE（基础版）：“够用就好” 的务实选择用

点击免费查看完整报告

词元（Token）：大模型时代的语言基石与竞争格局

你可能感兴趣

计算机行业跟踪报告：“Token”中文名确定为“词元”，关注“词元经济”和AI大模型的商业化路径

中泰传媒互联网大模型Token消耗趋势与AI厂商竞争格局追踪

词元革命与OVTP安全范式重塑：智能体时代的安全底层逻辑重建

计算机行业跟踪报告：AI大模型应用能力持续升级，关注词元调用量增长及AI安全的部署需求

火山引擎：8月豆包大模型日均Token调用量及核心产品用量拆分，中短期大模型调用量增长预期及算力需求估计，昆仑芯测试效果及采购规划，与阿里云差异化竞争等20250919

Token消费学研究报告：从语言单位到成本单位、吞吐单位、预算单位与治理单位

表达力&大模型生产力——与大模型的语言游乐场

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

谁在时代的浪花上？乘用车结构化复盘与竞争格局剖析

【电报解读】豆包将推出付费订阅版本！AI大模型从“对话时代”进入“智能体时代”下，Token消耗激增，推理算力需求或将呈“指数级”增长，这家公司产品在电源类新场景应用中已取-20260506