核心观点与关键数据
任务背景与意义
数据到文本生成技术旨在将结构化数据转化为自然语言描述,应用于自动赛事播报、电商产品描述、电子病历、金融市场报告和对话回复生成等场景。结构化数据专业性强、难以解读,而互联网上的结构化数据覆盖范围广但难以聚焦,因此需要该技术实现数据的有效利用和表达。
常用数据集
常用数据集包括RotoWire、ESPN、Wikibio、Wikiperson、E2E和Logic2Text等,这些数据集以表格、键值表格、三元组或逻辑表达等形式表示结构化数据。
结构化数据的表示
结构化数据可以通过Encoder/Decoder架构、Recurrent Neural Network、Transformer和预训练模型等方式进行表示。Word-Attribute向量拼接、键值表内嵌等方式将属性视为词语,实现数据的自然语言描述。
融入规划的数据描述
融入规划的数据描述技术通过显式规划和隐式规划两种方式实现可控生成。显式规划包括内容选择规划、描述顺序规划和描述句式规划,通过单独训练规划生成网络和描述生成网络实现细粒度控制。隐式规划则通过MoE离散隐变量规划、变分连续隐变量规划和链式离散隐变量规划等方式,定义隐变量结构并优化后验概率,实现多样化的文本描述。
显式规划技术
显式规划技术通过定义明确的规划生成网络和描述生成网络,实现对段落结构、描述顺序和句式结构的细粒度控制。例如,Ma S等人的工作提出基于关键事实作为枢轴的两阶段模型,Liu T等人提出基于实体中心的开放域表格到文本生成模型,Pud uppully R等人提出基于宏规划的表格到文本生成模型,Moryossef A等人提出基于句子级别和段落句子描述顺序的模型。
隐式规划技术
隐式规划技术通过定义隐变量结构,无需明确知晓数据-文本对齐,实现多样化的文本描述。例如,Gehrmann S等人提出基于Mixture of Experts (MoE)的离散隐变量规划,Ye R等人提出基于变分模板机的连续隐变量规划,Wiseman S等人提出基于数据描述模板隐变量序列的离散隐变量规划。
数据描述评价
数据描述评价方法包括基于N-gram匹配的评价(如BLEU、ROUGE、METEOR)、基于编辑距离的评价(如TER、PER、CDER)和基于向量的评价(如BERTscore、Moverscore)。挑战在于未考虑结构化数据的输入和Reference可能包含噪声。Liu T等人提出基于信息丰富度的增强学习,Dhingra B等人提出处理分歧参考文本的评价方法。Liu T等人还提出基于词级别和关键字级别信息丰富度的方法,以及基于最长公共子串的覆盖度计算方法。
研究结论
数据到文本生成技术通过显式规划和隐式规划两种方式,实现了对结构化数据的可控和多样化描述。显式规划技术具有细粒度控制和可解释性强的优点,适用于长文本生成任务;隐式规划技术则具有无需明确知晓数据-文本对齐的优点,适用于短/中文本生成任务。数据描述评价方法不断发展,以更准确地评估生成文本的质量和忠实度。