核心观点与背景
FinNLP 在非结构化数据爆炸式增长背景下取得巨大进步,传统金融分析结合 NLP 神经结构,应用于股票价格预测、波动性预测等任务。时间序列模型(如 VIX 指数、ARCH、GARCH)和文本数据(财经新闻、社交媒体、10K/10Q 报告、收入电话会议)是主要方法。
研究背景与问题
盈利电话会议中,语言模型对数字的处理能力不足。现有研究涉及数字幅度比较(如华莱士,2019)、数字类别分类(货币、时间、百分比,如 Chen,2019),但缺乏对数字在文本中嵌入的深入探索(Wallace,2019;Chen,2021)。
相关工作
Yang(2020)提出基于分层变压器的 HTML 多波动率预测模型,融合多模态信息,但未专门针对数值处理进行优化。
方法论
提出 NumHTML 模型,通过四步改善数字表示质量:
- 词级编码器:分类数字类别(货币、时间、百分比)。
- 多媒体信息融合:结合文本和音频数据。
- 句子级编码器:提取数值上下文。
- 帕累托多任务学习(Pareto MTL):同时优化股票预测、波动率预测和交易模拟任务。
数据集
多模式收益电话会议数据集,包含 576 次电话会议录音(88,829 个文本-音频对齐句子),按时间顺序拆分为 7:1:2 的训练/验证/测试集。
实验设计
- 股票预测任务:回归(MSE 损失)。
- 股票波动率预测任务:回归(MSE 损失)。
- 交易模拟任务:计算利润和夏普比率。
消融研究
通过逐步移除 NumHTML 的关键组件,验证各模块的有效性。
结论
NumHTML 模型通过数值增强和帕累托多任务学习,显著提升金融文本中数字的处理能力,为股票预测和交易模拟提供更准确的依据。