您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [华西证券]:数据&客户优势明显,领跑“专业大模型” - 发现报告

数据&客户优势明显,领跑“专业大模型”

2023-05-16 刘泽晶 华西证券 佛系少女♡佛系少年
报告封面

►垂类大模型成为AI行业落地关键,行业数据的积累与大模型调优是“胜负手” 通用型大模型在带给用户广泛认知方面具有极大优势,但是在垂直领域层面,通用大模型需要根据行业数据进行调优,且存在数据安全性、结果的时效性和准确性等短板。 基于行业数据的“再训练”与“调优”,是构建出高品质行业大模型的关键,因此行业大模型落地需要两项关键能力:行业数据的积累与大模型调优。 其中,行业数据指的是在金融、传媒、政府、医疗等特定领域内的公开和非公开的知识、经验和数据。丰富的行业数据可以迅速提高行业大模型的学习能力,并将其与后来者的差距持续拉大,为厂商提供先发优势。 138191 在垂类大模型落地方面,全球最大的财经咨询公司彭博社发布了专为金融领域打造的大语言模型Bloomberg GPT,大语言模型在金融这一垂直领域的迎来里程碑。同时,国内外厂商也纷纷发力垂类大模型。 数据&客户优势明显,领跑“专业大模型” 根据公司4月26日投资者关系活动记录表显示,2023年开年公司启动了“209”工程,力争在短期内推出trsGPT及基于trsGPT生成的系列AIGC产品,目前相关产品研发及测试工作正在进行中。公司正在研发的trsGPT是在基础大模型之上进行训练和精调,研制面向政务、金融、媒体三个行业的专业大模型,提供公文辅助写作、投研自动报告生成、智能投研问 答、新闻资讯知识型搜索、以文生图配稿等服务。关于trsGPT的预计推出时间,公司表示计划在今年上半年推出。 根据公司年报,公司已经在媒体、政府等行业深耕了20年以上,在金融、安全行业也厚植了15年以上,积累了一大批行业头部标杆和优质用户。 拓尔思2010年自建大数据中心,以长期服务多行业用户持续累积的公开信源数据为基础,拥有了规模及质量均位列业界前茅的公开信源大数据。数据总量1400亿条以上,每日新增数据量高达1亿多条,秒级采集更新。数据采集覆盖面、数据存储量及日均增量都明显高于业内水平。 下游行业应用场景丰富:以文生图、知识搜索和辅助写作(媒体行业),政策研读和比对(政府行业),智能投研问答与产业报告生成(金融行业),公司同时具有客户、数据、行业Know-How等多重优势,AI时代快速发展可期。 投资建议 根据公司年报数据,我们下调公司23-24年营收15.06/19.48亿元的预测,新增25年营收预测,至23-25年营收预测12.20/15.44/19.35亿元; 下调23-24年每股收益(EPS)0.60/0.78元的预测,新增25年每股收益(EPS)预测,至23-25年分别为0.43/0.63/0.83元,对应2023年5月15日26.88元/股收盘价,PE分别为61.8/42.8/32.6倍,维持公司“买入”评级。 风险提示 疫情导致全球经济下行的风险,行业竞争加剧导致盈利水平下降,核心技术突破进程低于预期,公司核心人才团队流失风险。 1.垂类大模型成为AI行业落地关键,行业数据的积累与大模型调优是“胜负手” 目前ChatGPT、文心一言已经被大众所熟知,通用型大模型在带给用户广泛认知方面具有极大优势。但是在垂直领域层面,通用大模型需要根据行业数据进行调优,且存在数据安全性、结果的时效性和准确性等短板。 通用大数据的知识覆盖范围虽然广泛,但是在金融、政务、传媒等数据开放程度较低、知识获取壁垒较高的领域,由于缺乏足够的行业数据,无法直接商业落地。另一方面,现有的大数据模型多以语义集成为基础,在内容输出(如创新性、洞察力和深度)方面存在不足。而更深层次的人工智能则是面向特定的商业场景,并以垂直产业的数据为基础进行训练。 此外,行业应用对准确性、时效性要求较高,通用大模型存在人工指令难以理解、推理结果不唯一、推理结果不符合规则等问题,使得其推理的质量很难应用到那些对系统结果的安全性、时效性和准确性有很高的要求的行业场景中。 “高质量”的行业数据,能够准确地适应不同的应用场景,并确保其结果的有效性、可控性和可操作性,是实现大规模大数据商业化的前提。“高质量”行业大模型的建立,要求将大模型与行业数据相结合,再进行行业大模型的进一步训练,从而形成行业大模型,并对其进行优化实施,基于行业数据的“再训练”与“调优”,是构建出高品质行业大模型的关键,因此行业大模型落地需要两项关键能力:行业数据的积累与大模型调优。 其中,行业数据指的是在金融、传媒、政府、医疗等特定领域内的公开和非公开的知识、经验和数据。丰富的行业数据可以迅速提高产业大模型的学习能力,并将其与后来者的差距持续拉大,为厂商提供先发优势。 在垂类大模型落地方面,全球最大的财经咨询公司彭博社发布了专为金融领域打造的大语言模型BloombergGPT,大语言模型在金融这一垂直领域的迎来里程碑。同时,其它国内外厂商也纷纷发力垂类大模型。 Bloomberg GPT Bloomberg也推出垂类大模型的产品:Bloomberg GPT。和to C场景不同,金融领域需要更高的准确性和可靠性,所以Bloomberg GPT在模型层数和参数量上会有明显增加,并采用混合精度的训练策略。 在模型的预训练阶段,除了使用通用的大规模文本数据,还会特意加入大量金融领域的数据,如金融新闻、报告、研究论文等。丰富的行业数据有助于模型在预训练阶段就学习到丰富的金融知识。相比于ChatGPT这种通用大模型,BloombergGPT在金融相关任务中表现出较高的性能和专业性,比如实时金融数据处理,能更好的服务于金融领域的需求。 毫末智行 毫末智行专注于自动驾驶认知大模型,通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。 毫末智行在自动驾驶这个垂类场景中具有独特的反馈模型,和通用场景的用户反馈不同,DriveGPT的反馈模型使用带有偏序关系的Pair样本对来训练,这些样本对来自于接管Case,毫末将与人类驾驶结果相似的模型结果作为正样本,与被接管轨迹相似的作为负样本,这样来构建偏序对集合,再利用LTR (Learning To Rank)的思路去训练Reward Model,进而得到一个打分模型。 三)Character.AI Charater.AI专注于UGC的个性化聊天机器人,Charater.AI搭建了端到端的全工程栈 ,覆盖从模型的开发、训练 , 到数据的收集、终端应用整条价值链 。 Character.AI开发了自己的类似于GPT的Pre-trained模型,这种Pre-trained模型拥有高效的LLM推理算法,推理成本远远低于ChatGPT。 和通用大模型相比,Character.AI的模型更强调Customized和RLHF (反馈优化)。不同形象的聊天机器人会针对特定人设,根据特定人设进行基于大量对话、文章、新闻报道或其他数据的调优,让这个角色输出内容更有个性化。同时,将RLHF深刻的嵌入到模型中,通过用户和形象的对话交互来不断迭代优化模型风格。 2.数据&客户优势明显,领跑“专业大模型” 2.1.从NLP到大模型,发力专业大模型 根据公司年报,自成立以来,拓尔思始终坚持核心技术自主研发,拥有40+发明专利、600+软件著作权,一直引领全文检索和搜索引擎数据库、自然语言处理(NLP)技术的原始创新和应用场景落地,是国内最早从事NLP研发的企业之一,专注的语义智能细分领域属于人工智能中的认知智能领域。 公司从2000年开始自主研发NLP,率先将中文分词、自动分类、相似文本检索等相关技术深度集成到公司的全文检索系统中,用于商业落地。经过20多年的发展,目前,公司聚焦NLP、知识图谱、图像检索三大核心技术,结合机器人流程自动化技术,面向不同应用场景,形成了一套完整的多模态人工智能产品体系,可为广大用户提供文本、音视频、多模态等全栈AI服务能力。 公司将行业知识图谱等语义知识应用于深度学习中,通过知识驱动+大数据驱动,实现AI学习效果提升。同时,公司实现了图像、视频、音频与文本的多模态融合的深度语义匹配,通过OCR识别、以图搜文、以文搜图、视频搜索、音频搜索等功能,可实现图像、声音与文本之间的跨模态语义识别与检索。公司专注20年自然语言处理技术的研发,以商业化、市场化、产业化为目的,每次迭代的人工智能技术都能及时高效地融入到各行业产品中,在媒体融合、智慧专利、智慧公安、智慧舆情、智慧金融、开源情报分析等不同应用场景中,实现科技成果转化到技术商业化。 公司积极拥抱大模型发展,启动了trsGPT的研发,其技术栈可以分为5层: 应用层:将trsGPT生成的trsGPT-G(政务专业模型)、trsGPT-F(金融专业模型)、trsGPT-M(媒体专业模型)三大行业模型(可通过接口)集成到自研云服务或面向用户的应用程序,运行自有模型或通过第三方接口运行模型,帮助用户使用trsGPT带来的人工智能协作能力和生成能力,形成各类行业应用,如公文辅助写作、投研自动报告生成、智能投研问答、新闻资讯知识型搜索、以文生图配稿等。 接口层:将应用层和模型层衔接,方便应用层调用,使得开发者和用户能够以编程方式与模型进行交互。这可以简化trsGPT在实际应用中的部署和调用,从而降低使用门槛。 模型层:trsGPT支持接入各类主流大模型,包括各类开源或非开源模型,以及各种模型的共享平台。大模型负责向trsGPT模型输出模型能力,trsGPT模型更精确地处理自己“擅长”的任务。这一层提供了不同的模型数据和功能,通过接口层为应用层提供专业模型的功能支持,包括各种调用API和数据中心调用工具,同时提供对应的提示工程接口和模型精调接口等。 框架层:提供训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow等知名深度学习框架和中间件。 计算层:为模型层提供模型计算和调度的各种算力支持,为训练AI模型运行训练和运行推理任务提供基础设施。计算层包括了各种云计算平台和计算芯片。 根据公司4月26日投资者关系活动记录表显示,2023年开年公司启动了“209”工程,力争在短期内推出trsGPT及基于trsGPT生成的系列AIGC产品,目前相关产品研发及测试工作正在进行中。公司正在研发的trsGPT是在基础大模型之上进行训练和精调,研制面向政务、金融、媒体三个行业的专业大模型,提供公文辅助写作、投研自动报告生成、智能投研问答、新闻资讯知识型搜索、以文生图配稿等服务。 关于trsGPT的预计推出时间,公司表示计划在今年上半年推出。 2.2.具备客户、数据多重优势,应用空间广阔 根据公司年报,公司自1993年成立就开始承接新闻媒体单位的中文新闻资讯全文检索和媒体采编项目。1999年,国家推出“政府上网工程”,公司开始进入政府信息化建设领域。2006年,中国银行筹建京沪信息中心,发动百亿IT计划,拓尔思成为中国银行全球官网的服务商。2007年,公司与北京市公安局合作,成为其警务综合系统核心数据底座中非结构化信息处理和全文检索的服务商。 现在公司已经在媒体、政府等行业深耕了20年以上,在金融、安全行业也厚植了15年以上,积累了一大批行业头部标杆和优质用户,如媒体行业服务了72%的中央媒体,61%的省级媒体,40%的行业媒体等用户;政府行业服务了80%的中央和国务院机构,60%的省级政府,50%的地市政府等用户;金融行业服务了5大国有银行、3大政策性银行、50%的股份制商业银行等用户;公安行业服务了公安部及32个省市160多个地市公安用户。企业客户包括中国能建、中国铁路、国投集团、国家电网、南方电网、中国人民保险、潍柴动力、海尔集团、鲁信集团、百胜集团、中国通用、上汽通用、九毛九集团、山东航空、浙江国贸等大型企业。 长期的行业客户深耕,推动了公司行业应用向纵深发展,业务主要聚焦在内容管理、大数据、人工智能、数据和云服务等领域。未来大模型赋能,公司与客户的粘性、合作深度有望