行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

精益地打造金融专家智能体

2024-08-16-文因互联严***

AI智能总结

研报总结

1. 主要内容概述

北京文因互联科技专注于打造金融专家智能体，强调知识工程的重要性，并提出“重”白和“轻”白的知识项目。公司回顾了Halo项目的历史，强调了知识获取和自动推理中的挑战。

2. 关键数据

Halo项目：长期目标是开发一个可以解决复杂的科学问题或日常问题的推理系统，应用于教育领域。
知识项目：
- Memory Connected+ benefitcost：成本为800元。
- Memory Connected+ benefitIdeaLearnBuildMVPDataCodeMeasurecost：成本为900元。
成本：每个做课本形式化的“专家”要训练20小时；做考题形式化的训练4小时。
正确率：2002年Halo Pilot系统，能达到30%-50%正确率。
成本问题：一本教科书至少200页，需要10万美元以上才能形式化，需要一个专家一整年的时间。
数据规模：沃森系统有2亿页数据，AURA系统需要1000亿美元的成本。

3. 工程与成本

工程：强调软件工程的成熟度，指出知识工程和软件工程的发展历程。
成本：强调平衡成本和精度的重要性，提出“小数据”方法在中小型问题中的关键作用。

4. 提示工程

定义：提示工程是一种更广泛的概念，涉及设计和优化提示的输出，以获得期望的模型行为和输出。
优化流程：包括RAG（检索增强生成）、微调、上下文优化等。
迭代开发：通过错误分析、实验结果、优化实施等步骤不断改进提示词。

5. 未来展望

新范式：基于大模型的新范式，无代码、无标注，具有高泛化能力。
应用落地：强调从朴素的运维、数据库、数据清洗做起，逐步演化。
提示工程实验室：提供金融领域的大模型提示词编写、管理、发布工具，特别定制了S2PI提示词框架。

总结

北京文因互联科技致力于通过知识工程和大模型推动软件开发及人工智能应用的发展，强调成本控制和工程实践的重要性。公司通过回顾Halo项目的历史，展示了知识获取和自动推理中的挑战，并提出了基于大模型的新范式和提示工程方法，以应对复杂的数据和应用场景。

文因互联鲍捷2024-08-16 极客邦科技2024年会议规划促进软件开发及相关领域知识与创新的传播为什么需要精益人工智能问题说到底是一个经济学问题不仅是算法问题知识工程问题说到底是一个自由的经济学问题不仅是算法问题 “重”白的知识项目 “轻”白的知识项目 20年前是怎么做的？回顾Vulcan的AURA项目，理解约束 APaulG.AllenCompany Halo的组件和后续 Halo Project ·长期目标是开发一个数字亚里斯多德（Digital Aristotle）系统，一个可以解决复杂的科学问题或者日常问题的推理系统 ·它的主要应用域是教育，并试图解决知识获取和自动推理中的若干问题。声明：本人与Halo计划没有关系。本支仅是阅读和访谈笔记http://baojie.0rg/blog/2011/04/29/vulcan/ 日Halo团队总负责人MarkGreaves David GunningAURAVinay K Chaudhri(SRI) : Mike Dean 1961-2014我曾经的mentor :SMW : SMw(Semantic MediaWiki)+。 ·SMW自己是开源的，SMW+对SMW做了很多扩展，统称为Halo Extension。·比如一些标注工具，本体编辑器，可视化，项目管理插件等等。 ·有些任务外包到ontoprise（一个德国公司）。 Halo Extension : SI LK ·SILK（SemanticInferencing on Large Knowledge），主要是研究表达力很强的规则语言（rulelanguage）。 ·SlLk是一种default LP，基于良基语义（well-founded semantics），里面集成了强否定，弱否定（NAF）和高阶逻辑（HiLog）。他们还定义了一个RIF的非官方方言，RIF SILK。 ·Benjamin Grosof，以前是MIT的研究员和RuleML的一个主要设计者。合作伙伴是BBN Technologies,主要是和Mike Dean，一个非常资深的语义网专家和DAML的设计者之一。 http://silk.semwebcentral.org/ : AURA : AURA (Automated User-Centered Reasoning and Acquisition System):面向用户的自动推理和获取系统。 ·主要是做教科书的形式化，集中在生物、化学、物理三个专业。 ·方法主要是逻辑的，用描述逻辑（descriptionlogic），逻辑规划（logicprogramming）等。 ·Vulcan自己这边的主管是David Gunning，他以前在DARPA管PAL（后来变成Siri）。工作外包给SRlInternational来做。负责人是VinayKChaudhri。：Aura架构目目的 ·特定领域的O/A：本科入门水平的生物、化学、物理教科书。目前实现的系统可以算是“考试机器人”，能回答选择题。终极目标是HaloBook，一种新形式的电子教科书。一个应用：Inquire foriPad(平板上的教科书) . David Gunning, Vinay K. Chaudhri et al. Project Halo Update - ProgressToward Digital Aristotle. 33-58. Al Magazine, Volume 3l, Number 3, Fall2010 日知识表现 ·【知识表现】把课本和考试题都用逻辑公式来表示（由两组人分别搞）。用到了DL和LP。用到一个通用知识库Component Libaray (CLIB)。也用到语义网的数据。 ·为什么不象Watson用NLP做自动分析（automaticreading）？作者称：1）语言理解难；：2）不认为教科书（专业知识）可以用NLP自动建模；·3）公式和图表很难NLP 【受控自然语言】考题的形式化用Controlled English-CPL（Computer-processable language ：推理 ·问题回答是用逻辑推理，推理机是Knowledge Machine（UT Austin）。但是也有非逻辑的，启发式推理（heuristic and plausible）c ·推理过程给出了Explanation（解释）。和Provenance工作相关。：界面 ·逻辑公式用概念图（concept map）来表示，内部表示大概是Lisp。也用SMW的Halo Extension做界面。 ·评价：我认为，全图形化的输入界面才是主道，并加以各种提示工具，如在用人机交互帮助思考和联想。目标应放在0培训。：成本 ·但是他们这种方法成本很高。 ·每个做课本形式化的“专家”要训练20小时；做考题形式化的训练4小时。·形式化的课本：生物44页，化学67页，物理78页。专家（SRI自已的科学家）在生物上做了600小时的标注，平均每页13.6小时。 ·在美国企业里，这种级别的雇员至少要8万美元每年，按250个工作日，每小时40美元。也就是这44页要（不算开始的训练时间）2.4万美元，每页545美元。：成本一本教科书至少200页（美国的教科书500页以上的很正常），那要10万美元以上才能形式化，要花一个专家一整年的时间。·沃森系统有2亿页数据，照AURA这么做要1000亿美元。 ·专家做120小时的标注和非专家（本科生）做300小时的标注效果类似（回答书外的问题60%正确率）。：非专家做120小时标注正确率只有21%。：正确率：【正确率】在2002年的HaloPilot系统，能达到30%-50%正确率。对生物和物理，专家建的系统能答对70%参考书上的问题，和40%书外的问题。化学差些。思考的问题（2010年）的复盘（2024) l．是否可以扩展（generalize）到其他问题域?(现在可以) 2. 吴是否能处理大量数据（scale）？(现在可以) 3.受控自然语言的有效性。(基本不需要了) 4.如何更好利用外部数据如linked data?(GraphRAG) 5.如何多种方法综合使用，比如用NLP做种子知识生成？参考沃森。(生成式模型一统江湖) 6．如何降低综合成本？（预训练模型+提示工程）思考：知识的来源?(2010年) ·问答系统有基于知识库的方法，基于信息检索的方法，和它们的混合。 ·思考7：深度学习会有突破吗?(是的，走向大模型) ·对于有大量样本数据的场景，基于信息检索的方法可以降低成本。(是的,RAG) ，但对于专业细分领域，或大量长尾查询的场景，检索方法正确率不会高。 ·结构化知识建模是绕不过去的坎。（真实落地依然是的）思考：知识的来源?(2010年) ·结构化知识建模是绕不过去的坎 ·思考8：知识图谱是对传统逻辑建模的扬弃。（大模型提升了知识图谱的构造效率，但并没有消灭知识图谱 ·思考9：知识建模不能忽略手工方法，知识编辑工具可能是破局的关键(错) ·思考10：平衡知识粒度和成本，在检索方法和传统“实体-关系”型知识军之间有很长的过渡带，例如distant supervision，memization(走向大模型) 日知识工程开发的核心是迭代，知识开发的核心是送代，线上可用的系统，一般经过统计、规则、编辑三步提取。统计方法粗过一遍，但一般难以达到可用程度，后面还是要靠人工。规则是可重复的人工投资，编辑是不可重复的人工。送代就是提高可重复的人工投资的比例，并反馈到统计系统。，掌炼钢做比愉。统计当于选矿，提供些可用的原材料。规则相当于炼出铁，勉强可用。编辑相当于锻打，让材料达到做零件可用的特性。：我们要用各种方法来改进炼铁和锻打的效率，但是这不是加强选矿就能替代的。当代依然是“有多少人工才有多少智能”。当代的统计就是天模型，规则就是Agent，编辑就是提示工程（运营时刻交互），迭代的目的是控制成本。从文本到知识有巨大的成本。分类是一种，实体识别是一种，分布式表示（如预训练模型、大语言模型）是一种。很多时候我们并不需要精确的知识，而只需要用户可感知的满意度。我们没有必要过度优化。我们也完全可能统筹统计、规则、编辑来降低成本 AI落地的关键是工程 AI落地的关键是工程！日什么是工程？误删了一大段代码后发现软件还能跑起来，这个时候我们一定不要动他：什么是工程？ tNews编程的第一法则：如果您的代码以某种莫名方式跑起来了，就不要在碰它了。：什么是工程？日什么是工程？明星不愿意做小事小事不需要明星所以他们都β“死了” 年轻人喜欢大模型成年人只看数据清理大象不能缩放成老鼠 ·做知识厂程，很容易犯的错误，是把实验室成果外推，认为能应用到大儿人数量级的数据上。而在实践中，一个人用的东西和十个人用的截然不同，1G数据的分析和1T数据的分析截然不同，不是上大数据/大模型就能解决的。这里面有太多人的因素，人是没法大数据，大模型化的。 ·反之亦然，在大市场、大数据上有效的算法，在小市场、小数据上效果反而不好。创业公司就不能眼睛前看大公司，觉得他们怎么做我们就follow，只要把规模缩小了就可以了。可是大象的骨骼结构小老鼠是不能按比例循小的。 ·对于大多数的芸芸众生，去追Meta/OpenAI这些巨头的风恐怕有些李德主义。算法的好坏取决与成本，取决与规模。对于占大多数的中小型问题，恐怕“小数据”方法才是关键就是用最低的成本，尽可能的利用小的数据规模和机器规模，尽可能的利用先验知识，尽可能的缩宿短投入产出周期日颠覆大象 ·无论是从技未还是市场，到了拼系统的程度，就只有数据隶主，主要是天的数据双录才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场（不然哪里来那么多免费数据浪费）。但是现实市场中大多数问题并不需要这么大规模。这会是个典型的创新者的窘境：绝大多数的认知智能问题的制约瓶颈不是算法，也不是系统，而是数据。能到拼系统阶段的都是王豪了，大多数公司还没到这个奢侈的阶段就死了。在此阶段前，只要数据好，什么烂算法和烂系统都能somehowwork。但是数据是最贵的，上量贵，清理贵。找一个理解数据，算法和系统的人更贵 ·和天多数其他工程问题一样，制约技未选型的不是一人技未酷不酷，而是看它全周期的投入成本和维护成本。投入成本不仅要看机器成本，更主要是人力成本。采用成熟技术有助于降低成本，前沿技术向下渗透速度并不会那么快。深度学习和历史上的神经网络一样，维护成本并不低，不会是方灵药，系统的可解释性，可读性，可维护性，可进化性。数据的自描述性，多能性。结构化数据（含知识图谱）与非结构化数据的混合。我觉得这些都是可能的突破点，因为它们着眼于Value，降低成本。日小数据（也就是知识）的特性 ·value价值，不是连垃圾都存起来，而是特别关心数据的价值密度，提高投入产出比。 ·veracity真实性，关心数据的可验证性，可用性，自描述性等。 ·versatility多能性，因为数据要用来交换，在交换中增值，所以要适应未知的应用。 A丨应用落地，一定要特别特别“ 踏踏实实从朴素的运维、数据库、数据清洗做起，逐步演化。如何按天选代?如何构造联调系统？如何无标注数据启动？如何分离准确度和召回率要求?如何统一运用规则和大模型？如荷适应无明确衡量标准的开发？如何设计可演进的数据模式？如何提升数据可理解性?如何逐步提升规则/Agent flow/RAGFlow系统的表达力?如何平衡黑箱和白箱模型的优缺点？如荷在优雅架构和工期间取舍？：知识工程 vs 软件工程的成熟度知识工程软件工程提示工程的意义大模型（L

点击免费查看完整报告