您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[文因互联]:精益地打造金融专家智能体 - 发现报告

精益地打造金融专家智能体

2024-08-16-文因互联严***
AI智能总结
查看更多
精益地打造金融专家智能体

文因互联鲍捷2024-08-16 极客邦科技2024年会议规划 促进软件开发及相关领域知识与创新的传播 为什么需要精益 人工智能问题说到底是一个经济学问题不仅是算法问题 知识工程问题说到底 是一个自由的经济学问题 不仅是算法问题 “重”白的知识项目 “轻”白的知识项目 20年前是怎么做的? 回顾Vulcan的AURA项目,理解约束 APaulG.AllenCompany Halo的组件和后续 Halo Project ·长期目标是开发一个数字亚里斯多德(Digital Aristotle)系统,一个可以解决复杂的科学问题或者日常问题的推理系统 ·它的主要应用域是教育,并试图解决知识获取和自动推理中的若干问题。 声明:本人与Halo计划没有关系。本支仅是阅读和访谈笔记http://baojie.0rg/blog/2011/04/29/vulcan/ 日Halo团队 总负责人MarkGreaves David GunningAURAVinay K Chaudhri(SRI) : Mike Dean 1961-2014我曾经的mentor :SMW : SMw(Semantic MediaWiki)+。 ·SMW自己是开源的,SMW+对SMW做了很多扩展,统称为Halo Extension。·比如一些标注工具,本体编辑器,可视化,项目管理插件等等。 ·有些任务外包到ontoprise(一个德国公司)。 Halo Extension : SI LK ·SILK(SemanticInferencing on Large Knowledge),主要是研究表达力很强的规则语言(rulelanguage)。 ·SlLk是一种default LP,基于良基语义(well-founded semantics),里面集成了强否定,弱否定(NAF)和高阶逻辑(HiLog)。他们还定义了一个RIF的非官方方言,RIF SILK。 ·Benjamin Grosof,以前是MIT的研究员和RuleML的一个主要设计者。合作伙伴是BBN Technologies,主要是和Mike Dean,一个非常资深的语义网专家和DAML的设计者之一。 http://silk.semwebcentral.org/ : AURA : AURA (Automated User-Centered Reasoning and Acquisition System):面向用户的自动推理和获取系统。 ·主要是做教科书的形式化,集中在生物、化学、物理三个专业。 ·方法主要是逻辑的,用描述逻辑(descriptionlogic),逻辑规划(logicprogramming)等。 ·Vulcan自己这边的主管是David Gunning,他以前在DARPA管PAL(后来变成Siri)。工作外包给SRlInternational来做。负责人是VinayKChaudhri。 :Aura架构 目目的 ·特定领域的O/A:本科入门水平的生物、化学、物理教科书。目前实现的系统可以算是“考试机器人”,能回答选择题。终极目标是HaloBook,一种新形式的电子教科书。 一个应用:Inquire foriPad(平板上的教科书) . David Gunning, Vinay K. Chaudhri et al. Project Halo Update - ProgressToward Digital Aristotle. 33-58. Al Magazine, Volume 3l, Number 3, Fall2010 日知识表现 ·【知识表现】把课本和考试题都用逻辑公式来表示(由两组人分别搞)。用到了DL和LP。用到一个通用知识库Component Libaray (CLIB)。也用到语义网的数据。 ·为什么不象Watson用NLP做自动分析(automaticreading)?作者称 :1)语言理解难;:2)不认为教科书(专业知识)可以用NLP自动建模;·3)公式和图表很难NLP 【受控自然语言】考题的形式化用Controlled English-CPL(Computer-processable language :推理 ·问题回答是用逻辑推理,推理机是Knowledge Machine(UT Austin)。但是也有非逻辑的,启发式推理(heuristic and plausible)c ·推理过程给出了Explanation(解释)。和Provenance工作相关。 :界面 ·逻辑公式用概念图(concept map)来表示,内部表示大概是Lisp。也用SMW的Halo Extension做界面。 ·评价:我认为,全图形化的输入界面才是主道,并加以各种提示工具,如在用人机交互帮助思考和联想。目标应放在0培训。 :成本 ·但是他们这种方法成本很高。 ·每个做课本形式化的“专家”要训练20小时;做考题形式化的训练4小时。·形式化的课本:生物44页,化学67页,物理78页。专家(SRI自已的科学家)在生物上做了600小时的标注,平均每页13.6小时。 ·在美国企业里,这种级别的雇员至少要8万美元每年,按250个工作日,每小时40美元。也就是这44页要(不算开始的训练时间)2.4万美元,每页545美元。 :成本 一本教科书至少200页(美国的教科书500页以上的很正常),那要10万美元以上才能形式化,要花一个专家一整年的时间。·沃森系统有2亿页数据,照AURA这么做要1000亿美元。 ·专家做120小时的标注和非专家(本科生)做300小时的标注效果类似(回答书外的问题60%正确率)。 :非专家做120小时标注正确率只有21%。 :正确率 :【正确率】在2002年的HaloPilot系统,能达到30%-50%正确率。对生物和物理,专家建的系统能答对70%参考书上的问题,和40%书外的问题。化学差些。 思考的问题(2010年)的复盘(2024) l.是否可以扩展(generalize)到其他问题域?(现在可以) 2. 吴是否能处理大量数据(scale)?(现在可以) 3.受控自然语言的有效性。(基本不需要了) 4.如何更好利用外部数据如linked data?(GraphRAG) 5.如何多种方法综合使用,比如用NLP做种子知识生成?参考沃森。(生成式模型一统江湖) 6.如何降低综合成本?(预训练模型+提示工程) 思考:知识的来源?(2010年) ·问答系统有基于知识库的方法,基于信息检索的方法,和它们的混合。 ·思考7:深度学习会有突破吗?(是的,走向大模型) ·对于有大量样本数据的场景,基于信息检索的方法可以降低成本。(是的,RAG) ,但对于专业细分领域,或大量长尾查询的场景,检索方法正确率不会高。 ·结构化知识建模是绕不过去的坎。(真实落地依然是的) 思考:知识的来源?(2010年) ·结构化知识建模是绕不过去的坎 ·思考8:知识图谱是对传统逻辑建模的扬弃。(大模型提升了知识图谱的构造效率,但并没有消灭知识图谱 ·思考9:知识建模不能忽略手工方法,知识编辑工具可能是破局的关键(错) ·思考10:平衡知识粒度和成本,在检索方法和传统“实体-关系”型知识军之间有很长的过渡带,例如distant supervision,memization(走向大模型) 日知识工程开发的核心是迭代 ,知识开发的核心是送代,线上可用的系统,一般经过统计、规则、编辑三步提取。统计方法粗过一遍,但一般难以达到可用程度,后面还是要靠人工。规则是可重复的人工投资,编辑是不可重复的人工。送代就是提高可重复的人工投资的比例,并反馈到统计系统。 ,掌炼钢做比愉。统计当于选矿,提供些可用的原材料。规则相当于炼出铁,勉强可用。编辑相当于锻打,让材料达到做零件可用的特性。 :我们要用各种方法来改进炼铁和锻打的效率,但是这不是加强选矿就能替代的。当代依然是“有多少人工才有多少智能”。 当代的统计就是天模型,规则就是Agent,编辑就是提示工程(运营时刻交互) ,迭代的目的是控制成本。从文本到知识有巨大的成本。分类是一种,实体识别是一种,分布式表示(如预训练模型、大语言模型)是一种。很多时候我们并不需要精确的知识,而只需要用户可感知的满意度。我们没有必要过度优化。我们也完全可能统筹统计、规则、编辑来降低成本 AI落地的关键是工程 AI落地的关键是工程! 日什么是工程? 误删了一大段代码后发现软件还能跑起来,这个时候我们一定不要动他 :什么是工程? tNews编程的第一法则:如果您的代码以 某种莫名方式跑起来了,就不要在碰它了。 :什么是工程? 日什么是工程? 明星不愿意做小事 小事不需要明星 所以他们都β“死了” 年轻人喜欢大模型成年人只看数据清理 大象不能缩放成老鼠 ·做知识厂程,很容易犯的错误,是把实验室成果外推,认为能应用到大儿人数量级的数据上。而在实践中,一个人用的东西和十个人用的截然不同,1G数据的分析和1T数据的分析截然不同,不是上大数据/大模型就能解决的。这里面有太多人的因素,人是没法大数据,大模型化的。 ·反之亦然,在大市场、大数据上有效的算法,在小市场、小数据上效果反而不好。创业公司就不能眼睛前看大公司,觉得他们怎么做我们就follow,只要把规模缩小了就可以了。可是大象的骨骼结构小老鼠是不能按比例循小的。 ·对于大多数的芸芸众生,去追Meta/OpenAI这些巨头的风恐怕有些李德主义。算法的好坏取决与成本,取决与规模。对于占大多数的中小型问题,恐怕“小数据”方法才是关键就是用最低的成本,尽可能的利用小的数据规模和机器规模,尽可能的利用先验知识,尽可能的缩宿短投入产出周期 日颠覆大象 ·无论是从技未还是市场,到了拼系统的程度,就只有数据隶主,主要是天的数据双录才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场(不然哪里来那么多免费数据浪费)。但是现实市场中大多数问题并不需要这么大规模。这会是个典型的创新者的窘境 :绝大多数的认知智能问题的制约瓶颈不是算法,也不是系统,而是数据。能到拼系统阶段的都是王豪了,大多数公司还没到这个奢侈的阶段就死了。在此阶段前,只要数据好,什么烂算法和烂系统都能somehowwork。但是数据是最贵的,上量贵,清理贵。找一个理解数据,算法和系统的人更贵 ·和天多数其他工程问题一样,制约技未选型的不是一人技未酷不酷,而是看它全周期的投入成本和维护成本。投入成本不仅要看机器成本,更主要是人力成本。采用成熟技术有助于降低成本,前沿技术向下渗透速度并不会那么快。深度学习和历史上的神经网络一样,维护成本并不低,不会是方灵药 ,系统的可解释性,可读性,可维护性,可进化性。数据的自描述性,多能性。结构化数据(含知识图谱)与非结构化数据的混合。我觉得这些都是可能的突破点,因为它们着眼于Value,降低成本。 日小数据(也就是知识)的特性 ·value价值,不是连垃圾都存起来,而是特别关心数据的价值密度,提高投入产出比。 ·veracity真实性,关心数据的可验证性,可用性,自描述性等。 ·versatility多能性,因为数据要用来交换,在交换中增值,所以要适应未知的应用。 A丨应用落地,一定要特别特别“ 踏踏实实从朴素的运维、数据库、数据清洗做起,逐步演化。 如何按天选代?如何构造联调系统?如何无标注数据启动?如何分离准确度和召回率要求?如何统一运用规则和大模型?如荷适应无明确衡量标准的开发?如何设计可演进的数据模式?如何提升数据可理解性?如何逐步提升规则/Agent flow/RAGFlow系统的表达力?如何平衡黑箱和白箱模型的优缺点?如荷在优雅架构和工期间取舍? :知识工程 vs 软件工程的成熟度 知识工程软件工程 提示工程的意义 大模型(L