大模型时代的数据管理 肖仰华复旦大学知识工场实验室上海市数据科学重点实验室 数据要素时代的数据管理 01 伴随着我国数字经济的发展,数据要素在生产中的地位愈发重要,数据要素流动所带来的开放性与动态性问题为传统数据科学的理论与技术带来了新挑战和新要求仅供 数据成为生产要素 2020年4月 2023年2月 2022年1月 全国两会召开前夕,中共中央、国务院发布《数字中国建设整体布局规划》,明确布局了数字中国建设的“2522”整体框架,其中,夯实数字基础设施和数据资源体系被作为“量大基础” 作为落实党的十九届四中全会精神的重大改革部署,在《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中,也将数据作为一种新型生成要素与土地、劳动力、资本技术一起写入中央文件中 国务院发布《“十四五”数字经济发展规划》,其中强调数据要素是数字经济深化发展的核心引擎,并提出到2025年将初步建立数据要素市场体系 2022年12月 2020年10月 中共中央、国务院正式发布了《关于数据基础制度更好发挥数据要素作用的意见》。这份被称为“数据二十条”的文件引发了巨大关注,因为在这个我国首份专门针对数据要素的基础性文件中,提出了构建数据产权、流通交易、收益分配、安全治理等制度,初步形成我国数据基础制度的“四梁八柱” 数据资源是有含义的数据集结到一定规模后形成的,是重要的现代战略资源[1]数据与土地、劳动力、资本、技术等传统要素并列成为五大生产要素之一[2] 数据对其他生产要素的配置作用日益显著 其他四种要素都具有相对的独立性。数据要素一方面可以将其他四要素作为来源,另一方面数据又可以反作用回其它四要素,只有多要素紧密耦合,才能创造更多的价值。ta 进程加速数据价值变现需求迫切 组建国家数据局 负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。 承担的研究拟订推动公共服务和社会治理信息化、协调促开发利用与共享、推动信息资源跨行业跨部门互联互通等职责划入 承担的统筹推进数字经济发展、组织实施建设、推进数字基础设施布局建设等职责划入 国家发展和改革委员会 我国各行业的高质量发展与数字化转型对数据价值变现的理论与技术提出了迫切需求 数据科学理论与方法难以支撑数据价值变现 当前的数据价值变现全链路上的各个环节,仍然需要人类专家的密集参与 世界日益复杂 -个整车需要2万~3万个零件,而每个零部件又需要一条上万个元器件组成的生产线,又涉及原材料的采集与加工等诸多流程,单从晶圆到芯片,就将经历700道工序。商业用途 人造系统将人类社会的思维转化成改变自然的力量,进行各种复杂的动作和工程 人类社会利用自然生态带来的资源,不断设计、开发、建设更为复杂的系统 一钱学森 自然生态受到人造系统的影响,形成气候、地理等各类不确定因素极强的变化,反馈给人类社会 现代工业文明经过数百年的发展早已度过其婴童时代人类社会日益演变成为一个人、机、物多元融合的复杂系统 系统和数据日益复杂 当前的各类信息系统及相应数据经过数十年信息化、数字化洗礼,前所未有之庞杂 数据数字经济时代的内涵发生变化 数据内涵发生变化,数据科学日益面临新环境、承担新使命Aiop 数字经济时代Bigdata 数据是持续流动,而不是静止的数据的产业生态是开放的,而不是封闭的数据有着多方主体,而不是单一主体数据与生产过程深度融合,而不是相对割裂数据处在持续增值过程中,而非一次性使用数据对于其他生产要素有着配置作用,而不再是从属地位 数字经济发展对数据科学的内涵与发展路径提出了新的要求 数据要素特征:持续流动 数据只有流入生产、分配、流通、服务和管理等各个环节,形成完整的数据驱动闭环,才能释放出数据要素的价值 数据持续流动的必要性: 实时决策支持,增强业务灵活性和市场敏感度精细用户画像,提升个性化服务水平故障监测预防,增强安全保障传递产业供需,促进产业上下游合作 数据流动不畅的原因: 数据采集、管理、分析、应用等环节存在技术短板各部件缺乏同步与协同数据驱动闭环尚未形成 数据要素特征:多方主体 相比其他生产要素,数据要素在流通过程中主体更加多样,权属界定复杂 数据要素特征:开放生态 数据要素特征:动态增值 数据只有经过动态处理才能形成增值,数据才能变成资产 大模型时代的智能数据管理 02 大模型的开发世界建模能力。语言认知能力、数据理解能力、数据操控能力对于实现低成本、自动化智能化的数据管理带来全新机遇 大模型是海量的参数化知识容器 语言模型以参数化形式编码了数据中蕴含的知识当前大模型评测方式与人类学科知识考试方法和内容相同当前平均效果最优的GPT-4在众多测试基准中都能取得50%以上的正确率(3- shot),且还存在巨大的领域微调空间 语言模型编码了大量的通用知识 大模型是人类认知能力的引擎 GPT-4 等大规模生成式语言模型在“形式上”具备了人类思维的核心能力 这似乎是一个谜语或者智力题,其答案是“杯子”。杯子放不下鸡蛋,因为它太小了,暗示着答案是杯子本身,而不是其中的任何物品。 杯子放不下鸡蛋,它太大了,它是谁 这也是一个谜语或智力题,其答案是“鸡蛋”。因为如果杯子太大,而鸡蛋还是放不进去,那么显然是鸡蛋太大了,而不是杯子。 大模型的常识理解能力 大模型日益成为自治智能体的大脑 大模型已经不仅仅是语言/图像数据处理与理解的基础模型,更成为自治智能体的 大模型具备了全面认知数据的能力 大模型中的知识储备使其能够认知各类形式的数据,并且具备一一定的 schema 理解能力大模型的数据认知能力是的自动化的数据治理、数据管理成为可能 Analogous Relations Same Relation R2: CEO R1: antonym R3: head of state 小明|男丨张三丨李四丨1980-1-1李四|男|张三父|李四母|1958-1-1 Joe Biden:USARishi Sunak:UKEmmanuelMacron:France Andy Jassy:AmazonTim Cook:AppleElon Musk:Twitter Left: RightUp:DownHigh: Low 你好,这是必应。我可以帮你分析数据质量问题。 根据你给的数据,我发现了以下几个常识错误 ·小明的母亲李四的性别是男,这与常识不符·张三的性别是女,但他是小明的父亲,这与常识不符。·张三的出生年月是1978-1-1,但他的儿子小明的出生年月是1980-1-1,这意味着张三只有两岁就生了小明,这与常识不符。李四的出生年月是1958-1-1,但他的父亲张三父和母亲李四母的出生年月都没有给出,这可能导致数据不完整或不一致。以上就是我分析的结果,希望对你有帮助。如果你还有其他问题,欢迎继续和我聊天。 使用大模型进行数据治理 大模型具备一定的 schema 理解能力 大模型对于结构化数据的理解 大模型已经具有一定的结构化数据理解能力 大模型具备了自主操控数据的能力 大模型的Agent(自治智能体)使得自动化数据操控成为可能,有望代替数据管理人员从事常规的数据管理工作,包括数据定义、管理、治理、分析。 DB/DM/DAAgent将极大解放繁重的数据运维工作 大模型为价值变现提供了一种端到端的实现方式 大模型提供了“端到端”(无人干预,至少是无客户干预)大数据价值变现道路 大模型驱动数据要素价值变现仍存在巨大挑战 大模型仍然难以胜任千行百业的严肃决策应用,从开放闲聊到复杂决策仍有漫长道路严禁商业用 讲个好笑的笑话 ·幻觉现象缺乏领域忠实度领域知识匮乏解题能力有限难以编辑控制·难以理解解释·评测体系不完善智能体难以适配场景成本仍需降低 好的,这是一个冷笑话:有一天,小明问他的老师:“老师,您的衣服为什么这么亮?"老答:“就是我把所有的衣服都放在洗衣机里,然后加入一包超级洗衣粉,再按下了“打雷"按闪电干燥’啊!“哈哈哈,这是一个比较幽默的冷笑话,希望您喜欢。 考试失败了很难过怎么办 考试失败可能会让人感到沮丧和失落,但是请记住,失败并不意味着你一无是处。在这个时侯,以下是一些建议 1.让自己先冷静下来。考试失败可能会让你感到情绪低落,但是请先静下心来,让自己冷静下来,才能思考下一步该怎么做寻求支持。如果你感到很难过,那么不要独自承受这种情绪,可以向家人、朋友或者心理医生等人寻求支持和帮助。3. 思考失败的原因。 考试失败的原因有很多种可能,例如准备不足、紧张、注意力不集中等。你可以认真分析自己的不足之处,从而为下一次考试做好充分准备。4、 制定计划。 根据自己的不足之处,制定一个新的学习计划,包括每天的学习任务、时间安排等。并保持积极的态度和耐心,慢慢地提高自己的水平。5.不要放弃。失败并不是世界未日,要相信自己能够成功。继续努力,坚持不懈地追求自己的目标,你一定能够取得成功的。 希望这些建议能够对你有所帮助,记得要保持积极乐观的态度,相信自己,未来会更美好! 通用大模型仍然难以理解私域数据 私域数据库的专业性和私有性和大模型的通用性存在巨大的鸿沟 这是一个关于传感器的数据,表格中每个数值的具体含义是? 大模型仍然难以理解复杂schema 大模型在理解复杂 schema 方面仍存在显著不足,巫需针对专业领域进行优化。 复杂 schema(宽表,denoermal izedtable) 大模型驱动数据管理实践 03 大模型驱动下,DB系统的自然语言交互、多数据组件协同、DB系统的智能运维、智能化的数据治理等问题取得进展DO仅供学 大模型刷新对于数据语义的认识s Database:Declared Semantic,人赋予数据以语义 DDL : Goal: compute the probability of a sentence or sequence of words: Begin SQLCREATE TABLE ACTOR_FANSID INT32.Name VARCHAR):INSERT INTOACTOR FANS(ID,Name)VALUES(1,'Francis");ALTERTABLEACTOR FANSADDPhone_NumberVARCHAR;INSERT INTOACTOR FANS(ID,Name,Phone Number)VALUES(2,Florence,'01446677888":End SQL : Related task: probability of an upcoming word A model that computes either of these:P(W)or P(Wn/W1,W2..Wn-1)is called a language model. 大模型摆脱了数据查询的语义假设 数据库:CWA(Closed World Assumption)sa大模型:摆脱了对于CWA的假设,知之为知之,不知为不知严禁商业用途obap Knowledge base:开放世界假设(OWA) ·不存在事实是未知的·KB查询回答遵循OWA 实现异构、多模态数据的统一价值变现Ops 异构、异质、不同(跨)模态数据都可以通过transformer不同模态、不同结构之间的数据对齐是关键问题严禁商业用 大模型Agent协同异质数据管理 从基础模型到复合AI系统,通过集成多种AI技术,增强系统的适应性和灵活性,更高效地解决复杂问题并实现更精准的决策。 大模型实现智能化的数据库系统“运检维优 大模型为数据库系统专业化运维故障检索提供了价值变现的道路 我们正在经历 OceanBase 数据库的连接数达到上限的问题日志中频繁出现连接拒绝的警告。如何调整连接池以应对高并发请求? Op