您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:矩阵起源王龙开源数据库社区MatriOne20230905 - 发现报告

矩阵起源王龙开源数据库社区MatriOne20230905

2023-09-05 未知机构 张博卿
报告封面

MatrixOne是一款超融合异构云原生DBMS(数据库管理系统),“超融合”是指各种负载的融合,即一套系统同时支持事务、分析、流、AI等各种应用,“异构云原生“指的是从云原生架构出发,又 同时能支持私有云、边缘云和数据中心等各种类型的IT基础设施。 Matrix Origin创始人王龙是一位连续创业者,在清华大学时便跟随师兄第一次创业,做起了信息技术 图书的翻译、教程撰写的生意。毕业后出于对代码的热爱,加入一家 SaaS 创业公司开始了程序员生 涯。 后来,王龙在德国慕尼黑西门子工作了几年,负责全球第一代智能制造系统 MES 软件的设计和研发。这段工作经历,让他看到国内工业自动化软件领域的机会,促成了他第二次创业——2008年他又做了 一家MES公司。 在2017年加入腾讯云之前,王龙在美国 VMware工作了六年,在这段时间里他积累了大量云计算和数 据库领域的专业知识,拥有了珍贵的国际视野。这帮助他在任职腾讯云副总裁期间,成功地从头开始 搭建了数百人团队,和完整的大数据人工智能产品矩阵及商业化体系,服务于国内、国际各行各业的 数千家企业。 如今,王龙正走在他的第三次创业征程上,Matrix Origin已经在上海、深圳、北京、硅谷等地设有分 支机构。近日,MatrixOne内核1.0.0-RC1版本已正式发布,MatrixOne内核1.0 GA及MatrixOne Cloud正式版也将在近期发布。 1 MatrixOne的产品目标是什么? Q: 是什么让您决定从腾讯离开出来创业 ? 王龙:我一直有个用产品和技术来影响更多人的创业梦想。当天时、地利、人和都出现的时候,我不能错过这个机会。 我将”天时”解释为行业发展到一定阶段的时机。每个领域发展到一定阶段,都会遇到市场或者技术的天 花板,这时往往就会出现新的机会。在腾讯云带领大数据和人工智能团队的几年中,我真切地感受到 客户、合作伙伴、还有团队自身遇到的越来越多的困难,和越来越无法解决的痛点。在高速发展的信 息化和数字化的过程中,数据的处理、存储和利用是不可或缺的核心能力, 然而行业却一直缺乏简单 易用、性能优秀、性价比高的工具,用户被迫消耗大量的时间和资源在ETL开发、运维、排错、监控和 调试等不产生业务价值的工作上。乙方交付成本高,甲方满意度低;技术人员加班不止吐槽不断,业 务方抱怨投入产出低响应慢;个人开发者和初创企业也常常面对种类繁多的数据库和千变万化的市场 趋势,陷入选择困难症。我认为这是行业进入瓶颈期的一个体现,市场正需要一个新的技术和产品来 完成突破。 “地利”是指有利的大环境,国家大力推动产业升级,出台各种政策鼓励技术创新和产业的信息化智能化 转型,资本投入也非常充裕。 “人和”是指我在行业积累了二十多年,身边聚集的志同道合的伙伴们,大家都有充足的激情和热情去为共同的目标而努力。 三者同时具备的时候,创业也是水到渠成的事情。 Q: MatrixOne跟TiDB、OceanBase处于同一赛道吗? 王龙:从广义上说我们都在数据库管理系统(DBMS)这个领域里,DB-Engines网站上已经列有几百 种数据库系统,国内的墨天轮上也有超过两百个数据库公司,TiDB、OceanBase和我们都是其中之 一。 但我不是特别想说赛道这个词,因为赛道常常意味着边界清晰、内容固化和内卷,意味着你走在一个已经非常成熟的道路上了。我们想做拓宽这个赛道,甚至利用技术创新去找到一个新赛道,这也是 MatrixOne和大多数数据库的差异点之一。 Q: 怎么拓宽、突破呢?这是MatrixOne的产品目标吗? 王龙:数据库是一个偏基础的软件平台,它的核心无非是数据的存储和计算。而数据的存储和计算所依赖的IT基础设施,例如CPU、Storage、Network的技术能力、架构和调度管理方式都和十年前有很 大的差别。与此同时,从互联网到移动互联网,再到物联网和人工智能,数据的来源和使用方式也发 生了很大变化。在IT基础设施层和应用层之间承上启下的数据库架构,也必定面临一个革新的机会。在 深入分析了基础设施层,和数据源头及应用方的变化趋势之后,我们找到了突破的方向, 那就是做一 个超融合异构云原生数据库MatrixOne。用大家都能理解的一句话来表示,我们想要做数据库领域的iPhone。 Q: 你怎么定义数据库领域的iPhone? 王龙:当前的数据库领域,有很多情况和iPhone诞生之前类似。从用户数量来看,当时手机用户的数 量高速增长了十几年达到数十亿;现在,程序员和数据库用户的数量也同样高速增长了十多年达到数 亿。从产品数量来看,当时的手机设计、开模、制造和营销流程已经非常成熟,使得市面上最多的时 候有上千款手机,各有各的卖点,例如音乐手机、照相手机、游戏手机等等;现在,开源的流行使得 开发或者修改并商业化一个数据库的门槛也变得很低,市场上也已经出现了数百款数据库,专门服务 于TP、AP、AI等各种负载。再从相关上下游来看,当年的电池技术、芯片能力、触摸屏、 摄像头等各 种元器件的飞速发展,使得制造一个简单易用涵盖最主要功能的智能手机变得可能;而现在,支持数 据库的底层基础设施发展到了云原生、容器化、无服务计算等,数据库使用者也开始同时关注易用 性、弹性、性能、性价比以及数据管理的统一和融合。 根据当前的市场和技术发展状况,打造全新的简单易用的融合性数据库时机已到,用一个数据库同时支持TP、AP、Streaming、TS和AI等主流工作负载,这就是数据库领域的iPhone,我们有时也简写为 HSTAP。 Q: 意思是理想中的MatrixOne同时拥有市面上所有数据库的优点,并且能解决现有用户的所有痛 点? 王龙:“所有”那是不现实的,毕竟iPhone也没有成为世界上唯一的一款手机。MatrixOne的目标是 同时具备最主流数据库的优点,满足最主流用户的需求,用一个极简的产品服务,将用户从复杂的数 据架构和高成本的数据底座投入中解放出来。如果说的直接一点,无论在不同规模,还是不同数据类 型,还是不同软件应用中,我们希望帮助用户克服选择困难症,使用MatrixOne一款数据库就能满足 大部分场景下的需求。 2 MatrixOne遇到的技术挑战 Q: 要做成数据库领域的iPhone,MatrixOne用到了哪些新技术? 王龙:数据库本身的架构当然是经过精心设计,我们从之前成熟稳定的数据库技术中吸取了很多经 验,同时又和国内外顶尖实验室合作,包括Dewitt领导下的威斯康星数据库实验室和Xiangyao Yu教 授,在理论上做了很多探索和实践。 在我看来,MatrixOne最重要的设计理念是有效考虑当前最新的基础架构技术,例如支持和利用了容 器技术、无服务计算和异构云原生的各种内存及存储能力,包括便宜的对象存储、HDD、SSD甚至还 有相当前沿的CXL技术。这使得MatrixOne能更加灵活、稳定地管理和使用各种硬件资源,得心应手 地进行数据存储和计算调度,从而数倍提升硬件的利用率。 Q: 当说到要支持多个数据应用的时候很多人会想到数据中台,MatrixOne跟数据中台有什么区别 呢? 王龙:作为智慧城市、智能制造、智慧金融等各种智慧行业解决方案的核心,数据中台概念提出也有七八年了,最近两三年的争论和争议也很多。耗资巨大但灰头土脸的中台项目,也被开玩笑称为CIO杀 手。我在腾讯云时也有两个数据中台产品,也落地过不少项目,但在项目中遇到的困难和争论也是一 直存在的。 大量的数据中台项目为什么会失败?本质是因为数据中台并没有真正实现它的设计目标,其中最主要的就是数据的割裂问题没有真正解决。 统一的数据存储、管理和使用,是实现数据中台项目目标和支撑业务价值的前提。当前主要的数据中台架构,无论是仓上建湖还是湖上建仓,都是采用多个数据库或者大数据系统组件搭建的,这样至少可以从逻辑上将多个业务系统的数据整合在一起。然而首先面临的大挑战,就是客户的业务系统组合往往是千变万化的,同时又是属于不同部门的,遇到的困难和实际需求往往又不同。这使得数据中台的产品复用非常困难,给A客户研发的中台系统,在B客户那里 是很难平滑使用的。这大量的定制化过程,会消耗大量的人力资源,带来巨大的成本,造成业务需求 响应非常缓慢等结果。数据中台的重要价值之一就是灵活应对业务变化,但由于大量定制化的存在,使其无法避免的笨拙反而成了业务的阻碍。 认真调研和思考过这些问题后,我们认为打造数据中台需要一个简单易用、架构简洁、灵活弹性、支持异构资源和负载的数据库,这也成了MatrixOne的第一个设计目标。换句话说,MatrixOne想成为 数据中台的底座,帮助每个数据中台项目获得成功,帮助客户最大化地获得中台的价值。 Q: 用MatrixOne建设数据中台还有哪些优点? 王龙:MatrixOne使用一套数据存储来支持多种应用系统,这对中台项目的成功也至关重要。 之前也 说过,现在的数据中台架构中,数据只是逻辑上放在了一起,通过ETL在不同模块之间流转,这更像是 用不牢固的胶水粘在一起的玩具。除了开发ETL本身带来的成本,这还会造成两个业务问题,第一是数 据流转过程的完整性和一致性需要额外的机制来保障,例如数据治理、数据清洗、血缘管理等等,即 便投入大量资源,还是会常常发现不一致的数据。假如金额对不上,订单信息对不上,物联网状态数 据对不上,这对业务系统本身的可靠性和可信度都是巨大的伤害。 现有数据中台的架构还有另一个明显的问题,就是数据处理的实时性。新的数据需在多个系统或模块之间流转,才能到达最后的目标业务系统,这使得对数据实时性要求很高的业务,例如金融风控、精益生产和品控、实时电力调度等都难以得到足够的支持。 使用MatrixOne建设数据中台,可在一个可靠数据库系统中确保数据的完整性、一致性和实时性,同 时MatrixOne创新的资源调度框架,又能确保各个系统负载可以互不影响地使用细颗粒度的数据,解 决了不同业务团队之间的资源和安全方面的担心,这对于中台项目的落地价值有巨大帮助的。Q: 刚开始创业就想好了这些点吗? 王龙:并没有。刚开始我们只是知道用户痛点,但怎么解决也是在黑暗中摸索了很长时间。第一年基本上就是在做各种探索、各种研究,跟客户做调研,跟大学机构做合作,把最先进的技术理念、最可靠的成熟架构、最简单易用的交互方式都融合在一起。我们的技术架构基本确定并正式进入开发阶 段,其实是在2021年初。 Q: 最近大模型概念很热,也将热度传导到向量数据库,那么MatrixOne在AI领域的支持有哪些?王龙:向量在数据库内的支持并不复杂,这是几乎所有主流数据库已经具备、正在做或者计划要做 的,我们也不例外。MatrixOne中AI的支持是多个方面和层次的,由于涉及一些商业机密,我在这里 不能说太多细节,可以后续关注我们官方发布的信息。 3 真正做到“按使用量付费” Q: 对于中小企业来讲,他们可能不像大公司那样同时使用多种数据库,使用MatrixOne是否有点“杀鸡焉用牛刀”呢? 王龙:这部分就是MatrixOne Cloud云服务的主要目标用户群。对于中小企业,他们不会同时用很多 数据库(其实大部分也会有两到三种)。他们的主要痛点有两个,一是在数据库上的人 才和技术储备 不足,架构选型时容易出错,需要付出较高的成本来提高业务系统的可靠性和扩展性。二是他们的业 务变化快,一个本周爆款业务下个月可能就偃旗息鼓,而另一个业务又可能获得十倍百倍的增长,这 种情况下要准确地估算所需数据库的类型和规模,是非常困难的。 很多企业的常规做法是按之前经验来购买资源,预算多的时候就提前购买多一些,防止业务爆发时资源跟不上,但会造成很多浪费;预算少的时候就少买一些,紧急情况再临时购买,但可能承担系统随时崩溃的风险。 这两种痛点也并非最近才出现,20年前中小企业在PC服务器上也遇到采购流程长、IT资源浪费大、运 维成本高的问题,AWS提供了服务器的自服务、