AI智能总结
数据存储 构建多样化数据应用的可靠存储底座 序言 人类社会的文明史,就是一部信息存储方式和传播方式变革的历史。从结绳记事到刻画在岩石上的象形文字,再到甲骨文的出现;从竹简、纸张的发明,再到打孔卡、硬盘、闪存的科技进步,信息技术革命的到来革新了古老的信息保存方式,数字化的数据存储替代了传统的纸张成为文明传承的新方式,有数据的地方就需要数据存储。 相对应的,新的IT数据应用也将更加丰富多样。同时随着新的数据应用规模进入生产系统,对数据的高可靠、高性能、经济高效保存将提出更加严苛的要求。 华为公司在数据存储产业上的大规模投入超过十年,产品已进入全球超过150个国家和地区,广泛服务于运营商、金融、政府、能源、医疗、制造、交通等多个行业超过18000家客户。通过与业界专家、客户和伙伴深入交流,编写了这份《迈向智能世界-数据存储》白皮书报告。报告详细阐述了数据存储的发展趋势与行动建议,我相信这是一次非常有意义的探索,将凝聚更多的产业力量共同推进数据存储产业的发展。 上世纪九十年代诞生至今,高可靠、高性能的SAN存储一直是核心数据库应用的首选。2000年左右,互联网的兴起让存储进入千行百业,同时为实现文档类数据的高可靠保存、高效共享,NAS存储应运而生。2010年左右以虚拟机为代表的“云计算”概念兴起,资源池化成为数据中心建设的主流架构,将SAN、NAS融合在一起的统一存储成为那个时代的新宠,一套存储同时支撑各种各样的虚拟机应用。2015年左右,全闪存存储以其高性能、高可靠、绿色节能的优势,开始大规模代替机械盘存储,满足了移动化时代应用性能的10倍增长。同时,视频、大数据、AI等以海量非结构化数据为基础的新兴应用,催生了以扩展能力见强的分布式存储的快速发展。 过去三十年,数据存储一直是高价值数据的最佳底座,并伴随着数据应用的发展而发展。我们正在迎来YB数据时代,数据应用蓬勃发展,华为数据存储愿与产业各方更加紧密携手努力,汇聚产业力量,共创数据存储美好未来。 数字化、智能化的未来,正在加速到来,千行百业的数字化转型将进入快速发展的深水区。 周跃峰华为数据存储产品线总裁 目录 附录48 执行摘要 随着以5G、IoT、云计算、大数据、AI为代表的新技术在数字化转型中的深入应用,企业IT架构走向“传统IT+私有云+公有云+边缘”的混合架构。存储作为IT堆栈的底座,存储的读写性能决定了上层应用的性能和用户的体验,企业的长期发展需要稳定的数据存储平台。 智能世界拥有无限可能,本报告从未来发展趋势入手,对存储产业进行了如下展望: 数据量爆发式增长,到2025年全球数据量将达180ZB,其中80%以上都是非结构化数据,非结构化数据在企业广泛应用,正在成为生产决策数据。1 数据应用日新月异,从传统的数据库应用到分布式数据库、大数据、AI等新兴的多样化数据应用蓬勃发展。2 全闪存存储在主存储市场占比已超过50%,全球加速进入闪存普惠时代。3 勒索软件攻击对企业构成重要威胁,数据存储的职责从数据存取扩展到数据安全,成为防勒索的最后一道防线。4 自然灾害、非法入侵等数据安全事故频发,提升企业数字化韧性迫在眉睫。5 AI应用推动存储智能化程度越来越高,存储管理从传统的设备管理扩展到数据管理。6 多云成为新常态,有89%的上云企业选择多云战略,数据集中共享存储、应用部署在多云成为未来最优IT架构。7 公有云带来的基于消费的新商业模式,正在推动存储新的商业模式孵化,灵活的存储商业模式是应对数据爆发式增长和经济不确定性的有效手段。8 存储1TB数据每年能耗达300千瓦时,随着数据量持续增长,数据存储绿色节能对于促进数据中心零碳排至关重要。9 边缘成为新的数据爆发源头,超融合基础设施成为边缘数据中心建设最优解。10 对于企业基础设施与运营领导者(I&O Leaders)来说,为了更好的进行IT演进,满足企业业务发展需求,我们建议: 企业IT人员和组织从以结构化数据为中心的团队向能够设计、规划、管理海量非结构化数据团队进行转型。1 为了提升海量非结构化数据作为生产数据的效率,优先部署支持文件/对象/大数据多协议互通,业务混合负载、数据缩减技术、高密硬件等能力的分布式存储系统。2 部署新兴的多样化数据应用,采用计算存储分离架构,增加可靠性,实现降本增效,同时通过多样化数据应用加速引擎,实现近数据处理,提升数据处理效率。3 抓住存储生命周期更迭以及新建机会,持续加速全闪存存储应用。4 存储团队要保障数据安全,建立更加全面的数据安全防护体系,并构建全面的存储防勒索解决方案,夯实数据安全最后一道防线。5 提升企业数据保护水平,实现数据不泄露、数据不被篡改、数据不丢失、业务永远在线、访问永远合规,增强企业数字化韧性。6 企业积极制定存储AI管理软件的评价要素,同时加强企业AI能力建设,重塑团队人员技能。7 企业从不确定性的创新业务、OA办公为代表的外围业务入手切入公有云,核心竞争力业务保留在自有数据中心。8 企业多云建设采用数据集中共享存储、应用部署在多云的IT架构,并规划跨云的统一数据管理平台,以实现数据的最大共享。9 企业结合自身业务实际需求以及未来战略,合理规划IT资源的获取方式,选择最合理的商业模式。10 除了降低PUE之外,企业还可以通过部署具备高密设计、融合系统和数据缩减等能力的存储产品进一步降低数据中心能耗。11 对于边缘IT建设,企业优先部署超融合,提升本地数据实时处理能力。12 非结构化数据展望一 企业新增数据80%以上是非结构化数据,非结构化数据正在成为生产决策数据 非结构化数据是指没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括文本、图片、各类报表和音频/视频信息等。根据华为GIV报告,2025年全球数据总量将达180ZB,其中80%以上都是非结构化数据。 趋势解读 析处理的。而随着企业数据治理能力提升,数据驱动业务增长成为可能,非结构化数据开始走向生产决策系统。 大数据、AI、HPDA等新技术、新应用催生了海量的非结构化数据 随着5G、云计算、大数据、AI、高性能数据分析(HPDA)等新技术、新应用的蓬勃发展,企业非结构化数据快速增长,如视频,语音,图片,文件等,容量正在从PB到EB级跨越。 在金融行业,为了实现在线实时授信,银行利用金融大数据平台,支撑大数据实时分析、交互式分析、离线处理、实时查询等场景,及时洞察和决策新的机会与风险,开卡征信时间从1周左右缩短到实时,打造即用即享的极致体验。在医疗行业,历史影像归档文件由冷变热,通过AI阅片辅助诊断调用,提升了放射科、介入治疗科和病理科医生工作效率,减轻医生工作负荷,并且诊断时间15分钟缩短到20秒钟,诊断准确率从40%提升到95%。在电商行业,为了精准营销,海量网上购物日志被用于查询检索引擎,机器学习引擎,交互式分析引擎,从而实现产品广告精准推送。 例 如 ,1台 基 因 测 序 仪 每 年 产 生 数 据 达 到8.5PB,某运营商集团每天平均处理数据量达到15PB,1颗遥感卫星每年采集数据量可以达到18PB,1辆自动驾驶训练车每年产生训练数据达到180PB。 非结构化数据正在进入企业的生产决策系统 非结构化数据已经在企业得到广泛应用,以AI为例,56%的企业至少把AI用于一个企业功能,其中大量场景是基于非结构化数据进行分 高效、可靠的海量非结构化数据存储成为企业数据治理的基础 服务器,节省机房空间,并降低能耗和运维复杂度,达到TCO最优。同时,业界通过软件和硬件一体的专业分布式存储,为企业客户提供端到端的高可靠、高性能、高扩展解决方案,降低了企业在部署、管理和服务等方面的复杂性。 根据预测,企业数据中心的非结构化数据以每年增长18%的速度快速增加,预计在2025年将超越公有云中非结构化数据的总量,占比达到51%。在企业数据中心中部署非结构化数据存储,成为越来越多企业的选择。 其次要让数据“流得动”。通过专业分布式存储的热、温、冷数据分级技术,并自动按需在不同介质迁移,从而实现投资最优。庞大的非结构化数据带来管理越来越复杂,难以依靠人力将数据及时灵活地分配至合理的存储空间,数据管理效率低下,运维成本高。通过热、温、冷数据分级技术,根据策略,将数据存放到合适的存储空间中,自动完成数据的迁移,很好地解决了企业客户遇到的问题,越来越广泛地被应用在各行各业。 为了高效、安全存储企业数据中心的非结构化数据,越来越多的行业期望使用专业的分布式存储解决方案。在金融行业,采用分布式存储保存图片、语音、视频数据;在教育行业,分布式存储是支撑海量数据高性能分析的有效手段;在制造行业,随着自动驾驶、工业互联网、工业仿真等快速发展,带来非结构化数据暴增,对分布式存储的使用也呈现规模增长。 最后还需要让数据“用得好”。在海量数据使用场景下,由于各种非结构化数据利用技术的进步,在多种业务场景下,一次数据处理大概率会涉及到文件、对象、大数据等多种访问协议的数据,希望专业分布式存储实现协议互通和免拷贝,减少数据冗余,比如(图1自动驾驶数据处理流程) 与此同时,我们也看到企业原有IT投资的存储已经不足以支撑非结构化数据爆发式增长,首先需要让数据“存得下”。传统的数据多副本技术已经满足不了非结构化数据的存储需求,需要通过专业分布式存储的数据缩减技术,优化存储利用率,比如大比例弹性EC算法,重删压缩算法,并且使用高密存储硬件替换通用 建议 企业IT团队加强海量非结构化数据处理能力建设 随着非结构化数据在企业应用越来越广泛,尤其是开始进入企业生产决策系统,如何高效地存储海量非结构化数据、挖掘非结构化数据蕴含的巨大价值,从而指导企业进行科学决策,成为企业关键竞争力。因此,企业IT人员和组织有必要加强海量非结构化数据处理能力建设,从以结构化数据为中心的团队向能够设计、规划、管理海量非结构化数据团队进行转型。 选择专业的分布式存储来构建海量非结构化数据底座 为了提升海量非结构化数据作为生产数据的效率,应以非结构化数据为中心,通过专业的分布式存储系统构建全局统一数据存储底座,优先部署支持文件/对象/大数据多协议互通,业务混合负载、数据缩减技术、高密硬件等能力的分布式存储系统,从而让数据存得下、流得动、用得好。 多维度评估选择企业数据中心或者公有云部署非结构化数据 设计和规划海量非结构化数据的部署方式时,需要考虑非结构化数据的产生、存储、访问和迁移等全生命周期管理,多个业务平台间的数据共享和流动,甚至多个云平台间的数据共享和流动。另外,还需要结合TCO,性能,安全等因数综合评估后,选择企业数据中心部署或者公有云部署。 多样化数据应用展望二 从传统的数据库到分布式数据库、大数据、AI,多样化数据应用蓬勃发展 过去三十年,数据存储一直是高价值数据的最佳载体,并伴随着数据应用的发展而发展。随着行业数字化深入,数据应用越来越多样化,除了传统的数据库应用,分布式数据库、大数据、AI等新兴应用不断产生,当前平均一个企业的数据应用超过100种。 趋势解读 大数据分析是企业决策的关键支撑手段,2010年 前 后 , 企 业 开 始 尝 试 一 种 数 据 分 析 技 术Hadoop。Hadoop采用数据本地存储的设计,由此形成了“计算和存储耦合”的架构。随着数据处理规模从TB级向PB级甚至几十PB级演进,存算耦合架构资源利用率低、建设成本高的缺点逐渐暴露。部分企业开始探索大数据IT架构创新,以某运营商为例,为了提升大数据平台资源利用率、降低能耗,通过计算和存储分离架构替代原有存算耦合架构,实现机柜、服务器、电费等软硬件成本节省40%,年碳排放量减少50%以上。 新兴数据应用的IT堆栈还不成熟,亟需建立新的IT堆栈分层标准 当新的数据应用出现的时候,为了快速部署、尝试创新业务,通常是采用最简单的应用、本地盘耦合的服务器一体化架构。但随着创新业务成为生产业务,算力生命周期和数据的生命周期GAP越来越大,算力