您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Tableau]:Tableau : 2017 年十点大数 势 - 发现报告

Tableau : 2017 年十点大数 势

2024-05-07-TableauE***
Tableau : 2017 年十点大数  势

2017年十大大数据趋势 2016年是大数据具有里程碑意义的一年,越来越多的组织存储、处理和提取各种形式和规模的数据的价值。2017年,支持大量结构化和非结构化数据的系统将继续增长。市场将要求平台帮助数据托管人管理和保护大数据,同时授权最终用户分析这些数据。这些系统将在企业IT系统和标准内部成熟以良好运行。 每年在Tableau,我们都会开始讨论行业中正在发生的事情。讨论推动了我们接下来一年的大数据趋势列表。这些是我们对2017年的预测。 大数据变得快速且平易近人:选项扩展以加快Hadoop 当然,您可以在Hadoop上执行机器学习和进行情感分析,但人们经常问的第一个问题是:交互式SQL的速度有多快?毕竟,SQL是希望使用Hadoop数据实现更快,更可重复的KPI仪表板以及探索性分析的业务用户的渠道。 这种对速度的需求推动了更快的数据库(如Exasol和MemSQL)、基于Hadoop的存储(如Kd)以及实现更快的查询的技术的采用。使用SQL - o - Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoeix和Drill)和OLAP - o - Hadoop技术(AtScale,Jethro Data和Kyvos Isights),这些查询加速器进一步模糊了传统仓库和大数据世界之间的界限。 进一步阅读:AtScaleBIonHadoop基准测试2016年第四季度 大数据不再只是Hadoop:Hadoop专用工具已经过时 在过去的几年中,我们看到一些技术随着大数据浪潮而兴起,以满足对Hadoop分析的需求。但是,具有复杂异构环境的企业不再希望仅针对一个数据采用孤立的BI接入点source (Hadoop)。他们问题的答案隐藏在一系列来源中,从记录系统到云仓库,再到来自Hadoop和非Hadoop来源。(顺便说一句,甚至关系数据库也变得大数据就绪。例如,SQL Server 2016最近添加了JSON支持。) 在2017年,客户将要求对所有数据进行分析。与数据和源代码无关的平台将蓬勃发展,而那些专门为Hadoop构建且无法跨用例部署的平台将半途而废。Platfora的退出是这一趋势的早期指标。 进一步阅读:常识:大数据仓库 组织从一开始就利用数据湖来推动价值 数据湖就像一个人造水库。首先,你在尽头筑坝(建立一个集群),然后让它充满水(数据)。一旦你建立了湖泊,你就开始将水(数据)用于各种目的,如发电、饮用和重建(预测分析、机器学习、网络安全等)。 到目前为止,为湖泊补水本身就是目的。在2017年,随着Hadoop业务理由的收紧,这种情况将发生变化。组织将要求可重复和敏捷地使用湖泊以获得更快的答案。他们将仔细考虑业务 在投资人员、数据和基础设施之前取得成果。这将促进业务和IT之间更牢固的伙伴关系。自助服务平台作为利用大数据资产的工具将获得更深刻的认可。 进一步阅读:使用数据湖最大化数据价值 架构成熟,拒绝一刀切的框架 Hadoop不再仅仅是数据科学用例的批处理平台。它已成为用于即席分析的多用途引擎。它甚至被用于日常工作负载的运营报告-传统上由数据仓库处理的那种。 2017年,组织将通过追求特定于用例的架构设计来满足这些混合需求。在实施数据策略之前,他们将研究一系列因素,包括用户角色、问题、数量、访问频率、数据速度和聚合级别。这些现代参考架构将由需求驱动。他们将结合最好的自助数据准备工具,Hadoop Core和最终用户分析平台,可以根据需求的发展进行重新配置。这些架构的灵活性最终将推动技术选择。 进一步阅读:冷/热/热框架及其如何应用于您的Hadoop战略 驱动大数据投资的是多样性,而不是数量或速度 Garter将大数据定义为三个V:高容量、高速度、高多样性的信息资产。尽管这三个V都在增长,但正如New Vatage Parters最近的一项调查结果所示,多样性正在成为大数据投资的最大驱动力。随着公司寻求整合更多资源并专注于大数据的“长尾”,这一趋势将继续增长。从无模式JSON到其他数据库中的嵌套类型(关系和NoSQL),再到非平面数据(Avro,Parqet,XML),数据格式正在增加,连接器变得至关重要。2017年,将对分析平台进行评估。 他们向这些不同的来源提供实时直接连接的能力。 进一步阅读:种类而不是数量正在推动大数据计划 Spark和机器学习点亮了大数据 Apache Spark曾经是Hadoop生态系统的一个组件,现在正成为企业选择的大数据平台。在对数据架构师,IT经理和BI分析师的调查中,近70%的受访者更喜欢Spark,而不是现有的MapReduce,后者是面向批处理的,不适合交互式应用程序或实时流处理。 这些大数据计算功能具有提升的平台,具有计算密集型机器学习,AI和图形算法。特别是Microsoft Azre ML由于其初学者友好性以及与现有Microsoft平台的轻松集成而取得了成功。向大众开放ML将导致创建更多的模型和应用程序,从而生成PB级的数据。随着机器的学习和系统的智能化,所有的目光都将集中在自助服务软件提供商身上,看看他们如何让这些数据对最终用户来说是可接近的。 进一步阅读:为什么要使用Spark进行机器学习 物联网、云、大数据为自助分析创造了新的机会 似乎2017年的所有东西都会有一个传感器将信息发送回母体。物联网正在产生大量的结构化和非结构化数据,并且这些数据的份额越来越多地部署在云服务上。数据通常是异构和跨多个关系和非关系系统,从Hadoop集群到NoSQL数据库。虽然存储和托管服务的创新加快了捕获过程,但访问和理解数据本身仍然最后一英里挑战。因此,对无缝连接和组合各种云托管数据源的分析工具的需求正在增长。此类工具使企业探索和可视化存储在任何地方的任何类型的数据,帮助他们发现物联网投资中隐藏的机会。 进一步阅读:解决物联网最后一英里挑战的Tableau 随着最终用户开始塑造大数据,自助数据准备成为主流 使业务用户可以访问Hadoop数据是我们这个时代最大的挑战之一。自助服务分析平台的兴起改善了这一旅程。但是业务用户希望进一步减少准备数据的时间和复杂性用于分析,这在处理各种数据类型和格式时尤其重要。 敏捷自助式数据准备工具不仅允许Hadoop数据在源头进行准备,而且还可以将数据作为快照提供,以便更快,更轻松地进行探索。Alteryx、Trifacta和Paxata等大数据的用户数据准备。这些工具正在降低Hadoop采用者和落后者的进入门槛,并将在2017年继续获得牵引力。 进一步阅读:为什么自助服务准备是大数据的杀手级应用程序 大数据成长:Hadoop增加了企业标准 我们看到Hadoop正在成为企业IT领域的核心部分的趋势。2017年,我们将看到更多投资于围绕企业系统的安全和治理组件。Apache Setry提供了一个系统,用于对存储在Hadoop集群上的数据和元数据实施细粒度的、基于角色的授权。Apache Atlas是数据治理计划的一部分,它使组织能够在整个数据生态系统中应用一致的数据分类。Apache Rager为Hadoop提供集中的安全管理。 客户开始期望从其企业级RDBMS平台获得这些类型的功能。这些功能正在走向新兴大数据技术的前沿,从而消除了企业采用的另一个障碍。 进一步阅读:Hadoop成熟的阶段:它到底在哪里? 元数据目录的兴起帮助人们找到值得分析的大数据 在很长一段时间里,公司放弃了数据,因为它们有太多的数据需要处理。使用Hadoop,他们可以处理大量数据,但数据通常不是以一种可以找到的方式组织的。 元数据目录可以帮助用户使用自助服务工具发现和理解值得分析的相关数据。Alation和Waterline等公司正在填补客户需求方面的空白,这些公司使用机器学习来自动化在Hadoop中查找数据的工作。他们使用标签对文件进行分类,发现数据资产之间的关系,甚至通过可搜索的UI提供查询建议。这有助于数据消费者和数据管理者减少信任、查找和准确查询数据所需的时间。2017年,我们将看到更多的自助服务发现意识和需求,这将作为自助服务分析的自然延伸而增长。 进一步阅读:数据目录是数据湖的战略要求 关于Tableau 将数据可视化集成到您的零售计划和流程中比您想象的更容易。 Tableau Software帮助人们看到和理解数据,无论数据有多大,或存储了多少个系统。通过从PC到iPad的无缝体验,快速连接、混合、可视化和共享数据仪表板。创建和发布具有自动数据更新的仪表板,并与同事、合作伙伴或客户共享,无需编程技能。立即开始免费试用。 TABLEAU.COM/试验