您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:阿里云物联网平台技术白皮书V1.0 - 发现报告
当前位置:首页/其他报告/报告详情/

阿里云物联网平台技术白皮书V1.0

2022-03-10-阿里巴巴王***
阿里云物联网平台技术白皮书V1.0

产品版本: 文档版本: 20220128文档版本: 202203 技术白皮书 1 1 05 10 14 17 21 24 03 03 1 行业趋势 1.1. 技术发展趋势 1.2. 面临的业务挑战 02 02 2 技术架构 2.1. 背景信息 2.2. 产品介绍 3 技术优势 3.1. 安全稳定连接 3.2. 海量消息 3.3. 物模型 3.4. 大规模设备管理 3.5. 监控运维 3.6. 异常检测 4 高可用能力 4.1. 重要性 4.2. 挑战性 4.3. 单元化架构 27 27 28 2 企业物联网平台 IoT Platform 1.1. 技术发展趋势 中国物联网设备连接数在2016~2020年间,年同比增长率为46.1%,经历了高速增长,预计到2025年会达到80亿。 阿里云物联网平台的核心价值是帮助企业设备数字化、智能化,设备产生的海量数据与企业的业务数据融合之后会产生巨大的价值,能够促进企业高效低成本地运营,进而提升整个社会生产效率。IoT在这波数字化浪潮中至关重要,让所有设备从孤立的变成有生命的。互联网时代和移动互联网时代的本质都是人的在线化,物联网时代百亿规模设备的在线化和数字化将会对物理世界进行重塑,尤其在5G网络的推动下会加速这个进程。 1.2. 面临的业务挑战 随着大量物联网场景开始涌现,海量碎片化设备和巨量时序数据给物联网平台带来了一系列新的要求和新的技术挑战。  高可用 物联网从早期2016年主要应用在消费类智能家居场景,到最近几年场景越来越丰富,从文旅、园区、地产、城市、农业,再到工业、汽车等场景,其可靠性要求从民用级上升到了企业级。物联网平台的高可用能力决定了能够支撑客户业务持续运行的底线,且在应对大量影响民生安全、工业制造、社会稳定的场景时,需要提供极近苛刻的高可用能力。  性能 物联网在互联网消息链路上新引入了一端(设备端),且应用端通过云平台到设备端的双向通信能力非常关键,设备状态的上报和呈现、设备指令的控制和执行,是物联网远程设备在线化、智能化的基线。随着场景的丰富,设备和应用间双向通信的RT、性能尤为关键,若指令延时过高,可能导致客户资损、民生安全受到威胁等意想不到的问题。  生态化 物联网由于涉及到传统领域,链路长、角色多、终端多样性导致碎片化非常严重,因此,很难有一个角色或一家公司能够从头到尾将物联网升级全部完成。而物联网生态化趋势越来越明显,促进了全行业全面数字化升级,需要越来越多的角色进入到产业链。例如软件开发者、硬件开发者、模组商、芯片商、系统集成商、设备商等众多角色,需要物联网平台作为桥梁促进万物互通、标准化、以及生态化。  智能化 所有场景数字化转型最终的目标是为了智能化,从而利用大量数据分析进行经营提效、降低成本、创新业务。物联网平台随着设备连接、管理、运维的发展,也开始逐步进入到数据智能的阶段。如果一台智能电表每隔15分钟采集一次数据,每天自动生成96条记录,那么全国接近5亿台智能电表,每天就能生成近500亿条记录。联网汽车、工业场景等设备上报数据会更频繁,据预测,五年之内物联网设备产生的数据将占世界数据总量的90%以上。超大规模数据为智能化带来了技术挑战,也带来了巨大的发展空间。 技术白皮书 3 2.1. 背景信息 阿里云IoT为企业数字化转型和设备智能化升级提供了一系列基础产品,一个普通设备升级为智能设备需要覆盖物联网端、边、网、云四大基础路径,解决设备通讯、计算、网络、连接、管理、数据、应用等关键问题。阿里云IoT在端、边、网、云上分别提供了相应的产品技术能力,包括AliOSThings操作系统、边缘计算、物联网卡及无线网络、物联网平台等。 2.2. 产品介绍 设备连接和管理服务属于物联网平台最基础的能力,帮助客户设备实现在线化、数字化,让客户不需关心物联网基础设施,完全聚焦在自己的核心业务上。 以光伏逆变器为例,如果客户自己要实现设备在线化、数字化,需要面临的问题有电站的采集器如何接入、采用什么数据传输协议、如何保障连接的安全和稳定;电表如何结构化建模、气象数据如何实时采集、逆变器故障如何预警、风机如何进行远程维护和固件升级;如何实现分销商累计发电量统计、电站故障率统计等等。以上问题无疑为客户智能化升级带来了接入门槛高、接入周期长、管理运维搭建难等问题。 4 企业物联网平台 IoT Platform  设备连接 设备的在线化,最核心技术在于设备连接和消息通信。一方面是物联网时代的设备连接,与互联网、移动互联网时代的PC、APP连接相比,有其特殊性,例如极度追求低功耗、低时延的资源受限设备;追求超高吞吐的海量点位场景;以及大量传统三方协议及行业协议业务。另一方面是消息量规模大,且可靠性、延时性、订阅灵活性与互联网面向人或应用的消息特点不太一样。  设备管理 设备的数字化,最核心技术在于设备建模和设备全生命周期管理。设备建模将设备投影到云上产生孪生体,设备孪生体和物理设备保持状态的一致性,并且能够实时双向通信,设备孪生体作为设备的抽象层,为上层应用屏蔽了物理设备的差异性。随着设备场景越来越丰富,对建模能力提出了非常高的要求。同时相较于互联网移动端,物联网设备存在地理位置广泛性、网络状况的不确定性、设备资源的差异性、高可用要求的严苛性、海量规模的高并发性等特殊性,为设备全生命周期管理带来了不一样的挑战,需要充分考虑可无人运维、大规模、数据异构、资源受限等因素。 以下会从设备连接和管理服务中,选择六个关键技术进行解读,包括安全稳定连接、海量消息、物模型(设备建模)、大规模设备管理、监控运维、异常检测。 技术白皮书 5 3.1. 安全稳定连接 3.1.1. 核心技术挑战  端侧碎片化 物联网场景覆盖的“物”种类非常广泛,必然导致碎片化,很难形成规模化效应和高附加值,而现在还没有产品能覆盖所有的场景,给物联网的平台企业带来很大的技术挑战。物联网平台接入层尝试用多样性的连接方式来解决不同设备的上云问题。  海量设备的连接稳定性 当并发连接数量达到千万甚至亿级时,对于任何一个平台而言,保持连接的稳定性都是很大的技术挑战。例如各种网络问题、时钟溢出导致的连接风暴、发布时导致的设备离线、设备端异常导致的死循环不停建连等,都是接入层需要解决的问题。  设备的网络质量 设备种类广泛导致设备部署的位置不同,例如在地下、在高空、在荒野、在边缘地区或在海外等,怎么让不同设备都能有好的网络质量,是接入层首要解决的问题。因为设备连接上云是IoT的基础。  设备的安全性 各种设备都联网后,会给物联网的安全性带来更大的挑战,例如汽车、门锁、起搏器等受到安全攻击,都会对用户的隐私、财产、生命等造成严重的威胁。 6 企业物联网平台 IoT Platform 3.1.2. 技术详细描述  端侧碎片化:接入的多样性 针对碎片化的接入问题,通过不同的接入方式来适配不同的设备场景。  直连设备:对于广域网的设备,通过直连的方式直接上云。  局域网设备:通过不同的局域网协议接入边缘网关,有边缘网关转换协议、然后做数据处理,再通过MQTT协议接入物联网平台。  LoRa设备:先接入LoRa网关,然后由LoRa网关通过MQTT协议接入阿里云物联网平台。  NB-IoT设备:只能接入电信平台,阿里云物联网平台通过云云对接的方式,先对接电信平台,然后把设备接入到阿里云物联网平台。  私有平台的设备:通过泛化接入的方式,把私有协议转成标准的MQTT协议,然后接入到阿里云物联网平台。  通道复用:对于边缘网关,其下的子设备可以通过通道复用的方式上线和消息上下行通信,这类子设备与直连设备的能力对等。  云网关: 针对采用了标准MQTT协议的设备,但自定义了设备身份信息和消息通信Topic的设备,通过云网关接入方式解决身份和Topic的标准化。 技术白皮书 7  海量设备的连接稳定性 1) 连接限流能力 从外部请求限流和内部资源限流两个维度设计的接入层限流。针对外部限流,有并发建连限流,单连接流量限流,背压机制(结合业务层消费能力和TCP滑动窗口机制来实现),节流机制(溢出包丢弃)。针对内部资源限流,限制单进程、单应用的TCP Session数量,针对TCP缓存的内存限制,针对单应用的CPU使用限制。通过内、外资源的限流策略来防止连接层的雪崩,同时减少对下游系统的冲击。 2) 应用热更新能力 在网络代理发布时,会导致设备的TCP长连接断开,对于设备而言,需要重建连接,同时在建连的过程中消息不能到达。对于长连接断开,阿里云物联网平台支持了平滑迁移和缓慢下线的能力。通过老进程关闭listen fd,新进程接管listen fd,老进程维持24小时,让设备重连后自动迁移到新进程。对于长时间不重连的设备,通过缓慢下线的策略逐步使设备下线重连,减少同时大量设备下线对用户业务的影响。通过上述两个策略配合使用,可减少网络代理发布时对设备连接的影响。 3) Session转移 网络代理层跟协议层之间采用了TCP长连接,在协议层发布时会导致TCP长连接断开,在协议层保存了本地Session信息,如果当前发布机器的Session信息丢失,连接断开后需要设备重连才能恢复。针对上述情况,阿里云物联网平台设计了Session转移功能,在协议层发布时,可以把TCP长连接和设备的Session信息转移到其他未发布的机器上,此时协议层的发布可以做到对设备无感。 4) 快速容灾 为了解决单故障导致的全平台问题,阿里云物联网平台针对协议层、消息层部署了多个集群,同时会把不同的用户放到不同的集群里,当某个集群的协议层或者消息层出现系统异常的时候,网络代理层可以通过路由能力和Session转移能力把设备的连接转移到不同的集群,从而保障单集群故障能快速恢复。 8 企业物联网平台 IoT Platform  设备的网络质量 设备网络是连接稳定性的保障,阿里云物联网平台为了让设备的网络质量更好,采用了全球分发技术,不论设备在哪里生产和注册,都可以在设备接入前把设备分发到离设备最近的地域,然后利用阿里云物联网平台的国内外8大地域部署的能力,让设备就近快速接入。同时为了解决不同地域设备快速获取就近接入点地址,物联网平台采用了全球加速的技术,在设备就近接入后,又采用BGP网络来解决地域内的网络质量问题。  设备的安全性 技术白皮书 9 IoT平台基于四层安全设计和离线安全分析结合来保障设备的安全性。 1) 安全防御层 借助阿里云的DDoS、高防等能力,防止SYN洪水攻击等,做到流量的有效清洗,可以防止1000 Gbps以上的流量攻击。 2) 通道安全层 通过实现TLS、DTLS,X.509,ID²等安全加密技术,实现传输层的加密,防止数据在传输过程中被篡改、伪造等,同时针对低功耗设备,提供PSK、SessionTicket等能力,解决TLS过程中的数据传输量和网络RT的问题。 3) 身份安全 支持三种类型的设备身份,不同IoT场景可以使用不同的身份,保障每个设备都有唯一身份,同时对设备认证做了加签,防止身份的伪造。 4) 数据安全 按单元隔离不同集合的用户,然后再按用户维度和实例维度做更小粒度地隔离,保障数据在实例内、用户内、单元内闭环,做到每个用户只能看到自己的数据。 5) 离线数据分析 利用设备行为数据结合平台的AI能力,分析每个设备的安全性,针对安全等级低的设备做预警,并且跟平台安全层结合,针对攻击类设备实现自动拦截的能力。 3.1.3 核心技术点 技术 说明 安全能力 基于四层安全设计和离线AI分析能力,解决IoT平台的设备安全问题。 就近接入 通过全球设备