阿里云
发表主题 回复主题
  • 1887阅读
  • 0回复

[武汉峰会]HiTSDB高性能时间序列数据库产品解析

级别: 论坛编辑
发帖
5224
云币
10245

2018云栖大会武汉峰会IOT物联网专场,阿里巴巴数据库产品专家艾乐强带来题为HiTSDB高性能时间序列数据库产品解析的演讲。主要内容从四个方面进行解说,首先介绍了物联网数据特征和数据库困境,然后是对HiTSDB 核心能力进行介绍,紧接着对物联网平台方案和架构设计进行了讲解,最后对时序数据库应用场景进行了详细的阐述。数十款阿里云产品限时折扣中,赶快点击这里 ,领券开始云上实践吧!精彩视频请点击以下是精彩视频内容整理:

时序数据&时序数据库



俗话说所知不止于感知,在物联网领域中能感知世界的就是数据,所有物联网数据又有一个共同的特征,我们称这一类数据为时序数据。时序数据中的“序”指的是一个先后关系,在互联网中的数据是以时间维度划分的,所有的数据产生都会有一个相应的标签,有了时间标签以后我们关注的是数据的变化过程。简单理解就是在传统的电商或者其他行业中更关心数据的是当前的状态,比如说交易是否成功,订单是否是完成状态,库存是否首发了等当前状态。而物联网领域中最为人们所关心的其实是一个变化的过程,也就是说数据的一个产生,经过中间的过程以及产生结果的过程,也就是说整个过程是一个变化的过程,我们关心的是整个数据。所以加上时间的顺序以后,就形成了类似上图的曲线,类似我们平时所看到的监控一样,像这样的数据在物联网领域中是非常有特征性的,这种数据就叫做时序数据。

时序数据是物联网核心资产



具体的在物联网领域中的数据大概有哪些类型:
  • 设备数据,设备数据相对简单,物联网所连接的这些设备,包括工业中的机床或工业制造的一些设备,包括新型物联网领域中新能源的一些汽车、共享单车以及智能手环,这些都称之为设备。这些设备也都在无时无刻地产生数据,所以我们会关心什么时候去使用这套设备,也就是什么时候这套设备是在线的,什么时候是不在线的,这里有个关键词就是“什么时候”,这就是一个时间点,所以这类数据叫做设备数据。
  • 状态类数据,当设备上线的时候有哪些设备是在物联网平台里面的以便我们进行设备管理。其次就是状态管理,也就是说设备本身是否有故障,是否是正常运转的,是否是在工作状态的或者说它是否即将出现故障,所以我们在判断一个设备是否有故障时,并不是等到设备出现故障的一瞬间去进行诊断,而是通过设备数据变化的趋势,来预测设备何时会出现故障,所以可以提前做好预警。
  • 业务数据,如果我们关注的是一个手环,我们会关注每天走了多少步、夜晚睡眠时间如何,这就是业务数据。业务数据可以让我们掌握具体的业务指标。业务数据又分为历史数据和实时数据,实时数据是我们最关心的是强预警数据。历史数据是一个趋势性的数据,比如温室效应,在科研分析的时候是一个长期的数据,短期的数据是看不到效果的。


物联网数据特点


在物联网领域里数据有一些特点,首先是数据量非常大,我们的设备规模通常会达到几个亿的量级,而且这个数据与其他业务有所不同,不是每天都有一个高峰期和低峰期,它会固定地产生数据,也就是说它永远是业务高峰期,除非它下线了否则它永远都在产生数据。所以这个数据不会实时地向上汇报,而是持续向内写入,并且我们会关心它的实时性。比如基于这个数据做一个无人零售店,这时需要一个数据去做一个门禁的管控,如果某一个数据到临界值时产生一个开关,所以对于实时性的要求是非常高的。数据库要做到的就是快速响应,通常可以做到毫秒级别。另外由于设备量很大,所以写的量也就相应变大。其次就是结构化问题,所有的数据是有设备描述信息的,所以它是一个结构化的数据。另一个特点是数据是时序的,对于数据本身来说需要人为的对数据进行管理,所以需要给予时间维度将这些数据进行快速的管理,然后把实施的数据和历史的数据及时的提供给上层的应用。大量的设备接入,所面临的业务类型与传统的电商业务类型是不同的,如果用传统的关系数据库来承接的话,最大的问题就是已经没有方案可以支持大量的设备去写,其次就是存储成本很高。设备的数据是持续写入的,并且设备量也很大。另一个问题就是需要把数据更加实时的反馈给业务,所以在实际业务中已经验证了是不能够大量的、持续地写入,以及高性能的查询场景。

HiTSDB 核心能力指标


之所以推崇时序数据库,是因为它有相应的能力去支持的,阿里云推出的时序数据库所能达到的能力在双11电商环境中已经得到验证,分布式集群架构水平扩展,双十一集群峰值支持每秒两千万数据点写入,支持千万物联网设备接入。压缩比达到10:1,基于XOR的值压缩技术和Delta Of Delta时间戳压缩技术,节约了90%存储空间。针对物联网场景所提供的特定的时序数据库的功能,在设备出现故障时数据传输就会中断,由于数据是不间断运转的,如果数据没有存储条处理那么在这段时间数据就是空白的,插值就是利用数学函数方式在缺少的数据点上,根据前后数据变化规律将数据补全。

HiTSDB 核心能力-Downsampling



数据产生的纬度都是比较固化的,设备大多是按秒或者毫秒产生数据的,但是我们在业务上通常会有不同的纬度使用数据,所以在真的业务层所展示的经度与需要的展示纬度是不同的,我们关心实时数据的可能会关心每一秒数据的值,如果看整体数据,就可以把每秒的值聚合到一起。
空间聚合的意思是对于大量的设备会有很多的类型分析,一方面会关心一台设备的指标,还有可能按照类型把一批的机器的指标聚合分析,所以会把一批的指标聚合到一起,计算一批机器平均的指标。
这是我们所能覆盖的三大互联网行业,分别是新型物联网平台、工业物联网、业务和性能监控,APM在类似双11这种场景下,除了在设备层的管理外,也可以在设备的应用层把相应的应用的指标接进来,可以进行类似阿里这样从应用层到设备层完全一个体系的管理。
在云上会有相应的产品支撑,对于设备接入会有SDK去做设备的嵌入,嵌入后会有IotHub这样的网关做相应的设备接入、认证。实时计算也是其中的一个能力,可以依赖它做特定的函数的业务逻辑的嵌入分析,最终所有设备数据或业务指标数据都在时序数据库构建一个整体的物联网的数据中心,随后就可以基于这些数据中心做很多数据分析。

案例:HiTSDB助力建设云上能源管理系统


工业企业的能耗占了全社会能耗的绝大多数。这其中包括风水电气等多种复杂介质。本方案采用互联网架构实现数据采集、统计分析、平衡调度、节能优化等全面的能源管控协同平台。选用HiTSDB的原因有三点:1)大规模:分布式集群架构,轻松应对千万点以上的数据存储需求,多副本保障数据的可靠性。2)内置高效率的压缩机制,擅长处理海量工业物联网的传感器数据的流水涌入比传统采集方案节省 90% 存储成本。3)利用系统提供的独特的预聚合、降精度算法,为大跨度高频次巨量数据访问提供保障,为后期数据分析提供可靠保障。本文由云栖志愿者小组毛鹤整理编辑。
https://yq.aliyun.com/articles/598080
x
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
验证问题: ECS是阿里云提供的什么服务? 正确答案:云服务器
上一个 下一个