今天给各位分享揭秘:为何通用互联网大数据处理架构难以胜任物联网数据挑战的知识,其中也会对进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
自然,物联网、车联网、工业互联网出现后,大家就想到了用通用的大数据处理平台来处理自己的数据。市面上流行的物联网、车联网等大数据平台几乎都是这种类型的架构,并且这种方法已经被证明是完全可行的。但这种一般方法的效果如何?可以说缺点很多,主要表现在几个方面:
1)开发效率低:因为不是单一软件,所以需要集成至少4个或更多模块,而且很多模块不是标准的POSIX或SQL接口。他们有自己的开发工具、开发语言、配置等,需要一定的学习成本。由于数据从一个模块流向另一个模块,因此数据一致性很容易受到损害。同时这些模块基本上都是开源软件,总会存在各种bug。即使有技术论坛和社区的支持,一旦陷入技术问题,工程师总会花费大量的时间。一般来说,需要一个好的团队才能顺利组装这些模块,因此需要大量的人力资源。
2)运行效率低:现有的这些开源软件主要用于处理互联网上的非结构化数据,但物联网采集的数据都是时序的、结构化的。使用非结构化数据处理技术来处理结构化数据会消耗更多的资源,无论是存储还是计算。例如,如果智能电表采集电流和电压并将其存储在HBase或其他KV类型数据库中,则Row Key通常是智能电表的ID,加上其他静态标签值。每个采集卷的key由Row Key、Column Family、Column Qualifier、时间戳、键值类型等组成,后面是具体的采集卷值。这种方式存储数据开销较大,而且浪费存储空间。而如果要做计算,就需要先分析具体的收款金额。例如,要计算一段时间内的平均电压,需要首先从KV存储中解析出电压值,放入数组中,然后进行计算。分析KV结构的开销非常大,导致计算效率大幅降低。 KV类型存储的最大优点是无模式。写入数据之前不需要定义数据结构,想怎么记录就怎么记录。对于几乎每天都会更新的互联网应用程序来说,这是一个非常有吸引力的设计。然而,对于物联网、车联网等应用来说,并没有太大的吸引力,因为物联网设备生成的数据的模式一般是不变的。即使发生变化,频率也很低,因为需要更新相应的配置或固件。好的。
3)运维成本高:每个模块,无论是Kafka、HBase、HDFS还是Redis,都有自己的管理后台,需要单独管理。在传统的信息系统中,DBA只需要学习管理MySQL或Oracle,但现在DBA需要学习管理、配置和优化很多模块,工作量大得多。并且由于模块数量较多,定位问题变得更加复杂。例如,用户发现采集到的一条数据丢失了,丢失的原因是Kafka造成的。
HBase、Spark 或应用程序丢失?无法快速定位,往往需要很长时间才能想办法关联各个模块的日志来查找原因。而且模块越多,系统的整体稳定性就越低。
4)应用上线慢、利润低:由于研发效率低、运维成本高,产品推向市场需要更长的时间,导致企业失去商机。而且这些开源软件都在不断发展,需要一定的人力才能同时使用最新版本。除领先的互联网公司外,中小型公司在大数据平台上的人力资源成本普遍远远超过专业公司的产品或服务费用。
5)对于小数据量场景,私有化部署太重:在物联网、车联网场景中,由于涉及到生产运营数据的安全,很多仍然采用私有化部署。每个私有化部署处理的数据量差异很大,从几百个连接设备到数千万台设备不等。对于数据量较小的场景,一般的大数据解决方案过于臃肿,输入与输出不成正比。因此,一些平台提供商往往有两套解决方案。一种是针对大数据场景,使用通用的大数据平台,一种是针对小数据规模场景,使用MySQL或者其他数据库来处理一切。然而,这导致研发和维护成本增加。
一般的大数据平台都存在上述问题。有没有好的办法解决呢?那么我们需要对物联网场景进行详细的分析。如果你仔细研究,你会发现所有的机器、设备、传感器产生的数据都是时间序列,而且很多还包含位置信息。这些数据有12个明显特征:
1)数据是时间序列,必须有时间戳;
2)数据是结构化的;
3)数据很少更新或删除;
4)数据来源唯一;
5)与互联网应用相比,写多读少;
6)用户关注一段时间内的趋势,而不是某个特征时间点的数值;
7) 数据有保存期限;
8)数据查询和分析必须基于时间段和地理区域;
9)除了存储查询外,还经常需要进行各种统计和实时计算操作;
10)流量稳定、可预测;
11)经常需要一些插值等特殊计算;
12)数据量巨大,一天可采集超过100亿条数据。
如果充分利用上述特点,我们可以开发专门针对物联网场景优化的大数据平台。该平台将具有以下功能:
1)充分利用物联网的数据特性,进行各种技术优化,大幅提升数据插入和查询的性能,降低硬件或云服务的成本;
2)它必须是水平可扩展的。随着数据量的增加,只需扩展服务器即可;
3)要有单一的管理后台,易于维护,尽量做到零管理;
4)必须开放,具有业界流行的标准SQL接口,并提供Python、R或其他开发接口,方便集成各种机器学习、人工智能算法或其他应用。
期待这样的工具~~
【揭秘:为何通用互联网大数据处理架构难以胜任物联网数据挑战】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
我觉得这篇文章肯定能揭秘一些东西,总觉得传统互联网的数据和物联网数据的处理方式其实不一样。
有18位网友表示赞同!
我一直在想这种框架能否适用于物联网,看起来答案未必是这样啊。
有18位网友表示赞同!
现在很多工业应用都用物联网,搞不懂为什么数据处理方法跟不上啊。
有9位网友表示赞同!
这个标题点得太准了,物联网的数据特性确实独特。
有15位网友表示赞同!
之前我听人说传统架构也能处理物联网,看来还是有点差异吧。
有17位网友表示赞同!
感觉要学习一下,专门针对物联网的数据处理框架是怎样的?
有16位网友表示赞同!
这篇文章应该是很专业的解读了,期待一些具体的案例分析。
有5位网友表示赞同!
物联网的东西越来越复杂,需要新的思维方式处理数据啦。
有14位网友表示赞同!
这文章肯定能让我了解当下最新的物联网技术趋势,很有启发意义。
有8位网友表示赞同!
一直想学习物联网相关知识,这篇文应该能帮到我不少啊。
有7位网友表示赞同!
希望作者能够详细介绍一下通用架构的缺陷,以及针对物联网数据设计的解决方案。
有17位网友表示赞同!
看来处理物联网数据是需要定制化的方法,不能一刀切啊。
有11位网友表示赞同!
我很想知道这篇文章会提出什么新的想法,来解决这个困境。
有7位网友表示赞同!
期待作者能够用通俗易懂的语言解释复杂的架构差异。
有12位网友表示赞同!
对物联网技术一直很感兴趣,这篇文应该能让我更深入地了解它。
有15位网友表示赞同!
文章标题很有吸引力,我很期待了解更多关于通用架构和物联网数据处理的信息。
有7位网友表示赞同!
物联网数据处理确实是一个值得研究的课题,希望这篇文章能够给我带来新的见解。
有17位网友表示赞同!