各位老铁们好,相信很多人对互联网大数据处理架构解析:为何难以胜任物联网数据挑战都不是特别的了解,因此呢,今天就来为大家分享下关于互联网大数据处理架构解析:为何难以胜任物联网数据挑战以及的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!
自然,物联网、车联网、工业互联网出现后,大家就想到了用通用的大数据处理平台来处理自己的数据。市面上流行的物联网、车联网等大数据平台几乎都是这种类型的架构,并且这种方法已经被证明是完全可行的。但这种一般方法的效果如何?可以说有很多缺点,主要表现在几个方面:1)开发效率低:因为它不是一个单一的软件,需要集成至少4个以上模块,而且很多模块都不是标准的POSIX或SQL接口,都有自己的开发工具、开发语言、配置等等,需要一定的学习成本。由于数据从一个模块流向另一个模块,因此数据一致性很容易受到损害。同时这些模块基本上都是开源软件,总会存在各种bug。即使有技术论坛和社区的支持,一旦陷入技术问题,工程师总会花费大量的时间。一般来说,需要一个好的团队才能顺利组装这些模块,因此需要大量的人力资源。
2)****运行效率低:*现有的这些开源软件主要用于处理互联网上的非结构化数据,但物联网采集的数据都是时间序列的、结构化的*。使用非结构化数据处理技术来处理结构化数据会消耗更多的资源,无论是存储还是计算**。例如,如果智能电表采集电流和电压并将其存储在HBase或其他KV类型数据库中,则Row Key通常是智能电表的ID,加上其他静态标签值。每个采集卷的key由Row Key、Column Family、Column Qualifier、时间戳、键值类型等组成,后面是具体的采集卷值。这种方式存储数据开销较大,而且浪费存储空间。而如果要做计算,就需要先分析具体的收款金额。例如,要计算一段时间内的平均电压,需要首先从KV存储中解析出电压值,放入数组中,然后进行计算。分析KV结构的开销非常大,导致计算效率大幅降低。 KV类型存储的最大优点是无模式。写入数据之前不需要定义数据结构,想怎么记录就怎么记录。对于几乎每天都会更新的互联网应用程序来说,这是一个非常有吸引力的设计。然而,对于物联网、车联网等应用来说,并没有太大的吸引力,因为物联网设备生成的数据的模式一般是不变的。即使发生变化,频率也很低,因为需要更新相应的配置或固件。好的。
3)****运维成本高:每个模块,无论是Kafka、HBase、HDFS还是Redis,都有自己的管理后台,需要单独管理。在传统的信息系统中,DBA只需要学习管理MySQL或Oracle,但现在DBA需要学习管理、配置和优化很多模块,工作量大得多。并且由于模块数量较多,定位问题变得更加复杂。例如,用户发现收集的某条数据丢失了。这个损失是由Kafka、HBase、Spark还是应用程序造成的?无法快速定位,往往需要很长时间才能想办法关联各个模块的日志来查找原因。而且模块越多,系统的整体稳定性就越低。
4)****应用推出慢、利润低:由于研发效率低、运维成本高,导致产品上市时间较长,导致企业失去商机。而且这些开源软件都在不断发展,需要一定的人力才能同时使用最新版本。除领先的互联网公司外,中小型公司在大数据平台上的人力资源成本普遍远远超过专业公司的产品或服务费用。
5)****对于小数据量场景,私有化部署太重:在物联网、车联网场景中,因为涉及到生产运营数据的安全,所以很多还是采用私有化部署。每个私有化部署处理的数据量差异很大,从几百个连接设备到数千万台设备不等。对于数据量较小的场景,一般的大数据解决方案过于臃肿,输入与输出不成正比。因此,一些平台提供商往往有两套解决方案。一种是针对大数据场景,使用通用的大数据平台,一种是针对小数据规模场景,使用MySQL或者其他数据库来处理一切。然而,这导致研发和维护成本增加。
一般的大数据平台都存在上述问题。有没有好的办法解决呢?那么我们需要对物联网场景进行详细的分析。如果你仔细研究,你会发现所有的机器、设备、传感器产生的数据都是时间序列,而且很多还包含位置信息。这些数据具有明显的12个特征:1)数据是时间序列,必须有时间戳;
2)数据结构化;
3)数据很少更新或删除;
4)数据来源唯一;
5)与互联网应用相比,多写少读;
6)用户关注一段时间内的趋势,而不是某个特征时间点的数值;
7)数据有保留期限;
8)数据查询和分析必须基于时间段和地理区域;
9)除了存储查询之外,还经常需要进行各种统计和实时计算操作;
10)车流量稳定、可预测;
11)往往需要一些插值等特殊计算;
12)数据量巨大,一天可采集超过100亿条数据。
如果充分利用上述特点,我们可以开发专门针对物联网场景优化的大数据平台。这个平台将具有如下特征:
1)****充分利用物联网的数据特点,在技术上做各种优化,大幅度提高数据插入、查询的性能,降低硬件或云服务成本;2)****必须是水平扩展的,随着数据量的增加,只需要增加服务器扩容即可;3)****必须有单一的管理后台,是易于维护的,尽量做到零管理;
【互联网大数据处理架构解析:为何难以胜任物联网数据挑战】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
确实啊,物联网数据和网上的数据特性完全不一样。
有10位网友表示赞同!
物联网的数据量、实时性要求比互联网高很多吧。
有18位网友表示赞同!
传统的大数据处理方案设计来处理网站访问日志这种静态数据的,不太适合物联网这个快节奏的场景。
有8位网友表示赞同!
我一直在想,是不是应该有专为物联网设计的架构?
有17位网友表示赞同!
是啊,通用架构可能没法满足物联网对低延时、高实时性的要求。
有11位网友表示赞同!
总感觉物联网需要更轻量级、分散的处理方式吧。
有5位网友表示赞同!
这个标题很有意思,让我更加好奇物联网数据应该如何处理了。
有11位网友表示赞同!
难道我们需要一套新的理论和方法去处理物联网的数据?
有15位网友表示赞同!
我觉得通用架构和物联网场景确实存在差异,需要专门的解决方案。
有11位网友表示赞同!
我一直想弄懂,物联网数据的处理到底怎么这么难?
有9位网友表示赞同!
期待更多的人去研究这个问题,找到合适的方法。
有6位网友表示赞同!
听说现在有针对物联网数据处理的一些新技术正在发展...
有8位网友表示赞同!
这个主题我蛮感兴趣的,希望能了解更多相关信息。
有7位网友表示赞同!
感觉很多公司都在试图解决这个难题,希望他们能取得进展!
有11位网友表示赞同!
对那些深度理解物联网架构的人来说,这应该不是个大问题吧?
有13位网友表示赞同!
也许我们需要重新思考数据处理的思路,才能适应更复杂的场景。
有8位网友表示赞同!
物联网发展迅速,它需要的技术也一直在迭代更新...
有9位网友表示赞同!
这个讨论很有价值,可以让更多人了解物联网数据处理的关键问题。
有15位网友表示赞同!
期待看到关于通用架构和物联网的数据处理比较的分析文章!
有18位网友表示赞同!