日志样式

2019年全球大数据产业市场现状及发展趋势分析 Spark、kafka处理系统占据主导地位

依据世界数据公司(IDC)的监测数据显现,2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘),2018年全球大数据储量到达33.0ZB,同比增加52.8%。

大数据(big data),是指需求经过快速获取、处理、剖析以从中提取价值的海量、多样化的买卖数据、交互数据与传感数据,其规划往往到达了PB(1024TB)级。不同安排对大数据也有不同的界说。

麦肯锡对大数据的界说:一种规划大到在获取、存储、办理、剖析方面大大超出了传统数据库软件东西才能规划的数据调集,具有海量的数据规划、快速的数据流通、多样的数据类型和价值密度低四大特征。

移动信息化研究中心对大数据的界说:大数据是协助企业使用海量数据(603138)财物,实时、精确地洞悉不知道逻辑范畴的动态改变,并快速重塑业务流程、安排和职业的新式数据办理技能。

IDC以为大数据具有海量(volume)、异构(Variety)、高速(Velocity)和价值(Value)四大特性。

全球大数据储量规划爆发式增加

跟着物联网、电子商务、社会化网络的快速开展,全球大数据储量迅猛增加,成为大数据工业开展的根底。依据世界数据公司(IDC)的监测数据显现,2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘),2018年全球大数据储量到达33.0ZB,同比增加52.8%。

从大数据储量散布状况来看,美国大数据储量占比为21%,EMEA(欧洲、中东、非洲)占比为30%,我国区域占比为23%。

2013-2018年全球大数据储量计算及增加状况

数据来历:前瞻工业研究院收拾

2018年全球大数据储量区域散布状况

数据来历:前瞻工业研究院收拾

流式处理占主导地位,Kafka和Spark成为干流使用

依据数据处理的时效性,大数据处理体系能够分为批式(batch)大数据和流式(streaming)大数据两类。其间,批式大数据又被称为前史大数据,流式大数据又被称为实时大数据。

以Hadoop为代表的批处理大数据体系需先将数据会聚成批,经批量预处理后加载至剖析型数据仓库中,以进行高功能实时查询。这类体系尽管可对完好大数据集完成高效的即席查询,但无法查询到最新的实时数据,存在数据迟滞高级问题。

以Spark Streaming、Storm、Flink为代表的流处理大数据体系将实时数据经过流处理,逐条加载至高功能内存数据库中进行查询。此类体系能够对最新实时数据完成高效预设剖析处理模型的查询,数据迟滞低。

跟着互联网、计算机职业快速开展,企业对数据的时效性越发注重,企业使用也逐步由批处理数据渠道向实时的流数据数据渠道搬运。以流数据处理为代表的Spark、kafka大数据体系近年来大放异彩,替代了Hadoop的主导地位。

大数据施行流式处理特色剖析状况

材料来历:前瞻工业研究院收拾

2018年全球首要大数据处理体系热度排行状况

数据来历:前瞻工业研究院收拾

以上数据来历请参阅于前瞻工业研究院发布的《我国大数据工业开展前景与出资战略规划剖析陈述》,一起前瞻工业研究院还供给工业大数据、工业规划、工业申报、工业园区规划、工业招商引资等解决方案。

责任编辑:周星如