Category: Big Data

0

十个让你大吃一惊的大数据统计

所谓的大数据其实就真的是大的数据,所以我们在做这些统计的时候都需要仔细再仔细,那我们来看看这十个有关大数据的统计。 全球数据圈会从2018的33ZB增长到2025年的175ZB,每年大概会有26%的增长。然而只有大概9ZB的数据被真正的存储了,而这个数据在2015年才0.9ZB。而这些存储的数据大概只有三分之一的数据真的被使用了。 全球的HDD,SSD,以及LTO的年产量在2020年大概是1300十亿字节,到2025年大概是4500十亿字节,这其中HDD占据了大头,有机构预测在2025年,HDD将会占有超过80%的量, 另外SSD占有15%的量,另外最新的NVMe-NAND大概会占有5%的量。 HDD出货量在2010年的时候到达了峰值,大概是6.513亿单元,然后再2019年就降到3.163亿单元。HDD的出货量预计在后面几年会有所增长,因为存储的需求会继续增加。 预计在2024年终端设备上的数据存储量将会急剧下降,因为很多组织都开始把数据向云端转移。事实上,把数据从终端设备向云端转移这一趋势从2015年就开始出现,甚至改变整个存储的发展。 从2018到2025存储的需求量可能超过22ZB。这其中59%将会来自于HDD。在SSD以及NVMe上的存储量会增加,但总的来说不会影响HDD的存储量。 每天的每一分钟,用户会花费一百万在线上,会产生140万视频和语音,在Facebook上分享150,000条信息,在Netflix上播放404000小时的视频。 现在每个小时的数据比20年前一年产生的数据都多。 2021年的公有云会存储将会超过企业数据中心。 AWS现在在全球已经有了77可选的中心,也有意味着现在AWS在全球大概有150到220个数据中心。假如每一个数据中心有50000到80000服务器,也就意味着AWS有750万到1760万服务器。 每一个相连的人大概每18秒交互一下。很多这种交互是由于全球数十亿的IOT设备在不停地交互,这种交互在2025年大概会产生超过90ZB的数据。在后面的五年,大概有超过十亿的人每天都进行数据的交互。

0

商业洞察力所必须的数据探索和数据准备

什么是数据探索? 数据探索或者探索数据分析(EDA)提供了一系列探索工具把我们对实时数据的基本理解变成数据分析。数据探索最终的结果是可以极大地提高我们对数据结构,数据的分布以及相互之间的关系的理解。数据探索也可以让数据科学家拥有之前难以获得的对商业的更好的洞悉。 数据探索是数据分析的第一步,理解商业数据是我们做出一个很好的决策的必要步骤,这其中就包括总结数据集的主要功能,比如它的大小,规律,特性,准确性等等。 这整个流程都是由数据分析的一个团队使用相应的分析工具以及一些高级的软件(比如R)来进行的。数据探索可以集合一些手工的方法加上一些自动化的工具比如数据可视化,图表以及初步的报告等。 什么是数据准备? 数据准备应用于相应的商业数据分析。数据准备的过程包括收集,清理以及合并对应的数据到一个文件,这样就可以为后期的数据分析所使用。 为什么数据的准备是必须的? 过滤掉结构凌乱的,不一致的以及无序的数据 把多个实时的数据源连接起来。 快速地报告数据 处理一些从特定文件收集来的数据(比如PDF 文档) 数据准备的流程 这里,我们介绍一些数据准备的标准流程,基本各大商业公司都是这样做的: 收集数据 这是所有商业的最开始的步骤,这一步中,从不同的数据源收集数据是非常必要的 — 我们可以从任何的数据收集数据,不管是商品的目录还是专业的资料。 发现数据 下一步就是发现数据,这时候理解数据并把它们按类分成不同的数据集是非常重要的。因为第一步我们可能收集了很多数据,这一步的过滤可能会占用很长的时间。 清洗和验证数据 这一步是非常重要的,我们可以把错误的或者我们认为没有用的数据过滤掉。这里有以下这些重要的步骤: 移除不必要和异常的数据 使用相应的模式来提炼数据 使用锁来保护敏感数据 填充数据流中的空挡 清洗数据之后,我们需要测试团队去帮忙再次检查所有的精炼数据。 转换数据 转换数据根据定义好的数据来维护相应的格式以及数据入口,也便于更多的人理解数据。 存储数据 这是上述所有步骤的最后一步。当数据清理之后,我们就可以使用第三方工具了,比如商业智能工具进行分析。 数据准备的好处 数据准备其实有这些好处: 在处理之前快速地解决错误。...