亚马逊Spark上线两年后关闭:为和Instagram竞争推出
143 2022-09-03
事实上,数据本身并不有用,必须经过一定的处理。比如你每天用手镯跑步收集数据,网上那么多网站也是数据,简称Data,数据本身没有效果,但数据包含一些非常重要的东西,只有通过梳理和清理才能称为信息。
数据如何对人有用?人们整天讨论大数据。事实上,数据本身并不有用,必须经过一定的处理。比如你每天用手镯跑步收集数据,网上那么多网站也是数据,简称Data,数据本身没有效果,但数据包含一些非常重要的东西,称为信息(Information),数据杂乱无章,只有经过梳理和清理,才能称之为信息。信息信息包含了许多规则,我们需要从许多信息中总结规则,才能称之为知识,知识才能改变命运。
有很多信息,但很多人看到信息相当于白看,但有些人可以从信息中看到电子商务的未来,有些人看到直播的未来,所以人们很棒。如果他们不从信息中提取知识,他们只知道每天刷朋友圈,只能在互联网的浪潮中成为观众。有了知识,然后用这些知识来实践,有些人会做得很好。这东西叫做智慧Intelligence。有知识不一定有智慧。很多学者都很有知识。发生的事情可以从各个角度分析,但一到实践,就不能转化为真正的智慧。许多企业家之所以伟大,是因为他们将所获得的知识应用到实践中,最终做。
1. 如何升华数据的智慧?
数据华智慧之前,数据处理分为五个步骤。
第一步:数据收集。首先要有数据。收集数据有两种方式。第一种方法是拿它(Pull),专业点称为爬行或抓取。常见的搜索引擎就是这样做的。它将在线信息下载到其数据中心,然后由您搜索。 例如,当你去搜索时,你会返回一个列表。为什么这个列表在搜索引擎公司?这是因为他爬下了所有的数据,但如果你点击一点链接,网站将不在搜索引擎公司。比如搜狐有个新闻,你拿百度搜出来,你不点的时候,那一页在百度数据中心,一点出来的网页就跳到了搜狐的数据中心。另一种方法是推送,有很多终端可以帮助我收集数据,比如智能手镯,它可以上传你每天跑步、血压和心跳的数据。
第二步是数据传输。常见的会通过队列方式进行,数据量实在是太大了,数据必须经过处理才会有用,但是系统处理不过来,只好排排队,一条条地处理。
第三步是数据存储。现在的数据是Money,掌握数据相当于掌握金钱。否则看购物网站怎么知道想买什么?因为它有你的历史交易信息,然后分析你的购物习惯。
第四步是处理和分析数据。以上存储的数据为原始数据,原始数据多为凌乱,垃圾数据较多,需要清洗过滤。对整理过的数据进行分析,从而对数据进行分类,或发现数据之间的相互关系。例如,著名的啤酒和尿布的故事是通过对人们购买数据的比较分析,发现男性在购买尿布时会同时想购买啤酒,从而发现啤酒和尿布之间的相应关系,掌握规则,然后应用到实践中,将啤酒和尿布的柜台放在一起,这是一种智慧。
第五步是检索和挖掘数据。搜索就是搜索。俗话说,谷歌不决问谷歌,内事不决问百度。两个搜索引擎都将分析归纳的数据放入搜索引擎中,方便人们找到自己想要的信息。另一种是挖掘,搜索到的信息也需要挖掘出相互关系。例如,财务检索,当搜索公司股票时,公司的管理层也应该被挖掘出来吗?如果你只是发现公司的股票涨得很好,你就去买,第二天就跌了。这不是骗人吗?因此,通过各种算法挖掘数据中的关系,形成知识数据库是非常重要的
2. 大数据拥抱云计算
数据分析是一项非常有趣的技术,其功能是帮助我们整理数据,存储信息,并从信息中总结规则。当数据量很小时,几台机器可以分析和解决问题。但是,当数据量越来越大,最强的超级计算机无法解决问题时,我们该怎么办?此时需要聚合多台机器的力量,即使用云计算的力量。
以物联网为例,,以物联网为例,外部部署了数亿的检测设备,将大量的温度、湿度、PH值,PM2.5.收集所有其他数据。对于网页的搜索引擎,需要下载整个互联网的所有网页。显然,一个服务器做不到。需要多个服务器组成分布式系统。每台机器下载部分并同时工作,可以在有限的时间内下载大量的网页。
对于数据传输,内存中的队列肯定会被大量数据挤压,因此基于存储系统的分布式队列可以同时由多个服务器传输。随着你的数据量,只要我的团队足够厚,队列就足够厚。
数据存储也是如此。服务器的文件系统不能放下。然后我们将制作一个大型分布式文件系统来做这件事,并将多台机器的硬盘组成一个大型文件系统。
另一个例子是数据分析,可能需要大量的数据分类、统计、聚合、服务器不能完成,处理数百年也分析,所以有分布式计算方法,大量数据分为小,每个服务器处理小,多个服务器平行处理,可以很快完成。例如着名的Terasort对1个TB相当于1024G,单机处理需要几个小时,但并行处理只需要几十秒。例如着名的Terasort对1个TB相当于1024G,单机处理需要几个小时,但并行处理只需要几十秒。
所以大数据平台,什么叫大数据,说白了就是机器做不完,大家一起做。随着数据量的增加,许多公司需要处理大量的数据,没有这么多的机器该怎么办?
说到这里,我想到了云计算的好处。我真的想要我想要的,我想要的。例如,大数据分析企业的财务状况可以每月分析一次。如果你想把这100台服务器或1000台服务器放在那里,每月使用一次是非常浪费的。当需要计算的时候,拿出这1000台服务器,然后不用的时候,这1000台机器可以做其他事情。谁能做到呢?只有云计算服务提供商(如文中提到的易迈云)才能为大数据的运算提供资源灵活性。而云计算服务商也会部署大数据放到它的PaaS作为平台上非常重要的通用应用。因为大数据平台可以让多台机器一起做一件事,这不是普通人或团队可以开发的,你必须雇佣几十个或数百个专业人士来玩,所以就像数据库一样,事实上,你仍然需要一群专业人士来玩这个东西。目前,公共云服务提供商(如易迈云)提出了相应的大数据解决方案。当一家小公司需要一个大数据平台时,它不需要购买1000台云主机。只要你去易迈云的官方网站,这1000台机器就出来了,上面部署的大数据平台只需要把数据放进去。
因此,云计算需要大数据,大数据需要云计算,这两种技术相结合。