大数据大概是近一年来最时髦的词了,大数据真正的本质不在于“大”,而是在于背后跟互联网相通的一整套新的头脑。大数据跟传统的数据最大的差异在哪呢? a8 H Q% W- V8 ?- n0 D
1.在线。起首大数据必须是永世是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,由于你根本没时间把它导出来利用。只有在线的数据才气立即被盘算、被利用。
2 o7 Y& D7 X2 j/ e5 M; T* H2.实时。大数据必须实时反应。我们上淘宝输入一个商品,配景必须在10亿件商品当中,刹时举行出现。假如要等一个小时才出现话,我信托没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消耗者,刹时完成匹配出现,这才叫大数据。
/ `3 L9 @4 f# r1 f8 d$ H; `8 R3.全貌。大数据另有一个最大的特性,它不再是样本头脑,它是一个全体头脑。从前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部门,我们要的是全部大概的数据,它是一个全貌。着实叫全数据比大数据更正确。 ( o$ ~3 g: ~& _$ `: z% g
这是大数据的三个本质,在线、实时、全貌。 4 K# r" c& G2 c5 x2 L" S* b/ e
大数据的3个典范特性
* f. B' [, U7 E: _# N9 G) L: L& E为了让各人对大数据有更多的明白,我再把它睁开跟各人讨论一下。各人做企业,最容易想到的两个数据应用,一个是市场调研,派个市场公司或市场部门做一个观察,去看下各公司什么反馈。第二个就是贸易智能BI、数据发掘,查察数据策划的报表。这是最传统的两个数据应用。如许的数据应用有几个典范特性:
* E7 D' b! |( {+ A1.要知道预备告竣的目的,从而主动网络这些数据。由于每个企业的盘算本领跟资本不一样,数据数据生存多少时间、哪些数据能用,是有所差别的。而大数据是实时的纪录数据。原则上,任何人上任何一个网站、做的任何变乱,全部变乱都会被纪录下来,没有人事先做区分。以是各人不再去问,是数据就纪录下来,以是这是第一个差异。 # {# i1 E& l; }2 p9 w' n- A
2.到场的人不再是故意识的到场,而是偶尔识的到场,你是为自己的优点在办变乱。你用一次搜刮,你就到场了谷歌的大数据搜集,由于你的每次点击就是一个数据泉源。假如让你到场一个市场调研,80%的环境下你会拒绝,15%的环境下你大概会要求某种意义上的补偿。很少有人乐意主动的到场市场调研,由于对你来说是个负担。但是线上的大数据对绝大部门人来说,美满是一个偶尔识的、自利的活动。我上淘宝就是为了买东西,我上微博是为了看消息,我上百度是为了搜刮,你都是为了自己优点而触发的一个偶尔识的活动,但这个偶尔识的活动,都为大数据做了贡献。 * p' @/ I) M' g1 d7 h8 X
3.一个是单向,一个是双向。我们从前做的数据分析也好,都是先假定一个目的,然后拿到现成的数据,分析活动,来测试我的推测。这些都是有一个单向的主导。大数据本质上肯定是双向的,就像搜刮,你点击搜刮引擎点击的时间,你是给它输入了数据,它给你的效果就是它与你的互动,就是它带给你的数据代价。这个大数据自己也在随时为你创造代价,如许的话就酿成一个双向互动的正循环,双方都给对方贡献了数据代价。任何大数据应用,假如在计划时就没有这种双向、互利的正循环的话,是跑不起来的,本质上就不是大数据。 & [9 l3 L' o$ a7 ^6 j. r
大数据应用,反应速率才是关键 z: r# ^! J8 b3 n0 ~
末了,我还想夸大的是反应速率——大数据的数据代价越大,它的反应速率就要越高。好比说谷歌的搜刮,你输入一个关键字看到的效果,跟一个小时以后再输入同样的关键字得到的效果,很大概已经不一样了。由于它已经把一个小时内环球全部的点击重新盘算了一遍,然后把信息做了效果优化再反馈给你。 % A. t* U: D; {% I0 a
以是,各人可以想想看,反馈的速率越快,它创造的代价越大,消耗者到场的动机就越大。数据越跑越大、反应越来越快、效果越来越好、用户到场会越来越大,才气酿成一个黑洞效应。这是我想讲的大数据的焦点概念。 |