产品案例
您当前的位置:主页 > 产品案例 >

大数据的圈套 为什么小数据更重要?

来源:http://0000c2.com 责任编辑:ag88环亚国际 2018-09-02 16:15

  大数据的圈套 为什么小数据更重要?

  大数据管理经过很多数据采矿,找出潜在的变量和它们之间的因果联络,这样企业能够有针对性地出产和营销。相比之下,小数据泛指零散的弱信号。它们往往被当作没有标准、好像随机的误差或噪音。

  被过滤和忽视是小数据的命运,原因是人们没有现成的概念去界说和解说它们。可是,没有小数据,大数据管理会充溢圈套。

  小数据为主,大数据为仆,这是数据管理的正路。

  大数据的圈套

  新年就要到了。假定你是一位出车千次无事故的好司机,恰好在朋友家喝了点酒,差人也春节下班了,所以你坚持自己开车回家,盘算着出问题的概率也不过千分之一吧。假如这样算,你就犯了一个取样过错,由于那一千次出车,你没喝酒,它们不能和这次混在一同核算。这也是大数据采矿常犯的错。

  从1967年第一届美国超级碗杯橄榄球赛到1997年第三十一届,只需NFL联赛出线队赢,当年的股票就大涨14%以上,AFL联赛出线队赢,则至少大跌10%。假如你依照这个目标来生意股票,就要当心了!1998年,丹佛野骑兵(AFL)赢,当年股市大涨28%;2008年纽约伟人(11.08, -0.02, -0.18%)队(NFL)赢,股市不只大跌35%,还引发次贷金融危机。

  只需有超大样本和超多变量,咱们都可能找到无厘头式的相关性。它完全符合计算办法的严格要求,但二者之间并没有因果关系。美国政府每年发布4.5万类经济数据。假如你要找失业率和利率受什么变量影响,你能够罗列10亿个假定。我自己的研讨经历也显现,只需你重复测验不同的模型,上千次后,你必定能够找到计算学意义上建立的相关性。把相关性当作因果关系,这是大数据采矿的另一个圈套。

  咱们说,三尺深的水池能淹死人,由于三尺仅仅平均值。疏忽极值,选用平均值,它是大数据采矿第三个常见的圈套。

  博弈论创始人之一,诺伊曼(John von Neumann)从前戏言:有四个参数,我能画头大象,再加一个,我让大象的鼻子竖起来!大数据采矿可能给出新颖的相关性。

  可是,脱离了问题的情境,它不但不能确保因果关系,还可能误导决议计划。

在线客服
  • 点击这里给我发消息
  • 点击这里给我发消息