公司公告
您当前的位置:主页 > 公司公告 >

用好大数据须着重计算思想

来源:http://0000c2.com 责任编辑:ag88环亚国际 2018-09-21 10:08

  用好大数据须着重计算思想

  大数据从2011年起变成了炙手可热的论题。大数据一词尽管内在重心是数据,但其间更为重要的计算思想却往往被忽视。而缺少计算思想的大数据则有可能带来大偏差。

  谷歌流行病趋势模型,从前被作为推销大数据概念的金牌事例。其作用是猜测流感和登革热的流行病趋势,但实践标明,这一模型并没有经得住时刻的检测。从2011年8月21日到2013年9月1日期间,谷歌流行病模型在108个星期里有100个星期高估了流行病数据。2013年1月,谷歌流行病趋势模型的估计值是实践数据的2倍。如此大的差错显然是无法承受的。

  大数据作为二手数据,缺少行政监督,许多时分也没有方法操控大数据的样本,大数据的样本往往是有噪音的和冗余的,这些问题给大数据剖析带来了必定的妨碍。谷歌流行病猜测模型的意图是猜测全美流感发病率,用的数据是查找引擎用户的查找记载。可是,全美国民和查找引擎用户并不是同一个概念。有流感症状的人并不都会运用查找引擎查询,而运用查找引擎查流感症状的人也不见得都得了流感。谷歌流行病模型的根底是流行病发病和各种关键词查找之间的相关联系,可是这种相关联系不是原封不动的,当媒体很多报导和遍及流行病知识时,大众在必定程度上发生惊惧,会带来查找量的突增,这种突增并不意味着流行病的迸发。这也是谷歌流行病猜测模型失利的主要原因之一。

  在计算学视角里,样本并不是越大越有价值,计算学着重的是样本的代表性,这一代表性一般是经过抽样调查来满意的。如国家计算局为了更好进行抽样调查,建立了基本单位名录库,名录库就是计算调查中的抽样框,抽样样本均来自于抽样框。抽样框既是挑选样本单位的根据,也是揣度整体的根据。在剖析问题时,弄清楚自己的研讨整体是十分重要的,假如大数据样本不是研讨整体,也不是研讨整体的抽样样本,这个时分用大数据做定论就需要十分当心,否则很简单由大数据带来大偏差。

  计算与信息技术联婚,是大数据开展的必经之路。直视当下大数据剖析中存在的问题,在使用机器学习算法的一起结合计算学的思想,才干更好地使用大数据这个东西,让大数据年代变得更美。

在线客服
  • 点击这里给我发消息
  • 点击这里给我发消息