大数据“三个V”的机遇与挑战

作者: 李勇

责任编辑: 阚智

来源: cbismb

时间: 2012-10-16 14:47

关键字: 大数据,宁家骏

浏览: 0

点赞: 0

收藏: 0


        ——国家信息中心专家委员会主任、国家信息化专家咨询委员会委员宁家骏

  云计算和大数据迎来了新的时代。不仅仅强调云计算资源整合和提高效率、节约资源方面,更强调云计算和大数据在一起的这种计算能力、数据挖掘能力。也就是说,大数据蕴藏着大的宝藏。

“4个O”模式大数据应用
  之所以有大数据,是因为信息技术不断发展,引用Google里的数据,1982年以来CPU性能提高了3500倍,内存价格下降了45000倍、硬盘价格下降了360万倍。有人说:如果1982年一辆宝马车是四万美元,如果与硬盘同等速率下降,现在宝马车应该就卖一个美分。当然这是不可能的!

  从DOS到GUI、Web、云时代、IOT时代,今后一定是以用户为中心的时代。所以出现了三个共享:网络共享、信息共享和资源共享,同时也开创了云终端后PC时代。

  移动互联网也使得云计算更加普及,在各个城市,买房子都要通过网上购房系统,而每个城市购房系统由各地在不同时间建设的,没有统一的模式,数据、基础架构是异构的。比如说有Web、CS方式,所以整合云计算新的计算模式。例如“4个O”模式:社交、位置、移动、商业,就使得移动互联网环境下数据共享、信息共享、服务共享变得更加现实。正因为在这样的大背景下,海量数据的增长是不可阻挡的洪流。但是,“大数据”不等于“海量数据”,大数据是海量数据+复杂类型的数据和不断变化的数据,所以复杂类型的数据既包括了传统结构型数据,也包括了半结构化的数据,还包括了完全非结构化的数据。所以说大数据不同于海量数据的另外一点要特别注意:海量数据首先是量能特别大,常常是超过TB级的,但是大数据是在海量数据加工基础上形成的,可能它的绝对数量可能小于TB级,甚至是若干个GB级,也可以称为大数据。这是大数据一个很重要的概念。

“三个V” 特点与挑战
  什么是大数据?用传统数据库没法儿处理或者处理起来很困难的数据叫做大数据。有三个特点:“三个V”,第一、要求速率非常高,第二、一定持续快速增加的,第三、多样化的。

  Facebook每周新增图片容量60TB,每日评论达到32亿条,图片总量超过了20个PB。它的操作也是非常大的,例如亚马逊目前有45万台服务器进行存储和数据处理。所以大数据首先从人而来,博客、微博、 SNA网络传播。大数据就是做服务,如果不能提供服务,就没有意义。

  大数据三方面的挑战:一、规模的挑战。由于大,很难给出一个绝对的数据标准确定大小。有时候也并不是数量绝对大,但是由于数据复杂、用处非常多,所以仍然属于大数据;第二个是数据结构的复杂。第三个是数据关联度更高。因为交互而来的数据都是你应我答、甚至是互相PK的数据。前不久发生了微博“约架”的问题,那都是交互出来的,所以它的关联性很高。由于它不再是传统数据库,所以用传统的SQL语言无法解决这种实时读写性需求以及复杂多表关联的查询等问题。以前我们用甲骨文数据库查询做表的时候,一旦表和表之间关联多了之后,查询的速度是非常慢,导致做出来一个表非常慢,一般来说都要建一个甚至好几个索引,通过它来解决关联的问题。而大数据不可能用关联、建索引的办法解决,正是因为这样,百度、Google都在推进非SQL的普及,通过大数据影像、压缩处理来解决好这个问题,同时也更依赖于将来要有支撑大数据新型的操作系统。
 

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。