文继荣:大数据是一种进行判断和预测的能力

首页    专家专栏    文继荣:大数据是一种进行判断和预测的能力

文继荣,工学博士,教授,博士生导师,中国人民大学信息学院院长,大数据管理与分析方法研究北京重点实验室主任。毕业于中国人民大学信息学院计算机科学与技术专业,获得工学学士和硕士学位。1999年于中科院计算所获得博士学位,同年加入微软亚洲研究院,自2008年起担任高级研究员和互联网搜索与数据挖掘组主任。在微软亚洲研究院工作的14年中,获得50多项美国专利,其中一些成果已经被用于重要的微软产品中。所领导的研究团队开发出了微软学术搜索、人立方、产品搜索等有影响力的互联网应用。在国际著名会议和期刊上发表了一百多篇论文,担任过许多国际会议和研讨会的程序委员和主席。目前是信息检索领域主要期刊ACM Transactions on Information Systems(TOIS)的副主编。

 

什么是大数据?这是很多人都会问的问题。这是我自己对它的定义:大数据是一种能力,它是一种进行判断和预测的能力。不是数据很大就是大数据,它是一种能力,这种能力建立在群体智慧之上,是建立在很多人的群体经验和智慧基础上的一种预测判断能力。它的前提就是我们现在掌握了这种海量数据收集存储和处理的技术,就是在过去十几年间发生的事情。我们有了这样的技术,有能力做这种海量数据的收集存储和处理,就产生了这种新的能力。“经验主义比理性主义更重要,数据比模型更重要,相关关系比因果关系更重要”,这些都是它的一些内涵含义。

 

第二个问题,多大的数据是大数据?很多人会问这个问题。1T是不是足够大?100 T是不是足够大?对这个问题的回答,我们没有一个绝对的数量,我们不能说100个T的数量是不是大数据。一个数据是不是大数据,跟这个数据所应用问题的规模大小是有关系的,就是说你要把数据用在某一个问题上,这个问题的规模,尤其是样本空间的大小会决定你的数据足不足够大。

 

比如大家都知道掷硬币,就是正面、反面,可能扔一百次知道大概百分之多少概率朝上,百分之多少概率朝下,一百次可能就够了,一千次就很大了。但是对机器翻译的问题样本空间就是无穷大的,可能数据再怎么多都不敢拍着胸脯说是大数据,一个数据是不是大数据是跟问题相关的,如果你能充分覆盖你问题的样本空间,针对这个问题就是大数据。因为各种可能出现的情况都有数据进行覆盖,这样数据就足够大了。

 

回到我刚才讲的,大数据的方法很好,但是模型是不是就真的没有用?其实不然。因为实际上我们在实际解决问题的时候,发现数据总是不够。除非那种很小的问题,一般复杂的问题,因为它复杂,样本空间非常大,问题的各种可能情况非常多。所以,数据总是不够。还有就是样本空间在不停地变化,刚才的查询结果排序的例子里不停地有新的查询、新的网页出现,你需要不停地用新的数据补充,所以,你的数据总是不够的。

 

模型需要和数据结合提供适当的泛化能力。当数据不够的时候怎么结合,把模型和大数据进行结合?这其实是一个新的问题。原来我们的思考方式不是这样的,我们原来的方法是以模型为主,模型解决一切。现在倒过来看,假设我以大数据为主,在大数据力不能及的地方我们用模型进行补充。应该怎么做,这本身是做研究的人可以进行思考的问题。

 

 

2017年4月12日 14:43
收藏