杂谈大数据兼及话出版
■谭 跃(中国出版集团公司总裁) | 2017-03-24
收藏
摘要: 什么是大数据?大数据从哪里来,往哪里去?出版业如何应对大数据时代的冲击?如何更好地将大数据为我所用?本报此次刊发的《杂谈大数据兼及话出版》一文,是中国出版集团总裁谭跃在2014年中国版权协会高级研修班上的讲课内容。文章看似“杂谈”——从公共医疗领域到社会生活领域,从二进制到《易经》,从新墨西哥数字巡天项目到中国“天河二号”计算机……谈古论今,旁征博引,轻松可读;实则“聚焦”——透过若干个鲜活的案例,条分缕析的思考,梳理了数据化与数字化的关系、大数据的历史过程、云计算条件下新的数据观、大数据的核心和特点、大数据与出版的关系……

 什么是大数据?大数据从哪里来,往哪里去?出版业如何应对大数据时代的冲击?如何更好地将大数据为我所用?本报此次刊发的《杂谈大数据兼及话出版》一文,是中国出版集团总裁谭跃在2014年中国版权协会高级研修班上的讲课内容。文章看似“杂谈”——从公共医疗领域到社会生活领域,从二进制到《易经》,从新墨西哥数字巡天项目到中国“天河二号”计算机……谈古论今,旁征博引,轻松可读;实则“聚焦”——透过若干个鲜活的案例,条分缕析的思考,梳理了数据化与数字化的关系、大数据的历史过程、云计算条件下新的数据观、大数据的核心和特点、大数据与出版的关系……虽是2014年的文章,但视角独特,深入浅出,系统翔实,对当前出版业的数字化转型乃至整个出版业业态升级仍具有一定的启发和借鉴意义。特此刊发,以飨读者。


 几年前,有人跟我谈大数据出版。当时吓了一跳,数字出版还没弄懂搞好,又来大数据出版了。于是做了些学习,借此机会,谈点初步心得。

  从两个案例说起

  第一个案例,是2009年发生甲型H1N1流感,当时美国很恐慌,专家说很可能像墨西哥、西班牙当年的大流感一样,会波及到五亿人以上。美国国家疾控中心采用的是抽样法,结果出来很慢。不知道流感源头在哪里,不知道下一步控制的办法是什么。但是谷歌立即在《自然》杂志出了一个报告告诉公众,什么时间、在什么地方、源头在哪里,流感要大爆发。两个月以后,国家疾控中心才出了报告,它的重合率,也就是谷歌报告的正确率达到97%。谷歌怎么做的呢?这就要说到大数据了,它运用了每天31亿条的搜索,将5000万条美国最频繁搜索的词条和国家疾控中心2003年至2008年所有数据进行对比,对比的结果就出了一份报告。

  第二个案例,是有一个软件专家参加他弟弟的婚礼,从西雅图到洛杉矶。因为婚礼通知得早,两个月前就买了机票,但上了飞机才知道别人的票价都比他便宜,于是十分恼火。但他是一个数据专家,他的恼火没有发到其他地方,他要开发一个软件来指导大家怎么买票。他利用软件,对所有航线机票的价格和提前购买天数的关系做了大量的运算。数据的基础是多少呢?是41天内的1.2万个价格的样本。然后他觉得还不够,又把国家航空产业所有公司的每条航线中的每架飞机、每个座位,一年内的所有票的综合价格,做了大量的运算,获得了2000亿条飞行数据。在这个基础上,他做了一个东西公布出去。公布的结果是什么呢?微软发现了商机,把这个公司买了下来,花了1.1亿美元。买下来实际看重的价值是什么呢?是这个公司发展到第二年,已经拥有了十万亿条价格记录,准确率达到75%,所有用他的方法买票的人平均可以降低票价50美元,这是不小的数字。

  这是两个案例,当然还有很多案例。重要的不是案例本身,而是案例告诉我们什么。这两个案例告诉我们四点认识。一是数据是静止的。一旦发生了就存在那儿。二是数据是过去的。潜台词是数据没有太大的作用,像没有被开发的矿产一样。三是数据是有待开发的。像很多物理学家讲的,只要是物理现象,背后都有潜能有待开发,数据也是这样。四是数据是无处不在的。刚才讲到的案例,一个是公共医疗领域,一个是社会生活领域,其实很多的方面都表现出数据的无处不在。

  最近美国这样的书比较多,我看了一些,远没看全。其中读到一个观点是,数据化将使世界一切皆可量化。这跟我们出版业有关联了,一切也包含了出版业。它说我们过去的年代重点在哪里,在T,T是技术。而从现在开始,我们的聚焦将集中在I,信息本身,也就是数据。Data(数据)的拉丁文本意是“已知”的意思,是存在过的现实的意思。

  数据化跟数字化是什么关系呢?有很多学术的表述,我的通俗的理解是,在二进制的数字条件下,数据又做了进一步的开拓,以便更加实用,更加能够运用到社会领域的方方面面。美国的很多专家都讲了这个问题,有的讲得很过分,讲数据无处不在,越是随着互联网不断的推进,越是随着大数据云计算的推进,数据将会越来越怎么样,最后将怎么样等。有一篇文章讲理论将会终结,不需要理论了,只要数据就能解决一切问题,因为大数据的本质就是在众多数据的基础之上,通过运算提供解决方案,所以理论没有意义了。就像当年炒作硅谷一样,当泡沫落下来的时候我们就要想清楚,如果理论没有意义了,那数据还有意义吗?生活就是辩证法,总有对立面,如果这面没有了,那面到哪去了?所以理论一定是还在的,理论之树还会常青,但是我们今天不讨论这个问题。

  其实古已有之

  “无处不在”的观念,我觉得是有道理的。美国人认为我们正在进入一个新的时代。这个时代数据的事实证明了一百多年来物理学家的一个定论:世界的本质不是原子,而是信息。大家可以琢磨一下这个话,世界是由万物组成的,过去我们的认识是,万物是基于原子构成的,而现在科学家告诉我们万物基础不是原子而是信息。所以我就想到了《道德经》里的一段话“大道汜兮,其可左右。万物恃之以生而不辞,功成不名有。衣养万物而不为主,常无欲,可名于小。”这一段我认为很好。不是老子跟现在的科学家商量过,只要真知灼见,在高处都是相通的。我们想,讲原子讲数据,都是在不同角度回答这个问题,即什么是道。道就是原子形式的物质,数据形式的信息。不同领域的道表现不同,因此它无处不在。

  “数据”有它可怕的一面和挑战的一面,但是首先要确立一个观念,任何事情不是从天而降的,任何事情总有一个历史的演化过程,我们都能找到它的根。我以为在中国我们可以找到这个根,就是中国古老的思想。佛教上有一个公案:释迦牟尼在一次佛众大会上,走到前面来以后什么话都不说,就拈了一枝花,高高举起,什么都不说,注视着全场。他的大弟子迦叶破颜一笑,彼此都没有语言交流,文献上也没看到有目光的交流。就是这个动作,一个动作一个笑,彼此心领神会,后来释迦牟尼就把他的衣钵传给了迦叶。

  过去很多人解释不了这个事情,我以为解释比较好的,是南怀瑾先生。他想到了孔子。孔子跟曾子说:“参啊,我的道是什么呢?吾道一以贯之。”过去我们的理解是,讲道的人干什么事情要一以贯之。但是南怀瑾的认识是,道就是一,所以一以贯之。因为老子这么讲,道生一,一生二,二生三,三生万物。这跟我们讲的数据,都是有联系的,只不过我们的先贤们在那种条件下,用着自己独到的悟性将这些东西读出来了。

  孔子对曾子讲完“吾道一以贯之”就走了,同学就问“一以贯之”到底什么意思。曾子说“夫子之道,忠恕而已矣”。这就引起了讨论,孔子讲的是“一以贯之”,而不是二以贯之,怎么用“忠恕”二字解呢?南怀瑾先生说,这就是阴阳,一就是二,二就是三,三就是万物。这就是中国古老哲学中的大数据。一是一切的一,一是一的一切。还有什么大数据比一还大吗?大家可以仔细去想藏在这些故事背后的、古代数据观与现代大数据的联系。

  《易经》告诉我们三大原则——变易、简易、不易,还告诉我们三大法则——象、数、理,这个法则又跟我们讨论的话题有关了。象是现象,八卦就是八个现象挂在墙上,然后又演化成16卦、32卦和64卦,都是自然和社会的现象。现在大数据所描述的就是各个领域的现象。数,就是数据。理,也叫辞,是对象和数的理性认识。象靠看,靠眼睛观察。数靠算,也就是运算。理讲判断,也就是理性思维。象、数、理,最终是判断。回到我们刚才讲的,不是理论不存在了,没有必要了,而是理论建立在什么基础上很重要,如果建立在象、数这个基础上,理还是会有必要,有道理的。所以,在《易经》64卦的基础上,孔子才写了“十翼”,作了十篇论文,在理的层面把周易讲清楚了。

  知道大数据的历史过程,我们心里面才会比较定。中国文化里,大家都会说“掐指一算”,算的背后是数,叫心中有数,算到心中有数的层面就定了。就像我们现在的出版,如果对大数据背后的道理不理解就会很恐惧,我第一次听到的时候就感到特别晕,数字化还没弄好,又来大数据了。

  再看我们的文化当中,什么事情发生了,大家会说“早有定数”,这是老百姓都会讲的。这些思想是哪里来的呢?你看先天八卦、后天八卦,都是数字。汉朝对《易经》研究的最好的叫京房十六卦变,又是离不开数字。再往下,黄道十二宫,又是数字,十二宫里面的数字就很复杂了。再往下六十花甲,也离不开数字。再往下十二生肖,还是离不开数字。

  最近我找到一张图,洛书。过去我们只注意洛书的图案,有一点门道,想探究一下。这次带着问题再去看,这个图上面全是数字,它还归纳了一句很好的话,叫“戴九履一、左三右七、二四为肩、六八为足”。这里面最值得重视的,是孔子在作《十翼》的时候讲的一句话“六爻之动,三极之道也”,这句话要引起我们足够的重视。

  我觉得自己没理解透,这句话跨越千年时空,仍然是指导实践的真理。它告诉我们第一层意思,天地之间别看数字很多,但是真正管用的不会超过六。孔子了不起啊,后来有科学家做过研究,除了极少的现象,万事万物的物理现象,基本上都是六个阶段。

  第二层意思是什么呢?六爻都在动,动的本质是什么?它告诉我们是“三极之道”。也就是六爻是三极变化的法则,三极就是天、地、人。我们现在讲的这些都是过去的表达方式,不研究它的人会认为是非理性的,甚至是迷信。其实,这都是古人对科学研究的一种数据表达,只不过现在我们不用了,感觉很陌生。古人有很强的数字概念,所以说数字、数据、大数据古已有之。

  不可同日而语

  所以,对大数据我们要正确的去把握。数据本来就是有的,古人早就感觉到了,并做了高度抽象的概括。只不过到了新的条件下,特别到了大数据的条件下,更准确地说是到了云计算的条件下,它的作用和潜能被释放出来了,和古代数据观已不可同日而语了。这是第一个观念。第二个观念,哲学上叫量变到质变,大数据也一样,当数据大到一定程度的时候,事物的形态就发生变化了,大数据的意义就在这儿,它已经不是原来的东西了,或者说它是也不是了。

  我找到几个例子。大家都知道法国拉斯科洞穴壁画,画的是马。毕加索去看了以后开了一个玩笑,他说自那以后人类就没有再创造什么东西了,包括徐悲鸿的马,画来画去还是马。但是,现在的科学家又从量变到质变的角度重新解释,虽然一幅马的照片大同小异、十分相似,但是把它搞成24幅,变成电影以后,性质就发生变化了。你看,这就是数字带来的变化。一的时候它是一幅画,到了24幅、开始动的时候它是一部电影,性质发生变化了。

  第二个例子是纳米技术。纳米技术告诉我们,可以把东西变小,变到一定的程度。什么程度?分子量级的程度,物质形态、物质的本质变化了。比如讲铜,铜是可以导电的,到了分子级别的时候就不导电了。比如讲陶土,陶土到了分子级别的时候,就成了软的有弹性的东西,我们现在看紫砂壶,想不到紫砂壶可以变成有弹性的东西,但是到了纳米技术就可以了。再说金属,金属给我们的感觉是硬的,到了分子级别是软的,你可以任意去摆弄它。

  这些事情都在说明大数据这个道理早就存在,只不过是到了现在技术条件下,非常集中地体现出来,但体现并揭示的仍然是哲学上的定律,量变到质变。形态和本质都发生了变化,大数据的意义也就体现出来了。

  第三个观念,我们现在都是做企业的,企业过去最强调的是有形资产,现在还作为一个重要的判断标准,就是企业规模。后来我们知道了跟有形资产至少同样重要的,还有无形资产。对出版业来说,就是版权,还有我们的商标、商号等等。现在到了大数据时代,它又告诉你其实比这些都重要的是数据资源,做得好,数据也是投入,是潜在的竞争力。现在做得好的一些公司,已经让数据成为现实的竞争力,比如苹果,如果你用有形资产去评价它,这家公司就没什么了不起,如果用数据的概念去评价它,这个公司就不得了,因为它拥有巨量的数据,并且每天都在增加。

  第四个观念,叫一个主因。大数据这些东西我们说它过去就存在,但是现在爆发出来了,主因是什么?我觉得是处理数据的能力迅速提升。

  为了直观,我也找了几个例子。大数据首先是来源于什么地方呢?第一是来源于天文学,因为天文学的信息量巨大。第二是来自于生物学中对基因的研究。一个是宏观,一个是微观,这两极深下去数据都是巨量的,以至于大到现在的计算能力无法实现了。因此,科学家们到了一个大数据时代。这就倒逼着处理数据的能力迅速提升。

  有资料显示,2000年Sloan数字巡天项目启动,这是一个很著名的项目,在新墨西哥。它用望远镜几周之内收集的数据,比自人类有历史以来收集的所有数据还要多。但是,过了十年,到了2010年的时候,在智利,也是巡天望远镜,把新墨西哥这个纪录打破了,五天就可以完成它所有的运算。最近媒体报道,中国的“天河二号”,世界上排名第一。第一是什么概念?比美国快一倍,计算速度快一倍。还有一个消息,我们的天文望远镜,它的收集、储存、运算能力是美国的五倍,就这么厉害。

  我们还记得十年前看新闻,全球科学家联手,十年完成了31亿对碱基的排序,现在这个工作量,只要15分钟就可以完成。我们都知道谷歌是了不起的,再看看它的数字,了不起到什么程度?它每天处理超过24拍字节的数据。这个概念是什么呢?每天的量相当于美国国家图书馆所有纸质出版物所含数据量的上千倍,每天更新的照片一千万张,每天的点击量或者写评论的是30亿人次。我们现在要有一个概念,每点击一次就是一批数据留下来,这里的30亿人次就是30亿个数据留下来了。

  谷歌的一个页面,现在每月访客是8亿,可以算算一年和十年是多少,因为数据是积累的。它每秒钟就会有长约一小时的视频上传,是讲它的数据量,数据量用一小时的视频来算。美国人处在前沿,所以南加州加尼福尼亚大学的一个教授,就做了一个专门的课题来研究这个事儿。结论是2007年人类大约储存了超过300艾字节的数据。这是什么概念呢?我们一部电影可以压缩成一个GB,而一个艾字节相当于10亿个GB,这个不多说了,总之是一个概念,就是海量、巨量,已经超出我们过去那种静态的想法,而且与日俱增,呈几何级数增长的态势。

  现在我们的数据三年翻一番,这个速度还在提升。2013年全球数字数据达到了1.2泽字节,这是专业术语,相当于什么呢?如果把这些数据全部记在书中,这个书可以覆盖美国52次,美国是940万平方公里,跟中国差不多,少两个江苏,可以覆盖52遍。如果存入只读的光盘,可以堆成五座高山。高到什么程度?高到月球上,五座高达月球的光盘。这个数据还在增长。

  这是引申出来的第四个概念,关键是我们处理巨量数据的云计算诞生了,我们今天不去讲云计算了,其实已经含在里面了。正是因为强大的计算能力,使过去潜在的死的数据,变成了活的有效的并且将会迸发出巨大生产力的大数据。这是第四个跟大家交流的,叫作大数据爆发出来的主因。

  核心、特点和关键

  说了半天,咱们凡事都要抓要害,我学习的时候是这样梳理的。第一,大数据的核心是什么?第二,特点是什么?第三,关键在哪里?看了一些资料以后,思想就开始清晰了。首先要肯定,我的一些朋友跟我讲,我们正在搞大数据出版,不是空穴来风,但是也不像说的那样神乎其神。其实大数据的核心是预测,对我们出版业来讲当然还有其他的,我们今天不去把每个问题都关注到,而是要抓住核心。

  对出版业来讲,亚马逊已经做了,亚马逊的总裁感觉到市场需求是不是可以用计算机来解决,出了这个题目给两个年轻人,是数字化专业的毕业生,他们用一个软件完成了这个题目。过去亚马逊值得骄傲的是什么呢?全美都知道,就是它有一个二十几个人的书评团队,不断地推介新书,造成市场的强大的效应,因此它的销售拉动得非常明显。可是这个软件一出来呢,二十几个人的团队就没有必要再存在了,准确率高得多,时效快得多,这就是预测,预测市场的反应。它可以知道某一个人的阅读领域是什么,他最近的阅读热点在哪里,可以做到这样。就是通过手机、平板电脑等等这样的一些途径,你只要使用一次就留下数据,然后先建一个数学模式,快速运转以后就知道结果了。

  人类的知识无非分两类,一类是已知,一类是未知。历史告诉我们,只要有未知就会有预测,只要有未知就会有占卜。大家记得拉姆斯菲尔德,就是打伊拉克,把萨达姆政权搞垮的那个人。他写了一本书,名字就叫《已知和未知》。在这个书里面他讲了一串绕口令,他说“有些事我们知道我们知道,有些事我们知道我们不知道,还有一些事我们不知道我们不知道”,绕来绕去的。孔子两千年前就表达得很清楚,“知之为知之,不知为不知,是知也”。因为不知才有大数据预测的必要性。这样看起来,我觉得出版人内心要比较强大,很多事情别像纸老虎一样的来吓我们,咱们把它看透了就没有什么好怕的。

  其实这个预测的老祖宗在中国。我过去认为《易经》是源头,其实《易经》只不过是流,而不是源。两千多年前,甚至三千、五千、八千年前,预测就有了。把这些东西看透了,心里就定了。讲到占卜,我最近梳理了一下,占卜有一个历史过程,现在叫预测,是一个意思,不是迷信。它是由低级向高级发展的,而其中的一个重要特征是,不断在新的算法当中增加数据,你看大数据成功的决定因素,就是把数据放到原来几倍、十几倍、百倍、万倍、亿倍,放到这个程度,抽样统计就失去意义了。先看我们自己祖宗的东西。

  我们最原始、最简单的叫射覆,什么意思呢?拿一个碗把一个东西盖住,然后猜,这是最简单的。然后就是掷骰子,我们现在常见到骰子是六个面,六个面是21个点,前几年在秦始皇陵发现了一个新的骰子,14个面,大概是105个点。你看,在增加数据。增加数据是为了占卜的精确性。再往下,抽签,拿那个竹筒一摇,一把签,也是增加数据。再往下就是各种占卜的视盘,东南西北,像罗盘一样的东西。里面五行、黄道等等这些,众多的数据全部集中在一个盘子上,那是古代的大数据。

  我们常讲八卦,其实细细想,八卦就是一个数据库。你看八卦,八卦是多少爻呢?384爻,384爻告诉你多少策呢?是11520策,在当时的技术条件下,一万算得上大数据了。如果有时间,这个数据我们今天还可以成倍的往上翻。这说明什么?就是大数据的规律,早在我们祖先那个地方就开始露头了,只是到了现代科学技术,特别是云计算达到了这个程度以后,我们有条件用更大的数据,做更宏观的预测,或者讲得更加直白一点,做更加科学的占卜。这样来想,大数据有新的一面,也有老的一面,有突破性的一面,也有继承源头的一面。它既是建立在计算机基础之上的源,也是继承着过去占卜的流,不是从天而降的一个怪物。这是讲它的核心是什么,核心就是占卜、就是预测。

  第二,它的特点是什么呢?任何事情要抓住特点不容易,但是抓住了,大概这个事情就抓住了。有人是这样回答的,第一个叫数据更多,第二个叫数据更杂,第三个叫数据更好。第一个是什么意思呢?那是讲关于这件事预测的所有数据,几乎所有的数据叫全数据,叫样本等于全部,全数据来回答这个问题,准确率将会大大提高。

  它颠覆了什么概念?你看人口普查,与抽样是相反的理念。抽样的最大特点是什么?是用尽量少的数据,反映更多更真实的信息,思路是相反的。因为过去的劳动力成本很高,如果把全中国人口的所有信息全部统计过来,那没办法做到。美国曾经尝试过,用了十年都没做好。但是现在大数据可以了,所以第一个特点是更多,多到什么程度,关于这个事情几乎所有数据一网打尽,因此它能够接近真实的告诉你未来的趋势,这是它的一个特点。

  第二个特点叫更杂。我也找到一个例子。IBM在上世纪50年代,当时美苏对立,出于冷战的考虑,要用计算机来完成语言翻译。搞了几年花了很大的投入,美国人非常惊喜,终于有250个词在给计算机输入词汇和语法的同时,最后翻译出来了。可是再往下做,投资越多失败越多,最后放弃了,没有做成。但是谷歌却做出来了,谷歌也依靠数据。它的首席数据专家最后怎么来总结这个事儿呢?就讲到大数据特点的第二条,叫混杂、更杂。他说大数据基础上的简单算法,比小数据基础上的复杂算法更有效,更接近真实。因此,他有一个简单的结论是,越复杂、越纷繁的数据,越多越好。不怕混杂,提出一个口号,叫“拥抱混杂”。

  当数据达到一个临界点的时候,它就发生变化了。不是在追求它的每个数据的精确性。跟抽样不一样,抽样是强调随机性,就是一定不能带入一个主观的意愿在里面。美国人一开始做的时候是这个方法,就是选各类代表,最后离真实很远。后来逐步摸索到了抽样只能随机,抽到什么算什么,这样的结果是97%基本正确。它牺牲的是什么呢?数据的量。可是大数据正好相反,大数据追求的是数据的量,而放弃的是什么?精确性。

  这个事情我觉得还是比较好理解的,比如讲你的工资,一个月1万块钱,一年12万,大概后面的数字你还会数一数;如果你的工资一年是三五百万,后面的数字你就不计较了,就记住前面的数就行了。这就是大数据,必然以忽略数据的精确度为前提。这不是我总结的,是谷歌的首席专家总结的,不敢拥抱繁杂、庞杂,就不会得到大数据的良好、接近真实的效果。

  第三个特点,美国人写文章也是有点吓人,他说颠覆了人类认知最基础的东西,他说大数据再也不承认、再也不追求因果关系了,只追求相关关系。因此,理论已经终结了,相关关系非常重要。

  有很多相关关系的例子。沃尔玛的历史数据表明,一旦有飓风发生的时候,蛋挞的销量就大增,它不问为什么,它不问因果关系,只问相关关系,就是一旦A出现了,B必然出现。所以沃尔玛就把蛋挞和雨伞、手电筒这些东西放在一起,结果销量大增。这就是相关关系。大数据的第三个特点就是不承认因果,只承认相关,让数据自己说话,而不是说现象背后的话,只说现象。

  第三,关键在哪里?我归纳有这么几个关键。一是整体性,就是关于这个事物数据的整体性,而不是随机、抽样、代表。二是既然有了大数据,就必然呼唤云计算处理能力。三是容错,刚才我们讲了翻译的例子。谷歌为了做翻译平台,它建立了上万亿的语料库。这个数据是哪里来的呢?都是互联网上已经发生过的数据,其中大量的是废旧数据。所以它的首席专家才敢讲这个话,容错才能接近真理,这条辩证法非常好!四是相关关系和相关性。如果我们稍微理论一点讲,相关关系实际上是什么呢?它的核心是量化两个数据值之间的数理关系。简单地说,就是此长彼长或此消彼长的关系,A情况出现时B情况必然出现的关系,就是相关关系。这是给大家交流的第四个问题,叫做核心是什么,特点是什么,关键在哪里。

  辩证看出版

  最后第五点,简单小结,算我联系实际的学习体会。一方面,传统出版人心里面还是要有定力,看清楚大数据的由来、爆发的主因,及核心、特点和关键所在;但另一方面,要充分估计到互联网、数字化、大数据、云计算,确实不是吓人的,会深刻地、持久地、越来越明显地影响出版,问题是怎么影响。

  我们再讲一个情况,15世纪印刷机出来以后,当时是信息爆炸,印刷机带动了一次世界性的信息爆炸。爆炸到什么程度呢?印刷机出现以后,一共出现了1.3亿册图书。但是这个数字,从2010年谷歌打出数字图书计划开始,只用了一年时间就扫描了这些数据的15%,达到2000万册。也就是说四百多年产生的信息量,它只需要七年就完成了。这还只是一家公司,还没有完全展开来做。

  大家知道亚马逊,它的优势是Kindle。在Kindle上你阅读的重复率、标记次数和画线次数都有数据留存,都是读者的重要信息。可是亚马逊都把它藏在那儿,不愿意跟出版商共享,因为出版商也不愿意把版权跟它分享。但是我们可以看到,前面我们已经讲了数据无处不在,以未来的眼光看,大数据现在刚露头,刚刚开始。它一定会深刻地、长期地影响社会生活的各个方面。这个恐怕已经是没有多少疑问了,所有的科学家们都是这样看的。

  联系到我们出版,我的体会是这样的。

  第一,改变的究竟是什么呢?数字化已经并将持续改变图书生产和管理流程,并部分改变呈现方式、阅读方式和营销方式。我还是比较保守的,不太相信颠覆论。因为结果往往不是专家预测的,而是消费者来决定的。我的简单判断是,像我这样的人,正常情况阅读还有三十年,我们的选择倾向主要还是纸质书。但是改变是必然的,现实已经改变了,并且还将更大地改变。

  第二,凸显的问题是什么呢?是内容的海量,以至于泥沙俱下,难以选择。你看我们打开各种数字化的端口,只要打开就会感觉到什么都有,但困惑的是不知道如何选择。而且更加严峻的是,垃圾越来越多。

  第三,最终稀缺的是什么呢?稀缺的是有效内容的搜索,以及重大思想成果的选择和获得。这一方面说明互联网也好,大数据也好,都还在成长中,另一方面也说明传统出版的努力还有巨大空间。

  第四,现在难办的是什么呢?难办的是内容主体越来越明显的孤岛化。刚才讲亚马逊,各大书商和亚马逊之间,虽然各有资源优势,但是是屏蔽的。用美国人自己的描述叫雪藏,大雪覆盖着藏在那儿。主体的孤岛化以及内容数据化的商业模式难以确定。我们现在要探索的是在新的数据和数字条件下,商业模式是什么?

  第五,数字化和数据化,改变着关于内容生产的市场预测、加工方式、管理过程、呈现样式、交易方法,但是没有改变内容本身的价值;没有改变传统出版人原来所拥有的立点,就是内容这个立点没有改变;也没有改变内容创新的主体地位,特别是不会改变精神产品生产的规律,规律是不会改变的。

  美国人在欢呼、崇拜大数据的同时,也发现问题了。我找了几条。一是有人问乔布斯,苹果搞这么好,你市场是怎么调研的?乔布斯说没调研,接着讲了一句著名的话,他说消费者没有义务去了解自己想要什么,这是生产者的事。这是反向的例子,他不要大数据预测,但却是成功的例子。二是四百年前哥伦布发现新大陆,谁也没做过预测,谁也没有数据概念,更没有大数据概念,但是一个历史性的重大发现诞生了。三是福特时代没有数据显示,汽车可以代替马车,但是汽车这个重大发明诞生了。这说明,大数据是管用的,但是更大的数据,比大数据更大的数据是什么呢?是源于人的本身,是人的创造力、直觉和天赋。你看我们的《周易》、老子和孔子,那个时候都不具备大数据的运算能力,他们的智慧是直觉,是悟性,是对事物本质的穿透,精神生产主要的还是依循着自身规律。

  我们一方面要看到,大数据、数字化,对我们传统出版带来了知识的集成、需求的判断、趋势的把握、搜索的便捷、跨界的链接。这确实是挑战,但更重要的是商机,是发展空间。从静态上讲,这些是我们传统出版的劣势,但是从动态上讲,应该更是我们潜在的优势。科学再怎么发展,它不会改变,出版最重要的本质是选择。在孔子的年代占卜书不少,著名的上了《左传》和《周易》。但是孔子做时代的总结,最后列入“六艺”的是《周易》。没有这个内容的选择,就不会有后来《周易》的地位。《诗经》也是这样,也是孔子选择的结果。

  看上去一个简单的、具体的编辑工作,带来的是长久的社会影响和伟大的思想成果。归结起来讲,我们要积极、认真地研究数字化、大数据,同时也要吃个定心丸,我们可以学习并逐步驾驭这些新的东西,我们的新型出版一定会在新的技术条件下,做得比传统出版更好,因为孔子告诉我们,编辑出版本质上不是技术活儿,而是思想者的活儿。出版并不怕技术挑战,怕的是思想沦丧。


所有评论({{total}}
查看更多评论
热点快讯
+86
{{btntext}}
我已阅读并同意《用户注册协议》
+86
{{btntext}}