新闻出版业大数据体系建设与应用
冯宏声 | 2016-08-25
收藏

冯宏声(新闻出版广电总局数字出版司副司长)  

 

数据,已成为国家基础性战略资源和核心创新要素,对经济运行机制、社会生活方式和国家治理能力有着重要影响,为国家发展提供战略机遇。

大数据,是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。大数据的特点是,大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)。大数据的意义在于连接(Connect)与预测(Predict)。

2015年8月,国务院发布《促进大数据发展行动纲要》(以下简称《纲要》),旨在全面推进我国大数据发展和应用,加快建设数据强国。明确提出从政府大数据、大数据产业、大数据安全保障体系三个方面推进大数据领域的十大工程。《纲要》的出台,赋予了大数据作为建设数据强国、提升政府治理能力、推动经济转型升级的战略地位。

十二五期间,新闻出版广电总局全力推进新闻出版业数字化转型升级工作,总局一手抓技术与标准的研发、一手抓技术与标准的应用,以技术升级改造及内容资源建设为基础,强化行业在内容资源管理、产品生产、市场传播等方面的能力建设,努力推动新闻出版业实现“生产数字化、资源编码化、运营数据化、服务知识化”。在这一进程中,总局以相关标准为抓手,将数据标准编制、数据采集与分析工具研发、数据交换系统建设、数据供应模式建设等工作纳入重点计划,促进“内容资源数据、资源与产品元数据、产品市场数据、知识资源数据”各类数据的有效沉淀,为全面推进新闻出版业大数据体系建设奠定了基础。

十三五期间,总局将深入贯彻落实《纲要》,逐步构建起新闻出版大数据体系,推动国家大数据产业健康快速发展,为建设数据强国提供有力支撑。

 

从国家层面促进大数据发展

促进大数据发展的目标,是要打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。推动我国大数据体系的建设与发展,重在大数据的应用。促进大数据发展、推动大数据应用,应当由全社会共同参与实施,参与角色包括以下三个层次。

政府部门是大数据发展与应用的主力军。政府部门应当规范标准,充分利用技术,完善工作制度,有效整合与运用政务数据,开放与共享公共数据,规范与利用行业数据,采集与应用社会数据。政府各部门推动大数据应用的工作目标,一是提高政府监管能力,提高决策针对性、科学性、精准性、有效性和时效性,提高社会治理风险防范能力,提高政府综合治理水平;二是提高政府调控能力,实现对经济运行的准确监测、分析、预测和预警,规范产业发展秩序,发挥市场在资源配置方面的积极作用,提升政府宏观调控水平;三是提高政府服务能力,以数据应用加速行业转型升级,提升对行业的公益性服务水平,实现对民生需求的准确把握,提高对社会的公共服务水平;四是提高政府安全保障能力,以数据安全保障文化安全、保障国家安全。

行业数据机构是大数据发展与应用的中坚力量。国家大数据战略的实施,急需建立推动大数据应用的各行业数据机构,承担分领域的国家级大数据应用职责。建立各行业大数据管理与应用服务机构,应当把握的要点,一是行业数据机构应当是政府可开放的公共数据与行业数据、社会数据进行交换与聚合的枢纽,是政府部门管理、指导下的中立机构,不与企业形成市场化竞争;二是行业数据机构应当为政府部门开展面向社会的大数据公共服务提供有力支撑,政府部门可以通过行业数据机构、以政府采购方式购买相关数据应用服务;三是行业数据机构应当为市场主体提供市场化大数据应用服务,为引导和鼓励全社会开发大数据应用,激发创新创业活力,推动万众创新、开放创新提供全面支撑。

各领域市场主体是大数据发展与应用的生力军。推动大数据发展与应用的市场主体应当包括多重角色。一是产学研联合建立的大数据相关标准与技术研制机构,为大数据应用提供基础动力;二是各领域作为市场主体的企业,由其建立内部数据管理与应用部门,对自身生产活动中产生的业务数据进行采集、管理与应用,为行业级数据资源的汇聚奠定基础;三是各领域提供数据应用支持的市场化运营机构,为企业提供技术支持、数据存储及灾备支持、市场运营支持,以及提供数据采集、管理、结构化处理、知识化提炼以及数据分析挖掘等数据价值开发应用服务。

 

新闻出版业在国家大数据战略中的定位

新闻出版业在国家大数据战略中处于相当重要、不可替代的地位。新闻出版业在产生数据、更在生产数据;新闻出版业在应用数据、更在供应数据;新闻出版业需要关注数据安全,更是国家大数据安全的重要保障部门。

新闻出版业是大数据的重要生产与供应部门。新闻出版业是跨领域信息内容资源、特别是知识资源的数据生产与数据服务供应部门。一是生产数据,新闻出版业直接的生产活动成果即数据。新闻出版业的生产活动,从文化视角看,是对思想的表达与表现相关成果进行封装、包装、传播;是对文化的传承与创新,对阶段性文化成果进行沉淀,以此为基础促进文化创新。从信息视角看,是按照一定标准对人类思想活动(主观)与人类所处世界(客观)进行描述、记录与传播。以“是否具象化表达、封装、包装”为界限,按照不同生产阶段进行划分,包括信息内容资源数据、信息内容产品数据。二是供应数据,新闻出版业可为外部产业提供基于不同形态数据产品的多层级服务。新闻出版业通过对各行业信息数据进行采集、加工、提炼、标引、重组、呈现、封装、包装、传播,整合图文声像影不同类型的资源,针对多维度的用户需求,生产各种呈现形态的出版产品即信息内容产品,提供狭义数据服务、信息文献服务、数据库服务、知识服务等不同层级、不同种类的数据服务。其中,知识服务是数据服务模式的高级形态,是对相关数据进行知识化加工形成知识资源数据,以高级信息内容产品(即知识产品)为基础,提供知识化解决方案等知识服务,包括为政府管理、外部行业再生产、科研机构研究、教育机构教学,以及个人用户学习、生活、社交活动提供服务。

新闻出版业是大数据的重要产生与应用部门。新闻出版业与其他行业的共同之处在于,同样会产生大量数据,也需要充分利用来自行业内部与行业外部的各种数据。一是产生数据,新闻出版业在生产活动中会沉淀大量自然产生的数据。其中,元数据,是对新闻出版业自身生产活动成果的描述与记录,包括对信息内容资源、信息内容产品的描述数据;市场数据,包括机构数据、流通数据、交易数据、用户数据等,新闻出版业要在现有基础上,加快推进行业内元数据平台建设,提高元数据采集、汇聚、管理、交换效率,全面掌握行业家底。二是应用数据,新闻出版业与其他行业一样,同样有基于数据汇聚与分析、指导再生产与运营的大数据应用需求。应用数据支撑再生产,新闻出版业要一方面汇聚产业内部数据,一方面从外部产业采集获取数据。重点是对市场数据、特别是用户数据(需求数据与行为数据)的采集。新闻出版业要加快推进行业内数据应用平台建设,通过分析、挖掘相关数据价值,实现有效生产与运营。

新闻出版业是大数据安全的重要保障部门。首先,新闻出版业要高度关注数据安全问题,新闻出版业的核心是以信息内容资源为基础的各种信息内容产品,运营过程也会产生大量数据,还要从外部产业获取大量数据,为保证生产、管理、存储、流通、服务各个环节的顺畅,都需要高度关注数据安全。其次,新闻出版业也是大数据安全的保障部门。新闻出版业既是文化产业的支柱性部门,也是信息产业的重要组成部分,随着互联网的发展,信息内容数据安全已成为信息网络安全的基础,只有实现信息内容数据的可管可控,才能确保国家大数据安全,保障国家文化安全、国家信息网络安全。当前,新闻出版业正在以《国际标准关联标识符(ISLI)》标准为核心、对原有标识符标准进行改造升级,加快构建对信息内容资源及产品进行全面标识与管理的标识符标准体系,并以标准为牵引,研发相关技术工具与系统,建立起元数据管理体系。新闻出版业必将成为切实保障网络安全、保障大数据安全的重要部门之一。

 

    新闻出版业促进大数据发展总体思路

促进新闻出版业大数据体系建设与大数据应用,应统一认识,共同探索实现路径。要从顶层设计、政策发布、制度建设、机构建设起步,加强标准研制应用,加速技术研发与系统建设,搭建数据开放、共享、交换、运营平台,积极探索大数据应用模式,提高数据应用价值,推动行业大数据建设,带动新闻出版大数据在行业内外的产业化应用,构建完整的新闻出版业大数据体系;应立足解决行业共性问题,加强资源整合与信息共享,形成政府指导、行业机构组织、产学研联合的工作格局,鼓励、支持企业牵头参与,跨地区协作、跨领域合作,实现“平台整合共建、系统分布部署”,循序渐进地推进大数据建设工作。

准确把握新闻出版业大数据的概念内涵。新闻出版业要逐步统一认识,扫除认知障碍,准确把握大数据的概念内涵外延。一是不能将大数据与大规模数据简单划等号。虽然大数据的概念中包含大量、海量的特征,但这是一种相对的计量方式,大数据不等于简单的大规模数据,大数据强调的是对某一领域相关数据采集结果的覆盖面,强调数据的完整性、全貌性。二是不能将大数据与数值化、数字化数据混为一谈。数据是信息的表达,信息是数据的内涵。数据作为信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数值化数据,仅仅是数据封装形态的一种,是较为初级的数据形态,其呈现方式多为数字、符号、图表。谈及大数据的概念内涵与外延时,不能将下一层级的数值化数据概念上升到大数据的概念顶层。

认真梳理新闻出版业涉及的数据种类。新闻出版业开展大数据建设所涉及的数据,可以分为行业外数据和行业内数据。一是行业外数据,即外部国民经济行业领域各企业的生产活动数据与生产需求数据、源自公民个体行为的生活活动数据与生活需求数据,还包括相关机构的活动数据与需求数据;二是行业内数据,即新闻出版业内部相关数据,可以再细分为不同层次,包括:信息内容资源数据、信息内容产品数据、元数据(含资源元数据、产品元数据)、市场数据(含机构数据、流通数据、交易数据、用户数据)。行业内数据与行业外数据将相互关联,在市场运营、产业应用中相互影响,为新闻出版行业、其他学科领域和社会公众提供管理服务、行业服务和各类公共服务。

清醒认识新闻出版业存在的数据问题。制约新闻出版业大数据体系建设的问题,一是数据标准不统一,新闻出版业近年来发布了一系列规范数据采集与管理的国家标准和行业标准,覆盖内容资源描述与标识、内容数据存储与管理、产品数据描述与记录、产品流通规则、产品流通数据管理等,但由于缺乏资金投入,贯彻实施标准的技术工具与系统的建设不足,造成这些标准的实际贯彻仍不到位,客观造成实践中的数据标准不统一。二是数据体系不健全,行业内数据缺乏衔接,数据孤岛现象严重,与行业外数据难以有效关联。三是数据流通不顺畅,行业内上下游之间由于缺少健全合理的数据交换共享机制,造成数据流通不畅,行业内与行业外的数据交换模式尚未建立。四是数据应用不充分,行业内数据资产管理意识普遍较低,对数据的价值认识不到位,不想用、不会用、不敢用的现象比较普遍。

稳步推进新闻出版业大数据体系建设。十三五期间,总局将强化新闻出版业大数据的体系化建设。一是做好顶层设计和规划,全面梳理行业数据沉淀现状,结合国务院统一部署,适时发布推动新闻出版业大数据建设的指导政策。二是多角度推进专项数据体系建设,在元数据管理方面,构建内容资源标识管理服务体系,筹建元数据管理机构,建设元数据管理服务平台;在历史数据保护方面,着手论证新中国建国以来传统介质出版物的数字样本库、数字出版物样本库及数字样本管理平台建设项目;在数据流通方面,构建出版发行数据共享体系,搭建国家出版发行数据中心和行业数据服务平台;在数据应用方面,构建国家知识资源服务体系,筹建国家知识服务中心,建设国家级知识服务平台。三是实施行业大数据应用项目,推动数据互通互换、互为支撑,以应用为导向,以公益性项目与产业化项目带动大数据体系建设。

 

    出版发行数据共享交换体系建设总体进展

为贯彻落实《纲要》,2016年年初以来,总局按照《国家发展改革委办公厅关于组织实施促进大数据发展重大工程的通知》要求,依托十二五以来总局推动的各项基础性建设工作成果,充分整合行业资源,邀请业内外专家深入论证,结合行业实际需求,初步提出新闻出版大数据应用工程的总体设计思路,开展了一系列具体落实工作。

新闻出版大数据应用工程的总体布局,将分解为电子政务大数据应用、新闻出版产品样本数据应用、新闻出版业元数据应用、出版发行数据共享与应用、知识服务大数据应用等一系列子工程。

在推动“出版发行数据共享与应用工程”建设、加快新闻出版业出版发行数据共享体系建设方面,在财政部门的大力支持下,总局规划发展司、印刷发行司、数字出版司加强横向合作,以CNONIX标准为抓手,加强顶层设计、宏观部署,充分发挥行业内外专家力量,依托新闻出版总署信息中心、全国出版物发行标准化技术委员会、CNONIX标准实验室及专家团队,面向出版发行企业加强指导,在众多出版发行企业的支持与配合下,全行业从大局出发、求同存异、齐心协力,已取得显著成效。

2013年开始的CNONIX标准应用试点项目,已完成出版发行数据的“微循环”实验,在大型出版发行集团内部实现了数据的交换与共享,验证了技术系统的可行性,初步探索了业务模式改造的路径;2014年12月开始的CNONIX标准应用示范项目,已初步完成出版发行数据的“小循环”实验,完成第三方数据共享交换实验平台建设,在20多家出版发行单位之间实现了数据的交换与共享,自2016年春节以来,近6万条书目数据、超过1千万条发行业务数据实现了跨地区、跨企业交换,初步探索了行业级数据共享与交换的机制。

在试点示范工作期间,在发行标委会的推动下,在参与单位的配合下,已完成了一批可落地应用的项目标准和企业标准的研制。此外,CNONIX实验室研发了符合标准的数据采集工具。在技术企业协助下,多数示范单位已配置了企业级的出版发行数据管理系统。2016年6月,在总局部署与指导下,新闻出版总署信息中心已组建专业化与专职化团队,启动行业级第三方数据共享交换平台建设,全面推进行业级公益性数据共享交换服务机构的建设。

下一步,总局的几个业务司将密切合作,继续加强对行业的指导与扶持,自下而上地、由企业为主体地提出如何建立行业规则的建议,并根据企业的需求,出台相应政策,规范行业秩序,更好地为行业发展做好政府的服务工作。

(本文为在2016年上海书展“CNONIX国家标准应用研讨会”上的发言)

 

 


所有评论({{total}}
查看更多评论
热点快讯
+86
{{btntext}}
我已阅读并同意《用户注册协议》
+86
{{btntext}}