您的位置:首页

详情

推动科学数据汇交 努力实现数据共享——中国工程院院士、数据汇交中心主任孙九林

2011-04-18

 

  孙九林,1937年生,江苏盐城人。1964年毕业于西安交通大学电机工程系;1991年任中国科学院自然资源综合考察委员会副主任、研究员;2001年当选中国工程院院士。现为中国科学院地理科学与资源研究所研究员,西交通大学人居环境与建筑工程学院院长,陝西师范大学及南京师范大学讲座教授,世界数据系统中国国家协调委员会秘书长,中国科学院信息化专家委员会副主任,中科院科学数据库及信息系统工程专家委员会主任。国家科学数据共享工程专家委员会委员,国家減灾委员会专家委员会委员兼空间科学与信息分委会主任。

  近日,本刊编辑部者就数据汇交中心的发展和数据共享工作中的问题等方面采访了孙九林院士及他的课题组成员。

  编辑部:先生您好,请为我们简单的介绍一下您的学习和工作经历。

  孙九林:我是1964年毕业于西安交通大学电机工程系。毕业后就进入了中国科学院综合考察委员会(简称综考会)。八月份到单位报到一个多月就去四川参加一年的社会主义教育又称为“社教”,到农村与贫下中农同吃同住同劳动,直到1965年十月才回到单位。由于我们专业领域的文献资料绝大部分都是俄文,为此,领导上决定新参加工作的同志要花半年的时间继续进修俄文,所以直到1966年初才正式参与科研工作,我参与的第一个项目是“西北地区燃料动力平衡研究。”19666月,全国开始了文化大革命,我被划归为保守派。1969年之后,又下五七干校参加劳动。到了1972年,综考会解散与地理所合并,在干校所有人员回京,我在地理所的经济研究室动能组开展节能研究。1975年调到地图研究室,参加地图自动化的研究,开始接触计算机的内容。1975年国家又恢复了综考会,到了1978年,我又重新回到了综考会的技术室,参加计算机在综合科学考察中的应用研究,后来就长期从事信息科学技术在农业与资源环境领域中的应用研究, 同时参与能源资源和能源经济方面的研究工作。1999年参与国家科技基础性工作及科学数据共享工程的调研规划并直接参与实施。 2003年开始主持国家科学数据共享工程试点项目中国地球系统科学数据共享网建设以及后来的科技基础条件平台的地球系统科学数据共享平台建设,2008年又负责科技部973计划资源环境领域项目数据汇交管理中心的建设和运行服务工作。

  编辑部:您以前主要负责国土资源信息系统方面的一些攻关任务,请问是什么原因使您开始关注数据共享与数据汇交方面的研究呢?

  孙九林:其实身为一名科研人员,我们每个人都能够意识到数据的重要性,因为我们就生活在一个数据化的世界中,衣食住行都和数据有关系。科学研究更是一项数据密集型的工作. 离开基础的科学数据无法开展科研活动, 更谈不上科技创新.

上世纪六十年代我刚接触科研活动时,首要的任务是到各地各部门去收集与自己承担任务相关资料和基础数据, 那时就认识到研究工作中数据资料的重要性, 但那时是计划经济时代, 只要是国家任务拿着相关部门的介绍信,一般情况下只要部门或科学家手中有的都能无偿或花少量成本费都能获取到。我最初意识到数据共享的重要性是从1978年开始的。那时,随着改革开放和市场经济的发展,从计划经济逐步向市场经济过渡,数据也逐步成为一种可以换取维持单位生计资金的财富,使得科研活动需花费大量资金购买已由国家投资产生的大量数据资源,甚至花钱也难以买到,这就为科研活动带来不便,逼得人们只好自己从头做基础数据,造成大量的重复投资,浪费人力和财力。不少国外学者回国后对国内这种科研环境不适应,当然,对这种现象我也不理解。后来,这种情况越来越严重,到上世纪九十年代中期,中科院地学部的几位学部委员(院士)就向政府提出建议,应该在我国也实行科学数据的共享机制,九五年在确立青藏高原攀登计划时,就专门发布了多部委的联合文件,要建立项目内部的数据资源、文献的共享机制,并在中国科学院的综考会建立青藏高原科学数据中心,我负责组织开展青藏高原科学数据库的建设,以便支持青藏高原的科学研究并实现科学数据共享,这是我主持的第一个以数据共享为目标的数据库,后来科技部还将这个库赠送给西藏自治区科技厅。

  上世纪80年代,我们逐步扩大了国际交流,在一次外国数据库专家到国内讲学时,提到了一个专门用于银行的数据管理系统,我就考虑是否这样的系统也能够适用于地理数据的管理?为此,我们进行了一些开拓性的研究,建成中国第一个区域性国土资源数据库,为信息技术在资源环境领域中的应用探索路径,后来又在国内率先建成多层次适合国土规划和宏观管理的信息系统以及农业资源信息系统;在这期间我们还积极参与中国科学院在八十年代初启动的科学数据库建设的研究,将研究项目积存下来的科学数据用数据库的形式组织起来,为数据共享做准备,这项工作非常有意义,因为科学数据的积累是长期的过程,科学数据积累起来以后,从国家层面看,可以支撑国家层面的宏观决策;从区域层面看,可以促进区域经济的发展;从科学层面看,可以支撑科研的全过程。1999年,国家开始从基础性工作专项开始,启动国家层面的科学数据共享工作,全国的科学数据共享,从科学家的呼吁变成国家层面的行动。

  国际上,在国际科联的领导下,于1957年成立了世界数据中心。我国自1988年开始加入,成立了九个中心,包括海洋、气象、地震、地质、天文、空间、冰川冻土、地球物理、可再生资源九个中心。这些,也帮助我国提高了对数据共享与数据汇交的认识。

  因此,归纳起来,我之所以开始关注数据共享与数据汇交方面的工作,原因大致有三个方面:一是个人在科研过程中逐步产生了一些意识和想法;二是国家在科研领域采取了措施,进行了国家层面的推动;三是国际上的研究趋势给我们带来了一些影响。

  编辑部:您能否为我们介绍一下当前科学数据共享工作所面临的困境有哪些?

  孙九林:由政府主导科学数据共享工作起步于1999年的科技基础性工作,2001年以后从基础性工作逐步转向科学数据共享工程。科学数据共享工程主要针对两种类型的数据,一类是国家政府部门,他们产生的数据主要通过各个部门组织数据;另一类是科研部门,他们的数据产生于国家投资所支持的多个科研项目。对于前者,数据共享工作比较方便,可以通过政府部门实施。但是,对于国家投资的各个科研项目,他们所产生的数据比较复杂,也比较零散。如何对它们进行整合、保存实行有序共享是我们遇到的第一个困难。最初,在国家科技基础条件平台中,我们建设了一个“中国地球系统科学数据共享网”,同时,尝试对973项目的数据资源进行汇交。我们在进行数据共享和汇交时坚持的一个理念是:先服务后汇交。首先询问科研项目需要哪些数据支撑,在我们所建的共享网中可不可以找到,如果有,就首先可以为他们提供帮助,我们就开展服务;如果没有,我们就想方设法为他们查找,搜集和整理数据,然后再为他们服务。通过服务我们与项目组合作,将他们产生的科学数据再汇交过来进行共享。

  但是,拿到科学数据后,我们又遇到了第二个难题。科学家非常关心知识产权问题。为此,在科技部基础司领导下,我们组织了一个973计划资源环境领域研究项目数据汇交管理办法研究小组,主要研究数据汇交的管理办法、数据汇交和管理中心的运行和管理、知识产权保障办法、数据质量保障办法等。通过一年时间的调研,我们深入了解了973项目在科研数据汇交过程中可能产生的疑问,在充分为科研人员考虑的基础上,研究并思考我们该如何做。目前,我们已经制定了一系列的管理办法,并逐步走向正规。

  目前,科技部推动“科学数据共享工程”已经快10年了,取得了显著进展。如果说现在遇到什么困境?当然有。首先是相关管理部门领导对科学数据共享汇交工作的重要性认识还不够,已经在全国推动起来的科学数据共享形势,与前几年比是走入低潮。美国对数据共享和数据汇交工作非常重视,采取了一系列的政策,并制定规范,来推动数据共享汇交工作。我国也制定了一些规范、标准,但是在推行过程中仍然难以得到相关部门领导的支持。其次,数据共享汇交工作缺乏长期稳定的经费支持。我国在十一五科技条件平台项目中,投入了大约30亿元左右的资金来支持近40个项目的建设工作(含科学数据共享项目),但是,自2009年起就停止了资金支持。我们相信,数据共享与汇交工作是关系国家未来科技发展的一项重要任务,是一项迟早都要做下去的工作,因此,我们也在期待着国家能够重新重视起来。现在,已经形成了一批数据共享和服务的科研队伍,付出了劳动和努力,如果一旦由于缺乏资金而停止运维,带来的损失将是难以估量的,也会增加再次开展工作的难度。

  编辑部:产生数据的科学家最担心的是,数据汇交后自己的知识产权怎么得到保护,担心被其他科研人员使用后自己甚至得不到署名。请问,这个问题应该如何解决?

  博士(课题组成员):973项目数据汇交工作刚刚启动时,科学家们确实在关注数据的知识产权问题,他们担心原有的权利得不到保障。为此,我们在数据汇交办法中专门进行了规定,数据汇交中心要在物理上和产权上进行保护。具体做法是:首先让科学家自己界定自己的数据的知识产权。可以是完全共享,马上可以供用户使用;也可以设置一个保护期,让自己的数据在保护期过后开放。我们充分尊重科学家对自己的数据的保护权利。然后,拿到数据之后,我们根据科学家的要求,对于可以立即开放获取的数据,汇交后马上提供服务。对于不可以立即开放的数据, 我们设置好管理流程,让这些数据严格按照科学家规定的时间向公众提供服务。为了保护数据的使用,我们还制定了一些数据文档和元数据的规范,让数据生产者完整地填写数据的描述信息,包括数据的产权人是谁,联系方式是什么,如何引用等等。

  这样,国家通过科技部颁发了数据汇交管理办法,对权益进行明确规定;数据汇交管理中心采取了严格的分期分批共享方式,制定了数据文档和元数据的标准规范。科学家没有了后顾之忧,就开始乐意把自己生产的数据共享出来了。

  编辑部:高质量的数据是保障高质量共享服务的基础,在数据汇交工作中,我们应该采取哪些措施来保障数据的准确性、系统性和科学性?

  博士(课题组成员):在数据汇交和共享工作中,人们最关心的一个是知识产权如何保障(从数据拥有者角度考虑),另一个就是数据质量如何保障(从数据使用者角度考虑)。数据质量的保障需要四个环节的工作。

  第一个是数据产权人要负责保证自己提交数据的正确性。也就是说科学家或科研人员在采集数据的过程中,要保证数据的前端生成过程没有差错。第二个是首席科学家和科研项目的承担单位要负责对数据进行审核,确认审核合格后签字。第三个环节是数据汇交中心的联络人员负责审核元数据和数据文档,审核提交过来的数据是否规范。第四步是“973”项目的理事会、同行评审专家和用户执行最后的监督和审核,避免垃圾数据滥竽充数。

  因此,整个数据汇交的过程,数据都是在各个质量控制环节覆盖之下的。一旦发现数据质量出现问题,我们会向数据提供者反馈。

  编辑部:目前,您承担了973计划资源环境领域项目数据汇交管理中心的建设工作,请您为我们介绍一下数据汇交中心的组成、数据汇交工作目前的进展、数据汇交的体会和下一步的工作安排。

  孙九林:科技部在发文的同时,就说明了数据汇交中心是依托于中国科学院地理科学与资源研究所的资源与环境信息系统国家重点实验室来建设并实施工作的。目前,数据汇交中心的主任是由我来担任。这个机构在形式上是理事会领导下的主任负责制,受科技部基础司直接领导,在运作机制上很开放,与各个领域的科学家都保持着广泛的联系。在场地、人员、财政等方面中科院地理科学与资源研究所给予支持。

  目前,数据汇交管理中心包括数据接收管理、标准规范制定、数据平台开发、共享服务、综合办公室五个部门。为了支持这个中心的运作,地理科学与资源研究所在2009年专门成立了一个研究室实体——地球系统科学信息共享中心。

  数据汇交管理中心的理事会由科技部973项目的咨询专家组和项目专家组组成,包括来自地学领域不同专业的多位专家和研究人员。总的协调办公室设在科技部基础司,主要负责协调理事会和数据汇交管理中心之间的关系。

  数据汇交管理中心是从20083月成立的。从08年我们就开始了对973项目的数据汇交管理工作。为了把所有的项目都纳入数据汇交工作的范围,我们分类型分阶段地开展工作。首先是已经结题的项目。对于这种类型,我们就想办法找到项目的首席科学家,宣传我们的工作,进行沟通,争取拿到他们的数据。还有一种类型就是处在在研状态,既没有结题也不是刚刚启动。对于这种,我们就尽快介入进来,按照先服务后汇交的理念,先看看他们需要什么数据,在数据库建设上需要什么技术支持,与他们建立良好的合作关系。第三种类型就是新启动的项目,对于这种类型的项目,我们从一开始就纳入数据汇交的范围,严格按照我们制定的规定,执行四个步骤:数据汇交计划、数据汇交中期管理、数据汇交和验收、数据共享。根据项目类型的不同,我们成立了四个联络组。联络组中的每个人负责四个到五个项目,及时跟踪。整体来说,我们核心理念是先服务后汇交,我们的目的是实现数据共享。

  编辑部:开展科技计划项目数据汇交管理与共享,对提高我国科技计划项目管理水平具有重要意义。数据汇交工作中涉及复杂的管理、机制、体制问题,您认为从国家层面考虑,还需要做哪些推动工作?

  孙九林:国家各类科技计划项目每年都会产生大量的研究型科学数据。这些数据既是项目研究成果的组成部分,又是科技创新的重要基础。长期以来,我国部分科学家在科研中大量依赖国外科学数据,而国内各类科研活动中产生的大量科学数据,由于缺乏数据共享的机制,无法发挥其应有的作用,数据的潜力没有得到充分的挖掘和利用。

  科学数据不仅有科学价值,它还有社会价值和经济价值。数据要变成信息,信息要变成知识,有了知识才可能去做决策方案或产生智慧,才可以开展研究和创新,因此,数据对于支撑国家的知识创新体系发挥着重要作用。另外,科学数据还有可能产生社会价值。例如某一项科研成果产生质疑的时候,我们需要溯源,需要找到原始数据。另外,数据还能产生经济价值, 美国是从1990年开始实施科学数据完全开放共享的策略。在实施的10年中,后五年比前五年平均每年经济多增长1.1%,据美国经济学家的计算,其中0.5个百分点是由于数据信息的传输和应用产生的效益。

  数据需要流通,需要共享。正是因为数据具有多方面的价值,不同的人可能在使用的过程中让它发挥出不同的作用,全社会对一个数据进行挖掘所获取的成果肯定远远大于一个人对该数据进行挖掘的成果。因此,在共享平台上实现数据的共享和流动,能够使数据不断升值。除此之外,数据汇交与共享可以节约大量的资金和人力,避免重复建设。如果数据不流通,只是保存在部门、个人手里头,将造成极大的资源浪费,其他的人在需要使用时需要重复地去建设。我们算了这样一笔帐:一位科学家在研究一个科学项目的时候,收集整理资料的时间通常要占到三分之二左右。如果进行全面的数据共享,这个时间有望减少一半。
  因此,国家必须重视科研数据汇交与共享,不仅从机制上进行保障,制定相应的法律政策,而且需要提供长期、稳定的支持。目前,国家正在对十一五科技计划项目的执行情况进行审核。在对十一五项目进行验收时,应该有针对性的将产生的数据进行管理。目前,有些部门已经来我们中心进行了调研,他们准备将本部门所管辖的科研项目所产生的数据资源进行汇交和共享,这是非常好的苗头,我们为他们提供了一些建议,并且介绍了我们在开展工作过程中所积累下来的经验。这也表明,我们所做出的工作和努力是有意义的。期待着国家能够尽快的解决科学数据共享工作中目前遇到的资金难题。

 

  后记

  通过孙九林院士的介绍,我们深深感受到开展数据汇交与数据共享任务的紧迫性。科技的发展和进步离不开科研数据。目前,在孙九林院士的带领下,数据汇交中心开展的973”计划资源环境领域项目数据汇交工作和地球系统科学数据共享网已经起到了很强的示范作用。但是,他们目前也面临着艰难的困境,希望国家能够重新重视这项工作,提供长期、稳定的支持,使国家投资所产生的数据能够对我国的科学创新做出更多贡献。