中国科学报:中科院计算机网络信息中心科学数据中心创新纪实

作者: 2015-03-09 13:16 来源:
放大 缩小
建造中国科学的“珍宝馆”
中科院网络中心科学数据中心创新纪实
(转自《中国科学报》 2015-03-09 第8版 平台)

中科院网络中心主办主题为“科研大数据与数据科学”的2014 科学数据大会

中国科学院科学数据基础设施分布图

数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础,既是科学研究的产物,也将产生新的科学发现,可谓科学研究的“珍宝”。

科学大数据时代已经到来,科研数据呈几何式增长态势。一个国家的科研水平,将越来越多地取决于其数据优势以及将数据转换为信息和知识方面的能力。

多年来,依托中科院计算机网络信息中心(以下简称中科院网络中心)的定位和科研技术积累,中科院网络中心科学数据中心建设了海量存储设施、大规模科学数据库、数据密集型应用环境等,建造起中国科学的“珍宝馆”,为全院科学数据库持续发展提供了强劲的动力。

走在科学研究的前沿

回溯历史,科学数据库在中科院科研工作者们高瞻远瞩和坚持下建立了起来。

科学数据作为宝贵的信息资源,对科学研究和各行各业有着重要的价值,一直受到科学家们的关注。早在上世纪70年代,计算机和数据库技术的飞速进步让科学家们意识到,科学数据有望依赖先进的信息技术手段进行积累和应用。

上世纪80年代初期,中科院提出了“科学数据库及其信息系统”重大建设项目,率先提出了建设科学数据库的设想。

中科院网络中心科学数据中心主任、研究员黎建辉介绍,这一重大项目旨在把中科院在科研工作中产生和收集起来的数据整理、积累,形成可为科研和国家各部门应用的科学数据库。

中科院科学数据库的建设工作从此拉开序幕,并于1984年6月成立科学数据库筹备处。1986年5月,中科院化学部和科学数据库筹备处针对建设化学数据库的相关问题,联合召开了第三次工作会议。会议结束前,时任中科院副院长的周光召特别要求:“更好地执行‘边建库边服务’的方针,要广泛地进行宣传。”他还强调要结合化学数据库发展计算机在化学中的应用。

经过紧张筹备,1985年5月完成“科学数据库及其信息工程”可行性研究报告。1986年6月,当时的国家计委正式批准了该项目的可行性研究报告,并列为国家“七五”“八五”期间重点工程项目。

“当时批准基本建设费用4800万元,建筑面积25300平方米,编制250人,其中正式职工167人。”黎建辉告诉记者。

1987年5月,科学数据库范围由化学扩展到生物、天文、能源、自然资源等多学科领域。彼时,中科院计划,到1990年建成20个左右、可进行开放服务的数据库,数据量达到10GB到15GB,并确定了计算机主机采用IBM308x的方案,开发统一查询语言软件并进行联网。

1998年,“科学数据库及其信息系统”项目获国家科技进步奖二等奖。今天,距离这个项目正式立项已经过去近30年时间,在许多研究人员看来,当时筹建科学数据库的决策和指导思想依然具有很强的前瞻性。

展开为科研服务的蓝图

近30年里,科学数据库逐渐展开了为科研服务的宏伟蓝图。

1995年,中科院网络中心成立,专门为中科院提供信息化支撑服务。科学数据库建设便是该中心的重要业务之一。为进一步规范管理科学数据库、规划科学数据库发展方向,科学数据库专家委员会随即成立,由两院院士师昌绪担任主任。时任中科院常务副院长路甬祥在首届专家委员会成立会上指出:“随着网络的发展,科学数据库的意义会越来越大,要给予长期稳定的支持。”

一年后,网络中心成功建成数值型和事实型数据库19个,含子库90个,数据量达到7.9GB,建成了比较完整的信息系统,成为中国科技网上的重要科技资源。

如今,科学数据库已支持运行20个重点库、20个专业库,提供共享数据资源456TB,提供7 ×24小时网上服务,近年来每年访问人次超过千万,数据下载量累计超过300TB。科学数据库已经发展成为国内规模最大、具有完善的技术规范的综合性科学数据库,在国内外都产生了较大影响,科学数据共享服务成为中科院科研信息化的基本公共服务。

在黎建辉看来,化学、材料、空间、生态环境、海洋、基因组、蛋白组等专业数据库,形成了中科院特色的科学数据库资源体系,在重大科研项目、经济建设和社会发展中将持续发挥重要作用,是国家创新的宝贵数据资产。

同时,随着云计算、云存储和灾备系统陆续上线,中科院网络中心海量存储环境也逐步投入使用,科学数据中心服务能力得到了全面提升。黎建辉表示,科学数据中心已为40家单位提供数据存储备份,为60多家用户提供云计算应用服务,来自院内外的6万多注册用户在数据云进行数据查询下载。

此外,中科院网络中心还与三十多家企事业单位开展合作,共建数据云中心,面向交通管理、食品安全、新材料研发等公共领域组织科研服务。

搭建云环境

起航大数据

科学数据中心为科研提供的可靠服务,离不开研究人员在信息科学前沿的不懈探索。

据黎建辉介绍,多年来,科学数据中心在前沿技术上也取得了诸多引人瞩目的科研成果。例如,研发建立分布式、跨区域的全国统一服务、统一运维、统一管理的分布式海量数据云存储环境。该云环境通过高速网络连接北京和全国其他12个城市的数据中心,保障了存储数据的安全和快速访问。

同时,研究人员围绕数据工程海量存储、云计算等关键技术提供了科研数据管理和共享云服务。目前已申请相关专利10余项,取得软件著作权12项,基本实现将存储、处理与应用等资源整合为“数据云”一站式服务。

中心还紧密结合科研需求,开发了地理空间数据云、生物信息学分子数据分析环境等服务和平台,将数据下载处理模式升级为让用户按需选择数据源、处理模型的云服务模式。目前,“地理空间数据云”整合数据超过300TB,含9大类94个原始数据产品,注册用户7.8万人,主要来自中科院、高校、科研机构及政府等相关单位。

在不断服务与研发过程中,该中心还制定了多项科学数据管理与服务的国家标准,走在了科学数据研究的前列。

凭借多年的积累,在这些前沿技术研究与应用的基础上,2013年,科学数据中心成功获批成立了大数据应用服务技术北京工程实验室,起航大数据的创新事业。

近年来,科学数据中心已经在大数据分析等方面取得了系列成果。

例如,黎建辉等研究人员基于出租车产生的海量轨迹时空数据,对城市交通异常事件的检测算法进行了深入的研究,为解决城市交通拥堵提供了新理论。而在H7N9疫情期间,郭旦怀等研究人员则通过关联发现等方法,定量回答了活禽市场关闭和病例暴发之间的关联,为政府决策提供了依据。此外,郭旦怀、周园春、黎建辉等研究人员还运用数据挖掘的方法重新定义了狂犬病的时空聚集,提出了为更高效地进行狂犬病防控、修改原来的防控标准的建议。

数据密集型科学发现是科研“第四范式”已成共识。黎建辉和团队分析认为:“这揭示了海量数据资源在信息化条件下,融合存储、数据模型、大数据处理等设施环境支撑科研创新的优势和前景。”他向《中国科学报》记者表示:“科学数据中心将面向科研需求,着力加强大数据应用技术的研发和推广。”

30年来,科学数据中心在各个发展阶段紧紧抓住信息技术的最新前沿,为中国科学建造起一个“珍宝馆”,为中国科学研究切实搭建了数据共享环境与应用服务平台。黎建辉表示,未来,科学数据中心还将按基础设施云服务、数据产品云服务、科研应用云服务3条主线协同推进,为中科院实现“四个率先”目标加油助力。

附件: