2019“数据开放”指数发布,开放数据集容量一年增长20倍
大数据文摘出品
记者:周素云
2019 年第五届中国国际大数据产业博览会于5月26日~5月29日在贵州贵阳举行。在27日的“政府数据开放利用与生态体系建设” 论坛中,复旦大学联合国家信息中心数字中国研究院发布了 《2019中国地方政府数据开放报告》 (以下简称《报告》)。
《报告》 由复旦大学数字与移动治理实验室出品,是国内第一个针对地方政府数据开放水平的专业报告,自2017 年5 月起首次在贵阳数博会发布以来,每年定期制作“ 中国开放数林指数 ”,对我国地方政府数据开放进行综合评价,以助推我国政府数据开放生态体系的建设与发展。
报告出品方邀请国内外学、政、产各界共七十余位专家共同参与,成立了 “中国开放数林指数”评估专家委员会,基于数据开放的基本原则,借鉴国际数据开放评估报告指标体系的经验,立足我国政府数据开放的政策要求与实践现状,构建起一个系统、科学、可操作的评估指标体系,并根据该体系采集分析数据、制作指数报告、提出对策建议。
评估指标体系
专家委员会基于数据开放的基本原则,借鉴国际数据开放评估报告指标体系的经验,立足我国政府数据开放的政策要求与实践现状,构建起一个系统、科学、可操作的中国地方政府数据开放评估指标体系 ,并为每项指标分配了权重。
评估指标体系共包括准备度、平台层、数据层、利用层四个维度及下属多级指标:
准备度是“数根”,是数据开放的基础,包括法规与政策、组织与执行、标准规范等三个一级指标。
平台层是“数干”,是政府开放数据和用户获取数据的载体,是展示利用成果的中心,也是连接数据开放供给侧和需求端的桥梁,包括数据发现、数据获取、工具提供、利用展示、互动反馈、公众传播和账户体验等七个一级指标。
数据层是“数叶”,是数据开放的核心,包括数据数量、数据质量、数据标准、数据覆盖面、数据持续性等五个一级指标。
利用层是“数果”,是数据开放的成果。利用层是今年新增加的评价维度,旨在促进政府数据开放后的社会化利用,包括利用促进、成果产出和数据利用等三个一级指标。
数林概貌
截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台。与2018年报告同期相比,新增了36个地方平台。
省级数林分布
东南沿海地区的省级平台已经逐渐相连成片,并向内陆地区不断扩散。 广东省和山东省省内的各地市都推出了数据开放平台,形成我国最为密集的省级“开放数林”。
41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市推出了数据开放平台,政府数据开放平台已逐渐成为一个地方数字政府建设的“标配”。
指数分值较高的省份主要集中在东部沿海地区,指数分值较高的副省、地级城市很多都出现在山东和广东两省内,同时,位于中西部和东北部地区的贵州省、贵阳市、成都市、银川市、哈尔滨市也表现抢眼。
副省级地级数林分布
开发式数据集爆发式增长
全国开放数据集总量从2017年8398个迅速增长到2019年的62801个,增幅近七倍。开放数据集的容量与2018年报告同期相比,呈现出爆发式增长,一年之内增幅近20倍。
约三成的平台上开放的数据集总量已超过了一千个,约两成的平台上开放的数据容量已超过1亿,但仍有超过三成的平台上开放的数据容量仅在10万及以下。
仅有约四成的平台开放了优质数据集,但优质API接口仍屈指可数,调用难度较高,能调取到的数据容量小、更新频率低。近四成的平台缺少专门的数据开放授权协议,只有16%的平台在授权协议中明确授予了用户免费获取、不受歧视、自由利用、自由传播和分享数据的权利。
目前只有不到一成的平台为每个数据集明确标示了包括有条件开放在内的多种开放类型。不到一成的平台能在近两年来的每个季度中都持续上线新增数据集,而超过九成的平台曾出现数据集增长中断或停滞的情况。在2019年第一季度内,近五成的平台没有更新过数据集。
超九成平台未标注数据来源
有一成多的地方举办过类似开放数据创新利用比赛的利用促进活动,但只有上海市和北京市两个地方连续举办。仅在3.7%的平台上发现了少量的有效服务应用,主要关于交通出行、教育科技和卫生健康主题。
超过六成的平台展示的是由政府部门自身开发而不是政府数据开放后被社会开发利用所产生的应用; 超过九成的平台展示的利用成果未标注数据来源,而即使标注了的数据来源,也普遍存在数据链接无效、数据搜索不到或数据不完整等情况。
地方平台寥寥无几
只有一成的平台能按用户使用场景和标签分类进行数据导引。不到两成的平台提供了开放数据目录。提供了数据请求功能的地方平台已超过六成,但其中真正能回复用户数据请求的地方平台寥寥无几。
开通了意见建议和数据纠错功能的平台已占六成左右,但没有一个地方真正回复用户的意见建议和数据纠错反馈。 尚未有平台真正对有条件开放的数据开通了申请功能。
标明了利用成果的数据集来源、数据提供部门和利用者名称等信息的平台只占一成。提供数据发布者联系方式的平台不到一成。 超过三成平台的账户注册过程较为繁琐且要求用户提供的个人信息较多。
数据是数据开放的核心
各地方陆续组建了专门的政府数据管理部门,其中近七成为一级委办局,数据开放工作的组织基础得到加强。尚未有地方出台专门针对数据开放的地方性法规、地方政府规章或规范性文件。仅有16个地方的党政领导在公开场合讲话要求开放数据。仅有广东、山东两省制定了专门针对数据开放的地方标准。只有上海市连续制定和公开了专门针对政府数据开放的年度工作计划。
数据是数据开放的核心,没有数叶,就不会有枝繁叶茂的数林。一个地方政府数据开放的水平实际上反映了这个地方的政府数据治理能力,各地应不断提升数据质量,开放更多高价值、高颗粒度、动态更新的优质数据集。对不同安全等级和敏感程度的数据可进行分级分类开放,实现数据开放的精细化管理,在保障数据安全的前提下,尽最大可能将政府数据开放出来。
结语
目前缺少利用成果的根本原因并不是数据利用者没有需求或缺少能力,而是绝大多数优质的、高价值的政府数据仍没有开放出来。因此,促进利用的关键在于增加数据供给。
平台是连接数据供给侧和数据利用端的通道,是开放和获取数据的载体,是传播资讯动态的渠道,是展示利用成果的平台。平台应成为一种持续性提供的服务,而不只是一个一次性开发完成的项目。各地平台的常态化运营服务能力亟需得到加强,从而能及时回应用户提出的意见建议和纠错反馈,快速处理用户提出的数据申请和数据请求,定期审核和上传用户开发的利用成果。
法规、组织、标准方面的准备度是数据开放的基础,各地应加强针对数据开放的法规、政策和标准的制定,地方党政主要领导应更多公开表态支持数据开放。