欧洲开放知识库的现状和未来方向
开放科学正在引领一种新的研究范式,在这种范式中,所有研究人员都能以前所未有的方式获取全部研究成果,用于深度分析、文本探究和数据挖掘以及其他前沿研究方法。实现这一伟大愿景的前提是建立一个强大且高效的知识库网络,使人类和机器都能获取各种有价值的研究成果。
2023年1月,LIBER、SPARC Europe、COAR和OpenAIRE共同发起了一项联合战略,制定并实施一项行动计划,以加强和提升欧洲知识库网络,并对欧洲知识库现状进行了调查。调查结果于12月公布。在本次调查中,开放知识库被定义为一种数字管理系统,用于收集一种或多种研究成果,并向所有用户提供免费访问内容(除对敏感数据的限制外)。调查收到了来自34个国家的394个知识库的回复(如图1),分析结果如下。
此次调查的回应大多来自机构知识库。这可能与调查由图书馆组织发布有关,但也反映了欧洲大多数知识库由大学/大学图书馆或研究中心管理的事实。机构知识库通常具有较高的可持续性,因为它们由长期存在的机构托管,并为这项活动投入预算。尽管开放知识库对所有人开放,但大多数知识库主要收集特定社区成员创建的研究成果。这些社区通常分为以下几类:机构、国家、国际和领域知识库。根据目前欧洲知识库的普及程度和种类,所有研究人员至少有一个知识库可以共享他们的研究成果。
欧洲知识库收集的内容类型多样,包括期刊论文、电子论文和学位论文、研究数据等。机构、国际和国家级知识库收集多种类型和学科的内容,领域知识库侧重于特定内容类型。
如图4所示,各受访知识库规模差异大(“1000至10000条”占比32.5%,“10000至 50000条”占比7.5%,“少于1000条”占比21.8%),平均规模为64859件,最大受访知识库欧洲PMC包含800多万条全文记录。即使估计欧洲有1500个活跃知识库,平均每个知识库有65000条数据,总计也提供了近1亿条数据的开放获取。大型知识图谱包含2-3亿个对象,因此,这些知识图谱的内容总量相当可观。
多语种在欧洲知识库网络中似乎没有得到很好的体现。知识库往往只收集两到三种语种的资源,其中最主要的是主体本土语言,或者是仅次于英语的第二大语言(图5)。在少数情况下,知识库以两种语种(通常是资源的原始语种和英语)发布元数据和摘要(表2),这使得索引和发现服务能够更好地发现这些资源。根据调查结果,知识库平台通常是以英语为中心开发的,并不支持所有语种。因此,管理非英语内容可能需要这些知识库付出额外的努力,如翻译平台界面和进行数据整理,以正确分配语言代码,特别是对于使用非罗马字符的语言。
知识库的主要作用是收集、提供研究成果的访问途径,并积极参与更广泛的学术生态系统。调查表明(图6),超过75%的知识库只为隶属于本机构的人员提供服务,6%的受访知识库向任何人开放,4%向领域内人员开放,1%向来自特定国家的人员开放。约有一半的受访知识库表示它们是国家级网络或服务的一部分(图7),为各种网络和服务提供元数据和资源,促进内容的再利用和整合。
知识库提供基本服务,如元数据检查、入库支持、备份和使用统计,并通过OAI-PMH协议公开元数据(或全文资源)。下一代知识库将不仅限于提供机构服务,而是基于知识库的集体内容构建其他服务的基础,通过本地使用、下载统计和下游再利用体现其影响和价值。在这个方面,知识库收藏在创新方式下也被重新利用,常见于整合到机构或国家系统、学术档案、大学网站和研究管理工具中,也常用于其他收藏的再利用,如领域收藏、专业门户和教育课程。
使用永久标识符(persistent identifie,PID)和全面标准化的元数据是知识库资源发现和重用的基础。大多数知识库(77%)支持都柏林核心元数据(图8),这是欧洲知识库互操作性的基准。
知识库支持多种PID,如作者ID、资助者ID和机构ID,便于分析和跟踪研究成果。例如,调查显示,有260个知识库在其记录中提供了ORCID元数据字段(66%),71个知识库支持国家ID(18%),78个知识库支持其他类型的ID。97个知识库不支持任何类型的作者ID,约占受访数据库的25%(图10)。
尽管知识库支持特定元数据模式和PID,但并不能保证元数据的质量。知识库进行基本的元数据整理和检查,但仍需采取更多措施优化资源的发现和再利用。提高元数据质量可以通过数据整理活动或是引入机器提取元数据信息来完成,这需要知识库在人员和技术方面做出更大努力。
受访者对目前正在使用的知识库平台及其功能整体满意,但有少数认为平台响应和采用新技术不够迅速。受技术、资源、时间的限制,不断升级存储库软件是一个挑战。超过50%的受访者表示存储库标准代码库已经发生变化,这增加了升级复杂性(图12)。超过60%的受访者在2022年已经升级,或计划在2023年升级,20%的受访者将在2022和2023年连续两年升级(图13和图14)。为了满足用户的技术期望并且保持市场竞争力,开放平台定期会开发新版本,但同时带来了技术上的需求、耗费了大量时间和精力,也可能会占用其他重要知识库资源。
23%的受访知识库已通过某种类型的资质认证(图15),仍有许多知识库没有使用现有的认证框架,可能是因为评估过程资源消耗大或现有要求无法实现。对于大多数资料库来说,更轻量级的自我评估框架可能更适用,可以以“COAR社区知识库良好做法框架”为基础(在日本已改编为自我评估工具)。认证可以通过国家机构或社区进行最有效的宣传。
大部分受访者(351人,占比97%)认为知识库的运营可持续性高,仅3%(13人)认为存在风险(图16)。大多数知识库隶属于机构(通常是高校图书馆)并拥有稳定的人员编制和专门的预算,而非依赖项目拨款等短期手段资助。但有31%的受访者认为知识库只能在一定程度上持续,主要因其软件管理问题(包括机构内部管理和支付诶外部供应商的高昂费用)。
超过50%的知识库的全职员工人数不足2人(图17),这导致许多问题难以应对。为保证下一代知识库功能可以被广泛采用,增加人员编制迫在眉睫。
欧洲知识库共同获取、保存和提供对价值数千万计甚至数亿的宝贵研究成果的开放获取,并代表了欧洲开放科学领域中重要的非营利性基础设施。他们有能力支持整个欧洲开放科学实践和研究评估改革的推广。欧洲知识库正朝着下一代知识库的愿景迈进,即从机构服务的知识库转变为更广泛生态系统组成部分的网络化知识库。然而,此次调查揭示了目前知识库面临的三大挑战:
1. 维护最新、功能强大的软件平台;
2. 在元数据、保存和使用统计方面采用一致、全面的良好实践;
3. 在学术生态系统中获得适当的可见度。
为了确保欧洲知识库网络能够满足并支持研究界不断变化的需求,OpenAIRE、LIBER、SPARC Europe 和 COAR 确定了三个努力方向:
1. 强调并宣传知识库的价值和在科研中的关键作用,增加其影响力和认可度;
2. 在欧洲大陆推广知识库管理的最佳实践,提高其质量和效率,便于为科研人员提供更好的服务;
3. 协助建立和协调国家知识库网络,促进知识库之间的合作和资源共享,提高整个欧洲科研的质量、效率和影响力。
新闻内容来自以下网站,不代表GoOA头条立场:
https://www.openaire.eu/new-report-published-on-the-state-of-repositories-in-europe
https://libereurope.eu/article/new-report-on-the-state-of-european-repositories/