发布时间:2023-12-26浏览:4413次
栏目:[开放科学] 作者: 黄金霞,肖曼
CERN参会感受:开放科学是学界治理热点,有效实践升华为管理办法 ——CAS-CERN开放科学基础设施研讨会、UNESCO开放科学报告发布会 基础科学促进可持续发展国际年(以下简称“基础科学国际年”)2022-2023闭幕式会议于2023年12月15日,在瑞士日内瓦欧洲核子研究中心(CERN,European Organization for Nuclear Research)举办。以图书馆员身份,我很有幸参与了我院基础科学国际年项目的一点工作。随着中国科学院代表团,我和同事肖曼也参加了本次会议及两个会前会:一个是我院与CERN聚焦开放科学基础设施的研讨会,一个是联合国教科文组织(UNESCO)与CERN合办的会前会“Opening Science for All”,即UNESCO开放科学报告的发布会。 听说CERN被称为全球高能物理领域研究者的朝圣地。在CERN食堂见到很多像我们一样挂着“来访者”纸名牌的人,在CERN Hotel一直见到拉着行李箱进进出出的人。就参加的2个“开放科学”会议,感受到来自世界各地的科学家、科学机构、青年组织等,对开放科学的价值、实践,以开放科学与基础研究、与SDG关系的讨论热烈且积极,开放科学成为科学研究中普遍关注的全球议题。CERN发布了自己的数据政策并有效地推动了基于合作平台和开放数据的全球科研方式,吸引着全球高能物理领域的科学家一年内多次来CERN开展科研工作。
CAS—CERN开放科学基础设施研讨会:
关注基础设施与数据政策
CERN方面,物理学家Jamie Boyd博士作报告“Designing and implementing and Open Data policy at CERN”,分享CERN在开放科学数据方面的政策。LHC(大型强子对撞机)学术社区有4个大型国际合作组织(每个合作组织多达3000名科学家),相互合作历史达数十年之久。开放数据的重要性不断增加,在欧洲委员会基金申请和欧洲粒子物理战略(2020年更新)中都有体现。针对数据所有权、实验管理、科学严谨性、资源的可持续性等问题的挑战,CERN制定的开放数据政策收到良好成效。Julieta的报告题目是“ORFG在CERN-NASA峰会后:加速推动开放科学落地”(ORFG: Post CERN-NASA Summit: Accelerating the adoption of open science)。CERN-NASA峰会于2023年7月在瑞士日内瓦举行。峰会交流以政策为导向,关注战略计划。ORFG建立各方联盟,制定可行的原则和政策,促进论文、数据和其他类型研究成果更广泛的传播、透明度、可重复性和重复使用。
我院方面,自然科学史研究所陈朴研究员介绍中国科学院科学基础设施建设情况,我介绍了中国开放科学实践与挑战,地理科学与资源研究所雷梅研究员介绍了以地理所土壤污染热点与风险控制为案例的中国科学院开放科学具体实践。
CERN LHC开放数据政策于2020年底发布,该政策的制定旨在在开放数据与实验的约束和关切之间找到平衡。CERN 正在努力扩大该政策以涵盖所有的实验。较小的实验面临不同的挑战,需要解决。这一努力现在已经融入最近的CERN开放科学工作中。
如此大规模机构中的数据政策,是我们都很想深入了解的。在Jamie介绍的过程中,Julieta说我们可以随时提问。所以,20分钟的报告被拖堂了快1小时。欧盟发布了一系列数据政策、数据原则,CERN是在执行自己的数据分类方式、制定社区开放数据政策,政策后面配套的是数据存储格式、数据长期保存系统、数据使用平台、数据分析工具。CERN正在推动较小的CERN实验参与签署开放数据政策。
高能物理数据保存(DPHEP)研究小组将粒子物理数据分为4个级别,分别制定不同的开放方式:
第1级开放数据,同行评审的出版物代表了实验的主要科学产出。根据CERN开放获取政策的规定,所有这类出版物都以开放获取的形式提供,因此可供公众查阅。为了最大化其出版物的科学价值,实验将在出版时公开附加信息和数据,这些数据与HEPData等门户合作存储(http://www.hepdata.net),选择程序存储在专门的工具中。HEPData是用于存储与特定出版物相关的额外第1级数据的工具。它可以存储图形的数字版本,并提供有关事件选择、效率等更详细的信息(http://www.hepdata.net)。
第2级开放数据,使用真实实验数据作为示例进行教育和推广。数据以适用于教育和公众理解目的的简化、可移植和独立格式提供;但不打算也不足以发表科学结果。还可能提供轻量级环境,以便轻松探索这些数据。可通过CERN开放数据门户访问(http://opendata.cern.ch)。在ATLAS大师班中(https://atlas.physicsmasterclasses.org/),学生可以对真实的ATLAS数据应用选择,以模拟已发表的物理分析。用于这个目的的数据集是公开可用的。其他大型LHC实验也有类似的教育工具。
第3级开放数据,LHC实验将发布具有对算法、性能和物理研究有用的详细级别的校准重建数据。这些数据的发布将伴随着来源数据的元数据,并同时发布相应的模拟数据样本、软件、可再现的示例分析工作流程和文档。将提供与数据和软件兼容的虚拟计算环境。所提供的信息将足以允许对数据进行高质量的分析,包括在实际情况下应用于校准、探测器重建和识别相关的主要校正因子及其相应的系统误差。对第3级开放数据的用户将由协作组提供有限的支持,以最佳努力的原则。
公开数据的发布将定期进行,遵循适当的延迟期,以允许对数据、重建和校准进行充分理解,同时也为协作组利用数据进行科学研究提供时间。发布的数据集的大小将与收集的相似类型的总数据量相当,旨在在运行结束后的五年内开始数据发布。如果有正在进行的活动分析,实验可能会保留数据。完整的数据集将在协作结束时提供。
数据将通过CERN开放数据门户(https://opendata.cern.ch/)以创作共用CC0豁免方式发布,并将使用持久数据标识符进行标识,必须通过这些标识符对数据进行引用。类似地,使用这些数据发布的出版物应包含对实验的适当致谢,并且应使这些出版物与协作发布的出版物明显区分开。这些出版物中的任何科学主张由其作者负责,而不是由实验负责。预期使用开放数据发布的科学结果应遵循最佳的科学实践。实验可能会对其各自协作成员使用数据的规定施加规则。
第3级开放数据使用,始于2021年初,具有最多5年的延迟。因此,到目前为止,通过该政策发布的数据并不多。主要涉及纯物理学研究、使用机器学习技术改进事件重建。
第4级开放数据,在合作组织之外以有意义的方式使用LHC实验的完整原始数据集在实际上是不可行的。这是由于数据、元数据和软件的复杂性,对探测器本身及其重建方法所需的知识,必要的庞大计算资源,以及存储在归档媒体中的庞大数据量的访问问题。值得注意的是,出于这些原因,即使是在合作组织内部,一般也无法直接访问原始数据,而是中央执行重建数据(即第3级数据)的制作。代表性原始数据的访问(例如,在机器学习领域等领域进行研究)可以与第3级格式一起由每个实验自行决定释放。
下图是来自ATLAS实验的原始数据的微小部分。LHC实验非常复杂,涵盖了许多探测器技术的数百万读出通道。对原始数据进行重建的程序非常复杂,需要在实验中具有丰富经验的专业知识才能以有用的方式使用。因此,从实验外部的人能够从原始数据中提取有意义的结果是不现实的。
未来计划:CERN拥有一个为许多实验提供服务的多元的加速器复杂系统,不仅仅是迄今为止讨论的大型LHC实验。CERN管理层要求让较小的CERN实验参与签署开放数据政策。目前,对此的初步回应普遍是积极的,但还需要完成几个步骤。较小的实验相对于大型LHC实验更少担心与“努力”和“所有权”相关的问题,但更关注“资源”,因为他们在实验中的人员较少。
研讨会开始之前参观了CERN创新空间IdeaSquare。与国内一些“梦想空间”有点类似。IdeaSquare的座右铭“梦想许可的地方”(“a licence to dream”),承载并支持与CERN相关的研究与开发创新(R&D&I)项目,激发下一代科学家、工程师和企业家。IdeaSquare有许多会议室空间,包括著名的双层巴士会议室,连Kitchen也是不同学科领域科研人员讨论碰撞灵感火花的地方。IdeaSquare为来自世界各地的科研人员、创新者、企业家、学生和访客等提供实验和创新所需的空间和工具,鼓励所有研究人员和学生通过行动测试创新想法,提供3D打印机、激光切割机等设备用于原型设计,用户可以通过快速制作将想法变成现实进行试验。
在后面举办的UNESCO的报告发布会上,Julieta把我介绍给她的两位在会议上做了报告的同事。这两位同事参与了SCOAP3的工作,所以大家又说到NSTL、我的同事李欣,都是熟人。CERN,一个很有激情、创造力、能够聚集人才的地方。