于数据期刊上发表你的科研数据 (上)

Trevor访问了GigaScience 的总编辑 Scott Edmunds。不要错过收听以了解如何在获得可被引用的同行评审期刊发表的同时亦能广泛分享您的研究数据。

0:03

大家好在本期播客中我们邀请到GigaScience的总编, GigaScience是线上开放获取的、同行评议的期刊，致力于在开放数据上发表科研文章，特别是生命科学和生物医学领域的大数据

该期刊始于2012年专注于数据期刊以及数据集、代码和软件的公开共享和发布，对一些研究人员来说可能并不熟悉

那么今天，GigaScience的主编Scott Edmunds会为我们进行介绍

0:59

首先

可以谈谈你是如何进入出版业并开始出版一份数据期刊的吗？

1:05

我做这一行已经15年了和出版界的许多人一样

我有相关学术背景

我在伦敦大学和世卫组织法国癌症实验室

从事癌症遗传学的博士和博士后研究

在一些短期的博士后项目后我有点厌倦了那种

勉强糊口的短期合同

例如整夜地观察细胞等等

于是我进入了出版业我从2006年开始在BioMed Central（BMC）出版社工作

那时他们还没有被Springer Nature收购

这让我对开放获取期刊感兴趣

因为我有一点经验，我在博士学位期间做过一个微阵列实验

BMC在基因组学和生物信息学方面非常擅长

这是一个很大的领域

很多编辑都不敢碰这些学科，那时他们说，这个交给你吧

于是我开发了这个小众市场，成功运营了生物信息学和基因组学期刊集群，并推出了BMC医学基因组学。就这样，我在基因组学和生物信息学，出版领域得到了一席之地

在那个时候，我从编辑部的那里听到了很多有趣的事情

关于这个叫深圳的神奇地方

那里有一个叫北京华大基因(BGI)的组织

他们正在基因组学领域做着一些有意思的研究。我对此很感兴趣当时人们很少提及这个，这是在2009年、2010年的时候

后来我看到一份工作招聘，刊登在《自然》期刊上的广告说，他们在找一名编辑，于是，我申请了，便加入了GigaScience

2:50

你现在是在深圳还是在香港？

2:54

我最初在深圳花了一年时间创办了这个期刊，然后我们搬到了香港的办公室，那时它已经比较成熟了

我在香港生活了10年

3:11

那么GigaScience是怎么创办的呢？你能聊聊它的特点之一--开放数据吗？

3:19

华大基因就是北京基因组研究所，它起初在北京，后来搬到了深圳

他们自称是世界上最大的基因组组织，有非营利和营利性的分支机构，而我们是非营利部门，他们发表了很多论文，还想创办一个期刊

我一开始和Laurie Goodman合作，她经验丰富，她发起了基因组研究，并在《自然-遗传学》期刊成立时担任首席助理编辑，于是我们创办了GigaScience。

其实，有很多期刊都在做类似的事情，而我们背靠这个基因组，组织有巨大的超级计算机和很多的计算生物学家等等的支持。于是，我们决定要做一些不同的事情，利用所有这些资源专注于数据，并运用所有这些基础设施还有我们的优势

于是十年前，我们创办了GigaScience专注于大规模数据、生物医学数据。并发布了Data Notes，这是一个科研文章的数据集，让用户可以在平台上分享，还有软件文章

以及把数据和软件结合在一起的科研文章，这是我们的重点

它在2012年正式推出，在一些社区上线，比如《地球科学》等数据期刊，我们花了比较多的时间在这个上，我们当时是生物医学领域的先驱，我们在华大基因建立了一个数据库，这几乎是独一无二的。

我们有一个数据团队，帮助人们分享数据。我们还有专业的管理员帮助他们，期刊文章有传统形式的描述，让人们能够了解文章的大致内容，因为开放数据在某种程度上，顾名思义就是开放的数据

但它不止于此，“开放”的定义实际上是指：

它需要获得公开许可，它需要是可用的等等，于是现在有很多数据库，而且数量还在不断增加

在GigaScience，我们建立了GigaDB数据库，用来收集那些没有归属数据库的、或者占存太大的东西，我们可以托管TB大小的东西，甚至几十TB，所以我们没有理由不去分享

我们处在一个数据驱动的时代，数据对我们来说越来越重要，我们给了人们一种方式和一种形式的信任，让他们去努力分享这些东西

5:55

所以开放数据的目的，不只是为了证明这是一种解决方案、是论文背后的数据来供其他人复制或查阅

这些只是其中一个目标而另一个目标是让其他人继续使用数据集

6:16

是的，这就是它的美妙之处还有透明度和可重复性方面

你想知道人们是否操作规范，它给予信任

这在"信息流行病"中是极其重要的疫苗怀疑论和科学怀疑论等等

但实际上，把这些东西打开会增加信任，这些都是我们在21世纪正需要的有用的东西

数据和软件是越来越关键的，这些焦点一直在被强调

1995年著名的计算机科学家，Buckheit和Donoho他们也有提到，出版实际上就是广告，而真正可用的、那些人们真正需要使用的东西是数据和其背后的软件，在1995年这些都丢失了，无法获得了

然而在2021年我们没有借口不去做，我们可以超越广告

真正拥有可靠的、可重复使用的东西，这才是真正的美妙之处

7:21

通常公开数据还会带出一个，叫FAIR的原则

科研数据共享的FAIR原则是什么呢？尤其是哪些东西我们要牢记的呢？

7:36

FAIR代表“可查找、可访问、可互操作和可重用”

2016年《科学数据管理和规范的FAIR原则》出版了。我是整个亚洲唯一的原创作者

不过，大多数的焦点都集中在欧洲和北美，而很少在亚洲或中国

但至少FAIR意味着向前迈出重要一步了，公开数据是件好事

我们还有很长的路要走，在很多领域，我们甚至无法获得数据，它在可访问之后我们要将它运用起来

FAIR给出了指导原则；使其可查找、可访问、可互操作和可重用

互操作性是关键，这是超越人类的思考，你需要做些什么才能让机器也能使用这些

因为你发布的东西越来越多，不仅仅是给人类读者看的

你还要顾及机器读者的可发现性和数据挖掘

机器会观察事物之间的关系，随着文献越来越多，我们的互动方式将会被机器学习算法过滤

通过一些工具筛选出与你的研究，相关的内容，所以这是FAIR的关键部分

9:07

对于大数据领域的工作人员来说，他们清楚在上传数据前需要做什么吗？

因为这些数据将来会，被人工智能算法挖掘出来，而不从事大数据工作的人，又需要做什么呢？

9:23

他们可能会想我要上传Excel表格吗？或者我应该使用其他格式吗？

FAIR给出了一些基本规则，人们必须遵守FAIR 才能进入下一步

从而使它更容易理解，FAIR至少给出了更大的计划

我们需要关注所有这些额外的部分，特别是在欧盟开放的科学云，大型实体和资助者已经尝试

把这些FAIR原则建立到他们的数据库，到他们的各种工作流程 FAIR培训等等

早在2016年，杭州G20峰会上，二十国集团领导人就发表了支持FAIR的公报

在世界的大部分地区，它对改变我们对数据的看法产生了很大的影响

而亚洲…是的我们才刚刚开始，也就是开放资源，我们接下来要考虑的就是FAIR

事情不会立刻变得完全符合FAIR，我们有一个发展路线图

我们一步步来使它变得越来越有用，最后达到我们想要的结果

10:28

好的那么关于这个话题开放数据和FAIR

在世界范围内的许多不同学科中都流行起来了吗？但你说在亚洲并没有

那么，它在其他地方流行起来了吗？好处是什么？它们真的被展示出来了吗？

像一些实际用例对吧？例如新冠肺炎疫情

10:51

2019年12月31日，首个声明发布：武汉发生了一种新型肺炎

1月5日张永珍教授在上海上传了首个新冠病毒序列

它在1月10日或11日公开，然后很快和有效地

渠道和其他东西就建立起来了

生物科技公司BioNTech和莫德纳，在一两天内设计出了疫苗

现在已经注射到很多人的体内，数据在1月10日分享，然后在几天内就设计出了假定的疫苗，5天之内他们就能做出诊断测试

他们意识到新冠病毒已经蔓延到泰国和澳大利亚

我们经历了艰难的一两年，但想想，如果我们没有这些疫苗，如果我们没有这些诊断测试，如果人们把这些数据保存得更久，情况会变得多糟糕

所以人们确实明白这些东西有多重要, 这是非常特定的领域

说到新冠病毒的遗传数据，共享基因组数据已经有几十年的历史了

有数据存储库有一些全球性的要求

你需要立即分享这些东西，张永珍教授就是这么做的，他遵循了基因组学中人类基因组计划的做法

一些地方的生物医学发展已有30年的历史，《地球科学》是这方面的领军者

有些领域比其他领域要好，它的发展也有地理区域的差异

FAIR原则，起草FAIR原则的人，很多都在荷兰以及在欧洲欧盟的“地平线2020”计划和之前的资助计划，都非常支持开放数据，欧洲大型生物医学基金惠康基金会，一直非常积极地推动其资助者分享数据，于是在世界的一些地方它已成常态

然而在亚洲，我们没有同样积极主动的资助者

我希望下一代的资助者会朝着世界其他地方的资助者的方向前进，让开放数据成为常态，开放获取也是一样，我们亚洲有点落后了

我们通常比北美、欧洲和澳大利亚的政策晚几个研究周期

希望我们能赶上，但这需要时间

13:22

是的这就是开放数据、开放研究发展的关键点

因为大多数发展似乎是由资助者推动的，无论是慈善机构还是国家政府资助者

在亚洲你举了一个很好的例子，新冠病毒疫情的示例

它是如何开始的？现在在哪个阶段？

这些都依赖于共享数据，那么，我们如何在亚洲更多地提出这一观点呢？

研究人员分享数据的动机是什么？

因为他们可能会认为研究人员拥有自己的数据

他们可以根据这些数据发表很多论文

于是他们选择保密