于数据期刊上发表你的科研数据 （中）

Trevor 访问了GigaScience 的总编辑 Scott Edmunds。不要错过收听以了解如何在获得可被引用的同行评审期刊发表的同时亦能广泛分享您的研究数据。

00:00

这是一件关于文化的事情，而且是由资助者主导的，因为在欧洲，例如惠康基金会、英国研究和创新基金会还有欧盟，他们真的相信数据是为公众利益服务的

于是为数据买单的人就是纳税人

这与真正的研究人员本身无关，这不是他们的数据，它应该属于公众

公众想要治疗，想要在短时间内注射疫苗，研究人员是不能将这些数据保密数年的，不能以他们希望的速度缓慢地发表论文

这种文化转变是由资助者推动的，也许亚洲的资助者在这方面有点落后，软实力和硬实力是同样重要的

硬实力是资助者，软实力是期刊，期刊实际上在这里扮演着重要的角色

而且…这就是数据发布的美妙之处

即使是在像亚洲这样更保守的地方

他们也理解数据发布

他们理解期刊的这种形式

他们可以把纸质论文贴在简历上

然后向资助者陈述

"我在GigaScience上发表了这篇文章"可见

这在亚洲和世界各地都很有效

我们看到了很好的理解

大家都懂自2012年推出以来

我们已经看到了很多很好的例子

例如盖茨基金会资助了大型农业项目"3000份水稻基因组"项目

一夜之间这使水稻基因组数据翻了四倍

从而满足了世界各地对大米的需求

帮助人们定制农作物，帮助植物育种家应对气候变化的影响

真正地做一种数据驱动的育种来解决世界的饥饿问题

这是一个巨大的项目

盖茨基金会和一些中国资助者

以及国际水稻研究所、水稻组织、非政府组织都在菲律宾从事这项工作

他们创建了数据，我们激励他们在2014年公布数据

然后他们又花了四年时间来写这个分析，用超级计算机来进行分析

还有所有这些后续的事情

后来他们在2018年的《自然》期刊上发表了这篇文章

大约四年后，但这很棒他们不需要一直盯着数据

资助者希望公布这些数据

而一些研究组织希望能通过科研成果获得荣誉

我们给他们提出了方法，这就是数据发布的美妙之处

于是我们数据在2012年发布之后便成为主流

许多大型出版商紧随其后《自然》期刊推出了《科学数据》期刊

爱思唯尔已经得到了他们的数据期刊《Data in Brief》

中国科学院启动了《中国科学数据》

中国真的做到了中国非常支持数据发布

因为他们理解其中的重要性

他们懂得出版非常重要

每次我去中国大陆参加讨论出版的会议我都会看到很多幻灯片和演讲

虽然都是中文的，虽然我听不懂但我听到他们提及"GigaScience "、"科学数据"、"数据出版" 可见我们在做的事情产生了巨大的影响并帮助激励人们分享数据

这是一件好事我们正在通过某种文化途径来获取这些重要的数据

03:19

非常好人们开始把数据集，看作是他们可以共享并获得信任的对象

这不仅仅是期刊文章，当作者上传大数据集时

是否有任何法律或道德问题需要注意？

03:33

大家都不想泄露任何敏感数据

比如数据泄露之类的所以我们对数据进行同行审查

我们有内部管理人员。他们负责查阅这类敏感数据.

对非人类的数据处理很简单例如

我们只要对临床数据都多加小心就行了

出版道德委员会(COPE)刚刚推出了新的数据道德流程图

我有加入一个FORCE11/COPE工作组

我们开始起草这一特定领域的指导方针和最佳实践

绝大多数数据都没有什么问题，不过我们最好还是肉眼来仔细检查

看看是否违反了FAIR原则

看看可重用性许可之类的东西

04:20

现在大多数数据集的

用户许可是CC0许可文件

又叫“知识共享许可协议”

应用在公共领域那么这是否意味着

在存储库中上传的数据是没有版权的

无需任何署名即可免费使用？

04:40

这存在一些争议在FAIR原则中

使数据FAIR的关键之一是要明确许可

并确保信息对人类和机器来说都是可以理解的

这样我们就知道该如何使用它

它必须是开放的，开放可以是指完全公开的领域或带有归属的开放

于是不同的存储库有不同的建议

知识共享署名许可（CC BY），这类归属许可是挺不错的

但在未来可能在长期会有问题

因为“归属叠加”的问题。随着数据集越来越大

你将数据集与其他数据集结合，再与其他数据集结合

很难追踪到归属于是在追踪归属的过程中

存在一些潜在的限制这都是区块链前的事情

这是另一个问题今天就不细说了

它可以让节奏慢下来

如果你真的想让你的花费达到最大化，那么建议使用CC0

它是非常开放的甚至都不是一个许可证

严格来说这是一份弃权书

我们推荐CC0 关于归属的问题：它在法律上不太站得住脚

归属更多的是一种文化规范而不是法律规范

我们把论文归为论文，不是因为我们有法律义务这么做

而是因为这是很好的研究实践

如果你没有引用你的消息来源，那就是研究不规范

在某种程度上这更像是一个君子协定

我们要维持这个协定

于是即使是CC0 也没有法定的

归属义务但作为一名科学家

你有这样做的伦理、道德和文化义务，即使是CC0 你仍然需要归属

但CC0至少能够从长远来看，阻止这种归属叠加问题

比如20年后当你的数据集只是

一个很小的矩阵时它便不再重要了

这是一个关于数据授权的争论的总结

06:40

好的这就引出了我的下一个问题

如何激励作者

如何让他们上传数据呢？

有什么类似于手稿作者权的东西吗？

人们上传数据能得到信任吗？它如何被引用？

07:00

是的数据引用是一个问题，FORCE11数据引用原则比FAIR原则

早几年问世甚至在这些原则建立之前

我们就遵循了这些原则，如果你相信数据是研究的头等对象

如果你相信数据和叙述一样重要

那么你应该以同样的方式对待它

这意味着你要引用它并赋予它归属

这就是引用数据的基本原理，那么实现这个的方法是什么呢？

我们有已经发展了10年15年的DataCite

还有Crossref处理论文，叙述文章的数字对象标识符(DOI)

建立DataCite是为了给数据提供DOI

这个链接到ORCID (开放的研究员和贡献者ID)

这在元数据中被链接到作者，这里有一些这样的数据

从文化上来说你需要这样做

通过引用它您可以跟踪下游的重用，这样你就能得到和出版物一样的信誉

于是从一开始，甚至在期刊上线之前

我们开始发布数据集，现在的数据存储库与DataCite DOIs

你只需要确保你在参考文献中引用它们

我们给出了如何做这件事的明确指示

这篇数据论文的重点是更多的元数据

它描述了你如何创建数据，如何重用数据它们是齐头并进的

将数据DOI和纸质DOI连接起来，你可以独立引用数据

独立引用叙述，这取决于你如何使用它

08:35

好的你提到《GigaScience》发表完整的研究论文

以及Data Notes数据描述论文指向数据集

当作者向你的期刊提交材料时，有哪些实际的方面呢？

提交数据集或软件的时间是什么时候？

08:57

在某种程度上，我们就像普通的期刊一样

但我们在开始和结束的时候会有更多的内容

当一篇论文出现时，我们会做一个常规的检查

就像你对其他论文做的检查一样：它是否符合范围要求

符合道德获得同意是否合规

我们也会深入研究数据比如：这些数据可用吗？能通过同行审查吗？

编辑会检查这个我们有一个由三个内部编辑组成的团队

他们也会参与进来于是他们检查并寻找所有这些类型的数据实体，联系作者说这个可用而这个不可用

你能给我们审稿人权限吗？

你能把它放到我们的FTP服务器上吗？

我们将创建审查访问链接，我们把所有这些都放在一起后，我们就开始邀请同行评审来审查数据

我们希望他们仔细检查这些数据

但是对于同行评审来说，你不能100%地控制他们的行为

对于非常重要的数据敏感论文，我们知道有一些审稿人非常严格

我们的编辑也可以做一些审核并创建一种额外的审查，但确保审核人员能访问数据是一个重要步骤

这是一种额外的透明度，而且比纯粹的广告更重要

于是我们要经过这几轮审查如果通过了

最后一步就是编辑与作者合作，所有的数据可能已经在第三方数据库中

这是没有问题的，我们确保所有的数据都在那里

一切都安排好了或者如果它需要进入我们的GigaDB存储库

我们会创建一个数据集、登陆页面

一个GigaDB数据集，他们从作者那里收集了很多重要的元数据

我们创建了DataCite DOI，确保它在论文中被引用

然后我们像发表普通论文一样进行发表

10:53

那么除了GigaDB，作者还可以使用其他存储库吗？

10:58

可以通常情况下，东西可以放在多个存储库中

我们有像美国国家生物技术信息中心的原始数据代码会在GitHub中

但我们可以在GigaDB中截取一个快照，来确保人们不会删除GitHub的存储库

它像中转站一样

人们通常不会把实际的结果文件放在一个存储库中

他们也可以把它们拿走

于是他们会管理这个并链接到所有原始数据的外部来源

这就是《GigaScience》的经历，我们在去年推出了第二本期刊《GigaByte》

这更侧重于更简单、更细粒度的数据文件和软件文件，而不是更多的叙述方面

《GigaScience》更关注的是……

因为我们接受评论也关注数据问题

这更适合更大、更有叙述性的讨论

将多个数据集和软件等集合在一起，然后仅仅是纯粹的、简单的、单个的数据集在这些更短的《GigaByte》论文中，可以更快地出来，我们有这个高效成本的出版平台，成本不是大问题

我们也在努力简化审查过程，还有很多我只列出一两点