Skip to Content
Open Access NetworkInformationOpen Access Primersオープンアクセスと研究データ

オープンアクセスと研究データ

はじめに

研究データ管理サイクル

研究データ管理サイクルは、計画からデータの保存・再利用に至るまで、研究のあらゆる段階を包含する反復的なプロセスです。

Graphic: The Research Data Management Cylcle

出典:open-access.network (CC BY 4.0 International )

この記事のポイント

  1. 研究データとその独立した公開は、ますます重要になっています。
  2. FAIR 原則は、研究データの事実上の標準(準標準)となっています。
  3. 公開に至るまでの組織的、法的、インフラ的なハードルは克服可能です。

研究データ

テキスト形式の科学的知見は、原則として研究データに基づいています。研究データには多種多様な形態と種類があります。それらは、例えば測定、シミュレーション、インタビュー、資料調査などを通じて、科学的プロセスの間に生成されるすべての(デジタル)データを含みます。近年、これらの研究データの管理は、研究機関やインフラ施設と同様に、学者や科学者の注目をますます集めています。かつて研究データは、出版物の単なる付属品としてやや軽視され、形式的に利用可能にされたり、要求があった場合にのみ開示されたりすることが多かったのに対し、現在ではオープンフォーマットでの研究データの独立的かつ目立つ形での公開(オープンデータ)への強い傾向が見られます。

研究データを公開する理由

研究データは、科学的成果の再現性と透明性、データの再利用および再分析、異なるソースからのデータの統合を促進し、その結果、既存のデータを用いたさらなる研究の実施や新しい知識の生成の機会を促進します。理想的には、再利用性には、データをダウンロード、コピー、配布、自動処理する権利、および金銭的、技術的、法的な制限なしに使用する権利が含まれます。研究データの公開は引用可能性(citability)を促進し、著者の科学的評価を高めます。

Graphic: Open Science

出典:Hole, B. (2015). Open Science: A New publisher Perspective. Ubiquity press. CC BY 4.0 International )

研究文献の場合と同様に、研究データをオープンアクセスにするための論拠の一つとして、その作成が公的資金で賄われているという点が挙げられます。オープンアクセスの歴史の早い段階において、科学・人文科学における知識へのオープンアクセスに関するベルリン宣言 は、データをオープンに利用可能にすべき対象として認識していました。適切なデータ管理の助けを借りて、ますますデータ主導型となる研究においてより効率的に作業し、自分自身もオープンデータの恩恵を受けたいという内発的動機に加え、データの公開を推進する主な要因となっているのは研究助成機関 です。

立場と推進要因

欧州連合(EU)

2016 年、欧州連合(EU)はオープンリサーチデータ・パイロットを Horizon 2020  助成プログラムに統合しました。これは、以下の前提の下で研究データの公開を規定しています。

可能な限りオープンに、必要に応じてクローズドに

参加は任意です。後継プログラムである Horizon Europe  では、オープンサイエンスが modus operandi (運用様式)として指定されており、テキストおよびデータの公開にはオープンアクセス が規定されているほか、FAIR 原則に従ったデータの提供も求められています。

ドイツ

ドイツ研究振興協会(DFG) は、良い科学的実践を確保するためのガイドライン と、別途発行された研究データの取り扱いに関するガイドライン の両方で、FAIR 原則に従ったデータの提供に言及しています。連邦教育研究省(BMBF) やフォルクスワーゲン財団なども、データのさらなる使用と活用に関する情報の提供を義務付けています。もう一つの推進役となるのは、国家研究データインフラストラクチャ(NFDI) でしょう。これは、以下の目的のためにコンソーシアムを 10 年かけて開発するものです。

地域的およびネットワーク化された知識リポジトリを通じた、研究データの持続可能で定性的かつ体系的な確保、索引付け、および利用。

オーストリア

2019 年以降、オーストリア科学基金(FWF) は、承認したプロジェクトに対して研究データへのオープンアクセス を期待しています。

プロジェクトの科学的出版物の基礎となる研究データについては、オープンアクセスが義務付けられています。[…] もし […] これらのデータへのオープンアクセスが不可能または部分的にしか可能でない場合は、データ管理計画(DMP)において正当化されなければなりません。

スイス

スイス国立科学財団(SNF) もまた、研究データへのオープンアクセスを重要な貢献と見なしており、オープンリサーチデータに関するポリシー声明 に次のようなタイトルを付けています。

研究データは、科学だけでなく社会全体に対して、オープンであり、すべての人がアクセス可能であるべきです。

FAIR 原則

欧州連合やドイツ研究振興協会(DFG)など、国内外のさまざまな研究助成機関のガイドラインは、FAIR データ原則への準拠を奨励することを目的としています。ドイツの国家研究データインフラストラクチャ(NFDI)は、データを「FAIRfügbar」にすることを目標に掲げています。これはドイツ語の「verfügbar(利用可能)」をもじった言葉です。FAIR という頭字語は、Findable(見つけられる)、Accessible(アクセスできる)、Interoperable(相互運用できる)、Reusable(再利用できる)を表しています。「FAIR」という概念は、FORCE11 コミュニティ によって開発され、2016 年 3 月 15 日にジャーナル『Scientific Data』で発表されました(Wilkinson, Dumontier, Aalbersberg et al., 2016)。FAIR 原則への支持は、2016 年の杭州サミット終了時に発表された G20 首脳宣言 などにも見られます。FAIR 原則は、研究データの取り扱いに関する国際的に認められた標準になりつつあります。「FAIR データ」は必ずしもすべてのデータがオープンに利用可能であることを意味するわけではありません。

Graphic: FAIR principles

出典:based on Halina Sieminska, P. (2019). A FAIRy tale graphics. Zenodo https://doi.org/10.5281/zenodo.3267168 . Bearbeitung: Ilona Lang (CC BY-SA 4.0 )

FAIR の 4 つの要素はそれぞれ以下の意味を持ちます。

  • Findable(見つけられる): データが再利用可能であるためには、容易に見つけられなければなりません。見つけられるようにするために、データは人間にも機械にも読み取り可能な豊富なメタデータで記述されます。
  • Accessible(アクセスできる): 見つかったデータへのアクセスは、明確なルールに従って可能でなければなりません。認証と認可が定義されている必要があります。
  • Interoperable(相互運用できる): データを使用し、他のデータと統合するためには、知識表現のためのアクセス可能で、共有され、広く適用可能な言語が必要です。メタデータは標準化された語彙を使用します。
  • Reusable(再利用できる): データとメタデータの記述は、さまざまな文脈での利用を促進します。適切なデータ利用ライセンスが使用され、データはドメインに関連するコミュニティ標準を満たしています。

公開

研究データを公開する際は、適切なリポジトリ を選択すべきです。可能な限り、データへのオープンアクセスを提供するリポジトリを選んでください。そのコミュニティで十分に確立されている分野別リポジトリが常に優先されるべき選択肢です。なぜなら、自身のデータが適切な専門的文脈に置かれ、見つけやすくなるからです。研究データリポジトリのレジストリである re3data  を使用して、適切なデータリポジトリを選択できます。適切な分野別リポジトリが見つからない場合は、一般的なリポジトリや機関リポジトリを使用できます。データの長期的な提供と検索可能性を保証するために、永続的なアドレスを割り当てる必要があります。この永続的識別子(Persistent Identifier)は、データセットの引用可能性も保証します。推奨される識別子は、DataCite  コンソーシアムによって提供される Digital Object Identifiers (DOIs)  です。研究データに適切な記述やメタデータが欠けていると再利用性が大幅に制限されるため、公開前に FAIR 原則に従ってキュレーションを行うことが不可欠です。メタデータは、研究プロセスの可能な限り早い段階で割り当てるべきです。これには、技術的メタデータ(例:データセットはいつ、誰によって収集されたか?)と内容的メタデータ(例:個々の変数の内容は何か?)の両方が含まれます。キュレーション中、データは特に技術的にチェックされます。これには、データ形式、基本的なアクセス、および形式的な正確性の確認が含まれます。データ形式に関しては、長期的にアクセス可能でオープンなデータ形式を使用すべきです。データ内容の確認は、主に研究者自身が行う必要があります。キュレーションは、適切なライセンス の選択で終了します。クリエイティブ・コモンズ・ライセンス はその価値が証明されています(詳細については、研究データポータル forschungsdaten.info  の英語ページをご覧ください)。

Graphic: Publish in Repositories

出典:based on Koch, M. (2015). Publizieren über das Repositorium der Leibniz Universität Hannover. TIB Blog 

課題

研究データ管理(FDM)および公開プロセスにおける克服可能なハードルとして、3 つの主要な課題が挙げられます。

組織的

データの管理とキュレーションには追加のスキルが必要です。データキュレーターデータスチュワードデータサイエンティストなどの新しい職種が登場しており、研究機関やインフラ機関は適切なリソースを提供し、従業員を相応に訓練・教育する必要があります。

法的

研究データは個人的なものであったり、非常に機微なものであったりする場合があります。これらのデータは公開前に匿名化するか、データ保護権が侵害されないようにアクセスを制限する必要があります。研究データに関連する著作権の側面への配慮も怠ってはなりません。研究プロセスの早い段階での法的助言を強く推奨します。

インフラ

結果として生じるデータ量は、特に自然科学において非常に急速に増大する可能性があり、過去の経験から、データ量は増え続けるでしょう。ペタバイト級のデータを扱うには、これらのデータの保存、バックアップ、アーカイブ、および転送に関する要求が生じます。

懸念事項

研究者から頻繁に寄せられる批判の一つは、自分の豊富なデータから他者が過度に利益を得て、自分の科学的キャリアに必要な評価を得られないのではないかという懸念に起因しています。この点については、公開は可能な限り早く、包括的に求められるべきであることを明確にしておく必要があります。ただし、データは後の時点(分析後、またはエンバーゴ期間(公開猶予期間) を経て)に公開される場合もあります。データの主権はデータ作成者に残ります。

データの取り扱いに伴う追加コストについても頻繁に言及されます。研究助成の申請書を提出する際に、これらのコストに対する資金を要求することはすでに可能です。データ管理は科学研究の重要な要素と見なされなければならず、適切な人員配置と資金提供が必要です。

今後の展望

ここ数年で観察されたプロセスは、さらに激化するでしょう。研究データの公開、再利用、およびリンクは、標準的な科学的慣行となるでしょう。オープンアクセス、テキスト出版物、および研究データの間の境界線がますます曖昧になること、話題やタスクが重複すること、そしてオープンサイエンスという包括的な用語のもとで科学におけるメンタリティの変化がもたらされることには、十分な理由があります。科学における受容を達成するためには、データとその取り扱いが科学的功績として認識されなければなりません。

参考文献

  • Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., Bonino da Silva Santos, L., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3. https://doi.org/10.1038/sdata.2016.18 

さらに読む

関連リンク

このページのコンテンツ編集者: Matthias Landwehr (最終更新: 2021 年 3 月)

最終更新日:2025 年 4 月 30 日


この記事は、 open-access.network による Open Access and Research Data  を翻訳したものです。もとの記事は CC BY 4.0 ライセンス のもとで提供されています。翻訳版も同じく CC BY 4.0 ライセンスのもとで提供されます。

Last updated on