ユーザーマニュアル

(先行利用)データガバナンス機能の概要

1. 概要

データガバナンス機能は、NII RDCを構成する機能の1つです。

データガバナンスとは、研究データを組織の知的資産としていかに生産し、保管し、利用していくかを統制(計画し、執行し、モニタリング)することです。
データガバナンス機能では、以下のような研究サイクルの初めとなる研究計画(Data Management Plan:DMP)の作成から論文やデータの公開まで、研究計画に基づき研究者自身が研究プロジェクトのデータ管理の質を高めることを支援します。
また、研究プロセスに応じてNII RDCを構成する基盤や機能と連携することを計画しています。

img5801_research_process_cycle.png

具体的には、データガバナンス機能が提供するDMP作成機能、リサーチフロー機能、検証機能、研究記録機能によって研究データ管理品質の向上を支援します。
DMP情報を活用することで、研究の個別性に対応し適切なリサーチフロー機能、検証機能を提供します。

2. 目的

現在、研究データの管理は研究者自身に依存しており、研究データ管理品質が一定の水準に保たれてはいません。
そのため、以下のような問題が発生しています。

  • そもそも必要なデータがどこにあるのかわからない
  • データを公開しようとしても整理するのに手間がかかる
  • データの由来がわからないので信用できない
  • 保護しなければならないデータを漏洩させてしまう

データガバナンス機能ではデータ管理品質を一定水準に引き上げ、データ管理品質が悪い為に発生するこれらの問題の解決を目指します。
データガバナンス機能を利用して研究者のデータ管理品質が高まると、以下のような利点があります。

  • 必要なデータの管理されている場所がわかる
  • データを公開する際に手間がかからない
  • データの由来が明確になる
  • データが整理されているので管理しやすい
  • 研究の再現性を保障できる
  • 公開された他の研究者の研究データを気軽に利用できる

研究データ管理品質がある水準で保たれることで、研究の品質や効率も上がっていきます。

3. 想定する研究・実験について

  • 研究

    ある目的のために、いくつかの実験を行い、それらの結果からなんらかの見解を得る流れです。
    ひとつの研究に対して、ひとつのDMPを作成します。
    DMPとは研究のために収集・作成する研究データの取り扱いや整備・保存・公開についての計画を定めた文書です。

  • 実験

    ソースコードを実行し、入力データから出力データを得る一連の流れです。
    ひとつの実験に対して、ひとつの実験パッケージを作成します。

4. 想定する研究・実験の主な流れ

データガバナンス機能では、以下のような研究・実験の流れに沿って、タスクの実行支援を行います。

  • 研究の流れ

    ①DMPを作成する。
    ②実験を行う為の実験実行環境を用意する。
    ③実験を実施する。
    ④実験を終了する。
    ⑤研究の目的に合わせ、②~④を繰り返して複数の実験を行う。
    ⑥実験の節目で適宜メタデータの検証をする。
    ⑦論文や実験データを公開する。
    ⑧研究を終了する。

  • 実験の流れ

    ①入力データと実験のソースコードを用意する。
    ②出力データを確認しながら入力データとソースコードの修正を繰り返し、データの分析を行う。
    ③実験途中の内容を同期して保存する。
    ④実験結果が得られたら、実験パッケージ内のファイルを整理する。
    ⑤最終的な実験パッケージの情報を同期して保存し、実験を終了する。

以下は、データガバナンス機能を利用した研究の概要図です。

img5802_research_flow.png

5. 機能

本機能は、リサーチフロー機能と検証機能を提供します。各機能の概要については、以下をご覧ください。

  1. リサーチフロー機能について
    1. リサーチフロー機能とは

      リサーチフロー機能では、研究プロセスで生じる研究者の様々なタスクを半機械的に実行支援することで、タスクにかかるコストの削減とデータ管理品質の向上を支援します。

      データガバナンス機能のウェブアプリケーションで作成いただくDMP情報を活用することで、研究プロジェクトの特徴に適したタスクの実行支援を提供します。
      DMPの作成後、maDMP(機械可読DMP)を生成し、実行環境に移ってmaDMPを実行することで、DMP情報に適したリサーチフロー機能が提供されます。
      リサーチフロー機能は、NII RDCを構成するコード付帯機能によって提供される環境で実行します。

      データガバナンス機能では、研究プロセスをDMP作成、リサーチフロー機能の実行準備、研究準備、実験、実験終了後、研究終了というフェーズに大別し、それぞれのフェーズの特徴に沿ったタスクの実行支援を提供します。

      img5806_desc_researchflow.png

      研究フローでは、「実験実行環境を作成する」や「メタデータを検証する」など、研究や、実験の準備に必要なタスクをサポートをします。

      img5807_research_flow.png

      また、実験中においても、研究者のタスクの実行支援を実験の実行環境で行います。
      実験フローでは、「実験のデータやソースコードを用意する」や「実験を途中保存する」など、実験中に必要なタスクをサポートします。

      img5808_exp_flow.png

    2. タスクの実行支援について

      タスクの実行支援は、以下のようにJupyter Notebook形式で半機械的に実行可能な手順書として記述されています。
      この手順書(タスクNotebook)を実行することで効率的にタスクが実行できます。
      タスクNotebookに書かれているコードはご自身に合わせて編集することが可能です。
      ただし、編集内容によってはコードが正常に動作しなくなる可能性がありますのでご留意ください。

      img5809_sample_task.png

  2. 検証機能について
    1. 検証対象について

      検証機能では、記載していただいたDMPの情報を元に以下の観点でメタデータの検証を行います。

      • メタデータの検証

        研究データのメタデータが適切に登録されているかを確認します。

      • 研究データの容量の検証

        該当の研究リポジトリにある全ての実験パッケージの容量が、DMPで定義した容量の上限を超過していないかを確認します。

      • 実験パッケージの構成状態の検証

        DMPで定義されたdatasetStructureの値に対応したデータセット構成になっているかを確認します。