ユーザーマニュアル

データ解析の始め方

解析基盤へのログイン

データ解析機能は GakuNin RDM とは別のサーバー上で動きます。このサーバーのことを解析基盤と呼びます。ここでは NII が提供する解析基盤 (https://binder.cs.rcos.nii.ac.jp) を利用する方法を説明します。

ナビゲーションバーの「解析」をクリックして、データ解析環境の管理画⾯に移ります。NII のデータ解析基盤にログインしていない状態では、解析機能のタブに移った直後にログイン画⾯が表⽰されます。その際は、以下の⼿順でログインしてください。

  1. 「所属機関:」の中のフォームの右側にある下向きの⽮印をクリックして機関名を選択するか、機関名を直接⼊⼒します。⼊⼒すると途中で候補が表⽰され、機関名を探しやすくなります。
  2. 下向きの⽮印の右側にある「選択」をクリックして機関ログイン画⾯に移動し、認証を通してください。

img001_login_jupyterhub.png

管理画⾯の構成

データ解析環境の管理画⾯に戻ります。

img002_add_analysis_env.png

  • 「私の解析環境」で、すでに作った解析環境を管理します。
  • 「新しい解析環境」で、新しい解析環境を作ります。

基本イメージの選択

データ解析環境は Docker コンテナによる仮想環境として提供されます。はじめに、基本となるコンテナイメージを以下から選択します。

  • Python 3.12 + R 4.4 (JupyterLab 4.x)
    Jupyter Notebook, JupyterLab, RStudio, Shiny が使えます。MATLAB を利用する方も、こちらを選択してください。MATLAB を利用するにはライセンスの入力が必要です。
  • Data Science Notebook (JupyterLab 4.x)
    データサイエンス向けのパッケージを含む Python, R, Julia の実⾏環境です。詳しくは Jupyter Docker Stacks のサイトをご覧ください。
  • MATLAB (R2023b)
    この項目は互換性のために残されています。新しく MATLAB を利用する方は、「Python 3.12 + R 4.4 (JupyterLab 4.x)」を選択してください。
  • Dockerfileを用いたカスタムイメージ
    あなたがアップロードしたDockerファイルを利用します。
  • 過去のイメージ
    これらの項目は互換性のために残されています。
  • カスタム基本イメージの登録
    以上のほか、独自の基本イメージを作成してプロジェクトに登録することができます。登録された基本イメージは、同じプロジェクトのメンバーが利用できます。詳細はカスタム基本イメージについてを参照してください。

追加パッケージの指定

データ解析環境の作成時にインストールするパッケージを以下のパッケージ管理ツールで指定します。

  • apt-get
    OS のパッケージを指定します。NII が提供するデータ解析環境の OS は Ubuntu 22.04 です。作成されたデータ解析環境の中でユーザーは管理者権限に昇格できないため、あとで追加したりアップデートしたりすることはできません。
  • conda
    Python および R のパッケージを指定します。インストール可能なパッケージの正確な名前は conda-forge のサイトでご確認ください。
  • pip
    Python のパッケージを指定します。
  • R (CRAN)
    R のパッケージを指定します。CRAN からインストールされます。
  • R (GitHub)
    R のパッケージを指定します。GitHub からインストールされます。基本イメージとして「Data Science Notebook」を選択したときのみ有効です。
  • MATLAB (mpm)
    MATLAB のリリースを選択し、アドオンを指定します。

img006_select_matlab_tool.png

  • apt-get, conda, pip, R (CRAN), R (GitHub) では、「+追加」をクリックすると2つの入力欄が現れます。左側にパッケージ名、右側にバージョン番号を指定します。バージョン番号は省略可能ですが、依存関係の不整合を長期間にわたって防ぐには、できるだけ特定のバージョンを指定することをおすすめします。

img006_add_some_packages.png

自動実行スクリプト

パッケージのインストール後に追加したい処理があれば、「⾃動実⾏スクリプト」の右にある「>」をクリックして、入力欄にシェルスクリプトを書いて保存してください。このスクリプトは、コンテナが作成された後に、ユーザー権限で実⾏されます。

環境作成

基本イメージ、追加パッケージ、自動実行スクリプトの指定が終わったら、「新しい解析環境を作成」をクリックします。指定された内容に従って、あなた専用のコンテナが自動的にビルドされます。

ビルドには数分~十数分の時間がかかります。黒い画面にビルド状況が表示されている間、ブラウザを閉じないでお待ちください。ブラウザを閉じてしまった場合は、もう一度「新しい解析環境を作成」をクリックしてビルドを開始してください。

ビルドが成功すると、解析環境上で JupyterLab が起動します。また、「私の解析環境」の⼀覧に解析環境が追加されます。

環境の運⽤

  • 作成された解析環境の一覧は JupyterHub のページで確認できます。
  • 使用しない解析環境は削除してください。NII が提供する解析基盤では、ひとつのアカウントで作成できる解析環境は10個までです。

「カスタム基本イメージの登録」をクリックすると、カスタム基本イメージの登録ダイアログが表示されます。

img004_register_custom_img.png img004_get_from_parent_prj.png

  • 新規作成タブ
    基本イメージ名、イメージURL、イメージの概要(日本語、英語)を入力して、「登録」をクリックします。
  • 親プロジェクトから取得タブ
    GakuNin RDM において、このプロジェクトが他のプロジェクトのコンポーネント(サブプロジェクト)である場合や、他のプロジェクトにリンクしている場合には、カスタム基本イメージの情報を親プロジェクトから取得できます。コピーしたいカスタム基本イメージの「取得」をクリックすると、そのカスタム基本イメージの情報がこのプロジェクトにコピーされます。