ユーザーマニュアル

データ解析の始め方

ナビゲーションバーの「解析」をクリックして解析環境の管理画⾯に移り、解析環境の作成、運⽤、管理をします。

1. 解析環境へのログイン

データ解析機能を使うには、GakuNin RDM とは別のサーバーに⽤意した、解析ツールに別途ログインする必要があります。 このマニュアルでは、標準の設定である NII が提供する Jupyter 環境にログイン する⽅法を例に説明します。

NII のデータ解析基盤にログインしていない状態のときは、解析機能のタブに移動した直後にログイン画⾯が表⽰されます。その際は、以下の⼿順でログインしてください。

  1. 「所属機関:」の中のフォームの右側にある下向きの⽮印をクリックして機関名を選択するか、機関名を直接⼊⼒します。⼊⼒すると途中で候補が表⽰され、機関名を探しやすくなります。
  2. 下向きの⽮印の右側にある「選択」をクリックしてログイン画⾯に移動し、認証を通してください。

img001_login_jupyterhub.png

2. 管理画⾯への移動

ログインすると GakuNin RDM のプロジェクト画⾯の解析機能のページにもどります。

  1. 「私の解析環境」で解析環境の運⽤·管理をします。
  2. 「新しい解析環境」で新しい解析環境を作ります。

img002_53_add_analysis_env.png

3. 基本イメージの選択

新しい環境の基になるイメージを以下から選択します。

  • Python 3.12 + R 4.4(JupyterLab 4.x)
    Jupyter Notebook, JupyterLab, RStudio, Shiny、MATLABが使えます。
    MATLABを利用する際は、使用者に割り当てられたライセンスの入力が必要です。
  • Data Science Notebook
    データサイエンス向けのパッケージを含むPython, R, Juliaの実⾏環境です。詳しくは以下のサイトをご覧ください。
    jupyter/datascience-notebook
  • MATLAB
    新規でMATLAB環境を構築される場合は、先述の「Python 3.12 + R 4.4(JupyterLab 4.x)」を選択してください。
    この基本イメージは互換性のために残されています。
  • Dockerfileを用いたカスタムイメージ
    アップロードしたDockerファイルを使用します。ブラウザ内のフォームで編集も可能です。
    アップロードせずに選択すると、空のDockerfileが作成されます。
  • 過去のイメージ
    これらの基本イメージは互換性のために残されています。

4. 追加パッケージの指定

構築時にインストールするパッケージを以下のパッケージ管理ツールで指定します。

  • apt-get
    Linux コマンドやライブラリで Python や R と無関係なパッケージをここで追加します。
    構築された環境では管理者権限でコマンドを実⾏できないため、後で追加したりアップデートすることはできません。
  • conda
    パッケージ同士の整合性が強く保たれている Python パッケージ管理ツールです。インストール可能なパッケージの正確な名前は CONDA-FORGE のサイトでお確かめください。
  • pip
    非常に多くのパッケージが登録されている Python のパッケージ管理ツールです。
  • R (CRAN)
    CRAN を使って R のパッケージを追加します。
  • R (GitHub)
    GitHub を使って R のパッケージを追加します。
    基本イメージが Data Science Notebook のときだけ表⽰されます。
  • MATLAB (mpm)
    MATLAB のリリースを指定し、mpm (MATLAB Package Manager) を使って Toolbox を追加します。

img003_add_analysis_env.png

5.パッケージを追加する操作

apt-get、conda、pip、R では「+追加」をクリックすると 2つのテキストボックスが現れますので、左側にパッケージ名を⼊⼒します。
右側にバージョンを指定することも可能です。
バージョンを空欄にすると、整合性のとれたバージョンの組み合わせのうち最新のものを自動的に指定して解析環境を構築します。

MATLAB をお使いになる際は、最初にまず「MATLAB (mpm)」の右にある「i」のアイコンをクリックして、この機能についての説明を読んでおいてください。
この機能を有効にするにはリリースを入力します。入力前はデフォルトのリリースがグレーアウトされた状態になっているのですが、そこではまだ未入力の状態です。
入力したら「✓」をクリックしてリリースが表示されていることを確認してください。
Toolboxの追加が必要な場合は、アドオンより右の「+追加」をクリックするとテキストボックスが1つ現れるので、その中に Toolbox名を入力します。

各テキストボックスに⼊⼒したら、その都度「✓」をクリックします。取りやめる場合は「×」をクリックします。
追加パッケージにリストアップしたパッケージのインストールを取りやめる場合も「×」をクリックしてリストから削除します。

6.インストール後に実⾏するスクリプト

パッケージのインストール後に追加で処理したいことがあれば、「⾃動実⾏スクリプト」の右にある「>」をクリックして開いたブラウザのフォームにシェルスクリプトを書いて保存してください。このスクリプトは管理者権限 (root) ではなくユーザー権限で実⾏されます。

7. ビルドの開始

追加パッケージ、インストール後に実⾏するスクリプトの指定が終わったら、環境作成の項⽬にある「新しい環境を作成」ボタンをクリックしてビルドを開始します。

img004_build_analysis_env.png

8. ビルドの確認

ビルドが終了すると、ビルドされた環境のJupyterLabが⾃動的に起動します。また、「私の解析環境」の⼀覧にビルドした環境が追加されます。
解析環境の一覧ではメモ機能をご利用頂けます。各環境の用途の記載等御自由にお使い下さい。

img005_53_built_analysis_env.png

9. 環境の運⽤

NII が提供するデータ解析基盤に解析環境を構築する場合、⼀つのアカウントで作成できる環境は全体で10個までです。
また、1つの環境でユーザーが使えるディスク容量は 10GB までです。
構築時、ビルドに成功したものの、何らかの原因で起動に失敗して使用できない環境もカウントされてしまうため、そのような環境は削除しましょう。
環境の一覧はJupyterHubのページで確認できます。

自分のビルドを正確に再現できるようにしたい方は wikiなどを利⽤して、 解析環境名と用途、パッケージの一覧等の情報を記録しておくことをお勧めします。

conda、R パッケージはユーザー権限でインストールされているため、追加や更新が可能ですが、解析環境構築後は apt のパッケージを追加できません。 新しい環境を構築しなければならない場合は解析結果を GakuNin RDMと同期する 機能で同期した結果を引き継いで新しい環境を別途構築してください。