ユーザーマニュアル

データ解析の始め方

ナ ビゲーションバーの「解析」をクリックして解析環境の管理画⾯に移り、解析環境の作成、運⽤、管理をします。

1. 解析環境へのログイン

データ解析機能を使うには、GakuNin RDM とは別のサーバーに⽤意した、解析ツールに別途ログインする必要があります。 このマニュアルでは、標準の設定である NII が提供する Jupyter 環境にログイン する⽅法を例に説明します。

NII のデータ解析基盤にログインしていない状態のときは、解析機能のタブに移動した直後にログイン画⾯が表⽰されます。その際は、以下の⼿順でログインしてください。

  1. 「所属機関:」の中のフォームの右側にある下向きの⽮印をクリックして機関名を選択するか、機関名を直接⼊⼒します。⼊⼒すると途中で候補が表⽰され、機関名を探しやすくなります。
  2. 下向きの⽮印の右側にある「選択」をクリックしてログイン画⾯に移動し、認証を通してください。

img001_login_jupyterhub.png

NII のデータ解析基盤では、違うアカウントで作成した解析環境にはアクセスできないため、アカウントを複数お持ちの⽅は、よくご確認ください。

2. 管理画⾯への移動

ロ グインすると GakuNin RDM のプロジェクト画⾯の解析機能のページにもどります。

  1. 「私の解析環境」で解析環境の運⽤·管理をします。
  2. 「新しい解析環境」で新しい解析環境を作ります。

img002_53_add_analysis_env.png

3. 基本イメージの選択

新しい環境の基になるイメージを以下の四つから選択します。

  • Python 3.9 + R 4.1.3
    Jupyter Notebook, JupyterLab, RStudio, Shinyが使えます。
  • Data Science Notebook
    データサイエンス向けのパッケージを含むPython, R, Juliaの実⾏環境です。詳しくは以下のサイトをご覧ください。
    jupyter/datascience-notebook
  • MATLAB
    数値解析ソフトウェア「MATLAB®」の実行環境です。Jupyter Notebook上での実行とWeb版のMATLABの利用が可能です。ご利用の際は解析環境の使用者に割り当てられたライセンスの入力が必要です。
  • Data Science Notebook (旧バージョン)
    古いバージョンで実行したデータ解析を、手早く再現するために用意した基本イメージです

4. 追加パッケージの指定

img003_add_analysis_env.png

構築時にインストールするパッケージを以下のパッケージ管理ツールで指定します。
(構築の際の注意もご⼀読ください)

  • apt-get
    Linux コマンドやライブラリで Python や R と無関係なパッケージをここで追加します。 構築された環境では管理者権限でコマンドを実⾏できないため、後で追加したりアップデートすることはできません。pythonのパッケージはなるべく conda から、R のパッケージはなるべくMRAN, CRAN から追加し、apt からのインストールは避けるようにしてください。
  • conda
    Python のパッケージは基本的にこちらから導⼊してください。インストール可能なパッケージの正確な名前はCONDA-FORGEのサイトでお確かめください。Linuxのコマンドやライブラリーもいくつか⽤意されています。
  • pip
    conda にないパッケージはこちらにあるかもしれません。conda にあるパッケージはなるべくconda からインストールしてください。インストールの際は他のパッケージとの整合性を⼗分確認して整合性が崩れないバージョンを指定してインストールしてください。
  • R (CRAN)
    CRAN を使って R のパッケージを追加します。
    基本イメージが Data Science Notebook のときだけ表⽰されます。
  • R (GitHub)
    GitHub を使って R のパッケージを追加します。
    基本イメージが Data Science Notebook のときだけ表⽰されます。

5.パッケージを追加する操作

「+追加」をクリックすると2つのテキストボックスが現れます。左にパッケージ名を⼊⼒し、右にバ ージョンを⼊⼒します。バージョンは空欄にすることを推奨します。バージョンを空欄にした場合、パッケージ管理ツール毎に最適と判断されたバージョンがインストールされ、バージョンの不整合を防げます。

Python のパッケージは conda と pip、そして apt-get でもインストールできますが、混在させると連携するパッケージ間でバージョンの整合性を保てなくなる可能性があります。

⼊⼒が終了したら「✓」をクリックします。取りやめる場合は「×」をクリックします。
追加パッケージにリストアップしたパッケージのインストールを取りやめる場合も「×」をクリックしてリストから削除します。

6.インストール後に実⾏するスクリプト

パッケージのインストール後に追加で処理したいことがあれば、「⾃動実⾏スクリプト」の右にある「>」をクリックして開いたブラウザのフォームにシェルスクリプトを書いて保存してください。このスクリプトは管理者権限 (root) ではなくユーザー権限で実⾏されます。

7. ビルドの開始

追加パッケージ、インストール後に実⾏するスクリプトの指定が終わったら、環境作成の項⽬にある「新しい環境を作成」ボタンをクリックしてビルドを開始します。

img004_build_analysis_env.png

8. ビルドの確認

ビルドが終了すると、ビルドされた環境の中でJupyterLabが⾃動的に起動します。また、「私の解析環境」の⼀覧にビルドした環境が表⽰されます。

img005_53_built_analysis_env.png

9. 環境の運⽤

NII が提供するデータ解析基盤に解析環境を構築する場合、⼀つのアカウントで作成できる環境はJDCat も含めて全体で10個までです。
ビルドに成功したものの起動に失敗したコンテナイメージも環境数としてカウントされてしまうため、サーバー制限数を超える前に利用しないイメージは削除してください。
ログイン中のアカウントの環境の数はJupyterHubのページで確認できます。
⼀つのプロジェクトに環境を多数⽤意することがある場合、運⽤が煩雑になることが予想されるのでwikiなどを利⽤して名前とビルド内容と⽬的等を記録しておくことをお勧めします。

先述した通り、解析環境構築後は apt のパッケージを追加できませんが、conda、R パッケージはユーザー権限でインストールされているため、追加や更新が可能です。また、解析結果を GakuNin RDMと同期する機能があるので、作り直さなければならなくなったときは、同期した結果を引き継いで環境を別途構築してください。