##### nozomi 計算ノードの OS インストール完了後の構築手順書 ##### 2019/06/10 吉田哲治 作成 ##### 2019/10/14 吉田哲治 修正 ### 参考文献 ### http://www.ep.sci.hokudai.ac.jp/~inex/ ### http://www.ep.sci.hokudai.ac.jp/~kodama/ ### https://wiki.archlinux.jp/index.php/Fstab ### http://www.linux-beginner.com/linux_kihon65.html ### https://teratail.com/questions/96654 ### https://access.redhat.com/documentation/ja-jp/red_hat_enterprise_linux/6/html/storage_administration_guide/nfs-serverconfig#nfs-serverconfig-exports ### https://docs.oracle.com/cd/E19504-01/805-0673/6j0msjnir/index.html ### https://qiita.com/yubais/items/d05b789f3ae7fcc06084 ### https://wiki.archlinux.jp/index.php/NFS/%E3%83%88%E3%83%A9%E3%83%96%E3%83%AB%E3%82%B7%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0 ### http://www.math.kobe-u.ac.jp/HOME/kodama/tips-performance.html ### https://qiita.com/ryuichi1208/items/3b21aee6c38bcfdb12b1 ### https://www.na3.jp/entry/20070621/p2 ### ##### 初期段階 $ su # apt install sudo vim # visudo 用いるアカウントを sudo に追加 root ログインを一時的に許可(ログインノードの鍵をもらったら鍵のみへ変更しなおす) $ sudo vi /etc/ssh/sshd_config # 2019/mm/dd 吉田哲治 追記 PermitRootLogin yes ログインノードから $ sudo ssh-copy-id nozomi1?? 計算ノードで root ログインを公開鍵認証のみへ $ sudo vi /etc/ssh/sshd_config # 2019/mm/dd 吉田哲治 追記 PermitRootLogin prohibit-password ##### nfs ##### ログインノード $ sudo vi /etc/hosts 192.168.100.1 nozomi 127.0.0.1 localhost 192.168.100.101 nozomi101.ep.sci.hokudai.ac.jp nozomi101 192.168.100.102 nozomi102.ep.sci.hokudai.ac.jp nozomi102 : : $ sudo vi /etc/exports # 2019/03/21 吉田 哲治 追記 /work00 192.168.100.0/255.255.255.0(rw,sync,no_subtree_check,no_root_squash) $ sudo /etc/init.d/nfs-kernel-server restart ##### 計算ノード $ sudo vi /etc/hosts 192.168.100.1 nozomi.ep.sci.hokudai.ac.jp nozomi 127.0.0.1 localhost 192.168.100.101 nozomi104.ep.sci.hokudai.ac.jp nozomi101 192.168.100.102 nozomi104.ep.sci.hokudai.ac.jp nozomi102 : : $ sudo apt install nfs-common $ sudo vi /etc/fstab #2019/mm/dd 吉田哲治 追記 192.168.100.1:/work00 /work00 nfs defaults 0 2 192.168.100.1:/work01 /work01 nfs defaults 0 2 $ sudo mkdir /work00 $ sudo mkdir /work01 $ sudo mount -a $ df -h 192.168.100.1:/work00 1.8T 291G 1.4T 18% /work00 192.168.100.1:/work01 915G 586G 283G 68% /work01 のように, /work00, /work01 のマウントが見れればよい nfs が完了 ##### torque ##### ログインノード ##### 設定 $ sudo vi /etc/torque/nodes nozomi101 np=8 nozomi102 np=8 nozomi103 np=8 : : のように書いていく $ sudo /etc/init.d/torque-server restart $ sudo /etc/init.d/torque-scheduler restart ##### 計算ノード ##### インストール $ cd /work00/downloads_keisan $ sudo dpkg -i torque-common_2.4.16+dfsg-1.3ubuntu1.1_amd64.deb $ sudo dpkg -i libtorque2_2.4.16+dfsg-1.3ubuntu1.1_amd64.deb $ sudo dpkg -i torque-mom_2.4.16+dfsg-1.3ubuntu1.1_amd64.deb $ sudo dpkg -i multiarch-support_2.19-0ubuntu6.14_amd64.deb $ sudo apt purge ncurses-term $ sudo dpkg -i libreadline6_6.3-4ubuntu2_amd64.deb $ sudo apt install --fix-broken $ sudo dpkg -i libreadline6_6.3-4ubuntu2_amd64.deb $ sudo dpkg -i libtcl8.5_8.5.15-2ubuntu1_amd64.deb $ sudo dpkg -i libxss1_1.2.2-1_amd64.deb $ sudo apt install libcurses-perl $ sudo dpkg -i libtk8.5_8.5.15-2ubuntu3_amd64.deb $ sudo apt install --fix-broken $ sudo dpkg -i libtk8.5_8.5.15-2ubuntu3_amd64.deb $ sudo dpkg -i torque-client-x11_2.4.16+dfsg-1.3ubuntu1.1_amd64.deb $ sudo apt install --fix-broken $ sudo dpkg -i torque-client-x11_2.4.16+dfsg-1.3ubuntu1.1_amd64.deb 依存関係で怒られたり, 順番が気になったりするが, 以下が入ればよい $ dpkg -l |grep torque ii torque-client-x11 2.4.16+dfsg-1.3ubuntu1.1 amd64 GUI for torque clients ii torque-common 2.4.16+dfsg-1.3ubuntu1.1 amd64 Torque Queueing System shared files ii torque-mom 2.4.16+dfsg-1.3ubuntu1.1 amd64 job execution engine for Torque batch system のように, torque-mom, torque-common, torque-client-x11 が入っていればよい job を投げる際に怒られるため, 理由はわからないが, 次のライブラリを入れておく $ sudo apt install libnuma1 $ sudo apt update $ sudo apt upgrade インストールが完了 ##### 設定 共有フォルダ( /work00 内のコマンド等)のコマンドに PATH を通しておく(とりあえず bash に関して) $ sudo vi /etc/profile.d/pgi.sh export PGI=/work00/pgi export PATH=$PGI/linux86-64/2018/bin:$PATH export MANPATH=$MANPATH:$PGI/linux86-64/2018/man export LM_LICENSE_FILE=$PGI/license.dat $ sudo vi /etc/profile.d/mpich.sh export PATH=/work00/mpich2/bin:$PATH $ sudo vi /etc/torque/server_name nozomi $ sudo vi /etc/torque/config $usecp *:/work00 /work00 $ sudo ln -s /etc/torque/config /var/spool/torque/mom_priv/ $ sudo /etc/init.d/torque-mom stop $ sudo /etc/init.d/torque-mom start $ sudo momctl -d3 $ pbsnodes で追加した計算ノードが出れば OK 計算ノードが完了 ##### ssh 関連 どうやら自分が設定した torque では各計算ノード同士が公開鍵ログイン(なのか ssh をしたことがあるのかわからないが...)出来ないと計算が回せないらしい user@nozomi101:~/$ ssh-copy-id nozomi102 user@nozomi101:~/$ ssh-copy-id nozomi103 user@nozomi101:~/$ ssh-copy-id nozomi104 : : user@nozomi102:~/$ ssh-copy-id nozomi101 user@nozomi102:~/$ ssh-copy-id nozomi103 user@nozomi102:~/$ ssh-copy-id nozomi104 : : user@nozomi108:~/$ ssh-copy-id nozomi107 とするととりあえず計算は回る. そのうちスクリプトを作成する.