Menggunakan ALELEON Supercomputer via Terminal
Halaman ini menjelaskan tutorial menggunakan ALELEON Supercomputer via terminal. Tutorial ini mengasumsikan user dapat mengoperasikan terminal Linux.
Persetujuan Prefix
Simbol $ menandakan perintah terminal, sedangkan tanda bracket <> menandakan parameter input yang ditulis oleh user:
$ command <input-yang-ditulis-user>
1 | Login SSH
Sebelum login, user harus terhubung ke jaringan VPN ALELEON Supercomputer untuk dapat melakukan login ke ALELEON Supercomputer.
- SIlahkan gunakan software shell sesuai preferensi masing-masing user untuk login SSH.
Kredensial SSH Login Node Utama
User login ke Login Node utama dengan kredensial berikut:
Username dan password | Diberikan oleh admin ALELEON |
Host untuk user Windows / MacOS | aleleon.hpc
|
Host untuk user Linux | 10.192.50.10
|
Nomor port | 22 (default)
|
Contoh perintah login melalui terminal:
| |
Note khusus:
|
ALELEON Supercomputer mendukung SSH X11 untuk menampilkan window GUI dengan panduan berikut:
Dari OS | Metode |
---|---|
Windows | EFISON merekomendasikan software MobaXTerm Home Edition |
MacOS | $ ssh -Y <username>@<hostname>
|
Linux | $ ssh -X <username>@<hostname>
|
Kredensial SSH Login Node Lainnya
- Apabila tidak dapat login ke Login Node Utama, gunakan Login Node Backup:
Kredensial Login Node Backup | |
---|---|
Username dan password | Diberikan oleh admin ALELEON |
Host untuk user Windows / MacOS | aleleon2.hpc
|
Host untuk user Linux | 10.192.50.12
|
Nomor port | 22 (default)
|
Note khusus:
|
- Terdapat login node spesial denngan spesifikasi besar bagi user yang ingin melakukan compiling file skala besar:
Kredensial Login Node Besar | |
---|---|
Username dan password | Diberikan oleh admin ALELEON |
Host untuk user Windows / MacOS | aleleon3.hpc
|
Host untuk user Linux | 10.192.50.13
|
Nomor port | 22 (default)
|
Note khusus:
|
2 | Selamat Datang di Login Node
Setelah login, user masuk ke Login Node untuk berinteraksi dengan ALELEON Supercomputer.
- Pada Login Node, user dapat melakukan kegiatan manajemen data, download / upload, compiling, menyiapkan job komputasi, dan submit job komputasi (job submission) yang akan dijalankan oleh Compute Node.
- Apabila user ingin mengakses software yang terinstal di ALELEON Supercomputer (untuk keperluan selain menjalankan komputasi), gunakan Module Environment.
- Sementara itu Compute Node berperan untuk menjalankan job komputasi semua user yang disubmit melalui SLURM. Tutorial dijelaskan pada bagian 3.
Keterangan:
|
3 | Menjalankan Komputasi ke Compute Node via SLURM
User menjalankan job komputasi melalui SLURM, program manajemen (scheduler) untuk menjalankan komputasi user pada Compute Node sekaligus mengatur antrian job semua user.
1 | Siapkan file yang dibutuhkan untuk menjalankan komputasi user.
|
2 |
SLURM Submit ScriptUser membuat SLURM Submit Script yaitu script bash yang berisikan alokasi kebutuhan komputasi (CPU, RAM, walltime, output, dll) dan alur jalannya program komputasi user.
$ vim <nama-SLURM-Job-script>.sh Contoh dengan nama "skripsi.sh": $ vim skripsi.sh Tutorial Membuat dan Aturan SLURM Submit Script di ALELEON SupercomputerHalaman berikut membahas cara membuat SLURM Submit Script beserta aturan untuk mengalokasikan kebutuhan komputasi di ALELEON Supercomputer: Contoh Template SLURM Submit ScriptHalaman berikut merangkum daftar software komputasi di ALELEON Supercomputer beserta info tutorial dan contoh template SLURM Submit Script-nya. |
3 |
Melakukan Job SubmissionSetelah menulis dan save script, jalankan job submission dengan perintah sbatch. $ sbatch <nama-SLURM-Job-script>.sh Contoh menjalankan script skripsi.sh diatas. Perhatikan bahwa user akan mendapatkan job ID. $ sbatch skripsi.sh Submitted batch job 231 |
4A | User dapat melihat status jalannya job dengan perintah squeue plus flag -ul $USER. Apabila tidak ada output artinya tidak ada job user yang berjalan / antri pada waktu itu.
$ squeue -ul $USER Apabila ingin melihat status semua job, jalankan perintah squeue -l. $ squeue -l Info squeue lebih lengkap lihat subbab Memonitor Jalannya Job dengan squeue. |
4B |
Membatalkan Job SubmissionApabila user ingin membatalkan job, gunakan perintah scancel berdasarkan job ID.
$ scancel <job-ID-submission-user> Contoh user membatalkan job submission milik user dengan ID 231. $ scancel 231 |
4 | Memonitor Jalannya Job dengan squeue
Sesuai panduan di atas, user dapat memantau status jalannya job submission dengan perintah squeue. Info esensial untuk user adalah STATE dan NODELIST(REASON).
- STATE (ST) -> memberikan kondisi jalannya program user.
- NODELIST(REASON)
- NODELIST memberikan nama Compute Node tempat program berjalan.
- REASON memberikan kode alasan saat program user belum / tidak berjalan (PENDING).
STATE | Kepanjangan | Penjelasan |
---|---|---|
R | RUN | Job berjalan |
PD | PENDING | Job tertahan, lihat keterangan NODELIST(REASON) |
CG | COMPLETING | Job selesai dan dalam proses clean-up SLURM |
CA | CANCELED | Job dibatalkan oleh user |
PR | PREEMPETED | Job dibatalkan oleh sys-admin Aleleon, alasan akan dikabarkan melalui email |
S | SUSPENDED | Job ditahan oleh sys-admin Aleleon |
NODELIST | Penjelasan |
---|---|
Resources
Priority |
Job menunggu tersedianya alokasi resources (CPU, RAM, GPU) yang dipesan oleh Submit script user |
AssocMaxWallDurationPerJobLimit | Job tidak dapat berjalan karena melewati batas walltime maksimum partisi.
|
QOSMaxCpuPerUserLimit | Job melewati batas alokasi QOS CPU user.
|
QOSMaxMemoryPerUserLimit | Job melewati batas alokasi QOS memori RAM user.
|
MaxCPUPerAccount | Job melewati batas alokasi QOS akumulasi CPU semua user di satu grup Akun Institusi.
|
MaxMemoryPerAccount | Job melewati batas alokasi QOS akumulasi memori RAM semua user di satu grup Akun Institusi.
|
User dapat lapor ke admin EFISON apabila menjumpai NODELIST yang tidak terdapat pada daftar diatas ketika job user tidak berjalan.
5 | Support dan Laporan Kendala Penggunaan
Apabila terdapat masalah teknis dalam menggunakan ALELEON Supercomputer, silahkan lapor dengan klik gambar berikut ini.