Submit Script ALELEON Supercomputer
SLURM adalah scheduler dengan tugas utama mengantarkan job komputasi yang dijalankan oleh user di Login Node ke Compute Node. Selain itu SLURM juga mengatur antrian job, menjaga supaya semua job yang berjalan di Compute Node tidak bentrok satu sama lain, serta mencatat penggunaan Core Hour user.
Alur Penggunaan SLURM untuk Job Submission
Pada contoh berikut, user akan menjalankan komputasi HPCG ke Compute Node dengan nama program 'xhpcg-3.1':
[ale01@login hpcg-tutorial]$ ls hasil hpcg.dat xhpcg-3.1
User harus membuat SLURM submission script yang berisikan alokasi resources (CPU, GPU, RAM, waktu, dkk) dan alur jalannya program xhpcg-3.1. Langkah membuat SLURM submission script akan dijelaskan di bagian berikutnya. Pada contoh ini, user membuat SLURM submission script bernama 'slurm-hpcgnvidia'.
[ale01@login hpcg-tutorial]$ ls hasil hpcg.dat slurm-hpcgnvidia xhpcg-3.1
Jalankan SLURM submission script dengan perintah sbatch. Perhatikan bahwa SLURM menjalankan job user dengan nomor ID 231.
[ale01@login hpcg-tutorial]$ sbatch slurm-hpcgnvidia Submitted batch job 231
User dapat melihat status jalannya job dengan perintah squeue. Perhatikan bahwa job ID 231 sedang berjalan.
[ale01@login hpcg-tutorial]$ squeue -l Mon Mar 22 10:43:22 2021 JOBID PARTITION NAME USER STATE TIME TIME_LIMI NODES NODELIST(REASON) 230 epyc HPLBLIS ale02 RUNNING 9:42 20:00:00 1 epyc01 229 epyc HPLBLIS ale02 RUNNING 10:46 20:00:00 1 epyc02 231 gpu_amper slurm-hp ale01 RUNNING 2:00 1:00:00 1 gpu1
Tunggu hingga job selesai. User dapat mengatur konfigurasi file output di SLURM submission script.
[ale01@login hpcg-tutorial]$ ls hasil hpcg.dat result-231.err slurm-hpcgnvidia HPCG-Benchmark_3.1_2021-03-22_10-43-30.txt hpcg_log_2021.03.22.10.41.25.txt result-231.out xhpcg-3.1