Submit Script ALELEON Supercomputer

Dari ALELEON by EFISON

Revisi sejak 22 Maret 2021 04.47 oleh WilsonLisan (bicara | kontrib) (Initial page - pembuka dan alur penggunaan SLURM)
(beda) ← Revisi sebelumnya | Revisi terkini (beda) | Revisi selanjutnya → (beda)

SLURM adalah scheduler dengan tugas utama mengantarkan job komputasi yang dijalankan oleh user di Login Node ke Compute Node. Selain itu SLURM juga mengatur antrian job, menjaga supaya semua job yang berjalan di Compute Node tidak bentrok satu sama lain, serta mencatat penggunaan Core Hour user.

Alur Penggunaan SLURM untuk Job Submission

Pada contoh berikut, user akan menjalankan komputasi HPCG ke Compute Node dengan nama program 'xhpcg-3.1':

[ale01@login hpcg-tutorial]$ ls
hasil  hpcg.dat  xhpcg-3.1

User harus membuat SLURM submission script yang berisikan alokasi resources (CPU, GPU, RAM, waktu, dkk) dan alur jalannya program xhpcg-3.1. Langkah membuat SLURM submission script akan dijelaskan di bagian berikutnya. Pada contoh ini, user membuat SLURM submission script bernama 'slurm-hpcgnvidia'.

[ale01@login hpcg-tutorial]$ ls
hasil  hpcg.dat  slurm-hpcgnvidia  xhpcg-3.1

Jalankan SLURM submission script dengan perintah sbatch. Perhatikan bahwa SLURM menjalankan job user dengan nomor ID 231.

[ale01@login hpcg-tutorial]$ sbatch slurm-hpcgnvidia
Submitted batch job 231

User dapat melihat status jalannya job dengan perintah squeue. Perhatikan bahwa job ID 231 sedang berjalan.

[ale01@login hpcg-tutorial]$ squeue -l
Mon Mar 22 10:43:22 2021
             JOBID PARTITION     NAME     USER    STATE       TIME TIME_LIMI  NODES NODELIST(REASON)
               230      epyc  HPLBLIS    ale02  RUNNING       9:42  20:00:00      1 epyc01
               229      epyc  HPLBLIS    ale02  RUNNING      10:46  20:00:00      1 epyc02
               231 gpu_amper slurm-hp    ale01  RUNNING       2:00   1:00:00      1 gpu1

Tunggu hingga job selesai. User dapat mengatur konfigurasi file output di SLURM submission script.

[ale01@login hpcg-tutorial]$ ls
hasil                                       hpcg.dat                          result-231.err  slurm-hpcgnvidia
HPCG-Benchmark_3.1_2021-03-22_10-43-30.txt  hpcg_log_2021.03.22.10.41.25.txt  result-231.out  xhpcg-3.1