Menggunakan ALELEON Supercomputer via Terminal

Dari ALELEON by EFISON

Revisi sejak 19 Oktober 2023 09.59 oleh WilsonLisan (bicara | kontrib) (→‎Tutorial Umum: formatting)

Halaman ini menjelaskan tutorial menggunakan ALELEON Supercomputer via terminal.

Standar Kompetensi dan Persetujuan Prefix

Tutorial ini mengasumsikan user dapat mengoperasikan terminal Linux. Tutorial ini menggunakan simbol $ untuk menandakan perintah terminal, sedangkan tanda bracket <> menandakan parameter input yang ditulis oleh user:

$ command <input-yang-ditulis-user>

1 | Login SSH

Sebelum login, user harus terhubung ke VPN ALELEON Supercomputer.

  • SIlahkan gunakan software shell sesuai preferensi masing-masing user untuk login SSH.
Kredensial Login Node Utama
Username dan password Diberikan oleh admin ALELEON
Host untuk user Windows / MacOS aleleon.hpc
Host untuk user Linux 10.192.50.10
Nomor port 22 (default)
Contoh login via terminal:
  • User OS Windows & MacOS -> $ ssh <username>@aleleon.hpc
  • User OS Linux -> $ ssh <username>@10.192.50.10
Keterangan:
  • Dapat melakukan compiling dengan lib. NVIDIA CUDA 12

ALELEON Supercomputer mendukung SSH X11 untuk menampilkan window GUI:

Dari OS Metode
Windows EFISON merekomendasikan software MobaXTerm Home Edition
MacOS $ ssh -Y <username>@aleleon.hpc
Linux $ ssh -X <username>@10.192.50.10

Terdapat login node khusus dengan spesifikasi besar bagi user yang ingin melakukan compiling file skala besar (klik expand atau kembangkan):

Kredensial Login Node Besar
Username dan password Diberikan oleh admin ALELEON
Host untuk user Windows / MacOS aleleon3.hpc
Host untuk user Linux 10.192.50.13
Nomor port 22 (default)
Note khusus:
  • Mempunyai spesifikasi CPU 12 core dan RAM 128GB.
  • Dapat melakukan compiling dengan lib. NVIDIA CUDA 12

Apabila tidak dapat login ke Login Node Utama, gunakan Login Node Backup (klik expand atau kembangkan):

Kredensial Login Node Backup
Username dan password Diberikan oleh admin ALELEON
Host untuk user Windows / MacOS aleleon2.hpc
Host untuk user Linux 10.192.50.12
Nomor port 22 (default)
Note khusus:
  • Mempunyai spesifikasi terbatas (CPU AMD EPYC 4 core dan RAM 16GB).
  • Tidak mempunyai GPU.

2 | Selamat Datang di Login Node

Login SSH membawa user masuk ke Login Node. Pada Login Node, user dapat melakukan:

Keterangan:
  • Dimohon untuk tidak menjalankan komputasi selain compiling di semua jenis Login Node karena mempunyai spesifikasi terbatas dan akan mengganggu user lainnya.
  • Admin EFISON berhak memberikan peringatan kepada user atau menghentikan program user yang memakan semua resources Login Node dalam waktu lama.

3 | Menjalankan Komputasi ke Compute Node via SLURM

User menjalankan job komputasi melalui SLURM, program manajemen (scheduler) untuk menjalankan komputasi user pada Compute Node. Kegiatan ini disebut job submission.

Tutorial Spesifik per Software Komputasi

User dapat melihat tutorial menjalankan komputasi masing-masing software komputasi di laman Daftar Software Komputasi dan Tutorial Penggunaan:

Daftar Software Komputasi dan Tutorial Penggunaan

Tutorial Umum

Berikut menjabarkan tutorial umum menjalankan komputasi melalui SLURM.

Langkah Umum Menjalankan Komputasi via SLURM
1 Siapkan file yang dibutuhkan untuk menjalankan komputasi user.
2 Buat SLURM Submit Script yaitu 'formulir' untuk menjalankan job dengan panduan berikut:
  • Nama script dibebaskan dengan format file .sh (bash), contoh my_job_submission.sh
  • Buat script pada direktori yang sama dengan file komputasi yang akan dijalankan.
  • Info membuat SLURM Submit Script lihat laman Submit Script ALELEON Supercomputer
Contoh SLURM Submit Script
3 Jalankan job dengan perintah sbatch.
$ sbatch <nama-SLURM-Submit-script>

Contoh menjalankan nama script my_job_submission.sh.

$ sbatch my_job_submission.sh
4A User dapat melihat status jalannya job dengan perintah squeue berikut.
  • Apabila tidak ada output artinya tidak ada job user yang berjalan / antri pada waktu itu.
$ squeue -ul $USER

Berikut adalah daftar STATE (ST) dari squeue yang menunjukkan status berjalannya job:

Daftar STATE squeue SLURM
STATE Kepanjangan Penjelasan
R RUN Job berjalan
PD PENDING Job tertahan, lihat keterangan NODELIST(REASON)1
CG COMPLETING Job selesai dan dalam proses clean-up SLURM
CA CANCELED Job dibatalkan oleh user
PR PREEMPETED Job dibatalkan oleh admin EFISON, alasan dikabarkan melalui email
S SUSPENDED Job ditahan oleh admin EFISON
Keterangan:
  1. Kunjungi laman Daftar Reason NODELIST ALELEON Supercomputer.
4B Apabila user ingin membatalkan job yang sedang berjalan, gunakan perintah scancel berdasarkan job ID.
  • Job ID dapat dilihat melalui perintah squeue pada kolom JOBID.
  • User hanya bisa membatalkan job submission milik user sendiri.
$ scancel <job-ID-submission-user>

Contoh user membatalkan job submission milik user dengan ID 231.

$ scancel 231

Support dan Laporan Kendala Penggunaan

Apabila terdapat masalah teknis dalam menggunakan ALELEON Supercomputer, silahkan lapor dengan klik gambar berikut ini.

Wiki-pelaporankendala.jpg