COMCOT: Perbedaan antara revisi

Dari ALELEON by EFISON
 
(17 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 27: Baris 27:


== '''Menjalankan COMCOT''' ==
== '''Menjalankan COMCOT''' ==
User dapat menjalankan COMCOT dengan pilihan cara menjalankan komputasi:
User dapat menjalankan komputasi dengan pilihan cara melalui terminal atau website EFIRO ''(klik expand atau kembangkan)''.


=== Terminal - SLURM sbatch ===
=== Opsi Menggunakan terminal (SLURM sbatch) ===
Menjalankan komputasi pada terminal melalui job submission SLURM sbatch. Tutorial ini mengasumsikan user dapat menggunakan terminal Linux.
{| class="wikitable mw-collapsible mw-collapsed"
{| class="wikitable mw-collapsible mw-collapsed"
! colspan="2" |Langkah Menjalankan COMCOT via SLURM sbatch
! colspan="2" |Langkah Menjalankan COMCOT di Terminal
[[Berkas:Sbatch Terminal.png|nirbing|500x500px]]
|-
|-
|'''0'''
|'''0'''
|Sebelum login, [[Koneksi VPN ALELEON Supercomputer|'''user harus terhubung ke jaringan VPN ALELEON Supercomputer''']]. Apabila sudah terhubung, user login dengan SSH: 
|
Lakukan [https://wiki.efisonlt.com/wiki/Menggunakan_ALELEON_Supercomputer_via_Terminal#1_|_Login_SSH '''login SSH ke ALELEON Supercomputer'''].
|-
|'''1'''
|
Siapkan file yang dibutuhkan untuk komputasi user
*User dapat upload / download file dengan [[Upload File dengan Aplikasi FTP|'''software FTP''']].
|-
| rowspan="2" |'''2'''
|
Buat '''Slurm Submit Script''' yaitu "formulir" untuk menjalankan komputasi.


* User OS Windows dan MacOS -> <code>'''$ ssh <''username''>@aleleon.hpc'''</code>
* Format file .sh (bash), nama bebas. Contoh: <code>my_job_submission.sh</code>
* User OS Linux -> <code>'''$ ssh <''username''>@10.192.50.10'''</code>
* Berikut contoh template untuk COMCOT, ikuti petunjuk NOTES di dalamnya:
 
{| class="wikitable mw-collapsible mw-collapsed"
!Template Submit Script untuk COMCOT
|-
|-
|'''1'''
|<syntaxhighlight lang="bash" line="1">
|Siapkan file yang dibutuhkan untuk menjalankan komputasi user.
#!/bin/bash
 
# -----------------------------------------------------
# Template SLURM Submit Script
# COMCOT | rev.080124
#
# NOTES:
# 1. Isi bagian yang ditandai 4 garing (////).
# 2. Template ini bersifat referensi.
#    User dapat mengubah bagian yang perlu diubah.
# -----------------------------------------------------
 
# -----------------------------------------------------
# Alokasi komputasi SBATCH, input, dan module
# -----------------------------------------------------
 
# Alokasi jumlah core thread CPU
#SBATCH --ntasks=////
 
# Alokasi jumlah memori RAM (satuan GB)
#SBATCH --mem=////GB
 
# Alokasi limit waktu menjalankan job
# Format HH:MM:SS atau D-HH:MM:SS
#SBATCH --time=////
 
# Definisi file untuk menampung output terminal program
#SBATCH --output=result-%j.txt
 
# Definisi file untuk menampung output error log   
#SBATCH --error=error-%j.txt
 
# Memuat modul software COMCOT
# Daftar modul lihat subbab "Modul COMCOT" di atas
module load comcot////
 
# ----------------------------------------------------
# Script jalannya program
# ----------------------------------------------------
 
# Perintah menjakankan COMCOT
comcot
</syntaxhighlight>
|}
|-
|


* [[Upload File dengan Aplikasi FTP|'''User dapat melakukan upload / download file dengan bantuan aplikasi FTP''']] seperti FileZilla, WinSCP, dan lainnya.
{| class="wikitable mw-collapsible mw-collapsed"
* Untuk kerapian data, disarankan untuk menaruh satu job pada satu folder tersendiri.
! colspan="5" |Panduan Nilai Maksimal SBATCH ntasks, mem, gpus, time
|-
|-
|'''2'''
!Skenario Komputasi
|Buat '''SLURM Submit Script''' yaitu semacam formulir untuk menjalankan job dengan panduan berikut:  
!ntasks
(CPU)
!mem
(RAM)
!gpus
(GPU)
!time
(time limit)
|-
|Fair policy usage<sup>''1''</sup>
|128
|128GB
|2
| rowspan="3" |3-00:00:00
atau


* Nama script dibebaskan, contoh <code>'''slurmcomcot.sh'''</code>
72:00:00
* Ikuti petunjuk pada NOTES.
{| class="wikitable"
|+Panduan singkat mengisi SBATCH. Info detail lihat laman [[Submit Script ALELEON Supercomputer]]
!Parameter
!Nilai maksimal
fair policy usage<sup>''1''</sup>
!Nilai maksimal
untuk COMCOT
|-
|-
|ntasks
| COMCOT
|128
|128
| 240GB
|0
|-
|COMCOT di high-mem node, tambahkan:
<code>#SBATCH --nodelist=epyc001</code>
|128
|128
|500GB
|0
|-
|-
|mem
| colspan="5" |'''''Keterangan:'''''
|128GB
#Limitasi untuk menjaga kualitas layanan ALELEON Supercomputer.
|500GB<sup>''2''</sup>
#*Berlaku untuk akumulasi semua job user yang berjalan.
#*Dapat mengajukan permintaan buka limitasi apabila butuh alokasi lebih.
#*Info detail buka laman [[Limitasi Fair Usage ALELEON Supercomputer|'''Limitasi Fair Usage ALELEON Supercomputer''']].
|-
! colspan="5" |Keterangan tambahan
|-
|-
|time
| colspan="5" |
| colspan="2" |3-00:00:00 atau 72:00:00
* '''Untuk akun perseorangan dengan Kredit Core Hour:'''
**SLURM akan menahan job apabila:
***ntasks * time (jam) lebih besar dari sisa CPU Core Hour user.
***gpus * time (jam) lebih besar dari sisa GPU Hour user.
**Cek sisa Kredit Core Hour melalui perintah '''<code>sausage</code>'''
 
*Info SBATCH lebih detail lihat laman [[Submit Script ALELEON Supercomputer|'''Submit Script ALELEON Supercomputer''']]
|}
|}
Note:
# Info limitasi fair policy usage lihat laman [[Limitasi Fair Usage ALELEON Supercomputer|'''Limitasi Fair Usage ALELEON Supercomputer''']]
# User dapat menggunakan memori RAM hingga 500GB pada node epyc001. Tambahkan parameter <code>'''#SBATCH --nodelist=epyc001'''</code>
#!/bin/bash
# ------------------------------------------------------------------------
# | Template SLURM Submit Script
# | Software        : COMCOT (CPU)
# | Versi          : 1.7
# | Update script  : 06/10/2023
# |
# | NOTES:
# | 1. Isi bagian yang ditandai 4 garing (////).
# | 2. Template ini adalah referensi - user dapat mengubah bagian yang
# |    sekiranya perlu diubah.
# |
# | 3. Panduan mengisi alokasi komputasi (SBATCH) lihat:
# |    <nowiki>https://wiki.efisonlt.com/wiki/Submit_Script_ALELEON_Supercomputer</nowiki>
# ------------------------------------------------------------------------
# --------------------------------------------------
# Alokasi komputasi, modul software, dan file input
# --------------------------------------------------
# Alokasi jumlah core thread CPU
#SBATCH --ntasks=////
# Alokasi jumlah memori RAM (satuan GB)
#SBATCH --mem=////GB
# Alokasi limit waktu menjalankan job. Format HH:MM:SS atau D-HH:MM:SS
#SBATCH --time=////
# Definisi file untuk menampung output terminal
#SBATCH --output=result-%j.txt
# Definisi file untuk menampung output error log   
#SBATCH --error=error-%j.txt
# Memuat modul COMCOT CPU versi 1.7
module load comcot/1.7cpu
# -------------------------------------------------
# RUN SCRIPT
# -------------------------------------------------
# Perintah menjakankan COMCOT
comcot
|-
|-
|'''3'''
|'''3'''
|Jalankan job dengan perintah sbatch.
|
Jalankan job dengan perintah sbatch:
  $ '''sbatch''' '''''<nama-SLURM-Submit-script>'''''
  $ '''sbatch''' '''''<nama-SLURM-Submit-script>'''''
Contoh menjalankan nama script <code>slurmcomcot.sh</code>.
Contoh menjalankan script <code>my_job_submission.sh</code>
  $ sbatch slurmcomcot.sh
  $ sbatch ''my_job_submission.sh''
 
|-
|-
|'''4A'''
|'''4A'''
|User dapat melihat status jalannya job dengan perintah squeue dengan flag -ul $USER.  
|User dapat melihat status jalannya job dengan perintah squeue:
$ '''squeue -ul $USER'''
*Apabila tidak ada output artinya tidak ada job user yang sedang berjalan / antri.


* Apabila tidak ada output artinya tidak ada job user yang berjalan / antri pada waktu itu.
* Berikut adalah daftar STATE (ST) yang menunjukkan status jalannya job:


$ '''squeue -ul $USER'''
Berikut adalah daftar STATE atau ST dari squeue yang menunjukkan status berjalannya job:
{| class="wikitable"
{| class="wikitable"
|+Daftar STATE squeue SLURM
|+Daftar STATE squeue Slurm
!STATE
! colspan="2" |STATE  
!Kepanjangan
!Penjelasan
!Penjelasan
|-
|-
|R
| R  
|RUN
|RUN
|Job berjalan
|Job berjalan
|-
|-
|PD
|PD  
|PENDING
|PENDING
|Job tertahan, lihat keterangan NODELIST(REASON)
|Job tertahan, lihat keterangan [[Daftar Reason NODELIST ALELEON Supercomputer|'''NODELIST(REASON)''']]
|-
|-
|CG
|CG  
|COMPLETING
|COMPLETING
|Job selesai dan dalam proses clean-up SLURM
|Job selesai dan dalam proses clean-up
|-
|-
|CA
|CA  
|CANCELED
|CANCELED
|Job dibatalkan oleh user
|Job dibatalkan oleh user
|-
|-
|PR
|PR  
|PREEMPETED
|PREEMPETED
|Job dibatalkan oleh sys-admin Aleleon, alasan dikabarkan melalui email
|Job dibatalkan oleh admin EFISON.
 
* alasan dikabarkan melalui email ke user.
|-
|-
|S
|S  
|SUSPENDED
|SUSPENDED
|Job ditahan oleh sys-admin Aleleon
|Job ditahan oleh admin EFISON
|}
|}
|-
|-
|'''4B'''
|'''4B'''
|Apabila user ingin membatalkan job, gunakan perintah scancel berdasarkan job ID.
|
 
Apabila user ingin membatalkan job, gunakan perintah scancel:
* Job ID dapat dilihat melalui perintah squeue pada kolom JOBID.
* User hanya bisa membatalkan job submission milik user sendiri.
 
  $ '''scancel <''job-ID-submission-user''>'''
  $ '''scancel <''job-ID-submission-user''>'''
Contoh user membatalkan job submission milik user dengan ID 231.
*Job ID dapat dilihat melalui perintah squeue pada kolom JOBID.
  $ scancel 231
*User hanya bisa memb231atalkan job submission milik user sendiri.
*Contoh user membatalkan job submission ID 231:
  $ scancel ''231''
|}
|}
 
=== Opsi Menggunakan Web EFIRO (EFIRO Job Composer) ===
=== GUI Web - EFIRO Job Composer ===
Menjalankan komputasi dengan tampilan grafis pada formulir job submission EFIRO Job Composer.
{| class="wikitable mw-collapsible mw-collapsed"
{| class="wikitable mw-collapsible mw-collapsed"
! colspan="2" |Langkah Menjalankan COMCOT via EFIRO Job Composer
! colspan="2" |Langkah Menjalankan COMCOT di Web EFIRO
[[Berkas:Efirojobcomposer3.png|nirbing|500x500px]]
|-
|-
|'''0'''
|'''0'''
|Sebelum login, [[Koneksi VPN ALELEON Supercomputer|'''user harus terhubung ke jaringan VPN ALELEON Supercomputer''']]. Apabila sudah terhubung:
|
 
=====Login Web EFIRO=====
* Buka alamat web '''<code><nowiki>http://aleleon.ood</nowiki></code>''' kemudian masukkan username dan password user.
*[[Koneksi VPN ALELEON Supercomputer|'''User harus terhubung ke jaringan VPN ALELEON Supercomputer''']].
** Bagi user Linux, buka alamat <code>'''<nowiki>http://10.192.50.11</nowiki>'''</code>
*Buka alamat web '''<code><nowiki>http://aleleon.ood</nowiki></code>''' lalu masukkan username dan password user.
**Bagi user Linux, buka alamat <code>'''<nowiki>http://10.192.50.11</nowiki>'''</code>
|-
|-
|'''1'''
|'''1'''
|Buka menu dashboard EFIRO '''<code>Jobs</code> > <code>Jobs Composer</code>'''
|
[[Berkas:Efirojobcomposermenu.png|nirbing|300x300px|al=]]
==== Membuka Job Composer dan Memilih Template Job ====
 
* Buka menu '''<code>Jobs</code>''' > '''<code>Jobs Composer</code>''' pada dashboard EFIRO.
*Pilih '''<code>New Job</code>''' > '''<code>From Template</code>'''
[[Berkas:Efirojobcomposermenu.png|nir|jmpl|''Menu '''<code>Jobs</code> > <code>Jobs Composer</code>''''']][[Berkas:Jcnewjobmarked.png|al=|nir|jmpl|220x220px|''Menu '''<code>New Jobs</code>''' > '''<code>From Template</code>''''']]
|-
|-
|'''2'''
|'''2'''
|Pilih '''<code>New Jobs</code> > <code>From Template</code>'''
|[[Berkas:Jcselecttemplate3.png|nirbing|600x600px]]
[[Berkas:Jcnewjobmarked.png|al=|nirbing|180x180px]]
*PIlih template COMCOT yang diinginkan.
*Isi atau ganti kolom '''<code>Job Name</code>''' sesuai keinginan user.
*Apabila sudah selesai, klik '''<code>Create New Job</code>'''.
{| class="wikitable"
! colspan="2" |Template COMCOT yang tersedia
|-
|-
|'''3'''
|[[Berkas:Jcselecttemplate3.png|al=|nir|jmpl|Pilih template COMCOT yang dibutuhkan. Isi atau ganti <code>'''Job Name'''</code> sesuai keinginan user, kemudian klik <code>'''Create New Job'''</code>.]]
{| class="wikitable"
|+Template COMCOT
!Nama Template
!Nama Template
!Penjelasan
!Penjelasan
Baris 205: Baris 242:
|}
|}
|-
|-
|'''4'''
|'''3'''
|
|
=====Menyiapkan File Komputasi=====
[[Berkas:Jcjoboption3.png|nirbing|600x600px]]
[[Berkas:Jcjoboption3.png|nirbing|600x600px]]
*Gunakan menu '''<code>Edit Files</code>''' untuk upload file yang dibutuhkan'''.'''
 
**Laman Edit Files juga dapat melakukan view / download / edit / rename / delete file.
Gunakan menu <code>'''Edit Files'''</code> untuk upload file komputasi yang dibutuhkan.
**''Fitur upload pada laman Edit Files '''mempunyai batasan ukuran upload 2GB per file'''. Gunakan [[Upload File dengan Aplikasi FTP|'''aplikasi FTP''']] apabila user hendak mengupload file tunggal diatas 2GB.''
*Laman Edit Files juga dapat melakukan download / edit / rename / delete file.
*Fitur upload pada Edit Files mempunyai limit kapasitas '''2GB per file'''.
** Gunakan [[Upload File dengan Aplikasi FTP|'''aplikasi FTP''']] untuk upload file tunggal diatas 2GB.
|-
| rowspan="2" |'''4'''
|
===== Melengkapi Submit Script=====
Submit Script adalah "formulir" untuk menjalankan job komputasi user.
*Lengkapi Submit Script melalui menu '''<code>Open Editor</code>'''.
*Ikuti petunjuk NOTES di dalamnya.
*Jangan lupa klik <code>'''Save'''</code> setiap sekali mengubah script.
[[Berkas:Jceditor3.png|al=|nirbing|500x500px]]
|-
|-
|'''5'''
|
|
[[Berkas:Jceditor3.png|al=|nirbing|300x300px]]
=====Panduan Nilai Maksimal SBATCH=====
{| class="wikitable mw-collapsible mw-collapsed"
! colspan="5" |Panduan Nilai Maksimal SBATCH ntasks, mem, gpus, time
|-
!Skenario Komputasi
!ntasks
(CPU)
!mem
(RAM)
!gpus
(GPU)
!time
(time limit)
|-
|Fair policy usage untuk akumulasi semua job<sup>''1''</sup>
|128
|128GB
|2
| rowspan="3" |3-00:00:00
atau


Melalui '''<code>Open Editor</code>''', lengkapi Submit Script dengan mengganti bagian yang di tandai 4 garis miring (////).
72:00:00
*'''''Jangan lupa klik <code>Save</code> setiap sekali mengubah script.'''''
{| class="wikitable"
|+Panduan singkat mengisi SBATCH. Info detail lihat laman [[Submit Script ALELEON Supercomputer]]
!Parameter
!Nilai maksimal fair policy usage<sup>''1''</sup>
!Nilai maksimal untuk COMCOT
|-
|-
|ntasks
|COMCOT
|128
|128
|240GB
|0
|-
|COMCOT di high-mem node
*Tambahkan <code>#SBATCH --nodelist=epyc001</code>
|128
|128
| 500GB
|0
|-
|-
|mem
| colspan="5" |'''''Keterangan:'''''
|128GB
#Limitasi untuk menjaga kualitas layanan ALELEON Supercomputer.
|500GB<sup>''2''</sup>
#*User dapat mengajukan permintaan buka limitasi apabila butuh alokasi lebih.
#*Info detail buka laman [[Limitasi Fair Usage ALELEON Supercomputer|'''Limitasi Fair Usage ALELEON Supercomputer''']].
|-
|-
|time
! colspan="5" |Keterangan tambahan
| colspan="2" |3-00:00:00 atau 72:00:00
|-
|-
| colspan="3" |Note:
| colspan="5" |
 
*'''Untuk akun perseorangan dengan Kredit Core Hour:'''
# Info limitasi fair policy usage lihat laman [[Limitasi Fair Usage ALELEON Supercomputer|'''Limitasi Fair Usage ALELEON Supercomputer''']]
**SLURM akan menahan job apabila:
# User dapat menggunakan memori RAM hingga 500GB pada node epyc001. Tambahkan parameter <code>'''#SBATCH --nodelist=epyc001'''</code>
***ntasks * time (jam) lebih besar dari sisa CPU Core Hour user.
***gpus * time (jam) lebih besar dari sisa GPU Hour user.
**Cek sisa Kredit Core Hour melalui menu '''<code>Open Terminal</code>''' dan jalankan perintah:
$ '''sausage'''
[[Berkas:Jcjoboption4.png|nirbing|600x600px]]
*Info SBATCH lebih detail lihat laman [[Submit Script ALELEON Supercomputer|'''Submit Script ALELEON Supercomputer''']]
|}
|}
|-
|-
|'''6A'''
|'''5'''
|
|
=====Menjalankan Job Komputasi=====
Jalankan job dengan klik tombol '''<code>Submit</code>'''.
Jalankan job dengan klik tombol '''<code>Submit</code>'''.


[[Berkas:Jcsubmit2.png|al=|nirbing|600x600px]]
[[Berkas:Jcsubmit2.png|al=|nirbing|600x600px]]
Berikut penjelasan kolom '''<code>Status</code>,''' pantau dengan refresh halaman job''':'''
{| class="wikitable"
{| class="wikitable"
|+''Penjelasan kolom '''<code>Status</code>,''' pantau dengan refresh halaman job''
!Status
!Status
!Arti
!Arti
|-
|-
| Not Submitted
|Not Submitted
|Job belum pernah dijalankan.
|Job belum pernah dijalankan.
|-
|-
Baris 260: Baris 333:
|Queue
|Queue
|Job mengantri dan belum berjalan.
|Job mengantri dan belum berjalan.
{| class="wikitable mw-collapsible mw-collapsed"
!Langkah melihat status job ketika queue
|-
|Buka <code>'''Jobs > Active Jobs'''</code> pada dashboard EFIRO.
*Lakukan langkah sesuai gambar dibawah ini
[[Berkas:Efiroqueueedit.png|al=|jmpl|''Halaman Active Jobs. Ubah opsi '''<code>Your jobs</code>''' untuk melihat status job user saja. Klik simbol '''>''' untuk melihat status  job pending pada kolom '''Reason'''. Arti reason lihat laman '''[[Daftar Reason NODELIST ALELEON Supercomputer]].'''''|kiri]]
|}
|-
|-
|Completed
|Completed
Baris 265: Baris 345:
|-
|-
|Failed
|Failed
|Job berhenti di tengah jalan,
|Job berhenti di tengah jalan, bisa karena di Stop atau Delete oleh user.
Bisa karena di Stop atau Delete oleh user.
|}
|}
|-
=====Menghentikan Job Komputasi=====
|'''6B'''
Untuk menghentikan job yang tengah berjalan, klik tombol '''<code>Stop</code>'''.
|
Untuk menghentikan job yang tengah berjalan, klik tombol '''Stop'''.


[[Berkas:Stop.png|nirbing|600x600px]]
[[Berkas:Stop.png|nirbing|600x600px]]
|-
|-
|'''7A'''
|'''6A'''
|
|
Hasil output job dapat dilihat pada kolom '''<code>Folder Contents</code>''' atau membuka halaman '''<code>Edit Pages</code>.'''[[Berkas:Jcfoldercontentsedit.png|al=|nir|jmpl|User dapat melihat semua file output yang keluar di kolom '''<code>Folder Contents</code>'''.]][[Berkas:Jcjoboption3.png|nir|jmpl|atau dengan membuka menu '''<code>Edit Files</code>'''.]]
=====Melihat Output Komputasi=====
User dapat melihat output file komputasi pada kolom '''<code>Folder Contents</code>'''
*Atau dengan membuka '''<code>Edit Files</code>'''
[[Berkas:Jcfoldercontentsedit.png|al=|nir|jmpl|''Kolom '''<code>Folder Contents</code>'''.'']]
|-
|-
|'''7B'''
|'''6B'''
|
|User dapat '''menjalankan ulang ruang job yang sama''' dengan mengklik kembali tombol '''<code>Submit</code>'''.
User dapat '''menjalankan ulang ruang job yang sama''' (misalkan ketika ada koreksi file input atau Submit Script) dengan '''mengklik kembali tombol <code>Submit</code>'''.
|}
|}
== '''Notifikasi Status Jalannya Komputasi via email''' ==
SLURM ALELEON Supercomputer dapat mengirim notifikasi email kepada user dengan nama "Jojo" untuk mengabarkan status berjalannya job komputasi user. Silahkan tambahan SBATCH berikut pada Submit Script apabila user ingin menerima notifikasi email dari SLURM:<syntaxhighlight lang="bash">
#SBATCH --mail-user=<alamat-email-user>
#SBATCH --mail-type=BEGIN,END,FAIL
</syntaxhighlight>SBATCH mail-type mengatur konten email notifikasi SLURM dengan pilihan opsi yang sekiranya berguna untuk user:
*BEGIN -> notifikasi job sudah mulai
*END -> notifikasi job sudah selesai beserta cuplikan 20 baris terakhir dari file SBATCH output dan error.
*FAIL -> notifikasi apabila job gagal berjalan atau berhenti tidak sewajarnya.
*TIME_LIMIT_50 -> job telah berjalan dengan durasi waktu 50% time limit.
*TIME_LIMIT_80 -> job telah berjalan dengan durasi waktu 80% time limit.
== '''Pelaporan Kendala dan Support''' ==
Apabila menjumpai masalah teknis dalam menjalankan komputasi, silahkan lapor dengan klik gambar berikut ini.


== '''Notifikasi Status Jalannya Job Submission via email''' ==
[[Berkas:Wiki-pelaporankendala.jpg|1000x1000px|link=https://efisonlt.com/aleleonbugreport]]
SLURM ALELEON Supercomputer dapat mengirim notifikasi email kepada user '''untuk mengabarkan apabila job user sudah berjalan atau selesai'''. SLURM ALELEON Supercomputer menggunakan nama email '''Jojo''' untuk mengirim notifikasi email.


Silahkan tambahan SBATCH berikut pada SLURM Submit Script (dapat ditambahkan setelah SBATCH error) apabila user ingin menerima notifikasi email dari SLURM:
---
#SBATCH --mail-user='''<''alamat-email-user''>'''
#SBATCH --mail-type=begin
#SBATCH --mail-type=end


* '''mail-user'''
Bila terdapat pertanyaan lainnya, silahkan hubungi admin EFISON melalui email:
** Alamat email user untuk menerima notifikasi SLURM
'''support@efisonlt.com'''
* '''mail-type=begin'''
** Notifikasi email yang menginfokan job sudah berjalan.
* '''mail-type=end'''
** Notifikasi email yang menginfokan job sudah selesai.
** Sekaligus memberikan cuplikan 20 baris terakhir dari file output SBATCH output dan error job user.

Revisi terkini sejak 23 Februari 2024 09.54

COMCOT (Cornell Multi-grid Coupled Tsunami Grid) adalah software pemodelan tsunami yang menggunakan metode Shallow Water Equations.

Modul COMCOT

Berikut adalah detail versi COMCOT yang tersedia secara global di ALELEON Supercomputer:

Versi Nama modul Modul

DEFAULT

Dukungan hardware
CPU GPU OMP

Threading

MPI

multi-node

1.7 comcot/1.7cpu V V - - -

Menjalankan COMCOT

User dapat menjalankan komputasi dengan pilihan cara melalui terminal atau website EFIRO (klik expand atau kembangkan).

Opsi Menggunakan terminal (SLURM sbatch)

Langkah Menjalankan COMCOT di Terminal

Sbatch Terminal.png

0

Lakukan login SSH ke ALELEON Supercomputer.

1

Siapkan file yang dibutuhkan untuk komputasi user

2

Buat Slurm Submit Script yaitu "formulir" untuk menjalankan komputasi.

  • Format file .sh (bash), nama bebas. Contoh: my_job_submission.sh
  • Berikut contoh template untuk COMCOT, ikuti petunjuk NOTES di dalamnya:
Template Submit Script untuk COMCOT
#!/bin/bash

# -----------------------------------------------------
# Template SLURM Submit Script
# COMCOT | rev.080124
# 
# NOTES: 
# 1. Isi bagian yang ditandai 4 garing (////).
# 2. Template ini bersifat referensi.
#    User dapat mengubah bagian yang perlu diubah.
# -----------------------------------------------------

# -----------------------------------------------------
# Alokasi komputasi SBATCH, input, dan module
# -----------------------------------------------------

# Alokasi jumlah core thread CPU
#SBATCH --ntasks=////

# Alokasi jumlah memori RAM (satuan GB)
#SBATCH --mem=////GB

# Alokasi limit waktu menjalankan job
# Format HH:MM:SS atau D-HH:MM:SS
#SBATCH --time=////

# Definisi file untuk menampung output terminal program
#SBATCH --output=result-%j.txt

# Definisi file untuk menampung output error log    
#SBATCH --error=error-%j.txt 

# Memuat modul software COMCOT
# Daftar modul lihat subbab "Modul COMCOT" di atas 
module load comcot////

# ----------------------------------------------------
# Script jalannya program
# ----------------------------------------------------

# Perintah menjakankan COMCOT
comcot
Panduan Nilai Maksimal SBATCH ntasks, mem, gpus, time
Skenario Komputasi ntasks

(CPU)

mem

(RAM)

gpus

(GPU)

time

(time limit)

Fair policy usage1 128 128GB 2 3-00:00:00

atau

72:00:00

COMCOT 128 240GB 0
COMCOT di high-mem node, tambahkan:

#SBATCH --nodelist=epyc001

128 500GB 0
Keterangan:
  1. Limitasi untuk menjaga kualitas layanan ALELEON Supercomputer.
Keterangan tambahan
  • Untuk akun perseorangan dengan Kredit Core Hour:
    • SLURM akan menahan job apabila:
      • ntasks * time (jam) lebih besar dari sisa CPU Core Hour user.
      • gpus * time (jam) lebih besar dari sisa GPU Hour user.
    • Cek sisa Kredit Core Hour melalui perintah sausage
3

Jalankan job dengan perintah sbatch:

$ sbatch <nama-SLURM-Submit-script>

Contoh menjalankan script my_job_submission.sh

$ sbatch my_job_submission.sh
4A User dapat melihat status jalannya job dengan perintah squeue:
$ squeue -ul $USER
  • Apabila tidak ada output artinya tidak ada job user yang sedang berjalan / antri.
  • Berikut adalah daftar STATE (ST) yang menunjukkan status jalannya job:
Daftar STATE squeue Slurm
STATE Penjelasan
R RUN Job berjalan
PD PENDING Job tertahan, lihat keterangan NODELIST(REASON)
CG COMPLETING Job selesai dan dalam proses clean-up
CA CANCELED Job dibatalkan oleh user
PR PREEMPETED Job dibatalkan oleh admin EFISON.
  • alasan dikabarkan melalui email ke user.
S SUSPENDED Job ditahan oleh admin EFISON
4B

Apabila user ingin membatalkan job, gunakan perintah scancel:

$ scancel <job-ID-submission-user>
  • Job ID dapat dilihat melalui perintah squeue pada kolom JOBID.
  • User hanya bisa memb231atalkan job submission milik user sendiri.
  • Contoh user membatalkan job submission ID 231:
$ scancel 231

Opsi Menggunakan Web EFIRO (EFIRO Job Composer)

Langkah Menjalankan COMCOT di Web EFIRO

Efirojobcomposer3.png

0
Login Web EFIRO
1

Membuka Job Composer dan Memilih Template Job

  • Buka menu Jobs > Jobs Composer pada dashboard EFIRO.
  • Pilih New Job > From Template
Menu Jobs > Jobs Composer
Menu New Jobs > From Template
2 Jcselecttemplate3.png
  • PIlih template COMCOT yang diinginkan.
  • Isi atau ganti kolom Job Name sesuai keinginan user.
  • Apabila sudah selesai, klik Create New Job.
Template COMCOT yang tersedia
Nama Template Penjelasan
COMCOT 1.7 (CPU) Menjalankan COMCOT 1.7 versi CPU
3
Menyiapkan File Komputasi

Jcjoboption3.png

Gunakan menu Edit Files untuk upload file komputasi yang dibutuhkan.

  • Laman Edit Files juga dapat melakukan download / edit / rename / delete file.
  • Fitur upload pada Edit Files mempunyai limit kapasitas 2GB per file.
4
Melengkapi Submit Script

Submit Script adalah "formulir" untuk menjalankan job komputasi user.

  • Lengkapi Submit Script melalui menu Open Editor.
  • Ikuti petunjuk NOTES di dalamnya.
  • Jangan lupa klik Save setiap sekali mengubah script.

Panduan Nilai Maksimal SBATCH
Panduan Nilai Maksimal SBATCH ntasks, mem, gpus, time
Skenario Komputasi ntasks

(CPU)

mem

(RAM)

gpus

(GPU)

time

(time limit)

Fair policy usage untuk akumulasi semua job1 128 128GB 2 3-00:00:00

atau

72:00:00

COMCOT 128 240GB 0
COMCOT di high-mem node
  • Tambahkan #SBATCH --nodelist=epyc001
128 500GB 0
Keterangan:
  1. Limitasi untuk menjaga kualitas layanan ALELEON Supercomputer.
Keterangan tambahan
  • Untuk akun perseorangan dengan Kredit Core Hour:
    • SLURM akan menahan job apabila:
      • ntasks * time (jam) lebih besar dari sisa CPU Core Hour user.
      • gpus * time (jam) lebih besar dari sisa GPU Hour user.
    • Cek sisa Kredit Core Hour melalui menu Open Terminal dan jalankan perintah:
$ sausage

Jcjoboption4.png

5
Menjalankan Job Komputasi

Jalankan job dengan klik tombol Submit.

Penjelasan kolom Status, pantau dengan refresh halaman job
Status Arti
Not Submitted Job belum pernah dijalankan.
Running Job berjalan.
Queue Job mengantri dan belum berjalan.
Langkah melihat status job ketika queue
Buka Jobs > Active Jobs pada dashboard EFIRO.
  • Lakukan langkah sesuai gambar dibawah ini
Halaman Active Jobs. Ubah opsi Your jobs untuk melihat status job user saja. Klik simbol > untuk melihat status job pending pada kolom Reason. Arti reason lihat laman Daftar Reason NODELIST ALELEON Supercomputer.
Completed Job selesai berjalan.
Failed Job berhenti di tengah jalan, bisa karena di Stop atau Delete oleh user.
Menghentikan Job Komputasi

Untuk menghentikan job yang tengah berjalan, klik tombol Stop.

Stop.png

6A
Melihat Output Komputasi

User dapat melihat output file komputasi pada kolom Folder Contents

  • Atau dengan membuka Edit Files
Kolom Folder Contents.
6B User dapat menjalankan ulang ruang job yang sama dengan mengklik kembali tombol Submit.

Notifikasi Status Jalannya Komputasi via email

SLURM ALELEON Supercomputer dapat mengirim notifikasi email kepada user dengan nama "Jojo" untuk mengabarkan status berjalannya job komputasi user. Silahkan tambahan SBATCH berikut pada Submit Script apabila user ingin menerima notifikasi email dari SLURM:

#SBATCH --mail-user=<alamat-email-user> 
#SBATCH --mail-type=BEGIN,END,FAIL

SBATCH mail-type mengatur konten email notifikasi SLURM dengan pilihan opsi yang sekiranya berguna untuk user:

  • BEGIN -> notifikasi job sudah mulai
  • END -> notifikasi job sudah selesai beserta cuplikan 20 baris terakhir dari file SBATCH output dan error.
  • FAIL -> notifikasi apabila job gagal berjalan atau berhenti tidak sewajarnya.
  • TIME_LIMIT_50 -> job telah berjalan dengan durasi waktu 50% time limit.
  • TIME_LIMIT_80 -> job telah berjalan dengan durasi waktu 80% time limit.

Pelaporan Kendala dan Support

Apabila menjumpai masalah teknis dalam menjalankan komputasi, silahkan lapor dengan klik gambar berikut ini.

Wiki-pelaporankendala.jpg

---

Bila terdapat pertanyaan lainnya, silahkan hubungi admin EFISON melalui email:

support@efisonlt.com