Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(12 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 1: Baris 1:
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.II''' - superkomputer ''custom'' EFISON generasi kedua yang beroperasi pada bulan April 2021.
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada November 2022''' untuk menjalankan arsitektur EFIRO.


== '''Spesifikasi Hardware''' ==
== '''Spesifikasi Hardware''' ==
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
Terdapat 3 jenis node:  
__TOC__
 
* Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
* Compute Node ->  Node untuk menjalankan job komputasi user via SLURM dari Login Node.
* Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.
 
=== Spesifikasi Compute Node CPU (Partisi epyc) ===
{| class="wikitable"
{| class="wikitable"
|+Hardware - per April 2021
|Nodes
!Komponen
|3
!Jumlah
 
!Spesifikasi
* epyc001 -> high memory
!Nama Partisi SLURM
* epyc[002-003] -> normal
|-
|-
|Compute Node CPU
|Prosesor per node
|3 nodes
|1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz  
|AMD EPYC 7702P 64 cores / 128 threads, 2.0Ghz. RAM 256GB
'''Total 192 cores / 384 threads, RAM 768GB'''
|'''epyc''' (DEFAULT)
|-
|-
|Compute Node GPU
|RAM per node
|1 node
|
|AMD Threadripper 3990X 64 cores / 128 threads, 2.9Ghz. RAM 128GB
* high memory -> 500GB efektif
2x NVIDIA RTX 3090 24GB GDDR6X
* normal -> 240GB efektif
|'''gpu_ampere'''
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|}
 
=== Spesifikasi Compute Node GPU (Partisi gpu_ampere) ===
{| class="wikitable"
|Nodes
|1
|-
|-
|Storage HOME
|Prosesor
|1 sistem
|AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
| colspan="2" |20TB, harddisk RAID-10, terpusat
|-
|-
|Storage SCRATCH
|RAM
|1 unit
|128GB
| colspan="2" |1TB, SSD NVMe PCIe 4.0. Caching untuk read / write output software komputasi
|-
|-
|High-speed network
|GPU
| colspan="3" |100 GbE RDMA/RoCE, QSFP28 Mellanox
|2x NVIDIA RTX 3090 24GB NVLink
|-
|-
|Storage network
|Interkoneksi
| colspan="3" |10 GbE SFP+
|Mellanox RoCE 25Gbps
|}
|}


== '''Spesifikasi Sistem Operasi''' ==
=== Spesifikasi Interactive Node CPU (Partisi torti) ===
{| class="wikitable"
{| class="wikitable"
|+Sistem Operasi - per Januari 2022
|Nodes
!Komponen
|2
!Tipe
!Versi
!Spesifikasi
|-
|-
|Sistem Operasi
|Prosesor per node
|Linux CentOS
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|7.9
|Kernel 5.4.100-1.el7.elrepo.x86_64
|-
|-
|Autentikasi Login
|RAM per node
| colspan="3" |OpenVPN, PAM
|64GB
|}
 
=== Spesifikasi Interactive Node GPU (Partisi tilla) ===
{| class="wikitable"
|Nodes
|2
|-
|-
|Tampilan GUI
|Prosesor per node
|Custom - EFIRO OnDemand
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|1.0
|Tampilan web browser untuk mengakses ALELEON Supercomputer
|-
|-
|GCC (default)
|RAM per node
|GNU RHEL
|64GB
|10.2.0
|C/C++/Fortran, optimasi arch untuk AMD EPYC
|-
|-
|Manajemen
|GPU per node
|SLURM
|1x NVIDIA RTX 3090 24GB
|20.11.5
|}
|Dengan protokol PMIX, UCX, CUDA, auto load-balancing
 
=== Spesifikasi Storage ===
{| class="wikitable"
|Jenis storage
|Block-storage, protokol NFS
|-
|-
|Module Environment
|HOME and workdir
|Lmod
|HDD SAS 83TiB efektif
|8.1.18
| -
|-
|-
|Modul instalasi user
|SCRATCH caching
|Easybuild
|SSD 1TB NVMe 4.0
|4.4.2
|Terintegrasi dengan Lmod
|-
|-
|Katalog lengkap software
|Interkoneksi
| colspan="3" |'''[[Katalog Software ALELEON Supercomputer]]'''
|Mellanox RoCE 100Gbps
|}
|}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__


== '''EFIRO OnDemand''' ==
Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.
Mulai aktif pada awal tahun 2022, EFIRO OnDemand atau '''EFIRO''' untuk singkatnya adalah '''tampilan grafis (GUI) dari ALELEON Supercomputer yang dapat diakses melalui web browser'''. Melalui EFIRO, user dapat melakukan kegiatan esensial di superkomputer dari manajemen file (download / upload / editing) hingga job submission. EFIRO dirancang untuk memudahkan user dalam mengakses ALELEON Supercomputer khususnya untuk user awam yang pertama kali menggunakan superkomputer atau belum tanggap dengan sistem operasi Linux. EFIRO menyediakan tampilan secara grafis maupun terminal.
 
[[Berkas:EFIRO Job Composer 1.png|nir|jmpl|1100x1100px|'''Tampilan EFIRO OnDemand untuk job submission di ALELEON Supercomputer''']]
[[Berkas:EFIRO FTP.png|nir|jmpl|900x900px|'''Layaknya penyimpanan cloud, EFIRO dapat melayani fungsi manajemen data seperti upload, download, editing, rename, copy, move, dan masih banyak lagi.''']]


== '''Spesifikasi Software''' ==


User juga dapat mengakses ALELEON Supercomputer dengan cara klasik yaitu via software terminal dan login SSH.
* '''Sistem Operasi'''
[[Berkas:Terminal.png|nir|jmpl|700x700px|'''Cara klasik mengakses ALELEON Supercomputer melalui software terminal dan login SSH.'''|al=]]
** Rocky Linux 8
* '''Autentikasi Login'''
** OpenVPN dan PAM
* '''GCC default OS'''
** GNU RHEL 8.5
* '''Manajemen Job'''
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
* '''Modul instalasi dan software untuk user'''
** EasyBuild 4.4.2
** Lmod 8.1.18
* '''Profiler'''
** AMD μProf
* '''Katalog lengkap software compilers, libs, framework:'''
** '''[[Katalog Software ALELEON Supercomputer]]'''
__TANPADAFTARISI__

Revisi per 30 November 2022 09.15

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga yang akan beroperasi pada November 2022 untuk menjalankan arsitektur EFIRO.

Spesifikasi Hardware

Terdapat 3 jenis node:

  • Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
  • Compute Node -> Node untuk menjalankan job komputasi user via SLURM dari Login Node.
  • Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.

Spesifikasi Compute Node CPU (Partisi epyc)

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
Prosesor per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Compute Node GPU (Partisi gpu_ampere)

Nodes 1
Prosesor AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node CPU (Partisi torti)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB

Spesifikasi Interactive Node GPU (Partisi tilla)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.

Spesifikasi Software

  • Sistem Operasi
    • Rocky Linux 8
  • Autentikasi Login
    • OpenVPN dan PAM
  • GCC default OS
    • GNU RHEL 8.5
  • Manajemen Job
    • SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
  • Modul instalasi dan software untuk user
    • EasyBuild 4.4.2
    • Lmod 8.1.18
  • Profiler
    • AMD μProf
  • Katalog lengkap software compilers, libs, framework: