Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(menambah penjelasan compute node dan interactive node)
(8 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 1: Baris 1:
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada April 2022''' untuk menjalankan arsitektur EFIRO.
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada November 2022''' untuk menjalankan arsitektur EFIRO.


== '''Spesifikasi Hardware: Compute Node''' ==
== '''Spesifikasi Hardware''' ==
Compute Node adalah bagian bagian server komputasi ALELEON Supercomputer utama untuk menjalankan berbagai level komputasi dari kecil hingga besar.
Terdapat 3 jenis node:


* Komputasi berjalan di Compute Node apabila dibuat melalui [https://wiki.efisonlt.com/wiki/Tutorial_Menggunakan_ALELEON_Supercomputer#3B._Job_Composer_dan_Interactive_Apps '''Job Composer'''].
* Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
* Melalui [[SLURM Script ALELEON Supercomputer|'''Submit Script''']] (bagian dari Job Composer), user bebas dalam mengalokasikan jumlah resources job misalnya menggunakan 32 core CPU + RAM 64GB atau 96 core CPU + RAM 128GB, 16 core CPU + 2 GPU, dst.
* Compute Node ->  Node untuk menjalankan job komputasi user via SLURM dari Login Node.
* Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.
 
=== Spesifikasi Compute Node CPU (Partisi epyc) ===
{| class="wikitable"
{| class="wikitable"
|Nodes
|3
* epyc001 -> high memory
* epyc[002-003] -> normal
|-
|Prosesor per node
|1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
|-
|RAM per node
|
|
=== Partisi epyc / Compute Node CPU ===
* high memory -> 500GB efektif
*'''Total CPU 192 cores / 384 threads, RAM 768GB'''
* normal -> 240GB efektif
** Terdiri dari '''3 node''' dengan spesifikasi masing-masing:
*** CPU AMD EPYC 7702P 64 cores / 128 threads
*** RAM 256GB
|-
|-
|
|Interkoneksi
=== Partisi gpu_ampere / Compute Node GPU ===
|Mellanox RoCE 100Gbps
*'''1 Node'''
** CPU AMD Threadripper Pro 3955WX 16 cores / 32 threads
** GPU 3x NVIDIA RTX 3090 24GB
** RAM 128GB
|}
|}


== '''Spesifikasi Hardware: Interactive Node''' ==
=== Spesifikasi Compute Node GPU (Partisi gpu_ampere) ===
Interactive node adalah bagian server komputasi ALELEON Supercomputer untuk menjalankan [https://wiki.efisonlt.com/wiki/Tutorial_Menggunakan_ALELEON_Supercomputer#3B._Job_Composer_dan_Interactive_Apps '''Interactive Apps'''] seperti Jupyter Notebook, Aleleon Desktop, dll.
{| class="wikitable"
|Nodes
|1
|-
|Prosesor
|AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
|-
|RAM
|128GB
|-
|GPU
|2x NVIDIA RTX 3090 24GB NVLink
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}


* User akan menggunakan 1 node ketika memnbuat sesi Interactive Apps.
=== Spesifikasi Interactive Node CPU (Partisi torti) ===
{| class="wikitable"
|Nodes
|2
|-
|Prosesor per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|}


=== Spesifikasi Interactive Node GPU (Partisi tilla) ===
{| class="wikitable"
{| class="wikitable"
|
|Nodes
=== Partisi torti / Interactive Node CPU ===
|2
*'''8 Node atau 8 sesi Interactive Apps'''
|-
** Spesifikasi masing-masing
|Prosesor per node
*** CPU AMD Threadripper 3990X 16 v-core
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
*** RAM 32GB
|-
|RAM per node
|64GB
|-
|-
|
|GPU per node
=== Partisi tilla / Interactive Node GPU ===
|1x NVIDIA RTX 3090 24GB
*'''1 Node atau 1 sesi Interactive Apps'''
** CPU AMD Ryzen 5600X 6 cores / 12 threads
** GPU 1x NVIDIA RTX 3090 24GB
** RAM 64GB
|}
|}


== '''Spesifikasi Hardware: Network dan Storage''' ==
=== Spesifikasi Storage ===
 
{| class="wikitable"
* '''Network:'''
|Jenis storage
** High speed network untuk data dan komputasi paralel: '''100 GbE RoCE QSFP28 Mellanox'''
|Block-storage, protokol NFS
** Internet bandwidth: '''100Mbps'''
|-
* '''Storage:'''
|HOME and workdir
** Data terpusat: '''20TB RAID10'''
|HDD SAS 83TiB efektif
** Caching scratch: '''1TB SSD NVMe PCIe 4.0'''
|-
|SCRATCH caching
|SSD 1TB NVMe 4.0
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__
__TOC__
== '''Spesifikasi Sistem Operasi''' ==
 
Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.
 
== '''Spesifikasi Software''' ==


* '''Sistem Operasi'''
* '''Sistem Operasi'''
** Linux CentOS 7.9 dengan kernel 5.4.100-1el7.elrepo.x86_64
** Rocky Linux 8
* '''Autentikasi Login'''
* '''Autentikasi Login'''
** OpenVPN dan PAM
** OpenVPN dan PAM
* '''Akses Konsol'''
** Custom [[Tutorial Menggunakan ALELEON Supercomputer|'''EFIRO OnDemand''']], diakses melalui web browser
* '''GCC default OS'''
* '''GCC default OS'''
** GNU RHEL 10.2.0
** GNU RHEL 8.5
* '''Manajemen Job'''  
* '''Manajemen Job'''  
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
** EFIRO Job Composer dan Interactive Apps
* '''Modul instalasi dan software untuk user'''
* '''Modul instalasi dan software untuk user'''
** EasyBuild 4.4.2
** EasyBuild 4.4.2
** Lmod 8.1.18
** Lmod 8.1.18
* '''Katalog lengkap software'''
* '''Profiler'''
** AMD μProf
* '''Katalog lengkap software compilers, libs, framework:'''  
** '''[[Katalog Software ALELEON Supercomputer]]'''
** '''[[Katalog Software ALELEON Supercomputer]]'''
__TANPADAFTARISI__
__TANPADAFTARISI__

Revisi per 30 November 2022 09.15

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga yang akan beroperasi pada November 2022 untuk menjalankan arsitektur EFIRO.

Spesifikasi Hardware

Terdapat 3 jenis node:

  • Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
  • Compute Node -> Node untuk menjalankan job komputasi user via SLURM dari Login Node.
  • Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.

Spesifikasi Compute Node CPU (Partisi epyc)

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
Prosesor per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Compute Node GPU (Partisi gpu_ampere)

Nodes 1
Prosesor AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node CPU (Partisi torti)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB

Spesifikasi Interactive Node GPU (Partisi tilla)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.

Spesifikasi Software

  • Sistem Operasi
    • Rocky Linux 8
  • Autentikasi Login
    • OpenVPN dan PAM
  • GCC default OS
    • GNU RHEL 8.5
  • Manajemen Job
    • SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
  • Modul instalasi dan software untuk user
    • EasyBuild 4.4.2
    • Lmod 8.1.18
  • Profiler
    • AMD μProf
  • Katalog lengkap software compilers, libs, framework: