Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(→‎Spesifikasi Sistem Operasi: mengubah judul spek OS ke spek software)
(3 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 1: Baris 1:
32GB8ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada November 2022''' untuk menjalankan arsitektur EFIRO.
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada November 2022''' untuk menjalankan arsitektur EFIRO.


== '''Spesifikasi Hardware''' ==
== '''Spesifikasi Hardware''' ==
Terdapat 3 jenis node:  
Terdapat 3 jenis node:  


* '''Login Node:''' tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
* Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
* '''Compute Node:''' Node untuk menjalankan job komputasi user via SLURM dari Login Node.  
* Compute Node ->  Node untuk menjalankan job komputasi user via SLURM dari Login Node.
* '''Interactive Node:''' Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.
* Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.
 
=== Spesifikasi Login Node Utama ''(Coming Soon)'' ===
{| class="wikitable"
|Nodes
|1
|-
|Prosesor
|AMD EPYC 7313P, 16 v-core, 3.0Ghz
|-
|RAM
|64GB
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}
 
=== Spesifikasi Login Node GPU dan backup ===
{| class="wikitable"
|Nodes
|1
|-
|Prosesor
|AMD Ryzen 3300X, 4 core / 8 thread, 4.3Ghz
|-
|RAM
|64GB
|-
|GPU
|NVIDIA T400 4GB
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}


=== Spesifikasi Compute Node CPU (Partisi epyc) ===
=== Spesifikasi Compute Node CPU (Partisi epyc) ===
{| class="wikitable"
{| class="wikitable"
|Nodes
|Nodes
|3:
|3


* epyc01 -> high memory
* epyc001 -> high memory
* epyc[02-03] -> normal
* epyc[002-003] -> normal
|-
|-
|Prosesor per node
|Prosesor per node
Baris 54: Baris 21:
|RAM per node
|RAM per node
|
|
* high memory -> 512GB
* high memory -> 500GB efektif
* normal -> 256GB
* normal -> 240GB efektif
|-
|-
|Interkoneksi
|Interkoneksi
Baris 73: Baris 40:
|-
|-
|GPU
|GPU
|3x NVIDIA RTX 3090 24GB
|2x NVIDIA RTX 3090 24GB NVLink
|-
|-
|Interkoneksi
|Interkoneksi
|Mellanox RoCE 100Gbps
|Mellanox RoCE 25Gbps
|}
|}


Baris 82: Baris 49:
{| class="wikitable"
{| class="wikitable"
|Nodes
|Nodes
|8
|2
|-
|-
|Prosesor per node
|Prosesor per node
|AMD Threadripper 3990X, 16 v-core, 2.9Ghz
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|-
|RAM per node
|RAM per node
|32GB
|64GB
|-
|Interkoneksi
|Ethernet 10GbE
|}
|}


Baris 97: Baris 61:
{| class="wikitable"
{| class="wikitable"
|Nodes
|Nodes
|1
|2
|-
|-
|Prosesor
|Prosesor per node
|AMD Ryzen 5600X, 6 core / 12 thread, 3.7Ghz
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|-
|RAM
|RAM per node
|64GB
|64GB
|-
|-
|GPU
|GPU per node
|1x NVIDIA RTX 3090 24GB
|1x NVIDIA RTX 3090 24GB
|-
|Interkoneksi
|Ethernet 10GbE
|}
|}


=== Spesifikasi Storage ===
=== Spesifikasi Storage ===
{| class="wikitable"
{| class="wikitable"
|Filesystem
|Jenis storage
|NFS
|Block-storage, protokol NFS
|-
|-
|HOME and work
|HOME and workdir
|20TB
|HDD SAS 83TiB efektif
+ ''64TB (coming soon)''
|-
|-
|SCRATCH caching
|SCRATCH caching
|1TB NVMe 4.0
|SSD 1TB NVMe 4.0
|-
|-
|Interkoneksi
|Interkoneksi
Baris 129: Baris 89:
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__
__TOC__
Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.
== '''Spesifikasi Software''' ==
== '''Spesifikasi Software''' ==


* '''Sistem Operasi'''
* '''Sistem Operasi'''
** Linux CentOS 7.9 dengan kernel 5.4.100-1el7.elrepo.x86_64
** Rocky Linux 8
** ''Rocky Linux 8.5 (coming soon)''
* '''Autentikasi Login'''
* '''Autentikasi Login'''
** OpenVPN dan PAM
** OpenVPN dan PAM
* '''GCC default OS'''
* '''GCC default OS'''
** GNU RHEL 10.2.0
** GNU RHEL 8.5
* '''Manajemen Job'''  
* '''Manajemen Job'''  
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
Baris 147: Baris 109:
* '''Katalog lengkap software compilers, libs, framework:'''  
* '''Katalog lengkap software compilers, libs, framework:'''  
** '''[[Katalog Software ALELEON Supercomputer]]'''
** '''[[Katalog Software ALELEON Supercomputer]]'''
__PAKSADAFTARISI__
__TANPADAFTARISI__

Revisi per 30 November 2022 09.15

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga yang akan beroperasi pada November 2022 untuk menjalankan arsitektur EFIRO.

Spesifikasi Hardware

Terdapat 3 jenis node:

  • Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
  • Compute Node -> Node untuk menjalankan job komputasi user via SLURM dari Login Node.
  • Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.

Spesifikasi Compute Node CPU (Partisi epyc)

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
Prosesor per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Compute Node GPU (Partisi gpu_ampere)

Nodes 1
Prosesor AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node CPU (Partisi torti)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB

Spesifikasi Interactive Node GPU (Partisi tilla)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.

Spesifikasi Software

  • Sistem Operasi
    • Rocky Linux 8
  • Autentikasi Login
    • OpenVPN dan PAM
  • GCC default OS
    • GNU RHEL 8.5
  • Manajemen Job
    • SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
  • Modul instalasi dan software untuk user
    • EasyBuild 4.4.2
    • Lmod 8.1.18
  • Profiler
    • AMD μProf
  • Katalog lengkap software compilers, libs, framework: