Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
Tidak ada ringkasan suntingan
(15 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 1: Baris 1:
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada November 2022''' untuk menjalankan arsitektur EFIRO.
__TOC__
 
Partisi pada infrastruktur HPC adalah pembagian grup kluster hardware yang didefinisikan oleh scheduler.  Untuk saat ini HPC Aleleon Mk.II membagi partisi menurut hardware komputasi yaitu CPU (bernama '''epyc''') dan GPU (bernama '''gpu_ampere''').  
== '''Spesifikasi Hardware''' ==
Terdapat 3 jenis node:
 
* Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
* Compute Node ->  Node untuk menjalankan job komputasi user via SLURM dari Login Node.
* Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.
 
=== Spesifikasi Compute Node CPU (Partisi epyc) ===
{| class="wikitable"
|Nodes
|3
 
* epyc001 -> high memory
* epyc[002-003] -> normal
|-
|Prosesor per node
|1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
|-
|RAM per node
|
* high memory -> 500GB efektif
* normal -> 240GB efektif
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|}


[[Berkas:Aleleon lampu natal.jpg|nirbing|800x800px]]
=== Spesifikasi Compute Node GPU (Partisi gpu_ampere) ===
{| class="wikitable"
|Nodes
|1
|-
|Prosesor
|AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
|-
|RAM
|128GB
|-
|GPU
|2x NVIDIA RTX 3090 24GB NVLink
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}


== '''Partisi epyc''' ==
=== Spesifikasi Interactive Node CPU (Partisi torti) ===
Partisi '''epyc''' adalah partisi untuk komputasi CPU. Partisi epyc adalah partisi DEFAULT pada SLURM sehingga user tidak perlu mendefnisikan partisi pada SBATCH. Partisi epyc mempunyai spesifikasi komputasi:
{| class="wikitable"
|Nodes
|2
|-
|Prosesor per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|}


* 3 Node dengan spesifikasi masing-masing:
=== Spesifikasi Interactive Node GPU (Partisi tilla) ===
** 1x AMD EPYC Rome 7702P 64 cores / 128 threads, 2.0GHz.
{| class="wikitable"
** RAM 256GB DDR4 ECC RDIMM, octo-channel.
|Nodes
** Network 1 GbE, 10 GbE, 100 GbE.
|2
|-
|Prosesor per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|-
|GPU per node
|1x NVIDIA RTX 3090 24GB
|}


== '''Partisi gpu_ampere''' ==
=== Spesifikasi Storage ===
Partisi '''gpu_ampere''' adalah partisi untuk komputasi GPU. User harus mendefinisikan nama partisi gpu_ampere pada SLURM Submission Script untuk menggunakan partisi ini:
{| class="wikitable"
#SBATCH --partition=gpu_ampere
|Jenis storage
Partisi gpu_ampere mempunyai spesifikasi komputasi:
|Block-storage, protokol NFS
|-
|HOME and workdir
|HDD SAS 83TiB efektif
|-
|SCRATCH caching
|SSD 1TB NVMe 4.0
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__


* 1 Node dengan spesifikasi:
Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.
** 1x AMD Threadripper 3990X 64 cores / 128 threads, 2.9GHz, full power TDP 280W.
** RAM 128GB DDR4 ECC UDIMM, quad-channel
** 2x NVIDIA RTX 3090 24GB GDDR6X


== '''Network dan Storage''' ==
== '''Spesifikasi Software''' ==
Semua partisi terhubung dengan network dan storage terpusat:


* Storage node 20TB RAID10.
* '''Sistem Operasi'''
* Storage SCRATCH SSD NVMe PCIe 4.0 1TB.
** Rocky Linux 8
* Network 1 GbE untuk manajemen dan koneksi internet.
* '''Autentikasi Login'''
* Network 10 GbE untuk komunikasi data ke storage node.
** OpenVPN dan PAM
* Network 100 GbE RDMA/RoCE Mellanox untuk komunikasi komputasi paralel antar node.
* '''GCC default OS'''
** GNU RHEL 8.5
* '''Manajemen Job'''
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
* '''Modul instalasi dan software untuk user'''
** EasyBuild 4.4.2
** Lmod 8.1.18
* '''Profiler'''
** AMD μProf
* '''Katalog lengkap software compilers, libs, framework:'''
** '''[[Katalog Software ALELEON Supercomputer]]'''
__TANPADAFTARISI__

Revisi per 30 November 2022 09.15

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga yang akan beroperasi pada November 2022 untuk menjalankan arsitektur EFIRO.

Spesifikasi Hardware

Terdapat 3 jenis node:

  • Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
  • Compute Node -> Node untuk menjalankan job komputasi user via SLURM dari Login Node.
  • Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.

Spesifikasi Compute Node CPU (Partisi epyc)

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
Prosesor per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Compute Node GPU (Partisi gpu_ampere)

Nodes 1
Prosesor AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node CPU (Partisi torti)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB

Spesifikasi Interactive Node GPU (Partisi tilla)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.

Spesifikasi Software

  • Sistem Operasi
    • Rocky Linux 8
  • Autentikasi Login
    • OpenVPN dan PAM
  • GCC default OS
    • GNU RHEL 8.5
  • Manajemen Job
    • SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
  • Modul instalasi dan software untuk user
    • EasyBuild 4.4.2
    • Lmod 8.1.18
  • Profiler
    • AMD μProf
  • Katalog lengkap software compilers, libs, framework: