Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(total paraphrasing menyesuaikan spek Mk III)
(11 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 1: Baris 1:
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada akhir Maret 2022''' untuk menjalankan arsitektur EFIRO.
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada November 2022''' untuk menjalankan arsitektur EFIRO.


== '''Spesifikasi Hardware: Compute Node''' ==
== '''Spesifikasi Hardware''' ==
Compute Node adalah bagian bagian server komputasi ALELEON Supercomputer utama untuk menjalankan berbagai level komputasi dari kecil hingga besar.
Terdapat 3 jenis node:


=== Partisi epyc / Compute Node CPU ===
* Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
* Compute Node ->  Node untuk menjalankan job komputasi user via SLURM dari Login Node.
* Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.


* '''3 Node'''
=== Spesifikasi Compute Node CPU (Partisi epyc) ===
** Spesifikasi masing-masing:
{| class="wikitable"
*** CPU AMD EPYC 7702P 64 cores / 128 threads
|Nodes
*** RAM 256GB
|3
* '''Total CPU 192 cores / 384 threads, RAM 768GB'''


---
* epyc001 -> high memory
* epyc[002-003] -> normal
|-
|Prosesor per node
|1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
|-
|RAM per node
|
* high memory -> 500GB efektif
* normal -> 240GB efektif
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|}


=== Partisi gpu_ampere / Compute Node GPU ===
=== Spesifikasi Compute Node GPU (Partisi gpu_ampere) ===
{| class="wikitable"
|Nodes
|1
|-
|Prosesor
|AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
|-
|RAM
|128GB
|-
|GPU
|2x NVIDIA RTX 3090 24GB NVLink
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}


* '''1 Node'''
=== Spesifikasi Interactive Node CPU (Partisi torti) ===
** CPU AMD Threadripper Pro 3955WX 16 cores / 32 threads
{| class="wikitable"
** GPU 3x NVIDIA RTX 3090 24GB
|Nodes
** RAM 128GB
|2
|-
|Prosesor per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|}


== '''Spesifikasi Hardware: Interactive Node''' ==
=== Spesifikasi Interactive Node GPU (Partisi tilla) ===
Interactive node adalah bagian server komputasi ALELEON Supercomputer untuk menjalankan semua Interactive Apps seperti Jupyter Notebook, Aleleon Desktop, dll.
{| class="wikitable"
|Nodes
|2
|-
|Prosesor per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|-
|GPU per node
|1x NVIDIA RTX 3090 24GB
|}


=== Partisi torti / Interactive Node CPU ===
=== Spesifikasi Storage ===
 
{| class="wikitable"
* '''8 Node'''
|Jenis storage
** Spesifikasi masing-masing
|Block-storage, protokol NFS
*** CPU AMD Threadripper 3990X 16 v-core
|-
*** RAM 32GB
|HOME and workdir
 
|HDD SAS 83TiB efektif
---
|-
 
|SCRATCH caching
=== Partisi tilla / Interactive Node GPU ===
|SSD 1TB NVMe 4.0
 
|-
* '''1 Node'''
|Interkoneksi
** CPU AMD Ryzen 5600X 6 cores / 12 threads
|Mellanox RoCE 100Gbps
** GPU 1x NVIDIA RTX 3090 24GB
|}
** RAM 64GB
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__


== '''Spesifikasi Hardware: Network dan Storage''' ==
Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.


* '''Network:'''
== '''Spesifikasi Software''' ==
** High speed network untuk data dan komputasi paralel: '''100 GbE RoCE QSFP28 Mellanox'''
** Internet bandwidth: '''100Mbps'''
* '''Storage:'''
** Data terpusat: '''20TB RAID10'''
** Caching scratch: '''1TB SSD NVMe PCIe 4.0'''
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__
== '''Spesifikasi Sistem Operasi''' ==


* '''Sistem Operasi'''
* '''Sistem Operasi'''
** Linux CentOS 7.9 dengan kernel 5.4.100-1el7.elrepo.x86_64
** Rocky Linux 8
* '''Autentikasi Login'''
* '''Autentikasi Login'''
** OpenVPN dan PAM
** OpenVPN dan PAM
* '''Akses Konsol'''
** Custom [[Tutorial Menggunakan ALELEON Supercomputer|'''EFIRO OnDemand''']], diakses melalui web browser
* '''GCC default OS'''
* '''GCC default OS'''
** GNU RHEL 10.2.0
** GNU RHEL 8.5
* '''Manajemen Job'''  
* '''Manajemen Job'''  
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
** EFIRO Job Composer dan Interactive Apps
* '''Modul instalasi dan software untuk user'''
* '''Modul instalasi dan software untuk user'''
** EasyBuild 4.4.2
** EasyBuild 4.4.2
** Lmod 8.1.18
** Lmod 8.1.18
* '''Katalog lengkap software'''
* '''Profiler'''
** AMD μProf
* '''Katalog lengkap software compilers, libs, framework:'''  
** '''[[Katalog Software ALELEON Supercomputer]]'''
** '''[[Katalog Software ALELEON Supercomputer]]'''
__TANPADAFTARISI__

Revisi per 30 November 2022 09.15

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga yang akan beroperasi pada November 2022 untuk menjalankan arsitektur EFIRO.

Spesifikasi Hardware

Terdapat 3 jenis node:

  • Login Node -> tempat user login ke ALELEON Supercomputer. Tidak untuk menjalankan komputasi berat
  • Compute Node -> Node untuk menjalankan job komputasi user via SLURM dari Login Node.
  • Interactive Node -> Node untuk menjalankan sesi interaktif via EFIRO seperti ALELEON Desktop atau Jupyter Lab.

Spesifikasi Compute Node CPU (Partisi epyc)

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
Prosesor per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Compute Node GPU (Partisi gpu_ampere)

Nodes 1
Prosesor AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node CPU (Partisi torti)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB

Spesifikasi Interactive Node GPU (Partisi tilla)

Nodes 2
Prosesor per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Sistem melakukan checkpoint snapshot storage per 24 jam. User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.

Spesifikasi Software

  • Sistem Operasi
    • Rocky Linux 8
  • Autentikasi Login
    • OpenVPN dan PAM
  • GCC default OS
    • GNU RHEL 8.5
  • Manajemen Job
    • SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
  • Modul instalasi dan software untuk user
    • EasyBuild 4.4.2
    • Lmod 8.1.18
  • Profiler
    • AMD μProf
  • Katalog lengkap software compilers, libs, framework: