Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(melengkapi info semua partisi)
(→‎Spesifikasi Software Sistem: update menyesuaikan maintenance 120124)
 
(31 revisi perantara oleh 2 pengguna tidak ditampilkan)
Baris 1: Baris 1:
Partisi pada infrastruktur HPC adalah pembagian grup kluster hardware yang didefinisikan oleh scheduler.  Untuk saat ini HPC Aleleon Mk.II membagi partisi menurut hardware komputasi yaitu CPU (bernama '''epyc''') dan GPU (bernama '''gpu_ampere''').  
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga menyesuaikan arsitektur EFIRO.


[[Berkas:Aleleon lampu natal.jpg|nirbing|800x800px]]
== '''Spesifikasi Compute Node''' ==
Compute Node menjalankan komputasi user via job submission SLURM (sbatch terminal atau Job Composer EFIRO).
{| class="wikitable"
! colspan="2" |Spesifikasi Compute Node CPU


== '''Partisi epyc''' ==
=== Partisi epyc ===
Partisi '''epyc''' adalah partisi untuk komputasi CPU. Partisi epyc adalah partisi DEFAULT pada SLURM sehingga user tidak perlu mendefnisikan partisi pada SBATCH. Partisi epyc mempunyai spesifikasi komputasi:
|-
|Nodes
|3


* 3 Node dengan spesifikasi masing-masing:
* epyc001 -> high memory
** 1x AMD EPYC Rome 7702P 64 cores / 128 threads, 2.0GHz.
* epyc[002-003] -> normal
** RAM 256GB DDR4 ECC RDIMM, octo-channel.
|-
** Network 1 GbE, 10 GbE, 100 GbE.
|CPU per node
|1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
|-
|RAM per node
|
* high memory -> 500GB efektif
* normal -> 240GB efektif
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|-
! colspan="2" |Spesifikasi Compute Node GPU


== '''Partisi gpu_ampere''' ==
=== Partisi ampere ===
Partisi '''gpu_ampere''' adalah partisi untuk komputasi GPU. User harus mendefinisikan nama partisi gpu_ampere pada SLURM Submission Script untuk menggunakan partisi ini:
|-
#SBATCH --partition=gpu_ampere
|Nodes
Partisi gpu_ampere mempunyai spesifikasi komputasi:
|1
|-
|CPU
|1x AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
|-
|RAM
|128GB
|-
|GPU
|2x NVIDIA RTX 3090 24GB NVLink
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}


* 1 Node dengan spesifikasi:
== '''Spesifikasi Interactive Node''' ==
** 1x AMD Threadripper 3990X 64 cores / 128 threads, 2.9GHz, full power TDP 280W.
Interactive Node menjalankan sesi interaktif pada web service EFIRO seperti Jupyter dan ALELEON Virtual Desktop.
** RAM 128GB DDR4 ECC UDIMM, quad-channel
{| class="wikitable"
** 2x NVIDIA RTX 3090 24GB GDDR6X
! colspan="2" |Spesifikasi Interactive Node CPU


== '''Network dan Storage''' ==
=== Partisi torti ===
Semua partisi terhubung dengan network dan storage terpusat:
|-
|Nodes
|2
|-
|CPU per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|-
! colspan="2" |Spesifikasi Interactive Node GPU


* Storage node 20TB RAID10.
=== Partisi tilla ===
* Network 1 GbE untuk manajemen dan koneksi internet.
|-
* Network 10 GbE untuk komunikasi data ke storage node.
|Nodes
* Network 100 GbE RDMA/RoCE Mellanox untuk komunikasi komputasi paralel antar node.
|2
|-
|CPU per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|-
|GPU per node
|1x NVIDIA RTX 3090 24GB
|}
 
== '''Spesifikasi Storage''' ==
Sistem melakukan checkpoint snapshot storage per 24 jam.
 
* '''User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.'''
 
{| class="wikitable"
! colspan="2" |Spesifikasi Stoarge Node
|-
|Jenis storage
|Block-storage, protokol NFS
|-
|HOME and workdir
|HDD SAS 83TiB efektif
|-
|SCRATCH caching
|SSD 1TB NVMe 4.0
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__
 
== '''Spesifikasi Software Sistem''' ==
 
* '''Sistem Operasi'''
** Rocky Linux 8 (Red-hat based) dengan kernel 5.4.266-1.el8.elrepo.x86_64
* '''Autentikasi Login'''
** OpenVPN dan PAM
*'''Manajemen Job (job scheduler)'''
** SLURM 23.11.1-1 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan spesifikasi ALELEON Supercomputer.
*'''[https://wiki.efisonlt.com/wiki/Menggunakan_ALELEON_Supercomputer_via_EFIRO EFIRO Web Service] untuk login web dengan tampilan grafis (GUI)'''
**Berbasiskan '''Open OnDemand 3.0''' dengan modifikasi oleh tim engineering EFISON menyesuaikan arsitektur dan fitur ALELEON Supercomputer
***''MIT License, maintained by Ohio Supercomputing Center (OSC), a member of the Ohio Technology Consortium, the technology and information division of the Ohio Department of High Education.''
* '''Manajemen modul software (Module Environment)'''
** Lmod 8.7.32
*'''Manajemen instalasi software (Package Manager)'''
**EasyBuild 4.8.0
**Anaconda
**Spack 0.19.1
*'''Manajemen compiling otomatis'''
**GNU Make 4.2.1
**CMake 3.26.3
* '''Manajemen container'''
** Singularity 3.10  
* '''Profiler sistem'''
** CPU -> AMD μProf
* '''Library I/O sistem'''
** HDF5 1.14.1
** NetCDF 4.9.2
* '''Katalog lengkap software compiler, library, dan framework untuk penggunaan global'''
** Lihat laman '''[[Katalog Software ALELEON Supercomputer]]'''
__TANPADAFTARISI__

Revisi terkini sejak 18 Januari 2024 06.40

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga menyesuaikan arsitektur EFIRO.

Spesifikasi Compute Node

Compute Node menjalankan komputasi user via job submission SLURM (sbatch terminal atau Job Composer EFIRO).

Spesifikasi Compute Node CPU

Partisi epyc

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
CPU per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps
Spesifikasi Compute Node GPU

Partisi ampere

Nodes 1
CPU 1x AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node

Interactive Node menjalankan sesi interaktif pada web service EFIRO seperti Jupyter dan ALELEON Virtual Desktop.

Spesifikasi Interactive Node CPU

Partisi torti

Nodes 2
CPU per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
Spesifikasi Interactive Node GPU

Partisi tilla

Nodes 2
CPU per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Sistem melakukan checkpoint snapshot storage per 24 jam.

  • User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.
Spesifikasi Stoarge Node
Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Software Sistem

  • Sistem Operasi
    • Rocky Linux 8 (Red-hat based) dengan kernel 5.4.266-1.el8.elrepo.x86_64
  • Autentikasi Login
    • OpenVPN dan PAM
  • Manajemen Job (job scheduler)
    • SLURM 23.11.1-1 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan spesifikasi ALELEON Supercomputer.
  • EFIRO Web Service untuk login web dengan tampilan grafis (GUI)
    • Berbasiskan Open OnDemand 3.0 dengan modifikasi oleh tim engineering EFISON menyesuaikan arsitektur dan fitur ALELEON Supercomputer
      • MIT License, maintained by Ohio Supercomputing Center (OSC), a member of the Ohio Technology Consortium, the technology and information division of the Ohio Department of High Education.
  • Manajemen modul software (Module Environment)
    • Lmod 8.7.32
  • Manajemen instalasi software (Package Manager)
    • EasyBuild 4.8.0
    • Anaconda
    • Spack 0.19.1
  • Manajemen compiling otomatis
    • GNU Make 4.2.1
    • CMake 3.26.3
  • Manajemen container
    • Singularity 3.10
  • Profiler sistem
    • CPU -> AMD μProf
  • Library I/O sistem
    • HDF5 1.14.1
    • NetCDF 4.9.2
  • Katalog lengkap software compiler, library, dan framework untuk penggunaan global