Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(total paraphrasing menyesuaikan spek Mk III)
(formatting)
(23 revisi perantara oleh pengguna yang sama tidak ditampilkan)
Baris 1: Baris 1:
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga '''yang akan beroperasi pada akhir Maret 2022''' untuk menjalankan arsitektur EFIRO.
ALELEON Supercomputer saat ini menggunakan '''HPC ALELEON Mk.III''' - superkomputer ''custom'' EFISON generasi ketiga menyesuaikan arsitektur EFIRO.


== '''Spesifikasi Hardware: Compute Node''' ==
== '''Spesifikasi Compute Node''' ==
Compute Node adalah bagian bagian server komputasi ALELEON Supercomputer utama untuk menjalankan berbagai level komputasi dari kecil hingga besar.
Compute Node menjalankan komputasi user via job submission SLURM (sbatch terminal atau Job Composer EFIRO).
{| class="wikitable"
! colspan="2" |Spesifikasi Compute Node CPU


=== Partisi epyc / Compute Node CPU ===
=== Partisi epyc ===
|-
|Nodes
|3


* '''3 Node'''
* epyc001 -> high memory
** Spesifikasi masing-masing:
* epyc[002-003] -> normal
*** CPU AMD EPYC 7702P 64 cores / 128 threads
|-
*** RAM 256GB
|CPU per node
* '''Total CPU 192 cores / 384 threads, RAM 768GB'''
|1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
|-
|RAM per node
|
* high memory -> 500GB efektif
* normal -> 240GB efektif
|-
|Interkoneksi
|Mellanox RoCE 100Gbps
|-
! colspan="2" |Spesifikasi Compute Node GPU


---
=== Partisi ampere ===
|-
|Nodes
|1
|-
|CPU
|1x AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
|-
|RAM
|128GB
|-
|GPU
|2x NVIDIA RTX 3090 24GB NVLink
|-
|Interkoneksi
|Mellanox RoCE 25Gbps
|}


=== Partisi gpu_ampere / Compute Node GPU ===
== '''Spesifikasi Interactive Node''' ==
Interactive Node menjalankan sesi interaktif pada web service EFIRO seperti Jupyter dan ALELEON Virtual Desktop.
{| class="wikitable"
! colspan="2" |Spesifikasi Interactive Node CPU


* '''1 Node'''
=== Partisi torti ===
** CPU AMD Threadripper Pro 3955WX 16 cores / 32 threads
|-
** GPU 3x NVIDIA RTX 3090 24GB
|Nodes
** RAM 128GB
|2
|-
|CPU per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|-
! colspan="2" |Spesifikasi Interactive Node GPU


== '''Spesifikasi Hardware: Interactive Node''' ==
=== Partisi tilla ===
Interactive node adalah bagian server komputasi ALELEON Supercomputer untuk menjalankan semua Interactive Apps seperti Jupyter Notebook, Aleleon Desktop, dll.
|-
|Nodes
|2
|-
|CPU per node
|AMD Threadripper 3990X, 32 v-core, 2.9Ghz
|-
|RAM per node
|64GB
|-
|GPU per node
|1x NVIDIA RTX 3090 24GB
|}


=== Partisi torti / Interactive Node CPU ===
== '''Spesifikasi Storage''' ==
Sistem melakukan checkpoint snapshot storage per 24 jam.


* '''8 Node'''
* '''User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.'''
** Spesifikasi masing-masing
*** CPU AMD Threadripper 3990X 16 v-core
*** RAM 32GB


---
{| class="wikitable"
 
! colspan="2" |Spesifikasi Stoarge Node
=== Partisi tilla / Interactive Node GPU ===
|-
 
|Jenis storage
* '''1 Node'''
|Block-storage, protokol NFS
** CPU AMD Ryzen 5600X 6 cores / 12 threads
|-
** GPU 1x NVIDIA RTX 3090 24GB
|HOME and workdir
** RAM 64GB
|HDD SAS 83TiB efektif
 
|-
== '''Spesifikasi Hardware: Network dan Storage''' ==
|SCRATCH caching
 
|SSD 1TB NVMe 4.0
* '''Network:'''
|-
** High speed network untuk data dan komputasi paralel: '''100 GbE RoCE QSFP28 Mellanox'''
|Interkoneksi
** Internet bandwidth: '''100Mbps'''
|Mellanox RoCE 100Gbps
* '''Storage:'''
|}
** Data terpusat: '''20TB RAID10'''
** Caching scratch: '''1TB SSD NVMe PCIe 4.0'''
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
{{DISPLAYTITLE:Spesifikasi ALELEON Supercomputer}}
__TOC__
__TOC__
== '''Spesifikasi Sistem Operasi''' ==
 
== '''Spesifikasi Software Sistem''' ==


* '''Sistem Operasi'''
* '''Sistem Operasi'''
** Linux CentOS 7.9 dengan kernel 5.4.100-1el7.elrepo.x86_64
** Rocky Linux 8 dengan Kernel 4.18.0-425.3.1.el8.x86_64
* '''Autentikasi Login'''
* '''Autentikasi Login'''
** OpenVPN dan PAM
** OpenVPN dan PAM
* '''Akses Konsol'''
*'''Manajemen Job (job scheduler)'''
** Custom [[Tutorial Menggunakan ALELEON Supercomputer|'''EFIRO OnDemand''']], diakses melalui web browser
** SLURM 20.11.9 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen 2.
* '''GCC default OS'''
*'''[https://wiki.efisonlt.com/wiki/Menggunakan_ALELEON_Supercomputer_via_EFIRO EFIRO Web Service] untuk login web dengan tampilan grafis (GUI)'''
** GNU RHEL 10.2.0
**Menggunakan interactive package '''Jupyter Notebook, Jupyter Lab, dan Virtual Desktop Session (ALELEON Desktop)'''
* '''Manajemen Job'''  
***''Modifikasi dilakukan oleh tim engineering ALELEON Supercomputer.''
** SLURM 20.11.5 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen2.
* '''Manajemen modul software (module environment)'''
** EFIRO Job Composer dan Interactive Apps
* '''Modul instalasi dan software untuk user'''
** EasyBuild 4.4.2
** Lmod 8.1.18
** Lmod 8.1.18
* '''Katalog lengkap software'''
*'''Manajemen instalasi software (package manager)'''
**EasyBuild 4.7.0
**Conda ''(melalui module environment Anaconda 3 suite)''
**Spack 0.17.2 ''(melalui module environment)''
*'''Manajemen compiling otomatis'''
**GNU Make 4.2.1
**CMake 3.24.3 ''(melalui module environment)''
* '''Manajemen container'''
** Singularity 3.10 ''(melalui module environment)''
* '''Profiler sistem'''
** CPU -> AMD μProf
* '''Library I/O sistem'''
** HDF5 1.12.1 ''(melalui module environment)''
** NetCDF 4.8.1 ''(melalui module environment)''
* '''Katalog lengkap software compiler, library, dan framework untuk penggunaan global'''  
** '''[[Katalog Software ALELEON Supercomputer]]'''
** '''[[Katalog Software ALELEON Supercomputer]]'''
__TANPADAFTARISI__

Revisi per 20 Oktober 2023 04.29

ALELEON Supercomputer saat ini menggunakan HPC ALELEON Mk.III - superkomputer custom EFISON generasi ketiga menyesuaikan arsitektur EFIRO.

Spesifikasi Compute Node

Compute Node menjalankan komputasi user via job submission SLURM (sbatch terminal atau Job Composer EFIRO).

Spesifikasi Compute Node CPU

Partisi epyc

Nodes 3
  • epyc001 -> high memory
  • epyc[002-003] -> normal
CPU per node 1x AMD EPYC 7702P, 64 core / 128 thread, 2.0Ghz
RAM per node
  • high memory -> 500GB efektif
  • normal -> 240GB efektif
Interkoneksi Mellanox RoCE 100Gbps
Spesifikasi Compute Node GPU

Partisi ampere

Nodes 1
CPU 1x AMD Threadripper 3955WX, 16 core / 32 thread, 3.9Ghz
RAM 128GB
GPU 2x NVIDIA RTX 3090 24GB NVLink
Interkoneksi Mellanox RoCE 25Gbps

Spesifikasi Interactive Node

Interactive Node menjalankan sesi interaktif pada web service EFIRO seperti Jupyter dan ALELEON Virtual Desktop.

Spesifikasi Interactive Node CPU

Partisi torti

Nodes 2
CPU per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
Spesifikasi Interactive Node GPU

Partisi tilla

Nodes 2
CPU per node AMD Threadripper 3990X, 32 v-core, 2.9Ghz
RAM per node 64GB
GPU per node 1x NVIDIA RTX 3090 24GB

Spesifikasi Storage

Sistem melakukan checkpoint snapshot storage per 24 jam.

  • User dapat melayangkan permintaan ke email support untuk recovery data apabila tidak sengaja menghapus data.
Spesifikasi Stoarge Node
Jenis storage Block-storage, protokol NFS
HOME and workdir HDD SAS 83TiB efektif
SCRATCH caching SSD 1TB NVMe 4.0
Interkoneksi Mellanox RoCE 100Gbps

Spesifikasi Software Sistem

  • Sistem Operasi
    • Rocky Linux 8 dengan Kernel 4.18.0-425.3.1.el8.x86_64
  • Autentikasi Login
    • OpenVPN dan PAM
  • Manajemen Job (job scheduler)
    • SLURM 20.11.9 dengan protokol PMIX, UCX, CUDA, dan auto load-balancing menyesuaikan arsitektur AMD Zen 2.
  • EFIRO Web Service untuk login web dengan tampilan grafis (GUI)
    • Menggunakan interactive package Jupyter Notebook, Jupyter Lab, dan Virtual Desktop Session (ALELEON Desktop)
      • Modifikasi dilakukan oleh tim engineering ALELEON Supercomputer.
  • Manajemen modul software (module environment)
    • Lmod 8.1.18
  • Manajemen instalasi software (package manager)
    • EasyBuild 4.7.0
    • Conda (melalui module environment Anaconda 3 suite)
    • Spack 0.17.2 (melalui module environment)
  • Manajemen compiling otomatis
    • GNU Make 4.2.1
    • CMake 3.24.3 (melalui module environment)
  • Manajemen container
    • Singularity 3.10 (melalui module environment)
  • Profiler sistem
    • CPU -> AMD μProf
  • Library I/O sistem
    • HDF5 1.12.1 (melalui module environment)
    • NetCDF 4.8.1 (melalui module environment)
  • Katalog lengkap software compiler, library, dan framework untuk penggunaan global