Spesifikasi ALELEON Supercomputer: Perbedaan antara revisi

Dari ALELEON by EFISON
(melengkapi info semua partisi)
(→‎Network dan Storage: menambahkan scratch)
Baris 25: Baris 25:


* Storage node 20TB RAID10.
* Storage node 20TB RAID10.
* Storage SCRATCH SSD NVMe PCIe 4.0 1TB.
* Network 1 GbE untuk manajemen dan koneksi internet.
* Network 1 GbE untuk manajemen dan koneksi internet.
* Network 10 GbE untuk komunikasi data ke storage node.
* Network 10 GbE untuk komunikasi data ke storage node.
* Network 100 GbE RDMA/RoCE Mellanox untuk komunikasi komputasi paralel antar node.
* Network 100 GbE RDMA/RoCE Mellanox untuk komunikasi komputasi paralel antar node.

Revisi per 31 Maret 2021 03.53

Partisi pada infrastruktur HPC adalah pembagian grup kluster hardware yang didefinisikan oleh scheduler. Untuk saat ini HPC Aleleon Mk.II membagi partisi menurut hardware komputasi yaitu CPU (bernama epyc) dan GPU (bernama gpu_ampere).

Aleleon lampu natal.jpg

Partisi epyc

Partisi epyc adalah partisi untuk komputasi CPU. Partisi epyc adalah partisi DEFAULT pada SLURM sehingga user tidak perlu mendefnisikan partisi pada SBATCH. Partisi epyc mempunyai spesifikasi komputasi:

  • 3 Node dengan spesifikasi masing-masing:
    • 1x AMD EPYC Rome 7702P 64 cores / 128 threads, 2.0GHz.
    • RAM 256GB DDR4 ECC RDIMM, octo-channel.
    • Network 1 GbE, 10 GbE, 100 GbE.

Partisi gpu_ampere

Partisi gpu_ampere adalah partisi untuk komputasi GPU. User harus mendefinisikan nama partisi gpu_ampere pada SLURM Submission Script untuk menggunakan partisi ini:

#SBATCH --partition=gpu_ampere

Partisi gpu_ampere mempunyai spesifikasi komputasi:

  • 1 Node dengan spesifikasi:
    • 1x AMD Threadripper 3990X 64 cores / 128 threads, 2.9GHz, full power TDP 280W.
    • RAM 128GB DDR4 ECC UDIMM, quad-channel
    • 2x NVIDIA RTX 3090 24GB GDDR6X

Network dan Storage

Semua partisi terhubung dengan network dan storage terpusat:

  • Storage node 20TB RAID10.
  • Storage SCRATCH SSD NVMe PCIe 4.0 1TB.
  • Network 1 GbE untuk manajemen dan koneksi internet.
  • Network 10 GbE untuk komunikasi data ke storage node.
  • Network 100 GbE RDMA/RoCE Mellanox untuk komunikasi komputasi paralel antar node.