HPC & ML Infrastructure Engineering

HPC, 어디서부터 시작해야 할지 막막하신가요?

SSH 접속부터 Slurm 디버깅까지
"Hello World"에서 끝나지 않는 실전 HPC 튜토리얼


어디서부터 시작할지 모르겠다면?

🎓 HPC 처음 배우는 분

SSH, 모듈 시스템, Slurm 기초부터 차근차근

> HPC 101 시리즈

🐧 리눅스/터미널이 낯선 분

터미널 공포증 극복, 필수 명령어 마스터

> Linux 101 시리즈

📺 최신 영상: HPC 101


📰 최근 글

포스트 이런 분께 추천
스페셜 토픽: 클라우드 연동 클라우드 스토리지와 데이터 주고받기
4강: Slurm 작업 디버깅 Job이 PENDING에서 안 넘어갈 때
3강: 패키지 환경 관리 패키지 충돌, 가상환경 헷갈릴 때
2강: 데이터 전송과 파일 관리 클러스터에 파일 옮기는 법
1강: SSH, Modules, Slurm HPC 완전 처음인 분
Linux 101: 터미널 공포증 극복 검은 화면이 무서운 분

About Me

안녕하세요, Will Paik입니다. The Login Node에 오신 것을 환영합니다.

저는 대규모 HPC 환경에서 AI/ML 모델을 확장하고 최적화하는 일을 하고 있습니다. 슈퍼컴퓨팅의 세계에는 늘 미묘한 긴장감이 흐릅니다. 시스템 관리자는 “서버가 죽으면 안 돼!”를 외치고, 연구자는 “무조건 더 빨리 돌려줘!”를 원하죠. 저는 이 둘 사이의 기술적 스윗 스팟(Sweet Spot)을 찾는 역할을 합니다.

현재 본업은 HPC 머신러닝 성능 엔지니어입니다. 낮에는 거대 AI 모델 학습을 위해 대규모 클러스터를 최적화하고, 밤에는 그 원리를 쉽게 전해드리기 위해 방구석 미니 슈퍼컴퓨터를 직접 조립하고(가끔은 태워 먹으며) 실험합니다.

CORE STACK: Slurm Linux Docker/Apptainer PyTorch Distributed Ansible

Cluster Setup
"Function over Form. The physical cluster building process documented on The Login Node."

My Home Cluster

“로그인을 못 하면, 컴퓨터를 못 합니다.”

Hardware Specs (클릭해서 펼치기)
Role Hardware Model Specs
Login Node Lenovo IdeaPad 1 Ryzen 5 7520U, 8GB RAM
Management Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
Visualization Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
Worker Nodes Lenovo ThinkCentre M715q Ryzen 5 2400GE, 16GB RAM
GPU Node HP Envy TE01 Core i7-10700F, 32GB RAM
GTX 1660 Super (6GB)
Storage (Shared via Mgmt) 1TB NVMe SSD (NFS Share)
Network Gigabit Managed Switch 8-Port, VLAN Support
Software Stack (클릭해서 펼치기)
  • OS: Rocky Linux 10
  • Scheduler: Slurm 25
  • Provisioning: Ansible
  • Container: Apptainer
  • Monitoring: Prometheus + Grafana (In Progress)