HPC & ML Infrastructure Engineering
HPC, 어디서부터 시작해야 할지 막막하신가요?
SSH 접속부터 Slurm 디버깅까지
"Hello World"에서 끝나지 않는 실전 HPC 튜토리얼
어디서부터 시작할지 모르겠다면?
📺 최신 영상: HPC 101
📰 최근 글
| 포스트 | 이런 분께 추천 |
|---|---|
| 스페셜 토픽: 클라우드 연동 | 클라우드 스토리지와 데이터 주고받기 |
| 4강: Slurm 작업 디버깅 | Job이 PENDING에서 안 넘어갈 때 |
| 3강: 패키지 환경 관리 | 패키지 충돌, 가상환경 헷갈릴 때 |
| 2강: 데이터 전송과 파일 관리 | 클러스터에 파일 옮기는 법 |
| 1강: SSH, Modules, Slurm | HPC 완전 처음인 분 |
| Linux 101: 터미널 공포증 극복 | 검은 화면이 무서운 분 |
About Me
안녕하세요, Will Paik입니다. The Login Node에 오신 것을 환영합니다.
저는 대규모 HPC 환경에서 AI/ML 모델을 확장하고 최적화하는 일을 하고 있습니다. 슈퍼컴퓨팅의 세계에는 늘 미묘한 긴장감이 흐릅니다. 시스템 관리자는 “서버가 죽으면 안 돼!”를 외치고, 연구자는 “무조건 더 빨리 돌려줘!”를 원하죠. 저는 이 둘 사이의 기술적 스윗 스팟(Sweet Spot)을 찾는 역할을 합니다.
현재 본업은 HPC 머신러닝 성능 엔지니어입니다. 낮에는 거대 AI 모델 학습을 위해 대규모 클러스터를 최적화하고, 밤에는 그 원리를 쉽게 전해드리기 위해 방구석 미니 슈퍼컴퓨터를 직접 조립하고(가끔은 태워 먹으며) 실험합니다.
CORE STACK: Slurm Linux Docker/Apptainer PyTorch Distributed Ansible
"Function over Form. The physical cluster building process documented on The Login Node."
My Home Cluster
“로그인을 못 하면, 컴퓨터를 못 합니다.”
Hardware Specs (클릭해서 펼치기)
| Role | Hardware Model | Specs |
|---|---|---|
| Login Node | Lenovo IdeaPad 1 | Ryzen 5 7520U, 8GB RAM |
| Management | Lenovo ThinkCentre M715q | Ryzen 5 2400GE, 16GB RAM |
| Visualization | Lenovo ThinkCentre M715q | Ryzen 5 2400GE, 16GB RAM |
| Worker Nodes | Lenovo ThinkCentre M715q | Ryzen 5 2400GE, 16GB RAM |
| GPU Node | HP Envy TE01 | Core i7-10700F, 32GB RAM GTX 1660 Super (6GB) |
| Storage | (Shared via Mgmt) | 1TB NVMe SSD (NFS Share) |
| Network | Gigabit Managed Switch | 8-Port, VLAN Support |
Software Stack (클릭해서 펼치기)
- OS: Rocky Linux 10
- Scheduler: Slurm 25
- Provisioning: Ansible
- Container: Apptainer
- Monitoring: Prometheus + Grafana (In Progress)