2조(2,000,000,000,000)개의 숫자가 곱하기, 더하기를 반복해서
하나의 단어를 만들어내는 과정을 직접 눈으로 확인하세요.
01
📊
파라미터 = 엑셀 셀
AI 모델의 파라미터 2조 개는 엑셀 시트의 셀 2조 칸과 같습니다. 각 셀에는 -1 ~ 1 사이의 숫자(가중치)가 저장되어 있어요.
02
⚡
추론 = 순서대로 계산
토큰(단어 조각)이 들어오면 레이어 1 → 2 → ... → 120까지 순서대로 셀을 통과하며 계산됩니다. 엑셀의 자동 계산과 동일!
03
🎯
결과 = 다음 단어 확률
모든 계산이 끝나면 "다음에 올 단어"의 확률표가 나옵니다. "대한민국의 수도는" → "서울" 95%
🔄 추론 파이프라인 — 토큰 하나가 탄생하는 여정
각 단계를 클릭하면 상세 설명을 볼 수 있어요. "재생"을 누르면 토큰이 파이프라인을 통과합니다.
✂️
토크나이저
텍스트 → 토큰
🔢
임베딩 + RoPE
토큰 → 숫자 벡터
👀
GQA 어텐션
문맥 파악
🧮
FFN + SwiGLU
행렬 곱셈 + 잔차
🔁
×120 레이어
반복 정제
🎰
Softmax
확률 → 토큰 선택
🚧 GPU 대역폭 병목 — 왜 추론이 느린 걸까?
2T 모델의 파라미터 = 약 4TB (FP16 기준, 파라미터당 2바이트).
토큰을 하나 생성할 때마다 이 4TB를 GPU가 전부 한 번씩 읽어야 합니다.
문제는 GPU가 충분히 빨라도, 데이터를 실어 나르는 통로(대역폭)가 병목이 된다는 거예요.
H100(80GB) 기준 최소 50장, B200(192GB) 기준 21장 이상이 필요합니다.
💾
시스템 RAM
1~2TB DDR5-4800
64 GB/s (단방향)
PCIe 5.0 x16 ⚠️ 병목
⚡
GPU VRAM
HBM3e 80GB ×8
3,350 GB/s
HBM3e 내부 대역폭
🔥
GPU 연산 코어
FP16 ~2 PFLOPS
💡 핵심 인사이트: 2T 모델(4TB)이 토큰 하나를 생성하려면 GPU가 4TB를 읽어야 합니다.
• H100 HBM3e 대역폭 3,350 GB/s → GPU 8장 합산 26.8TB/s → 약 0.15초/토큰
• 만약 VRAM에 다 안 들어가서 CPU RAM에서 PCIe(64GB/s)로 전송하면 → 62.5초/토큰 😱
• 그래서 H100 기준 50장+로 VRAM 확보하고, NVLink 4.0(900GB/s)로 GPU끼리 연결합니다.
• 차세대 B200은 HBM3e 8TB/s + NVLink 5.0 1,800GB/s로 절반의 GPU로 동일 성능 가능.
🔥 가중치 행렬 히트맵 — 파라미터의 실제 모습
아래 격자의 한 칸 한 칸이 파라미터 1개입니다. 2T 모델에는 이런 격자가 수백만 장 있어요.
붉은색 = 음수, 녹색 = 양수. 마우스를 올려 값을 확인해보세요.
-1.0+1.0
📊 엑셀처럼 보는 파라미터 연산
각 셀 = 파라미터 1개. 입력값이 들어오면 각 셀의 가중치를 곱하고 더해서 다음 층으로 전달합니다.
2T 모델에서는 이 격자가 12,288행 × 12,288열 × 120레이어 규모입니다.
입력
Layer 1
Layer 2
Layer 3
출력
💡 각 셀의 공식: output = SwiGLU(입력₁×가중치₁ + 입력₂×가중치₂ + ... + 편향) → 결과는 -1 ~ 1 사이
🕸️ 뉴런 네트워크 — 파라미터가 연결된 모습
각 동그라미(뉴런)는 수천 개의 파라미터(선)와 연결됩니다.
선의 두께 = 가중치 크기. 마우스를 올리면 해당 뉴런의 연결을 강조합니다.
입력 뉴런
은닉 뉴런
출력 뉴런
양수 가중치
음수 가중치
📐 모델별 파라미터 수 비교
파라미터가 많을수록 더 복잡한 패턴을 학습할 수 있습니다. 2T 모델은 GPT-2 대비 파라미터가 1,333배나 많습니다.
🚀 추론 시뮬레이션 — 2T 모델 실시간 토큰 생성
문장을 입력하고 "추론 시작"을 누르면, 각 토큰이 2조 개 파라미터를 통과해 다음 토큰을 생성하는 과정을 시뮬레이션합니다.
0
처리된 토큰
0
연산 횟수 (조)
0 / 120
현재 레이어
—
최고 확률
입력 후 "추론 시작" 버튼을 눌러주세요
📝 핵심 정리 — 3줄 요약
1
AI의 파라미터 = 엑셀 셀 2조 칸. 각 칸에는 -1~1 사이 숫자(가중치)가 들어있고, 학습(training)을 통해 조정된 것이다. 저장 용량만 약 4TB.
2
추론(inference) = 입력 토큰이 120개 레이어를 순서대로 통과하며 곱셈+덧셈을 반복하는 것. 토큰 하나 생성에 약 4조 번 연산.
3
속도의 병목 = GPU 메모리 대역폭. 연산 능력보다 데이터를 실어 나르는 속도가 한계. 그래서 GPU를 여러 장 묶고 양자화(quantization)로 모델을 압축한다.