Interactive Demo · 2T Parameter Model

AI는 어떻게
다음 단어를 아는 걸까?

2조(2,000,000,000,000)개의 숫자가 곱하기, 더하기를 반복해서
하나의 단어를 만들어내는 과정을 직접 눈으로 확인하세요.

📊

파라미터 = 엑셀 셀

AI 모델의 파라미터 2조 개는 엑셀 시트의 셀 2조 칸과 같습니다. 각 셀에는 -1 ~ 1 사이의 숫자(가중치)가 저장되어 있어요.

⚡

추론 = 순서대로 계산

토큰(단어 조각)이 들어오면 레이어 1 → 2 → ... → 120까지 순서대로 셀을 통과하며 계산됩니다. 엑셀의 자동 계산과 동일!

🎯

결과 = 다음 단어 확률

모든 계산이 끝나면 "다음에 올 단어"의 확률표가 나옵니다. "대한민국의 수도는" → "서울" 95%

🔄 추론 파이프라인 — 토큰 하나가 탄생하는 여정

각 단계를 클릭하면 상세 설명을 볼 수 있어요. "재생"을 누르면 토큰이 파이프라인을 통과합니다.

✂️

토크나이저

텍스트 → 토큰

🔢

임베딩 + RoPE

토큰 → 숫자 벡터

👀

GQA 어텐션

문맥 파악

🧮

FFN + SwiGLU

행렬 곱셈 + 잔차

🔁

×120 레이어

반복 정제

🎰

Softmax

확률 → 토큰 선택

🚧 GPU 대역폭 병목 — 왜 추론이 느린 걸까?

2T 모델의 파라미터 = 약 4TB (FP16 기준, 파라미터당 2바이트). 토큰을 하나 생성할 때마다 이 4TB를 GPU가 전부 한 번씩 읽어야 합니다. 문제는 GPU가 충분히 빨라도, 데이터를 실어 나르는 통로(대역폭)가 병목이 된다는 거예요. H100(80GB) 기준 최소 50장, B200(192GB) 기준 21장 이상이 필요합니다.

💾

시스템 RAM

1~2TB DDR5-4800

64 GB/s (단방향)

PCIe 5.0 x16 ⚠️ 병목

⚡

GPU VRAM

HBM3e 80GB ×8

3,350 GB/s

HBM3e 내부 대역폭

🔥

GPU 연산 코어

FP16 ~2 PFLOPS

💡 핵심 인사이트: 2T 모델(4TB)이 토큰 하나를 생성하려면 GPU가 4TB를 읽어야 합니다.
• H100 HBM3e 대역폭 3,350 GB/s → GPU 8장 합산 26.8TB/s → 약 0.15초/토큰
• 만약 VRAM에 다 안 들어가서 CPU RAM에서 PCIe(64GB/s)로 전송하면 → 62.5초/토큰 😱
• 그래서 H100 기준 50장+로 VRAM 확보하고, NVLink 4.0(900GB/s)로 GPU끼리 연결합니다.
• 차세대 B200은 HBM3e 8TB/s + NVLink 5.0 1,800GB/s로 절반의 GPU로 동일 성능 가능.

🔥 가중치 행렬 히트맵 — 파라미터의 실제 모습

아래 격자의 한 칸 한 칸이 파라미터 1개입니다. 2T 모델에는 이런 격자가 수백만 장 있어요. 붉은색 = 음수, 녹색 = 양수. 마우스를 올려 값을 확인해보세요.

-1.0

+1.0

📊 엑셀처럼 보는 파라미터 연산

각 셀 = 파라미터 1개. 입력값이 들어오면 각 셀의 가중치를 곱하고 더해서 다음 층으로 전달합니다. 2T 모델에서는 이 격자가 12,288행 × 12,288열 × 120레이어 규모입니다.

💡 각 셀의 공식: output = SwiGLU(입력₁×가중치₁ + 입력₂×가중치₂ + ... + 편향) → 결과는 -1 ~ 1 사이

🕸️ 뉴런 네트워크 — 파라미터가 연결된 모습

각 동그라미(뉴런)는 수천 개의 파라미터(선)와 연결됩니다. 선의 두께 = 가중치 크기. 마우스를 올리면 해당 뉴런의 연결을 강조합니다.

입력 뉴런

은닉 뉴런

출력 뉴런

양수 가중치

음수 가중치

📐 모델별 파라미터 수 비교

파라미터가 많을수록 더 복잡한 패턴을 학습할 수 있습니다. 2T 모델은 GPT-2 대비 파라미터가 1,333배나 많습니다.

🚀 추론 시뮬레이션 — 2T 모델 실시간 토큰 생성

문장을 입력하고 "추론 시작"을 누르면, 각 토큰이 2조 개 파라미터를 통과해 다음 토큰을 생성하는 과정을 시뮬레이션합니다.

처리된 토큰

연산 횟수 (조)

0 / 120

현재 레이어

—

최고 확률

입력 후 "추론 시작" 버튼을 눌러주세요

📝 핵심 정리 — 3줄 요약

AI의 파라미터 = 엑셀 셀 2조 칸. 각 칸에는 -1~1 사이 숫자(가중치)가 들어있고, 학습(training)을 통해 조정된 것이다. 저장 용량만 약 4TB.

추론(inference) = 입력 토큰이 120개 레이어를 순서대로 통과하며 곱셈+덧셈을 반복하는 것. 토큰 하나 생성에 약 4조 번 연산.

속도의 병목 = GPU 메모리 대역폭. 연산 능력보다 데이터를 실어 나르는 속도가 한계. 그래서 GPU를 여러 장 묶고 양자화(quantization)로 모델을 압축한다.

AI는 어떻게다음 단어를 아는 걸까?

파라미터 = 엑셀 셀

추론 = 순서대로 계산

결과 = 다음 단어 확률

AI는 어떻게
다음 단어를 아는 걸까?