ChatGPT가 빨라진다 — OpenAI의 100억 달러 속도 전쟁

ChatGPT한테 질문 던지고 답 기다릴 때 그 묘한 긴장감, 아시죠? 커서 깜빡이다가 단어가 하나씩 튀어나오기 시작하는 그 순간. 평균 6초 정도 걸려요. 별거 아닌 것 같은데, 요즘은 이 몇 초가 승부를 가른다고 해요.

AI 전쟁의 전선이 학습에서 추론 속도로 이동하고 있다

2026.02.11 / AI / 8분 읽기

100억 달러로 산 '0.1초'

2026년 1월, OpenAI가 Cerebras라는 칩 회사와 100억 달러 넘는 계약을 맺었어요. 2028년까지 750메가와트(MW)의 컴퓨팅 파워를 공급받는 건데요, 목표는 하나예요. ChatGPT를 지금보다 15배 빠르게 만드는 것.

근데 왜 이렇게 큰 돈을 속도에 쓸까요? AI가 똑똑해지는 건 이제 당연하고, 진짜 경쟁은 '얼마나 빨리 대답하느냐'로 넘어갔거든요. 코드 짜주는데 30초 걸리면 쓸 만한데, 2분 걸리면 답답해서 창 닫게 되잖아요. 그 차이가 바로 인프라예요.

Cerebras가 뭐길래? — 세계에서 가장 큰 AI 칩

Cerebras가 만든 칩 이름은 WSE-3 (Wafer-Scale Engine 3세대)인데요, 이게 진짜 괴물이에요. 트랜지스터가 4조 개 들어가요. Nvidia에서 제일 잘나가는 H100 칩이 800억 개니까, 56배 큰 셈이죠.

크기만 큰 게 아니라 실제로 빨라요. 벤치마크 테스트 결과를 보면:

GPT 모델 돌릴 때 초당 3,000 토큰 생성
Llama 3.2 같은 큰 모델도 초당 2,100 토큰 (GPU보다 16배 빠름)
전반적으로 기존 GPU 시스템 대비 최대 15배 빠른 속도

비유하자면 GPU가 택배 트럭이면, Cerebras는 화물 열차예요. 한 번에 실을 수 있는 양 자체가 다르고, 속도도 다르죠.

항목	Nvidia H100	Cerebras WSE-3	차이
트랜지스터	800억 개	4조 개	56배
AI 코어 수	16,896개	900,000개	53배
추론 속도	기준	최대 15배 빠름	15x
칩 크기	814 mm²	46,255 mm²	57배

근데 웃긴 건, 이렇게 큰 칩을 만들려면 웨이퍼(반도체 원판) 하나를 통째로 써야 한대요. 보통은 웨이퍼 하나에서 여러 개 칩을 잘라 쓰는데, Cerebras는 아예 자르지 않고 전부 하나로. 그래서 이름이 '웨이퍼 스케일'인 거예요.

속도가 왜 중요해? — 레이턴시가 UX를 결정한다

AI 성능 얘기할 때 두 가지 시간이 중요해요.

TTFT (Time to First Token, 첫 토큰까지 걸리는 시간) — 질문 던지고 첫 단어가 나올 때까지의 시간이에요. 실시간 챗봇이나 음성 AI에서는 이게 체감 속도를 결정하죠. 1초 안에 답 시작하면 "빠르다"고 느끼고, 5초 걸리면 "뭐하나?" 싶거든요.

TPOT (Time per Output Token, 토큰당 생성 시간) — 답변이 얼마나 매끄럽게 이어지느냐예요. 긴 코드나 문서 만들 때 중요해요. 한 단어씩 뚝뚝 끊기면 기다리는 게 고역이잖아요.

실제로 개발자 커뮤니티 글들 보면, ChatGPT로 코드 리뷰하다가 중간에 멈춰서 작업 흐름이 끊긴다는 얘기가 꽤 나와요. 몇 초 차이가 별거 아닌 것 같지만, 하루에 수십 번 쓰다 보면 그게 쌓여서 생산성 차이로 이어지죠.

앞으로는 AI가 단순 답변만 하는 게 아니라 에이전트처럼 여러 작업을 연쇄적으로 처리하게 될 거예요. 메일 쓰고, 자료 찾고, 일정 잡고. 이럴 때 각 단계마다 5초씩 걸리면 전체 워크플로우가 느려지잖아요. 그래서 OpenAI는 지금 속도에 투자하는 거예요.

Nvidia 독주 끝났다 — AI 칩 전쟁의 새 국면

AI 칩 시장 얘기하면 다들 Nvidia 떠올리죠. 맞아요, 학습(training) 시장은 아직도 Nvidia가 압도적이에요. GPT 같은 거대 모델 처음 만들 때는 Nvidia GPU 수천 개를 묶어서 써야 하거든요.

근데 추론(inference, AI가 실제로 답변 생성하는 과정) 시장은 얘기가 달라요. 여기는 범용 GPU보다 특화된 칩이 유리한 영역이에요. 마치 F1 경주에서는 슈퍼카보다 레이싱카가 빠른 것처럼요.

2026년 들어서 특화 칩 시장이 폭발하고 있어요:

Etched: $500M 펀딩 받고 Nvidia GPU 대비 10-20배 전력 효율 내세움
Groq: Nvidia가 수십억 달러 들여서 인수할 정도로 기술력 인정받음
Qualcomm AI200: 메모리가 768GB로 Nvidia B200의 4배 (큰 모델을 한 칩에 다 올릴 수 있음)
Microsoft: 아예 자체 AI 추론 칩 발표 (2026년 1월)

시장 전망도 이걸 반영해요. 2026년 커스텀 ASIC(특화 칩) 출하량은 44.6% 성장 예상인데, GPU는 16.1%만 늘어날 거래요.

특성	GPU (Nvidia 등)	ASIC (Cerebras, Groq 등)
범용성	학습+추론 모두 가능	추론 특화
속도	보통	매우 빠름 (10-15배)
전력 효율	보통	10-20배 효율
가격	높음	매우 높음 (초기 투자)
생태계	성숙	초기 단계

왜 이렇게 급변했을까요? 2025년부터 전력이 컴퓨팅을 대체하는 병목이 됐거든요. AI 데이터센터 하나 돌리는데 들어가는 전기세가 장난이 아니에요. 그래서 이제는 "얼마나 빠른가"보다 "같은 전력으로 얼마나 빠른가"가 더 중요해진 거죠.

OpenAI는 왜 Cerebras를 택했나?

OpenAI는 이미 Nvidia, AMD 칩을 대량으로 쓰고 있어요. 그런데 왜 Cerebras를 추가했을까요?

다각화 전략이에요. Nvidia 한 곳에만 의존하면 공급 문제 생겼을 때 속수무책이잖아요. 게다가 추론 속도 경쟁에서 이기려면 '가장 빠른 칩'이 필요한데, 그게 지금은 Cerebras거든요.

계약 내용을 보면:

750MW의 컴퓨팅 파워 — 웬만한 중소도시 전력 소비량 수준
2026년 초부터 단계적 배치 — 2028년까지 전체 용량 완성
추론 워크로드 특화 — 코드 생성, 이미지 생성, AI 에이전트 같은 실시간 작업에 투입

Cerebras 입장에서도 이 딜은 게임체인저예요. 그동안은 G42라는 UAE 회사 매출이 전체의 87%였는데, 이제 OpenAI라는 든든한 고객을 확보한 거죠. IPO 준비하면서 밸류에이션 $22B에 $1B 펀딩 추진 중이래요.

양사 모두 win-win인 셈이에요. OpenAI는 속도를, Cerebras는 안정성을.

속도가 곧 경쟁력인 시대

그래서 우리가 쓰는 ChatGPT가 진짜 빨라질까요? 아마 체감할 수준은 될 거예요. 특히 코드 생성이나 긴 문서 작성할 때 확연히 차이 날 거라고 해요. 배치가 단계적이라서 모든 요청이 한 번에 빨라지진 않겠지만, 2026년 중반쯤이면 일부 워크로드에서는 눈에 띄게 달라질 것 같아요.

업계 판도는 어떻게 될까요? Google, Anthropic(Claude 만드는 곳), Meta 같은 경쟁사들도 가만히 있진 않을 거예요. Google은 이미 TPU라는 자체 칩 쓰고 있고, Anthropic도 AWS와 긴밀하게 협력 중이거든요. 추론 속도 경쟁이 본격화되면 결국 사용자한테는 좋은 일이죠. 더 빠르고, 더 저렴한 AI를 쓸 수 있을 테니까요.

남은 질문은 이거예요. 속도가 빨라지면 AI가 할 수 있는 영역도 확 넓어질까요? 실시간 번역, 음성 비서, 협업 도구… 지금은 레이턴시 때문에 못 하는 것들이 풀릴 수 있어요. 100억 달러를 건 OpenAI의 베팅이 맞는지는, 우리가 곧 체감하게 될 것 같네요.

참고자료

- OpenAI signs deal, worth $10B, for compute from Cerebras | TechCrunch
- Cerebras scores OpenAI deal worth over $10 billion | CNBC
- OpenAI partners with Cerebras | OpenAI
- OpenAI Partners with Cerebras to Deploy 750MW Wafer-Scale Systems
- Product - Chip - Cerebras
- Nvidia just admitted the general-purpose GPU era is ending | VentureBeat
- OpenAI Reportedly Discontent With NVIDIA GPUs for Inference | TrendForce
- Chat GPT Response Time: Maximising Efficiency and Speed
- AI Search Latency Metrics Guide