YouTube2026-03-05

다들 죽기살기 모드" (실리콘밸리)

링크: https://youtu.be/HJRpYF7FKso?si=MmGWCOmtvqrrlUX2

원문/원본: https://youtu.be/HJRpYF7FKso?si=MmGWCOmtvqrrlUX2기존 공개 버전: pogovet.com

🎬 "다들 죽기살기 모드" (실리콘밸리)

▶️ 유튜브

원본 링크: https://youtu.be/HJRpYF7FKso?si=MmGWCOmtvqrrlUX2

🖼️ 4컷 인포그래픽

💡 한 줄 결론

대형언어모델의 경쟁은 아직 끝나지 않았지만, 앞으로의 승부는 모델을 무작정 더 크게 만드는 데 있지 않고 사전학습·강화학습·추론 확장 중 어떤 계산을 어떤 제품에 배치해야 가장 높은 성능 대비 수익을 만들 수 있는지에 달려 있다.

📌 핵심 요점

최근 체감 성능 향상의 중심은 초거대 사전학습 자체보다 검증 가능한 보상을 활용한 강화학습과 긴 추론 시간 확장이었고, 이 조합이 도구 사용·코딩·검증형 작업 능력을 빠르게 끌어올렸다.
초대형 모델 경쟁의 핵심 병목은 훈련비보다 서빙비와 운영비이며, 사용자가 많아질수록 모델 크기와 추론 시간 증가는 곧바로 재무 부담으로 전환된다.
사전학습 스케일링은 여전히 유효하지만, 당장 더 쉬운 성과를 내는 축이 사후학습·추론 확장·컨텍스트·데이터 확장으로 이동하면서 기업의 계산 자원 배분 전략이 바뀌고 있다.
초거대 사전학습은 1만~10만 GPU 규모에서 장애 허용·복구·강결합 네트워크가 핵심이지만, 강화학습은 액터-러너 구조 덕분에 이기종·분산 환경에서 더 유연하게 확장될 수 있다.
최적 해법은 기술 하나의 우열이 아니라 모델 교체 주기, 사용자 수, 쿼리당 비용, 출시 일정, 안전성 검증, 고객 세그먼트까지 함께 고려한 제품 전략 문제다.

🧠 상세 요약

1) 배경과 문제 정의

스케일링 법칙이 끝났느냐보다 더 중요한 질문은, 지금 어떤 종류의 스케일링이 가장 높은 제품 가치를 만드는가다. 영상은 사전학습·강화학습·추론 시간 확장이 모두 성능을 밀어 올릴 수 있다는 점을 인정하면서도, 실제 기업 의사결정에서는 비용 구조와 운영 난이도가 더 결정적이라고 본다.

2) 섹션별 상세 정리

스케일링 법칙의 기본 틀과 세 가지 레버 [00:02]

발표자는 스케일링 법칙을 계산량과 데이터량이 늘어날수록 다음 토큰 예측 성능이 규칙적으로 개선되는 멱법칙 관계로 설명한다.
현재 실무적으로 중요한 축은 사전학습 확장, 강화학습 확장, 추론 시간 계산 확장의 세 가지로 정리된다.

최근 1년의 체감 혁신은 RL과 추론 확장에서 나왔다 [01:26]

검증 가능한 보상을 쓰는 강화학습이 비교적 빠른 성과를 냈고, 추론 시간 확장은 모델이 즉답 대신 더 오래 생각하며 답하게 만들었다.
이 변화는 단순 벤치마크 상승이 아니라 도구 사용, 소프트웨어 엔지니어링, 검증형 문제 해결 능력의 도약으로 체감됐다고 평가한다.

모델이 실제 작업 흐름을 수행하기 시작한 전환점 [02:19]

모델은 긴 토큰 생성 과정에서 API 호출, 결과 확인, 문제 해결 검증 같은 절차를 수행하며 점점 에이전트형 행동을 배웠다.
CLI 사용, Git 관리, 파일 정리, 검색 기반 정보 수집이 가능해지면서 “답변 모델”에서 “작업 수행 모델”로 성격이 바뀌었다는 점이 강조된다.

사전학습은 끝난 것이 아니라 더 비싸고 무거워졌다 [03:19]

진행자는 사전학습에서 쉬운 성과가 고갈됐는지 묻지만, 발표자는 스케일링 자체가 멈췄다고 보지 않는다.
다만 더 큰 사전학습은 기술적으로도 경제적으로도 훨씬 무거워졌고, 그만한 투자가 정당화되는지가 핵심 판단 기준이 된다.

초거대 모델의 경제성은 훈련비보다 서비스 비용이 좌우한다 [03:48]

발표자는 GPT-4급 초대형 모델에서는 학습비 자체보다 수많은 사용자에게 지속적으로 제공하는 비용이 훨씬 더 커질 수 있다고 본다.
DeepSeek 같은 사례도 논문상 훈련비만 보면 작아 보일 수 있지만, 실제로는 클러스터 임대, 엔지니어링, 반복 실험 비용이 함께 붙는다.

제품 관점에서는 “더 좋아졌는가”보다 “돈값 하는가”가 중요하다 [04:33]

어느 정도 자본이 있으면 모델을 학습시키는 것 자체는 가능할 수 있지만, 대규모 사용자 서비스는 수십억 달러 단위 인프라 부담으로 이어질 수 있다.
따라서 기업은 성능 개선의 절대치보다 월간 서빙 비용, 사용자 가치, 해결 과제의 경제성을 함께 계산해야 한다.

더 큰 모델이 실제 문제를 풀어주는 사례도 여전히 존재한다 [05:15]

발표자는 자신의 프로젝트 경험에서 이전엔 해결되지 않던 문제가 더 강한 최신 모델에서 풀렸다고 말한다.
이는 스케일링의 효용이 사라지지 않았음을 보여주지만, 동시에 그 성능 향상이 정확히 어떤 축의 결과인지 분리해 보기 어렵다는 점도 드러낸다.

대규모 인프라 투자는 스케일링 지속을 전제로 움직이고 있다 [06:16]

업계는 컴퓨팅이 계속 커질수록 성능 향상도 이어질 것이라는 전제 아래 기가와트급 데이터센터와 초대형 클러스터를 준비하고 있다.
이미 전력·센터·장비 투자가 장기 계약으로 선행됐다는 점은, 주요 플레이어들이 사전학습 확장의 종료를 믿지 않는다는 신호로 읽힌다.

사전학습의 중요성은 남아 있지만 관심은 더 효율적인 축으로 이동 중이다 [07:41]

발표자는 추론 성능도 결국 훈련 시점의 아키텍처 선택과 사전학습 설계에 크게 좌우된다고 본다.
그러나 현재는 추론 확장, 사후학습, 컨텍스트, 데이터 확장처럼 더 빠르게 성과를 얻는 영역으로 관심이 분산되고 있다.

실제 출시 일정에서는 사후학습이 더 큰 성과를 내기도 한다 [09:09]

한 회사 사례에서 출시 직전의 짧은 테스트와 추가 강화학습이 실제 품질을 눈에 띄게 개선했고, 이로 인해 재출시가 가능해졌다고 설명한다.
이는 현실의 제품팀이 장기 사전학습보다 출시 직전 수주간의 사후학습에 더 높은 ROI를 얻을 수 있음을 시사한다.

초대형 사전학습은 분산시스템 안정성 자체가 본질적 난제다 [10:07]

1000~2000 GPU 수준과 1만~10만 GPU 수준은 완전히 다른 문제이며, 후자에서는 하드웨어 고장과 네트워크 불안정을 전제로 학습 코드를 짜야 한다.
즉 초거대 사전학습 경쟁은 알고리즘 경쟁인 동시에 체크포인팅, 복구, 중복성, 장애 허용 설계 경쟁이기도 하다.

강화학습은 이기종·분산 자원을 활용하기 더 좋은 구조다 [10:58]

사전학습은 많은 GPU를 강하게 결합해야 하지만, 강화학습은 액터가 결과를 생성하고 러너가 업데이트하는 구조라 상대적으로 분산 환경에 잘 맞는다.
이 차이 때문에 향후 계산 자원 경쟁은 “더 큰 단일 클러스터”뿐 아니라 “더 효율적인 글로벌 RL 운영 체계”로도 이동할 수 있다.

장시간 추론의 확장은 강력하지만 서비스화는 별개의 문제다 [12:14]

한 시간 동안 생각하는 모델을 수억 사용자에게 제공하는 문제는 단순 모델 성능이 아니라 시스템 설계와 비용 통제의 문제다.
추론 시간 확장은 특정 작업에서 최고 성능을 만들 수 있지만, 지연시간과 쿼리당 원가가 커질수록 대중 서비스에서는 제약이 심해진다.

결국 핵심은 고정비와 변동비의 최적 조합이다 [12:39]

사전학습은 한 번 투자하면 능력이 축적되는 고정비 성격이 강하고, 추론 확장은 초기 부담은 낮지만 쿼리마다 비용이 발생하는 변동비 구조다.
모델 수명, 교체 주기, 사용자 규모, 고객 단가에 따라 어느 축이 더 유리한지 달라지므로, 정답은 기술 보편론이 아니라 제품 포트폴리오 설계에 있다.

최고 성능보다 수익성 있는 성능이 더 중요해진다 [15:23]

일부 벤치마크에서는 대규모 재학습보다 추론 단계 계산을 늘리는 방식으로 최고 성능을 달성할 수 있다.
그러나 실제 제품에서는 모든 사용자에게 최고 성능이 필요한 것이 아니므로, 사전학습·사후학습·추론 확장의 혼합 비율을 고객군별로 다르게 가져가는 것이 더 현실적인 전략으로 제시된다.

✅ 액션 아이템

현재 운영 중인 모델 라인업별로 사전학습비, 사후학습비, 월간 서빙비, 사용자당 평균 추론 길이를 분리 집계해 어떤 비용이 실제 병목인지 먼저 재무 모델로 분해한다.
코딩 에이전트나 검증형 워크플로가 있다면 같은 작업셋으로 즉답형 설정과 장시간 추론 설정을 A/B 테스트해 성공률, 완료 시간, 툴 호출 수, 쿼리당 원가를 함께 비교한다.
다음 릴리스 계획이 있는 팀이라면 대형 재학습 1회와 출시 직전 2~4주 강화학습/사후학습 루프의 품질 개선폭을 최근 배포 데이터 기준으로 비교 실험한다.
프리미엄 사용자와 대중형 사용자가 섞여 있다면 최고성능 단일 모델 전략 대신 고가 추론 확장형 모델과 저가 빠른 응답형 모델의 이중 상품 구조를 시뮬레이션한다.
1만 GPU 이상 확장을 검토한다면 학습 성능 수치보다 먼저 장애 허용률, 체크포인트 주기, 복구 시간 목표, 네트워크 병목, RL 액터-러너 분리 요건을 별도 문서로 설계한다.

❓ 열린 질문

추론 시간 확장이 최근 성능 개선의 핵심이었다면, 초거대 사전학습 경쟁은 실제 성능 최적화보다 시장 장악력과 자본 장벽 과시에 더 가까워지고 있는 것은 아닌가?
장시간 추론이 코딩·수학·검증형 태스크에서 성능을 높인다는 주장이, 실제 대규모 유료 사용자 환경에서 유지율과 ARPU 개선으로 얼마나 연결되는지 공개 검증 데이터가 충분한가?
모델 교체 주기가 6개월 안팎으로 짧아지는 시장에서, 어느 규모 이상의 사전학습 투자는 고정비 축적이 아니라 회수 불가능한 과잉투자가 되는가?
강화학습이 이기종·분산 환경에 더 잘 맞는다면, 향후 경쟁우위는 최대 단일 클러스터 규모보다 분산 액터 운영과 보상 설계, 학습 안정화를 얼마나 잘 묶어내느냐에서 갈릴 가능성이 더 크지 않은가?

연관 글

엔비디아, 오픈클로 만드나 … GPU를 넘어 AI 에이전트 플랫폼까지 노리는 이유

AI Is a 5-Layer Cake

Jensen Huang

Apple''s New M5 Max Changes the Local AI Story