← 홈으로
YouTube2026-03-05
다들 죽기살기 모드" (실리콘밸리)
링크: https://youtu.be/HJRpYF7FKso?si=MmGWCOmtvqrrlUX2
원문/원본: https://youtu.be/HJRpYF7FKso?si=MmGWCOmtvqrrlUX2기존 공개 버전: pogovet.com
🎬 "다들 죽기살기 모드" (실리콘밸리)
▶️ 유튜브
🖼️ 4컷 인포그래픽

💡 한 줄 결론
대형언어모델의 경쟁은 아직 끝나지 않았지만, 앞으로의 승부는 모델을 무작정 더 크게 만드는 데 있지 않고 사전학습·강화학습·추론 확장 중 어떤 계산을 어떤 제품에 배치해야 가장 높은 성능 대비 수익을 만들 수 있는지에 달려 있다.
📌 핵심 요점
- 최근 체감 성능 향상의 중심은 초거대 사전학습 자체보다 검증 가능한 보상을 활용한 강화학습과 긴 추론 시간 확장이었고, 이 조합이 도구 사용·코딩·검증형 작업 능력을 빠르게 끌어올렸다.
- 초대형 모델 경쟁의 핵심 병목은 훈련비보다 서빙비와 운영비이며, 사용자가 많아질수록 모델 크기와 추론 시간 증가는 곧바로 재무 부담으로 전환된다.
- 사전학습 스케일링은 여전히 유효하지만, 당장 더 쉬운 성과를 내는 축이 사후학습·추론 확장·컨텍스트·데이터 확장으로 이동하면서 기업의 계산 자원 배분 전략이 바뀌고 있다.
- 초거대 사전학습은 1만~10만 GPU 규모에서 장애 허용·복구·강결합 네트워크가 핵심이지만, 강화학습은 액터-러너 구조 덕분에 이기종·분산 환경에서 더 유연하게 확장될 수 있다.
- 최적 해법은 기술 하나의 우열이 아니라 모델 교체 주기, 사용자 수, 쿼리당 비용, 출시 일정, 안전성 검증, 고객 세그먼트까지 함께 고려한 제품 전략 문제다.
🧠 상세 요약
1) 배경과 문제 정의
스케일링 법칙이 끝났느냐보다 더 중요한 질문은, 지금 어떤 종류의 스케일링이 가장 높은 제품 가치를 만드는가다. 영상은 사전학습·강화학습·추론 시간 확장이 모두 성능을 밀어 올릴 수 있다는 점을 인정하면서도, 실제 기업 의사결정에서는 비용 구조와 운영 난이도가 더 결정적이라고 본다.
2) 섹션별 상세 정리
- 스케일링 법칙의 기본 틀과 세 가지 레버 [00:02]
- 발표자는 스케일링 법칙을 계산량과 데이터량이 늘어날수록 다음 토큰 예측 성능이 규칙적으로 개선되는 멱법칙 관계로 설명한다.
- 현재 실무적으로 중요한 축은 사전학습 확장, 강화학습 확장, 추론 시간 계산 확장의 세 가지로 정리된다.
- 최근 1년의 체감 혁신은 RL과 추론 확장에서 나왔다 [01:26]
- 검증 가능한 보상을 쓰는 강화학습이 비교적 빠른 성과를 냈고, 추론 시간 확장은 모델이 즉답 대신 더 오래 생각하며 답하게 만들었다.
- 이 변화는 단순 벤치마크 상승이 아니라 도구 사용, 소프트웨어 엔지니어링, 검증형 문제 해결 능력의 도약으로 체감됐다고 평가한다.
- 모델이 실제 작업 흐름을 수행하기 시작한 전환점 [02:19]
- 모델은 긴 토큰 생성 과정에서 API 호출, 결과 확인, 문제 해결 검증 같은 절차를 수행하며 점점 에이전트형 행동을 배웠다.
- CLI 사용, Git 관리, 파일 정리, 검색 기반 정보 수집이 가능해지면서 “답변 모델”에서 “작업 수행 모델”로 성격이 바뀌었다는 점이 강조된다.
- 사전학습은 끝난 것이 아니라 더 비싸고 무거워졌다 [03:19]
- 진행자는 사전학습에서 쉬운 성과가 고갈됐는지 묻지만, 발표자는 스케일링 자체가 멈췄다고 보지 않는다.
- 다만 더 큰 사전학습은 기술적으로도 경제적으로도 훨씬 무거워졌고, 그만한 투자가 정당화되는지가 핵심 판단 기준이 된다.
- 초거대 모델의 경제성은 훈련비보다 서비스 비용이 좌우한다 [03:48]
- 발표자는 GPT-4급 초대형 모델에서는 학습비 자체보다 수많은 사용자에게 지속적으로 제공하는 비용이 훨씬 더 커질 수 있다고 본다.
- DeepSeek 같은 사례도 논문상 훈련비만 보면 작아 보일 수 있지만, 실제로는 클러스터 임대, 엔지니어링, 반복 실험 비용이 함께 붙는다.
- 제품 관점에서는 “더 좋아졌는가”보다 “돈값 하는가”가 중요하다 [04:33]
- 어느 정도 자본이 있으면 모델을 학습시키는 것 자체는 가능할 수 있지만, 대규모 사용자 서비스는 수십억 달러 단위 인프라 부담으로 이어질 수 있다.
- 따라서 기업은 성능 개선의 절대치보다 월간 서빙 비용, 사용자 가치, 해결 과제의 경제성을 함께 계산해야 한다.
- 더 큰 모델이 실제 문제를 풀어주는 사례도 여전히 존재한다 [05:15]
- 발표자는 자신의 프로젝트 경험에서 이전엔 해결되지 않던 문제가 더 강한 최신 모델에서 풀렸다고 말한다.
- 이는 스케일링의 효용이 사라지지 않았음을 보여주지만, 동시에 그 성능 향상이 정확히 어떤 축의 결과인지 분리해 보기 어렵다는 점도 드러낸다.
- 대규모 인프라 투자는 스케일링 지속을 전제로 움직이고 있다 [06:16]
- 업계는 컴퓨팅이 계속 커질수록 성능 향상도 이어질 것이라는 전제 아래 기가와트급 데이터센터와 초대형 클러스터를 준비하고 있다.
- 이미 전력·센터·장비 투자가 장기 계약으로 선행됐다는 점은, 주요 플레이어들이 사전학습 확장의 종료를 믿지 않는다는 신호로 읽힌다.
- 사전학습의 중요성은 남아 있지만 관심은 더 효율적인 축으로 이동 중이다 [07:41]
- 발표자는 추론 성능도 결국 훈련 시점의 아키텍처 선택과 사전학습 설계에 크게 좌우된다고 본다.
- 그러나 현재는 추론 확장, 사후학습, 컨텍스트, 데이터 확장처럼 더 빠르게 성과를 얻는 영역으로 관심이 분산되고 있다.
- 실제 출시 일정에서는 사후학습이 더 큰 성과를 내기도 한다 [09:09]
- 한 회사 사례에서 출시 직전의 짧은 테스트와 추가 강화학습이 실제 품질을 눈에 띄게 개선했고, 이로 인해 재출시가 가능해졌다고 설명한다.
- 이는 현실의 제품팀이 장기 사전학습보다 출시 직전 수주간의 사후학습에 더 높은 ROI를 얻을 수 있음을 시사한다.
- 초대형 사전학습은 분산시스템 안정성 자체가 본질적 난제다 [10:07]
- 1000~2000 GPU 수준과 1만~10만 GPU 수준은 완전히 다른 문제이며, 후자에서는 하드웨어 고장과 네트워크 불안정을 전제로 학습 코드를 짜야 한다.
- 즉 초거대 사전학습 경쟁은 알고리즘 경쟁인 동시에 체크포인팅, 복구, 중복성, 장애 허용 설계 경쟁이기도 하다.
- 강화학습은 이기종·분산 자원을 활용하기 더 좋은 구조다 [10:58]
- 사전학습은 많은 GPU를 강하게 결합해야 하지만, 강화학습은 액터가 결과를 생성하고 러너가 업데이트하는 구조라 상대적으로 분산 환경에 잘 맞는다.
- 이 차이 때문에 향후 계산 자원 경쟁은 “더 큰 단일 클러스터”뿐 아니라 “더 효율적인 글로벌 RL 운영 체계”로도 이동할 수 있다.
- 장시간 추론의 확장은 강력하지만 서비스화는 별개의 문제다 [12:14]
- 한 시간 동안 생각하는 모델을 수억 사용자에게 제공하는 문제는 단순 모델 성능이 아니라 시스템 설계와 비용 통제의 문제다.
- 추론 시간 확장은 특정 작업에서 최고 성능을 만들 수 있지만, 지연시간과 쿼리당 원가가 커질수록 대중 서비스에서는 제약이 심해진다.
- 결국 핵심은 고정비와 변동비의 최적 조합이다 [12:39]
- 사전학습은 한 번 투자하면 능력이 축적되는 고정비 성격이 강하고, 추론 확장은 초기 부담은 낮지만 쿼리마다 비용이 발생하는 변동비 구조다.
- 모델 수명, 교체 주기, 사용자 규모, 고객 단가에 따라 어느 축이 더 유리한지 달라지므로, 정답은 기술 보편론이 아니라 제품 포트폴리오 설계에 있다.
- 최고 성능보다 수익성 있는 성능이 더 중요해진다 [15:23]
- 일부 벤치마크에서는 대규모 재학습보다 추론 단계 계산을 늘리는 방식으로 최고 성능을 달성할 수 있다.
- 그러나 실제 제품에서는 모든 사용자에게 최고 성능이 필요한 것이 아니므로, 사전학습·사후학습·추론 확장의 혼합 비율을 고객군별로 다르게 가져가는 것이 더 현실적인 전략으로 제시된다.
✅ 액션 아이템
- 현재 운영 중인 모델 라인업별로 사전학습비, 사후학습비, 월간 서빙비, 사용자당 평균 추론 길이를 분리 집계해 어떤 비용이 실제 병목인지 먼저 재무 모델로 분해한다.
- 코딩 에이전트나 검증형 워크플로가 있다면 같은 작업셋으로 즉답형 설정과 장시간 추론 설정을 A/B 테스트해 성공률, 완료 시간, 툴 호출 수, 쿼리당 원가를 함께 비교한다.
- 다음 릴리스 계획이 있는 팀이라면 대형 재학습 1회와 출시 직전 2~4주 강화학습/사후학습 루프의 품질 개선폭을 최근 배포 데이터 기준으로 비교 실험한다.
- 프리미엄 사용자와 대중형 사용자가 섞여 있다면 최고성능 단일 모델 전략 대신 고가 추론 확장형 모델과 저가 빠른 응답형 모델의 이중 상품 구조를 시뮬레이션한다.
- 1만 GPU 이상 확장을 검토한다면 학습 성능 수치보다 먼저 장애 허용률, 체크포인트 주기, 복구 시간 목표, 네트워크 병목, RL 액터-러너 분리 요건을 별도 문서로 설계한다.
❓ 열린 질문
- 추론 시간 확장이 최근 성능 개선의 핵심이었다면, 초거대 사전학습 경쟁은 실제 성능 최적화보다 시장 장악력과 자본 장벽 과시에 더 가까워지고 있는 것은 아닌가?
- 장시간 추론이 코딩·수학·검증형 태스크에서 성능을 높인다는 주장이, 실제 대규모 유료 사용자 환경에서 유지율과 ARPU 개선으로 얼마나 연결되는지 공개 검증 데이터가 충분한가?
- 모델 교체 주기가 6개월 안팎으로 짧아지는 시장에서, 어느 규모 이상의 사전학습 투자는 고정비 축적이 아니라 회수 불가능한 과잉투자가 되는가?
- 강화학습이 이기종·분산 환경에 더 잘 맞는다면, 향후 경쟁우위는 최대 단일 클러스터 규모보다 분산 액터 운영과 보상 설계, 학습 안정화를 얼마나 잘 묶어내느냐에서 갈릴 가능성이 더 크지 않은가?
