YouTube2026-03-04

알파고 마피아''가 바라본 AI의 미래…LLM 뛰어넘을 AI의 다음 혁신은?

링크: https://youtu.be/tM9NgV 4J5M?si=5uvdNftIt90PSUEe

원문/원본: https://youtu.be/tM9NgV_4J5M기존 공개 버전: pogovet.com

🎬 알파고 마피아'가 바라본 AI의 미래…LLM 뛰어넘을 AI의 다음 혁신은? | 김인엽의 실리콘밸리나우

▶️ 유튜브

원본 링크: https://youtu.be/tM9NgV_4J5M?si=5uvdNftIt90PSUEe

🖼️ 4컷 인포그래픽

💡 한 줄 결론

알파고의 37수가 남긴 진짜 메시지는 AI의 다음 승부처가 단순한 인간 데이터 모방이 아니라, 스스로 경험하고 보상을 최적화하며 새로운 해법을 찾는 학습 구조라는 점이다. 투자·전략 관점에서도 다음 파도는 트랜스포머 자체보다 강화학습, 에이전트 실행, 가치 함수 설계에 있다.

📌 핵심 요점

알파고 37수는 인간 기보의 평균적 선택을 복제한 결과가 아니라, 승률을 극대화하는 탐색 과정에서 나온 비직관적 최적해였고 AI의 창의성 논쟁을 뒤집었다.
알파고 개발 경험은 AI 성능 향상이 전문가 예상보다 훨씬 빠르게 임계점을 돌파할 수 있음을 보여줬고, 현재도 같은 과소평가가 반복되고 있다는 경고로 이어진다.
데이비드 실버는 인간 데이터를 더 많이 넣는 방식만으로는 수학·코딩·과학 같은 영역에서 초인적 성능에 도달하기 어렵다고 보고, 스케일링 둔화를 핵심 제약으로 지목한다.
차세대 대안으로는 강화학습 기반의 경험 축적형 학습이 부상하며, 실제 환경과 상호작용하면서 보상 신호를 통해 전략을 형성하는 구조가 다시 중심에 올라오고 있다.
Reflection AI, 인텔리전스, H 같은 알파고 출신 창업 흐름은 오픈 에이전트, 경험 생성, 가치 함수 설계가 차세대 AI 생태계의 핵심 경쟁축이 될 가능성을 보여준다.

🧠 상세 요약

1) 배경과 문제 정의

이 영상의 출발점은 단순히 알파고의 명장면을 회고하는 데 있지 않다. 알파고를 만든 핵심 연구자들이 왜 지금 트랜스포머 이후의 학습 패러다임을 다시 고민하는지, 그리고 그 판단의 기준이 무엇인지를 추적한다. 관찰 포인트는 명확하다. 인간 데이터 모방이 어디서 막히는지, 그 다음 성능 도약은 어떤 학습 구조에서 나올지다.

2) 섹션별 상세 정리

37수는 AI를 바라보는 기준 자체를 바꿨다 [00:00]

2016년 이세돌과의 대국 2국에서 나온 37수는 인간 기사와 해설진이 거의 선택하지 않을 수로 받아들여졌지만, 결과적으로 판세를 뒤집는 결정적 수가 됐다.
현장의 딥마인드 연구자들조차 순간적으로 시스템 오류를 의심했을 만큼 비상식적이었지만, 내부 평가값은 그 수를 강하게 지지하고 있었다.

창의성은 인간 고유물이라는 전제가 흔들렸다 [00:47]

37수 이후 AI는 단순히 인간 기보를 잘 흉내 내는 도구가 아니라, 인간이 떠올리지 못한 해법을 제시하는 존재로 인식되기 시작했다.
이후 바둑에서는 인간이 AI를 가르치는 구조가 아니라, 인간 최고수들이 AI의 수를 학습하는 구조로 권위가 이동했다.

알파고 핵심 개발자들의 현재를 추적한다 [01:13]

영상은 알파고 이후 10년이 지난 시점에서 당시 핵심 멤버들이 어디로 갔고, 무엇을 다음 승부처로 보고 있는지 따라간다.
인터뷰 중심 인물인 안토니 홀르티어는 알파고, 알파고 제로, 뮤제로, 제미나이까지 거친 인물로, 한 세대의 AI 진화를 모두 통과한 연구자다.

알파고는 개발팀조차 실력을 완전히 측정하기 어려운 시스템이었다 [01:44]

안토니는 당시 알파고가 너무 빠르게 강해져 기존 평가 방식만으로 실제 수준을 가늠하기 어려웠다고 회고한다.
결국 다른 버전의 알파고끼리 붙이거나, 인간 최고수와의 대국을 통해서만 진짜 경쟁력을 확인할 수 있었는데, 이는 AI 성능이 측정 프레임을 먼저 돌파하는 순간을 보여준다.

첫 번째 교훈은 ‘AI 발전 속도 과소평가’다 [02:22]

알파고 공개 직전까지도 많은 전문가들은 프로급 바둑 AI가 등장하려면 10년은 더 필요하다고 봤다.
하지만 그 예측은 몇 주 만에 무너졌고, 안토니는 이런 종류의 오판이 지금도 반복되고 있다고 본다.

두 번째 교훈은 ‘AI는 모방을 넘어 탐색한다’는 점이다 [03:09]

영상은 37수를 단순한 이상치가 아니라, 강화학습 기반 시스템이 스스로 탐색해낸 전략적 발견으로 해석한다.
핵심은 규칙을 일일이 주입하는 것이 아니라, 시행착오와 보상 구조를 통해 인간이 미처 생각하지 못한 선택지를 발굴할 수 있다는 데 있다.

알파고 출신들은 이제 차세대 에이전트 경쟁으로 이동했다 [03:58]

안토니는 딥마인드를 떠나 Reflection AI를 공동 창업했고, 목표는 가장 강력한 에이전트형 모델을 개방형에 가깝게 제공하는 것이다.
여기서 중요한 전략 포인트는 성능만이 아니라 배포 방식이다. 강력한 모델을 닫힌 제품으로 둘지, 오픈 생태계로 확장할지가 산업 주도권에 영향을 준다는 판단이 깔려 있다.

‘알파고 마피아’는 트랜스포머 이후를 찾는 스타트업 생태계로 퍼지고 있다 [04:47]

미국, 영국, 프랑스, 일본 등에서 알파고 프로젝트 출신 인력들이 각기 다른 방식으로 차세대 AI 회사를 세우고 있다.
공통 문제의식은 같다. 지금의 트랜스포머 중심 구조만으로는 다음 도약이 어렵고, 새로운 학습 메커니즘이 필요하다는 것이다.

데이비드 실버는 인간 데이터 모방의 한계를 정면으로 지적한다 [05:07]

실버는 인간이 만들어 둔 방대한 데이터로 큰 진전이 있었음을 인정하면서도, 그 방식만으로는 초인적 지능에 도달하기 어렵다고 본다.
특히 수학, 코딩, 과학처럼 정답 공간이 넓고 인간 사례가 충분하지 않거나 상한이 낮은 영역에서는 모방 중심 학습이 빠르게 한계에 부딪힌다는 문제제기를 던진다.

트랜스포머는 혁명이었지만, 그 성공 공식이 영원하진 않다 [05:44]

트랜스포머는 병렬 계산과 대규모 데이터 학습을 가능하게 하며 오늘날 LLM 시대를 연 핵심 구조였다.
다만 영상은 이 구조의 성공이 곧 다음 세대의 유일한 답을 의미하지는 않는다고 본다. GPU 인프라와 데이터 확장이 만들어낸 성장 곡선이 둔화될 수 있다는 전제가 깔린다.

대안으로 강화학습과 ‘경험의 시대’가 다시 부상한다 [06:47]

실버가 제시하는 해법은 알파고를 가능하게 했던 강화학습, 즉 환경과 상호작용하며 보상 신호를 바탕으로 전략을 찾는 학습 방식이다.
인간이 만든 정답을 베끼는 모델보다, 스스로 행동하고 실패하고 수정하는 모델이 장기적으로 더 높은 성능 상한을 가질 수 있다는 주장이다.

가치 함수와 에이전트 실행이 다음 경쟁축으로 떠오른다 [07:06]

일리야 수츠케버는 인간이 적은 데이터로도 잘 배우는 이유를 감정·직관에 가까운 가치 함수에서 찾으며, AI에도 이런 내적 평가 구조가 필요하다고 본다.
프랑스의 H는 웹을 실제로 조작하는 에이전트에 강화학습을 붙여, 클릭·대기·차단 대응 같은 현실 환경 속 경험을 직접 축적하게 한다. 이는 앞으로의 경쟁이 텍스트 생성보다 행동 기반 학습으로 옮겨갈 수 있음을 시사한다.

종착점은 ‘연구자 AI’다 [08:15]

영상의 최종 전망은 AI가 단순 보조 도구를 넘어 수학 증명, 물리 이론, 신약·의학 문제 해결까지 스스로 돌파구를 만드는 연구자로 진화하는 것이다.
따라서 지금 주목해야 할 것은 모델 크기 경쟁 그 자체보다, AI가 새로운 지식을 어떻게 스스로 생성하고 검증하는가라는 학습 구조의 변화다.

✅ 액션 아이템

현재 쓰는 LLM 워크플로 1개를 골라, 인간이 정답 예시를 주는 방식 대신 에이전트가 직접 실행·피드백·재시도를 하게 하는 실험 플로우를 따로 설계한다.
웹 자동화나 코딩 작업 중 하나를 정해, 성공/실패를 즉시 판별할 수 있는 보상 신호 3개 이상으로 체크리스트를 만든다.
투자·리서치 관점에서는 Reflection AI, 인텔리전스, H처럼 알파고·강화학습 계보 인력의 스타트업을 별도 리스트업하고, 제품 방향이 오픈 모델인지 폐쇄형 에이전트인지 구분해 추적한다.
사내 혹은 개인 AI 프로젝트에서 “더 많은 데이터/더 큰 모델”만으로 성능을 올리려는 항목과 “실행 경험·피드백 루프”로 개선할 수 있는 항목을 분리해 우선순위를 다시 매긴다.

❓ 열린 질문

트랜스포머의 스케일링 둔화가 사실이라면, 다음 초과수익은 더 큰 파운데이션 모델 기업보다 보상 설계·에이전트 평가·환경 구축 레이어에서 나올 가능성이 더 크지 않은가?
강화학습 기반 에이전트가 실제 산업에서 우위를 가지려면, 텍스트 벤치마크가 아니라 어떤 실행형 성능 지표가 표준이 되어야 하는가?
가치 함수를 설계하는 주체가 기업일 때, 그 함수의 편향이나 상업적 유인이 모델 행동 전체를 왜곡할 리스크는 어떻게 검증할 수 있는가?
알파고의 37수처럼 인간이 직관적으로 오답이라 보는 선택을 AI가 정답으로 밀어붙일 때, 실무 환경에서는 어느 수준까지 기계의 비직관성을 신뢰할 수 있는가?

연관 글

엔비디아, 오픈클로 만드나 … GPU를 넘어 AI 에이전트 플랫폼까지 노리는 이유

Building & Testing

EP 88. 비결은 없다

Cluely 창업자 Roy 인터뷰 - 바이럴 유통 전략 핵심 정리

Zuckerberg''s Secret Plan To WIN The AI Race