← 홈으로
YouTube2026-03-15
EP 89. 딸깍과 덜컹
링크: https://youtu.be/E 19gxHeBRU
원문/원본: https://youtu.be/E-19gxHeBRU기존 공개 버전: pogovet.com
🎬 EP 89. 딸깍과 덜컹
▶️ 유튜브
- 원본 링크: https://youtu.be/E-19gxHeBRU
🖼️ 4컷 인포그래픽

💡 한 줄 결론
GPT-5.4 이후 AI 코딩의 '딸깍' 구간은 일상화되었고, 이제는 인간의 10% 암묵지와 문제 정의 능력을 결합해 '덜컹' 구간을 돌파하는 새로운 역량 모델로 전환해야 한다.
📌 핵심 요점
- GPT-5.4 Computer Use 에이전트는 RL 환경 스케일링을 통해 표준 인간 수준 이상의 업무 수행 능력을 확보했으며, 일일 릴리즈 속도로 진화 중이다.
- 하네스 엔지니어링(에이전트 실수 방지 설계)과 스캐폴딩(문제 해결 지원 구조)의 조합이 AI 활용 성공의 핵심 기술적 요인이다.
- Donald Knuth(88세), Guido van Rossum(70세), Kent Beck 등 전설적 개발자들도 AI로 전향했으며, 이는 도메인 암묵지 가치의 천 배 상승을 시사한다.
- 시니어 개발자 대규모 AI 코딩 사례(100만 라인/40일, 25만 라인/6개월)에서 한 사람이 다중 에이전트를 매니징하는 패턴이 등장했다.
- AI에게 위임한 작업에서는 인간 skill이 형성되지 않는다는 Anthropic 연구 결과는, 위임과 퇴화 방지의 균형점 모색을 요구한다.
🧠 상세 요약
1) 배경과 문제 정의
GPT-5.4와 Claude 새 기능이 연이어 발표되면서 소프트웨어 엔지니어링 영역에서 '딸깍'(AI가 즉시 해결하는 구간) 사례가 쏟아져 나오고 있다. 이러한 흐름 속에서 '덜컹'(AI만으로 해결되지 않는 구간)을 어떻게 돌파할 것인가, 그리고 전설적 개발자들조차 AI로 전향하는 지금 인간의 가치는 어디에 있는가라는 질문이 제기된다.
2) 섹션별 상세 정리
- GPT-5.4와 Claude 새 기능 발표, 딸깍 간증기 시대 개막 [00:00]
- 이번 주 GPT-5.4와 Claude 새 기능이 연이어 발표되면서 사방에서 "나 이거 만들었어" 하는 간증기가 쏟아짐
- 이러한 딸깍 뒤에 존재하는 '덜컹'이라는 실체를 살펴보겠다는 화제로 시작
- 프론티어 랩들의 경쟁이 주 단위가 아닌 일 단위 릴리즈 느낌으로 가속화
- AI 프론티어 사이트 소개와 활용법 [00:31]
- 유진님이 Claude와 딸깍딸깍해서 만든 AI 프론티어 사이트 공개
- 유튜브 자막을 에이전트들이 읽지 못하는 문제 해결 위해 제작
- 포스트 통째로 다운로드, 챕터별 링크 추출, 특정 챕터만 복사 가능
- ChatGPT에게 질문 던지는 식으로 활용 가능한 구조
- GPT-5.4 Computer Use 에이전트의 핵심 특징 [01:57]
- Computer Use 에이전트 관련 데모들이 다양하게 공유됨
- 피드백 루프 형성과 CoT 중 후속 질문 기능이 특히 우수함
- RPG 게임, 심시티 비슷한 프로젝트 등 쇼케이스에 잘 정리되어 있음
- GPT-5.4가 추구한 다양한 프로젝트들이 공식 사이트에 공유됨
- GPT-5.4 CUA 품질의 비결: RL 환경 스케일링 [03:01]
- Computer Use 에이전트(CUA) 품질이 매우 우수하게 나옴
- RL 환경 스케일링이 중요한 요소이며 프론티어 랩들이 앞서가는 중
- pretrain에서 배운 것이 아니라 환경에서 시행착오를 겪으며 RL로 학습
- 모델이 환경 학습을 매우 잘 해낸 것으로 평가됨
- GPT-5.4의 타임라인 평가와 일일 릴리즈 속도 [03:42]
- 타임라인에서 5.4가 현재까지 나온 모델 중 가장 최강이라는 공감대 형성
- 실생활 업무에서 표준적인 인간보다 훨씬 잘한다는 평가가 자연스러워짐
- 주 단위가 아닌 일 단위 릴리즈 느낌의 어마어마한 출시 속도
- AI들이 열심히 만들기 때문에 이런 속도가 가능함
- Three.js 제작자의 고전 게임 포팅 도전 [05:12]
- Three.js 사용량이 AI들의 활용으로 확 올라감
- Three.js 제작자 Ricardo Cabello(Mr.doob)가 Claude와 함께 Quake, Descent 포팅
- 공개된 소스를 활용해 라이브로 돌아가는 수준까지 구현 성공
- 매우 빠른 시간 안에 완성된 것이 중요한 포인트
- 1시간 만에 Quake 포팅: GitHub 히스토리로 확인 [05:58]
- "오케이 Claude, Quake를 Three.js로 포팅할 수 있어?"로 시작
- 1시간 뒤 결과물이 나왔으며 GitHub에 이력이 남아있음
- 물론 실제로는 1시간보다 더 걸린 조정 과정이 있었음
- Andrej Karpathy가 GPT-2를 8개 H100으로 2시간 만에 학습시켰다는 포스팅도 화제
- 자기 개선 루프: post-AGI의 기분 [06:59]
- nanochat을 AI 에이전트들이 자동으로 반복 개선하도록 설정
- 12시간 동안 110번의 변경이 이루어지며 loss를 줄여나감
- "post-AGI의 기분을 즐기려 한다"는 농담과 함께 소개
- 자기 개선 루프가 요즘 분위기 중 하나로 자리잡음
- Mitchell Hashimoto와 하네스 엔지니어링 개념의 출처 [07:11]
- Ghostty 터미널 제작자이자 HashiCorp 창립자인 Mitchell Hashimoto 소개
- Codex 5.3이 6개월간 struggling했던 문제를 풀었다는 포스팅
- 하네스 엔지니어링이라는 용어의 출처가 이 분의 블로그
- "나의 AI 도입 여정" 글은 6개 챕터로 구성된 매우 좋은 글
- 하네스 엔지니어링의 핵심: 에이전트 실수 방지 설계 [08:28]
- 에이전트가 실수할 때마다 시간을 들여 다시는 하지 않게 만드는 해결책 설계
- 프롬프팅과 프로그래밍 도구를 통해 에이전트가 나쁜 짓을 못하게 함
- 에이전트가 좋은 일을 하고 있는지 스스로 검증할 수 있는 하네스 제공
- Mitchell Hashimoto가 말하는 하네스는 모델 옆에 붙는 프로그램 덩어리 이상의 개념
- Alloy 언어를 활용한 검증 도구와 하네스 엔지니어링 사례 [09:53]
- 강규영 님이 Alloy라는 domain specific 언어로 정확한 검증 체계 구축
- end-to-end 테스트와 자연어 설명이 붙은 실행 가능한 명세서 개발
- lint 이상의 검증 도구를 만들어 하네스 엔지니어링 실천
- 딸깍 될 일과 안 될 일을 어떻게 감각할 수 있을까에 대한 고민
- 국내 시니어 개발자들의 대규모 AI 코딩 사례 [11:19]
- 정규 님이 40일간 100만 라인의 코드 베이스를 혼자 작업
- 김민태 님이 AI와 6개월간 25만 라인 시스템 구축
- 강규영 님이 3주간 4만 LOC를 AI 혼자서 작업
- 한 사람이 AI 에이전트들과 매니징하는 패턴이 발견되고 있음
- 성공 힌트의 중요성: "나두, 나두" 현상 [12:34]
- 누군가 이미 성공했다는 것이 큰 힌트가 됨
- 어떤 인물이 뭔가를 딸깍 만들었다는 것 자체가 매우 큰 힌트
- 인물의 역량보다 모델과 하네스의 영향이 가능하게 만듦
- 성공 케이스는 "나두, 나두"가 되는 구조
- Lablup CTO의 HWP 바이너리 생성 성공 사례와 리버스 엔지니어링 [13:21]
- Lablup CTO가 HWP, HWPX로 페어링에서 메타 언어를 만들어 성공
- 준기 님이라는 분이 할 수 있었다는 것을 아는 것 자체가 큰 힌트
- 모델과 이야기 나눠보면서 어떻게 했을까를 추리하는 데 도움
- 이런 식으로 리버스 엔지니어링하는 경우들이 이미 많이 있음
- 복리를 돌릴 수 있는 시간이 길지 않은 경우에 대한 고찰 [14:48]
- 작년 9월에 소개했던 복리를 돌릴 수 있는 시간이 짧은 경우들 재인출
- 누가 이미 성공한 일이라면 될 일이라는 잠정적 결론
- 누군가 이미 성공한 일이면 될 가능성이 매우 높은 일인 것 같음
- 하지만 고인물들이 하는 것들은 난이도가 있어 보임
- Donald Knuth, 88세 노장의 AI 도움으로 난제 해결 [15:14]
- Donald Knuth가 2026년 현재 88세에 미해결 조합론 문제를 AI 도움으로 해결
- 논문으로 공개하고 Hacker News에서 다뤄짐
- 안 될 거라 생각해 AI를 안 쓰다가 되는 걸 보고 사용을 전환
- 누군가 이 문제를 GPT-5.4 Thinking에 넣었더니 정답을 다 풀었다고 함
- Donald Knuth의 업적과 TeX, literate programming [16:35]
- 젊은 시절 펀치카드 시절에 Electronic Coach를 만든 영상 존재
- 책을 쓰려고 조판 시스템이 없어서 TeX을 만들었고 이게 LaTeX이 됨
- literate programming이라는 개념을 일찌감치 주장한 분
- 조합론 관련 집필 중인 책에서도 AI의 도움을 받음
- Guido van Rossum과 Kent Beck의 AI 전향 [17:10]
- Python 만든 Guido van Rossum이 올해 70세 (Andrej Karpathy와 30년 차이)
- Guido van Rossum도 요새 AI 쓰는 쪽으로 전향해 Claude를 사용
- Kent Beck이 genie라는 AI를 가지고 라이브 코딩하는 genie session 올림
- 2023년에는 ChatGPT를 써보고 "내 skill의 90%가 사라지는 거야"라고 했었음
- Kent Beck의 90% skill 하락, 10%의 천 배 가치 상승 [18:32]
- 2023년 4월에 "내가 가지고 있는 90%의 skill은 가치가 떨어졌지만 남아 있는 10%의 값어치는 천 배가 뛰었다"고 작성
- 단순히 코딩하는 기술이 아닌 도메인 암묵지에 대한 가치가 훨씬 뛰어남
- 지금은 코딩하는 게 재미있다고 하며 AI를 잘 쓰는 쪽으로 전환
- "genie가 프로그래머가 해야 될 일과 하지 말아야 될 일을 어떻게 바꾸었는가" 강의 예정
- 하네스와 스캐폴딩: 될 일과 안 될 일의 구분 [19:04]
- 스캐폴딩은 도움 계단을 주는 것, 하네스는 조이는 것
- 스캐폴딩은 교육학에서도 쓰이며 학습자가 스스로 올라갈 수 있게 도와주는 환경
- GPT-5와 스캐폴딩 관련 트랜스크립트: 그냥 물으면 절대 못 하는 문제도 있음
- GPT-5 주변에 스캐폴딩을 구축해야 어려운 문제를 해결할 수 있음
- 다중 에이전트와 워밍업을 통한 문제 해결 접근 [19:49]
- 아이디어를 제안하는 에이전트, 실행하는 에이전트, 검증하는 에이전트 등 제공
- 열린 문제를 바로 던지지 않고 워밍업시켜서 자신이 알고 있던 해법을 풀게 함
- 그 해법을 더 도전적인 문제를 풀어야 하는 컨텍스트에 넣어준 후 일반화된 문제 공격
- 이 과정에서 나온 CoT와 결과물이 놀라운 것이 나옴
- 위임과 skill 형성 논문: Anthropic의 경고 [21:00]
- "나는 다른 일을 한다는 방식이 Anthropic의 skill 형성 논문을 어느 정도 상쇄한다"
- 에이전트에 위임한 작업에 대해서는 인간의 skill이 형성되지 않음
- 내가 계속 수동으로 하는 작업에서는 자연스럽게 skill이 계속 형성됨
- 위임하되 잃지 않으려면, 퇴화하지 않으려면 어떻게 할 수 있을까가 고민
- 자기 계발 도서의 본질과 소프트웨어 엔지니어링 황금기 [21:50]
- 이런 이야기는 AI 이전에도 자기 계발 도서에 항상 있던 내용
- 어떤 일들이 나를 가치 있게 만들고 어떤 일은 위임하거나 하지 않아야 하는가
- 소프트웨어 엔지니어링은 지난 20~30년간 황금기를 구가함
- 코로나 때는 6주짜리 부트캠프만 해도 15만 불, 20만 불 연봉으로 취직되던 시대
- 러다이트 운동의 당사자로서의 과도한 호들갑 [22:51]
- 수급이 바뀌면 시장의 다이내믹스는 다 바뀌는데 우리가 러다이트 운동의 당사자
- 과하게 호들갑을 떨고 있는 게 아닌가라는 생각이 들기 시작
- Claude Code가 이걸 했대, Codex가 이걸 했대 하는 것이 지난 2~3개월간 도파민이 터지는 시기
- 어느새 이게 일상이 되고 나만 할 수 있는 것도 아니고 모두가 할 수 있는 세상이 됨
- recalibrate 시기와 도메인 확장 [23:29]
- Kent Beck이 "나는 내 남아있는 10%가 어떻게 천 배의 값어치를 갖게 할지 recalibrate 해야겠다"고 표현
- 모두가 다 recalibrate을 해야 되는 타이밍이 옴
- 소프트웨어 엔지니어링이라는 지식 노동에서 최첨단에 있던 부분들이 모델에 다 휩쓸려 감
- 이 다음은 물리학, 생물학, 화학 논문이나 법전 문서 같은 다른 도메인으로 갈 수 있음
- 모델의 generality가 specific 영역을 steamroll [27:28]
- 방직 기계를 잘 다루던 옷감 짜는 사람과 다를 게 없는 수준으로 변화
- Claude Code가 작년 3월에 나오고 1년 만에 Opus와 GPT가 판올림하며 싹 끝냄
- 막강한 generality를 가진 모델이 밀고 오면서 specific한 영역들도 하나씩 다 steamroll
- Donald Knuth처럼 알고리즘에 완전 특화된 사람도 이제 할 일이 없어짐
- 가치관의 기어 시프팅과 타임 갭의 사업 찬스 [29:09]
- 이런 시기에서 가치관의 렌즈를 시프팅해야 한다는 생각이 듦
- 타임 갭 때문에 생기는 부분들은 여전히 사업 찬스가 있을 수 있음
- 하지만 이 타임 갭을 알아채고 exploit 하기에 너무 압축이 심함
- 결국은 상대성이며 더 상대적으로 어렵고 희소한 도메인들이 여전히 많음
- 코딩/AI 발전을 상수로 보고 시선을 다른 곳으로 [30:01]
- 발상 자체를 안 하거나 시선 자체를 좀 다른 곳을 봐야 됨
- 다른 도메인과 이런 쪽으로 하면 지금까지 태핑하지 못하던 영역들도 할 게 너무 많음
- 코딩이나 AI 쪽의 발전은 그 기울기를 상수로 봐야 함 (계속 잘될 일)
- "될 것 같은 일은 하지 마라. 가치가 없는 일이니까" - 정규 님의 조언
- 될 일과 안 될 일에 대한 감, 3D 알고리즘 구현 도전 [30:30]
- 될 일과 안 될 일과 조금 노력해서 될 일에 대한 감이 있어야 함
- 승준님은 3월 1주부터 어제까지 60개 정도의 대화를 나눔 (약 6만 라인 코드)
- 비메쉬 알고리즘을 활용해 3D 모델을 부드럽게 만드는 것에 도전
- 2020년에 어린이들이 그린 그림을 3D로 스키닝해서 만드는 도구를 구현한 적 있음
- 논문 투 딸깍, 소스 투 딸깍 실험 결과 [32:48]
- GPT-5.4 나온 김에 "논문 투 딸깍"이 과연 될까 실험해봄
- 30분 정도 작업했으나 되지 않았지만 얼추 비슷하게 나옴
- 논문을 보고 구현해 놓은 GitHub 아카이브를 받아 "소스 투 딸깍"도 시도 (10분 소요)
- 포팅이라 난이도가 낮아 품질이 더 낮았지만 PoC 정도는 보여주는 능력 확인
- 아이소서피스로 쉽게 구현, 입체적 구조의 어려움 [34:12]
- 고질라, 산타클로스 등을 입력하면 3D 캐릭터가 생성되는 도구 구현 (30분 소요)
- 아이소서피스라는 더 쉬운 알고리즘을 사용해 쉽게 만들어지지만 디테일 부족
- 지브러시의 지스피어 개념을 활용한 모델링 도구는 Gemini가 특히 잘 함
- 여기까지는 쉬웠으나 논문에서는 이것을 보간해서 잇는 게 관건
- 덜컹 구간: 관절 부위 연결의 수학적 어려움 [35:23]
- 끝단의 이음새 빼고는 복원하는 게 쉬웠으나 관절 부위가 문제
- 인간이 보기에는 너무 쉬운 부분인데 수학으로 생각해야 할 게 많음
- 바운더리 엣지 같은 것들이 이상하게 나와서 연결 부위를 잇는 게 자명하지 않음
- 주간 한도를 다 쓰면서 다른 모델들도 써가며 탐색했으나 해결 못 함
- 문제 해결의 디바이드 앤 컨커, UI 딸깍 [36:07]
- 가설과 실험을 반복하며 문제를 디바이드 앤 컨커하기 위해 부분을 끊어와 테스트
- UI 붙이는 것은 딸깍이 돼서 너무 좋았음 (예전에는 이것만도 시간 많이 씀)
- perturbation, vertex 수 조절 같은 것들이 순식간에 되니 가설만 세우고 실험은 AI가 함
- 컨벡스 헐, 볼록 껍질 가설을 실험해보고 동적 계획(DP) 알고리즘도 모델이 제안
- 인간의 직관과 AI의 능력 결합, 구면 투영 아이디어 [37:14]
- 모델은 반대했지만 인간의 직관을 밀어붙여 구면 투영 + 컨벡스 헐 아이디어 도출
- 링들이 있을 때 이를 펼쳐서 구면에 투영하면 나머지 부분을 연결할 수 있을 것
- 결론적으로 아직 못 됐지만 큰 힌트가 됐고 유용한 부산물도 얻음
- "따알"에서 "깍"으로 넘어가는 출구가 될 수 있을지
- 부분적 성공과 세이브 포인트, 백트래킹 접근 [38:16]
- GPT-5.4가 작동하는 척만 했지만 육안으로는 연결이 되긴 했음
- 문제를 재현했지 있는 문제를 그대로 가져온 게 아니어서 케이스가 섞임
- 특정 문제를 만나면 세이브 포인트를 만들고 다양한 가설을 세워 우선 탐색
- 가설에서 성공하면 좋지만 안 되면 백워드로 올라가는 구조
- TDD의 어려움과 피드백 루프, 될 것이라는 사전 확률 [39:00]
- 그래픽스 쪽에서 TDD를 하기가 어렵다는 평이 있음 (시각적으로는 자명하지만 vertex merge check로는 품질이 안 좋을 수 있음)
- 요새 모델이 잘하는 건 정보를 피드백 루프 안에 넣는 것
- 인간이 보기에는 쉬운 거지만 알고리즘적으로나 모델이 풀기에는 어려운 지점 존재
- 이 구간에서 Ralph loop를 돌리면 토큰 낭비 가능성 큼
- 딸깍, 덜컹, 덜컥: 믿음의 문제와 될 것 같다는 느낌 [39:59]
- 사전 확률은 될 거라는 것 (된 일이기 때문에)
- 좋은 경로를 찾으면 딸깍 하고 될 것 같음
- 딸깍과 덜컹, 그리고 덜컥: 덜컹은 안 되는 구간이지만 덜컥 될 수 있다
- AI와 내가 하다 보면 될 것 같다는 느낌이 중요 (믿음의 문제)
- 인간의 10% 암묵지 투입과 의지적 밀어붙이기 [40:24]
- 문제의 정의, 난제에 부딪혔을 때 사람의 인사이트를 가져와 human in the loop로 해결
- 90%가 아닌 10%의 암묵지가 투입되고 될 때까지 의지를 가지고 밀어붙이면 진보 발생
- AI의 힘으로 된 거고 그건 거의 공평하게 주어져 있음 (물론 비용은 들지만)
- 접근 가능성이 예전에 비해 훨씬 높아진 상황
- 딸깍 구간을 넘어선 문제 정의의 중요성 [41:23]
- 덜컹 구간에 대한 이야기가 계속 이어지고 있음
- 모두 딸깍딸깍 하는 구간을 넘어왔고 이건 되는 거니까 안 해라로 세팅됨
- 딸깍 해서 되는 구간으로 막대한 이익을 얻을 수 있지만
- 나의 무언가와 결합해서 온전히 다른 부가가치를 낼 수 있는 문제 정의가 중요
- 문제 포착, 돌려보기, 가이드 능력이 사람의 덕목 [42:11]
- 결국은 problem인 것 같고 문제를 잘 포착하는 게 중요
- 문제를 잘 돌려볼 수 있고 문제 해결 과정을 잘 가이드할 수 있는 능력
- weekly 토큰을 다 써버리면 한낱 미물 인간으로 돌아온다는 엔지니어의 말
- AI가 없으면 Andrej Karpathy가 말한 것처럼 사회 전체가 브라운아웃이 됨
- 위임 과정에서 획득하고 강화해야 할 요소들 [43:17]
- AI에게 위임을 하면서 오히려 획득해야 되는 거나 강화해야 되는 요소들이 있음
- 끈기, 가설 세워보기, 쉬는 것 (머리가 맑아야 좋은 가설들을 떠올릴 수 있음)
- 탐색하는 건 또 재미있기도 하고 문제를 푸는 것 자체가 재미있는 느낌
- 이런 일주일을 보냈고 정석님은 또 파고드는 경험을, 승준님은 나름의 방식으로 파고들면서
✅ 액션 아이템
- GPT-5.4 또는 Claude 최신 모델로 하네스 엔지니어링 실천: 현재 프로젝트에서 에이전트가 자주 범하는 실수를 로그로 수집하고, 프롬프트/프로그래밍 도구로 재발 방지 제약을 설계하라.
- Anthropic skill 형성 논문을 기반으로 개인 위임 매트릭스 작성: AI에게 위임 중인 작업 vs 직접 수행 중인 작업을 나열하고, 위임 작업에서 내 skill이 퇴화하지 않으려면 어떤 리뷰/검증 루틴을 추가할지 정의하라.
- Kent Beck의 '90% skill 하락, 10% 천 배 가치 상승' 프레임을 개인 역량에 적용: 내 도메인 암묵지 10%가 무엇인지 식별하고, 이를 천 배로 증폭할 수 있는 구체적 프로젝트/협업 기회를 3개 이상 나열하라.
- '나두 나두' 힌트 추적 로그 구축: 특정 영역(예: 3D 알고리즘, HWP 바이너리, 게임 포팅)에서 누가 성공했는지 기록하고, 그들이 사용한 모델/하네스/접근법을 리버스 엔지니어링하라.
- 딸깍 vs 덜컹 vs 덜컥 구간을 구분하는 개인 가이드라인 작성: 현재 프로젝트에서 어떤 구간이 딸깍(즉시 위임), 덜컹(인간 개입 필수), 덜컥(실험적 시도)인지 분류하고, 각 구간별 접근 전략을 수립하라.
❓ 열린 질문
- GPT-5.4의 RL 환경 스케일링이 특정 도메인(예: 법률, 의료, 금융)에서도 동일하게 유효한가, 아니면 소프트웨어 엔지니어링 특성에 국한된 성과인가?
- 하네스 엔지니어링이 에이전트의 창발적 해결 능력을 과도하게 제약하지는 않는가? 제약과 자율성의 최적 균형점은 무엇인가?
- Kent Beck의 '10% 암묵지 천 배 가치 상승' 가정은 시장 수요와 실제 연동하는가? 도메인 암묵지의 수요 곡선이 AI 발전 속도를 따라잡을 수 있는가?
- Anthropic skill 형성 논문이 제시한 '위임=skill 퇴화' 가설은 어떤 유형의 작업(반복적 vs 창의적 vs 전략적)에서 가장 강하게 나타나는가?
