← 홈으로
YouTube2026-03-05
Harness Engineering: The Skill That Will Define 2026 for Solo Devs
링크: https://youtu.be/DN2mhf0b02s?si=siQkSi4qqiqA37x
원문/원본: https://youtu.be/DN2mhf0b02s?si=siQkSi4qqiqA37x-기존 공개 버전: pogovet.com
🎬 Harness Engineering: The Skill That Will Define 2026 for Solo Devs
▶️ 유튜브
🖼️ 4컷 인포그래픽

💡 한 줄 결론
솔로 개발자가 AI 코딩 성과를 끌어올리려면 모델 교체에 집착하기보다, 도구를 줄이고 외부 메모리·작업 추적·표준 확장 지점을 갖춘 단순한 하네스를 설계하는 데 시간을 써야 한다. 실제 성공률·속도·비용은 모델 미세 성능보다 이 실행 구조에서 더 크게 갈린다.
📌 핵심 요점
- 실제 업무형 Agent Bench에서는 최고급 모델도 단일 실행 성공률이 약 24%, 8회 반복 시도 후에도 약 40% 수준에 머물러, 퍼즐형 벤치마크 고득점이 실무 성과를 보장하지 못했다.
- 장기 작업 실패의 핵심 원인은 지식 부족보다 실행 붕괴, 맥락 상실, 실패 접근 재반복 같은 조율 문제였고, 이는 모델 교체보다 작업 운영 구조 개선으로 다뤄야 할 영역이었다.
- Vercel의 텍스트-투-SQL 에이전트는 전용 도구를 대거 붙였을 때보다 bash·파일 읽기·grep·cat 중심의 단순한 도구 집합으로 줄였을 때 정확도는 80%에서 100%로 오르고, 토큰은 40% 줄고, 속도는 3.5배 빨라졌다.
- 긴 작업에서는 큰 컨텍스트 창만으로는 충분하지 않았고, 핵심 상태를 파일에 기록해 필요 시 다시 읽는 외부 메모리 구조가 맥락 유지와 재시작 복원력에 더 효과적이었다.
- Codex, Claude Code, Manis는 구조는 달라도 최소 도구 집합, 파일 기반 메모리, 단순한 핸드오프, 표준화된 확장 지점(MCP·스킬)으로 수렴했으며, 솔로 개발자의 차별화 포인트도 이 하네스 자산에 생긴다.
🧠 상세 요약
1) 배경과 문제 정의
영상의 출발점은 “어떤 모델이 최고인가”라는 질문이 실제 생산성 병목을 잘못 짚고 있다는 문제의식이다. 발표자는 실전 업무형 벤치마크와 현업 사례를 통해, 판단해야 할 포인트가 모델 지능 자체보다 장기 실행을 버티게 만드는 하네스 설계인지 묻는다.
2) 섹션별 상세 정리
- 솔로 개발의 목표를 빠른 실험이 아니라 지속 가능한 제작 체계로 둔다 [00:00]
- 발표자는 자신이 오랜 iOS 개발 경험과 프리랜서 실무를 거쳐, 이제는 안전망 없이 솔로 개발에 전념하고 있다고 밝힌다.
- 핵심 관심사는 AI로 급하게 MVP를 찍는 것이 아니라, 혼자서도 오래 운영 가능한 “진짜 앱” 제작 스튜디오를 만드는 것이다.
- 기존 모델 순위표가 실무 성과를 설명하지 못한다 [01:35]
- Epic의 Agent Bench는 퍼즐 풀이가 아니라 컨설턴트·변호사·분석가의 실제 업무처럼 1~2시간짜리 작업을 에이전트에게 수행시킨다.
- 여기서 최고 프런티어 모델도 성공률이 약 24%에 그쳤고, 여러 번 다시 돌려도 40% 안팎이라 벤치마크 점수와 실전 성과 사이 괴리가 드러난다.
- 병목은 추론 능력보다 장기 실행 중 조율 실패에 있다 [02:18]
- 모델은 필요한 지식과 기본 추론 능력은 이미 갖고 있었지만, 긴 작업으로 갈수록 길을 잃고 실패한 접근을 되풀이하며 원래 목표를 놓쳤다.
- 발표자는 이를 “모델이 멍청해서”가 아니라 실행 환경이 장기 작업을 받쳐주지 못한 결과로 본다.
- 2026년의 핵심 단어는 모델이 아니라 하네스다 [03:00]
- 하네스는 모델이 볼 수 있는 정보, 접근 가능한 도구, 오류 복구 방식, 장기 세션의 작업 추적 구조까지 포함한 실행 인프라 전체다.
- OpenAI, Anthropic, Manis가 서로 다른 맥락에서 모두 하네스 엔지니어링을 강조했다는 점을 들어, 경쟁 축이 모델 내부보다 외부 운영 구조로 이동한다고 본다.
- 도구를 많이 붙일수록 성능이 좋아진다는 직관이 깨진다 [04:30]
- Vercel은 텍스트-투-SQL 에이전트에 스키마 이해, 쿼리 작성, 검증, 오류 처리용 전용 도구를 풍부하게 붙였지만 정확도는 약 80%에 머물렀다.
- 이후 도구의 80%를 제거하고 일반 명령줄 도구 중심으로 단순화하자 정확도 100%, 토큰 40% 절감, 속도 3.5배 향상이라는 더 좋은 결과가 나왔다.
- 복잡성 제거가 기능 추가보다 더 큰 개선을 만든다 [05:50]
- Manis도 프레임워크를 여러 번 재구축하는 과정에서 복잡한 문서 검색, 라우팅 로직, 관리자 에이전트 구조를 줄일수록 성능이 좋아졌다고 본다.
- 발표자는 개발자가 안전장치와 특수 기능을 계속 덧대는 습관이 오히려 모델 판단을 흐리고 실행 경로를 꼬이게 만들 수 있다고 해석한다.
- 긴 작업의 핵심은 큰 컨텍스트 창이 아니라 외부 메모리 설계다 [06:34]
- 장시간 코딩 작업에서는 수십 번의 도구 호출과 중간 산출물이 누적되며, 중요한 초기 지시사항이 노이즈에 묻힌다.
- 이를 막기 위해 Manis는 파일 시스템을 외부 메모리처럼 사용했고, 에이전트가 핵심 상태를 파일에 기록·재독하는 구조를 채택했다.
- 성공한 시스템들은 서로 다른 방식으로 같은 설계 원칙에 수렴한다 [07:39]
- Codex는 오케스트레이터·실행자·복구 계층을 둔 계층형 구조를 쓰고, Claude Code는 파일 읽기·쓰기·편집·bash라는 최소 도구 중심 철학을 취한다.
- 구조는 달라도 공통점은 복잡한 내장 기능보다 단순한 하네스, 명확한 역할 분리, 외부 메모리, 필요 시 확장 가능한 표준 지점에 무게를 둔다는 점이다.
- 확장성은 하드코딩이 아니라 MCP와 스킬 같은 표준 연결점에서 나온다 [08:20]
- 발표자는 모든 통합을 전용 로직으로 직접 짜 넣기보다, MCP와 스킬을 통해 필요할 때 외부 도구를 연결하는 방식을 배워야 한다고 말한다.
- 이는 모델이 좋아질수록 수작업 파이프라인을 더 두껍게 만드는 전략이 오히려 역행이 될 수 있다는 ‘씁쓸한 교훈’과도 이어진다.
- 솔로 개발자가 당장 개선할 수 있는 것은 모델이 아니라 운영 체계다 [08:50]
- 발표자는 Reddit식 모델 우열 논쟁에 시간을 쓰기보다, 특수 도구를 줄인 A/B 실험, progress file, 실행형 TODO, 파일 기반 상태 기록을 먼저 넣어보라고 권한다.
- 같은 모델도 Claude Code, Cursor, Codex, 자체 하네스 안에서 전혀 다르게 행동하기 때문에, 실전 차별화는 모델 선택보다 하네스 축적 자산에서 만들어진다는 결론으로 마무리한다.
- CraftersLab은 하네스 자산을 공개하는 실전형 운영 공간으로 제시된다 [11:35]
- 후반부에서 발표자는 자신의 MD 파일, 프롬프트, 자동화, Swift/SwiftUI 자산, 노션 팀 공간, 라이브 플레이북을 공유하는 커뮤니티를 소개한다.
- 이 소개는 단순 홍보보다, 하네스가 추상 이론이 아니라 실제 문서·워크플로·자동화 자산의 집합이라는 점을 보여주는 사례로 읽힌다.
✅ 액션 아이템
- 현재 쓰는 코딩 에이전트에서 전용 도구 목록을 전부 뽑고, 그중 50~80%를 제거한 축소 버전으로 동일한 실제 작업 3개를 다시 돌려 정확도·완료시간·토큰 사용량을 비교한다.
- 프로젝트 루트에
progress.md와todo.md를 두고, 에이전트가 작업 시작 전 반드시 읽고 단계 종료마다 다음 행동·막힌 지점·검증 결과를 기록하도록 시스템 프롬프트를 수정한다. - 장기 작업 1개를 골라 중간 산출물을 컨텍스트에 계속 누적하는 방식 대신 파일 시스템에 외부화하고, 세션 재시작 후 파일만 읽어 이어 붙였을 때 누락된 요구사항 수와 재작업 횟수를 측정한다.
- 동일한 모델을 Claude Code, Cursor, Codex 또는 내부 하네스에 각각 넣어 같은 태스크를 수행시킨 뒤, 실패 원인을 모델 문제가 아니라 도구 수·메모리 구조·복구 흐름 차이로 분류한다.
- 외부 연동이 많은 작업 3개를 골라 하드코딩 스크립트 대신 MCP·스킬 같은 표준 연결점으로 치환 가능한지 설계안을 작성하고, 유지보수 비용과 재사용 범위를 비교한다.
❓ 열린 질문
- Vercel의 “도구 제거 후 성능 향상”이 SQL처럼 비교적 구조화된 작업에만 강한 현상인지, 실제 앱 개발·리팩터링·디버깅 같은 비정형 작업에서도 재현되는지 어떤 작업셋으로 검증해야 할까?
- 파일 기반 외부 메모리가 장기적으로 누적 오염을 일으킬 때, 어떤 시점에 요약·압축·폐기 규칙을 넣어야 맥락 유지 이점이 오히려 성능 저하로 바뀌지 않을까?
- 같은 모델이 하네스에 따라 전혀 다른 생산성을 보인다면, 앞으로 코딩 에이전트 시장의 방어력은 모델 접근권보다 운영 데이터·프롬프트 자산·워크플로 설계에 형성된다고 봐야 할까?
- 보안·권한 통제·감사 로그가 필요한 팀 환경에서는 “거의 아키텍처가 없는 하네스”를 어디까지 허용할 수 있으며, 단순화 이익이 통제 비용을 넘는 임계점은 어떻게 측정할 수 있을까?
