YouTube2026-03-05

My OpenClaw System Is Out of Control

링크: https://youtu.be/oY3y4fpLSEo?si=DhE4Y 6hKNHE20zj

원문/원본: https://youtu.be/oY3y4fpLSEo기존 공개 버전: pogovet.com

🎬 My OpenClaw System Is Out of Control

▶️ 유튜브

원본 링크: https://youtu.be/oY3y4fpLSEo?si=DhE4Y-6hKNHE20zj

🖼️ 4컷 인포그래픽

💡 한 줄 결론

토큰 비용을 감당하지 못한 채 에이전트와 권한을 계속 늘리면 자동화의 생산성보다 운영비와 복잡도가 먼저 폭발한다. 이 시스템의 진짜 병목은 모델 출력 품질이 아니라 입력 컨텍스트 비용과 프로젝트별 컨텍스트 분리 설계다.

📌 핵심 요점

개발자 에이전트에 서버와 GitHub 푸시 권한까지 넘기자 실제 수정·복구는 가능해졌지만, 시스템 장애와 통제 리스크도 함께 커졌다.
비용의 대부분은 결과물 생성보다 프로젝트 맥락을 모델에 반복 전달하는 입력 토큰에서 발생했고, 한 시간 100달러·누적 20억 토큰 수준까지 치솟았다.
캐시 효율이 이상적인 6:1~8:1이 아니라 약 2:1 수준에 머물러, 같은 맥락을 계속 보내면서도 비용 절감 효과를 거의 못 얻고 있다.
컨텍스트를 줄이면 압축 과정에서 캐시가 깨지고, 컨텍스트를 넓히면 캐시 미스 패널티가 커져 비용 최적화가 단순한 축소 문제로 풀리지 않는다.
단일 Linkbot 운영은 돌아가더라도, 여러 SaaS·클라이언트를 동시에 다루려면 프로젝트별 SOP·태그·하드코딩 값 분리 없이는 확장성이 무너진다.

🧠 상세 요약

1) 배경과 문제 정의

발표자는 OpenClaw 기반 자율 에이전트 운영을 실제 사업에 붙이면서, 성능 향상보다 운영 복잡도와 비용 폭증이 더 빠르게 커졌다는 문제를 마주한다. 핵심 관찰 포인트는 세 가지다: 권한을 어디까지 위임할지, 입력 컨텍스트 비용을 어떻게 줄일지, 그리고 여러 프로젝트를 섞지 않고 확장할 수 있는 구조를 만들 수 있는지다.

2) 섹션별 상세 정리

시작부터 “통제 불능”을 선언한 이유 [00:00]

발표자는 최근 며칠 사이 OpenClaw 세팅이 너무 빠르게 복잡해져 현재 상태를 자신도 완전히 추적하기 어려운 수준이라고 말한다.
문제는 단순 버그가 아니라, 여러 변경이 누적되며 시스템 전체의 예측 가능성이 떨어졌다는 점이다.

Linkbot 운영은 되지만 구조적 문제는 따로 있다 [00:15]

자율 SEO 에이전시 실험의 현재 대상은 Linkbot이며, 이 프로젝트 자체는 당장 크게 망가지지 않고 돌아가고 있다.
그러나 특정 클라이언트 한 곳이 돌아간다는 사실이 곧 시스템 설계가 건강하다는 뜻은 아니며, 발표자는 그 간극을 분명히 인식한다.

역할 특화 에이전트를 붙이면서 복잡도가 급증했다 [00:28]

이번 주부터 각 기능별 전문 에이전트를 추가하면서 구조가 급격히 복잡해졌고, 무엇이 어디에 반영돼 있는지 재점검이 필요해졌다.
성능 향상을 위해 역할을 쪼갠 선택이 오히려 조합 비용과 운영 추적 비용을 키운 셈이다.

CRO·광고·PM 역할이 자동화 범위를 넓혔다 [00:40]

포지(Porgy)는 전환율 최적화, Apex는 구글 광고 분석, Compass는 제품/프로젝트 관리와 UX 점검 같은 역할을 맡는다.
이들은 각각 유료 전환, 광고 성과 개선, 기능 제안 등 실무 가치가 있는 업무를 수행하지만, 동시에 더 많은 컨텍스트와 판단 경로를 시스템에 추가한다.

개발자 에이전트 Bolt는 생산성을 주지만 위험도 함께 키운다 [01:37]

Bolt는 서버와 GitHub 접근 권한을 갖고 실제 푸시와 수정 작업까지 수행하며, 한 번은 문제를 일으켰지만 이후 직접 고치는 사례도 있었다.
발표자는 이를 사실상 “시스템 열쇠를 넘긴 것”으로 표현하며, 에이전트의 자율성이 곧 운영 리스크의 확대라는 점을 인정한다.

Cursor CLI와 고성능 모델 조합이 개발 자동화의 핵심이다 [02:14]

Bolt는 고수준 사양서를 만들고, Cursor CLI가 이를 바탕으로 실제 구현을 수행하는 방식으로 돌아간다.
발표자는 직접 코드를 쓰는 것보다, 코드베이스 인덱싱과 맥락 파악 능력 덕분에 Cursor가 더 깔끔한 결과를 낼 수 있다고 평가하며 Opus 4.6을 핵심 코딩 에이전트로 본다.

진짜 폭탄은 출력이 아니라 입력 토큰 비용이다 [02:50]

한 시간 만에 100달러가 소모되고, 같은 시간대에 1억 1,900만 토큰, 전체 누적 20억 토큰 이상이 처리됐다고 밝힌다.
발표자의 해석은 명확하다. 비용의 본질은 결과물 생성량이 아니라, 프로젝트의 전체 맥락을 모델에게 계속 전달하는 입력 컨텍스트에 있다.

캐시 전략이 기대만큼 작동하지 않는다 [03:10]

캐시된 입력과 비캐시 입력 비율이 약 2:1 수준인데, 이상적으로는 6:1 또는 8:1 정도가 나와야 한다고 본다.
캐시가 잘 먹으면 비용을 최대 90% 가까이 줄일 수 있으므로, 현재 구조는 성능 문제가 아니라 캐시 활용 실패에서 오는 경제성 문제를 드러낸다.

컨텍스트 압축과 캐시 활용이 서로 충돌한다 [03:53]

컨텍스트를 작게 보내면 당장 토큰은 줄일 수 있지만, 압축을 자주 할수록 캐시가 깨져 장기적으로는 오히려 비효율이 생긴다.
반대로 큰 컨텍스트와 넓은 캐시를 허용하면 캐시 미스 시 비용 충격이 커져, 단순히 “줄이자” 혹은 “늘리자”로 해결되지 않는 최적화 문제가 된다.

권한 위임과 확장 목표가 동시에 시스템 부담을 키운다 [04:28]

발표자는 애플리케이션 수준을 넘어 시스템 관리 권한까지 OpenClaw에 넘긴 상태라고 밝히며, 지금은 그 구조 자체를 재평가하는 단계라고 말한다.
이는 기능 자동화 범위를 넓히는 대신, 실패했을 때의 영향 반경도 크게 만든다.

단일 프로젝트가 아니라 멀티프로젝트 운영이 최종 목표다 [04:50]

발표자의 관심은 Linkbot 하나를 잘 돌리는 데 그치지 않고, 더 큰 가치가 있는 여러 SaaS 프로젝트에 같은 운영 체계를 확장하는 데 있다.
그래서 지금 문제는 단순 비용 절감이 아니라, 다수 프로젝트를 동시에 다룰 수 있는 운영 모델을 만드는 데 연결된다.

프로젝트별 컨텍스트 분리와 범용화가 필수 과제로 떠올랐다 [05:17]

여러 클라이언트에 서로 다른 지침과 레이블을 붙이는 상황에서는, cron·태그·컨텍스트가 프로젝트 단위로 분리되어야 혼선이 줄어든다.
Google Analytics 속성 ID 같은 하드코딩 값, Notion 문서, SOP도 프로젝트별 변수화·범용화가 필요하다고 본다.

우선순위는 명확하지만 실행은 역행하고 있다 [05:59]

발표자는 현재 최우선 과제를 토큰 소각 축소와 멀티프로젝트 지원 두 가지로 정리하되, 당장은 전자가 더 급하다고 말한다.
동시에 그 문제를 해결하기도 전에 기존 10명 에이전트에 3~4명을 더 붙였다고 인정하며, 스스로도 “거꾸로 가는 것”이라고 평가한다.

혼란 자체를 공개 실험 콘텐츠로 전환한다 [06:24]

영상 말미에서 발표자는 자신의 당황과 문제 해결 과정을 지켜보는 것 자체가 재미 포인트가 될 수 있다고 농담 섞어 정리한다.
이는 단순 실패 고백이 아니라, 실제 운영 중 드러나는 비용·권한·확장성 문제를 공개적으로 검증하는 기록이기도 하다.

✅ 액션 아이템

현재 에이전트별 입력 토큰, 캐시 적중률, 평균 세션 길이를 분리 집계해 어떤 역할이 비용을 가장 많이 태우는지 순위화한다.
개발자 에이전트의 서버·GitHub 권한을 작업 유형별로 재분리하고, 자동 푸시 가능한 범위와 사람 승인 필수 범위를 명시한다.
프로젝트별 태그, SOP, 환경변수, 분석 ID를 하드코딩 대신 템플릿화해 Linkbot 외 신규 SaaS 하나를 같은 구조로 붙여보는 확장 테스트를 한다.
컨텍스트 압축 빈도와 캐시 유지 시간을 바꾼 2~3개 실험군을 만들어, 비용 절감률과 작업 정확도를 함께 비교한다.
전문 에이전트 추가 전후의 성과 차이를 측정해, CRO·광고·PM 역할 중 실제 ROI가 낮은 에이전트는 비활성화하거나 호출 조건을 더 엄격하게 건다.

❓ 열린 질문

캐시 비율을 2:1에서 6:1 이상으로 끌어올렸을 때도 에이전트별 판단 품질이 유지되는지, 아니면 특정 역할에서만 품질 저하가 발생하는가?
Bolt처럼 고권한 개발자 에이전트가 실제 장애를 낸 뒤 스스로 복구한 사례는 생산성 우위의 증거인가, 아니면 사람 검토 없는 배포 구조의 위험 신호인가?
멀티프로젝트 확장 시 프로젝트별 컨텍스트를 태그로만 분리하는 방식이 충분한지, 아니면 메모리·권한·도구 접근까지 완전히 분리된 실행 단위가 필요한가?
Linkbot처럼 상대적으로 작은 프로젝트에서 검증되지 않은 비용 구조를 더 큰 SaaS에 그대로 확장하면, 수익 증가보다 토큰 원가와 운영 복잡도가 먼저 누적될 가능성은 얼마나 큰가?

연관 글

I Built a game like AI Agent Workspace Monitor in OpenClaw!

OpenClaw + Obsidian: The Perfect Co-Working System

How I Built My OpenClaw Mission Control (Exact Prompts + Free Download)

OpenClaw Claude Code + World Monitor = ULTIMATE News Research

OpenClaw + LobsterBoard is INSANE!