← 홈으로
YouTube2026-03-21·Kimi AI
How We Scaled Kimi K2.5
오픈 모델을 진짜 경쟁력 있게 만들려면 단순 공개를 넘어, 토큰 효율·긴 컨텍스트·에이전트 스웜이라는 세 축을 함께 확장하고 초대형 학습의 안정성까지 해결해야 한다는 것이 이번 키노트의 핵심입니다.
원문/원본: https://youtu.be/CwePo4847ho기존 공개 버전: pogovet.com
🎬 How We Scaled Kimi K2.5 | Zhilin Yang's full GTC 2026 Keynote
▶️ 유튜브
![]()
🖼️ 4컷 인포그래픽

💡 한 줄 결론
오픈 모델을 진짜 경쟁력 있게 만들려면 단순 공개를 넘어, 토큰 효율·긴 컨텍스트·에이전트 스웜이라는 세 축을 함께 확장하고 초대형 학습의 안정성까지 해결해야 한다는 것이 이번 키노트의 핵심입니다.
📌 핵심 요점
- 발표자는 오픈 모델의 가치는 “공개되어 있다”는 사실만이 아니라, 실제로 폐쇄형 모델과 경쟁할 만큼 충분히 좋아야 한다는 점에 있다고 강조한다.
- 모델 성능 향상의 핵심 동력으로 스케일링을 보되, 이제는 학습 토큰 수만 늘리는 것이 아니라 같은 데이터로 더 잘 배우는 토큰 효율 개선이 중요한 전선으로 제시된다.
- 긴 컨텍스트는 단순 메모리 확장이 아니라, 더 오래 지속되는 복잡한 에이전트 작업을 가능하게 하는 기반 역량으로 해석된다.
- 단일 에이전트 대신 여러 서브에이전트를 병렬로 조율하는 에이전트 스웜은 과업 복잡도·입력 규모·출력 규모·행동 규모를 함께 키우는 새로운 스케일링 축으로 소개된다.
- 발표 후반부에서는 Kimi K2.5 계열의 학습·멀티모달 설계와 더불어, 차세대 아키텍처 후보로 attention residue를 제시하며 오래된 기본기술도 다시 설계할 수 있다고 주장한다.
🧩 배경과 문제 정의
- 이 발표의 문제의식은 오픈 모델을 단순히 배포 가능한 소프트웨어가 아니라, 누구나 배치·검증·수정할 수 있으면서도 실제 성능 면에서 폐쇄형 모델을 따라잡는 수준까지 끌어올리는 데 있다.
- 발표자는 최근 AI 진보의 공통 원인으로 스케일링을 인정하지만, 기존처럼 토큰 수·파라미터 수·연산량을 비례적으로 늘리는 접근만으로는 충분하지 않다고 본다.
- 특히 고품질 데이터가 무한하지 않은 상황에서 토큰 효율은 비용 절감 문제가 아니라, 제한된 데이터로 도달 가능한 지능 상한을 높일 수 있느냐의 문제로 재정의된다.
- 동시에 에이전트 시대에는 모델이 더 긴 시간 동안 상태를 유지하며 복잡한 작업을 이어가야 하므로, 긴 컨텍스트는 선택지가 아니라 필수 역량으로 다뤄진다.
- 여기에 더해 단일 모델 인스턴스 하나로는 해결하기 어려운 복잡한 과업을 여러 에이전트의 병렬 협업 구조로 풀어내려는 시도가 세 번째 축으로 제시된다.
- 다만 이런 확장은 새로운 최적화 기법과 구조 개선이 초대형 스케일에서 학습 불안정성을 유발할 수 있기 때문에, 성능 개선과 안정성 확보를 동시에 달성하는 것이 핵심 과제로 남는다.
🕒 시간순 섹션별 상세정리
- 오픈 모델의 목표와 의미 [00:11]
- 발표자는 더 나은 오픈 모델을 만드는 일이 지능의 민주화와 직결된다고 설명한다.
- 오픈 모델은 로컬 서버나 클라우드 등 원하는 환경에 배치할 수 있고, 블랙박스 API와 달리 내부 가중치와 구성에 접근할 수 있다는 점이 장점으로 제시된다.
- 오픈 모델이 폐쇄형 모델과의 성능 격차를 빠르게 줄이며 전선에 가까워지고 있다는 인식도 함께 제시된다.
- 공개만으로는 부족하고, “좋아야” 한다는 기준 [01:15]
- 발표자는 오픈 모델이 단지 열려 있다는 사실만으로는 충분하지 않으며, 실제로 강해야 한다고 못박는다.
- 이후 논의의 초점은 오픈 모델을 어떻게 더 좋게 만들 것인가, 즉 실제 역량을 어떻게 확장할 것인가에 맞춰진다.
- 최근 AI 발전의 핵심 동력으로 스케일링이 다시 호출되며, 발표 전체가 여러 축의 스케일링 전략으로 전개될 것임을 예고한다.
- 첫 번째 축: 토큰 수가 아니라 토큰 효율까지 함께 확장 [01:40]
- 일반적인 스케일링 법칙에서는 학습 토큰 수가 늘어날수록 손실이 줄어드는 관계가 설명된다.
- 그러나 여기서는 같은 양의 토큰으로 더 낮은 손실을 내는 방향, 즉 곡선 자체를 더 효율적인 쪽으로 이동시키는 것이 목표가 된다.
- 이는 더 많은 데이터를 먹이는 방식뿐 아니라, 더 좋은 아키텍처와 옵티마이저를 통해 “얼마나 잘 학습하느냐”를 높이는 문제로 전환된다.
- 두 번째·세 번째 축: 긴 컨텍스트와 에이전트 스웜 [02:32]
- 컨텍스트 길이를 늘리면 특정 위치 토큰의 예측 정확도를 높일 수 있고, 더 복잡한 과제를 수행할 기반이 생긴다고 설명한다.
- 긴 컨텍스트는 모델이 더 오래 작업 상태를 유지하는 능력과 연결된다.
- 동시에 단일 에이전트가 아니라 여러 에이전트를 병렬로 조율하는 agent swarm 학습 패러다임이 새로운 확장 축으로 제시된다.
- 에이전트 관점으로 다시 해석한 세 가지 확장 축 [03:28]
- 토큰 효율은 에이전트 강화학습에서 더 나은 해를 탐색할 수 있게 만드는 강한 사전지식의 문제로 해석된다.
- 긴 컨텍스트는 며칠 이상 지속될 수 있는 장기 실행 에이전트를 가능하게 하는 기반으로 설명된다.
- 에이전트 스웜은 여러 에이전트가 동시에 탐색하고 해결하는 병렬성의 축을 더한다.
- 최종적으로는 강한 사전지식, 초장문 컨텍스트, 다수의 병렬 에이전트가 결합된 전체 시스템이 지향점으로 그려진다.
- 고전적 스케일링 법칙에서 토큰 효율 문제로 이동 [04:19]
- Kaplan 등의 고전적 스케일링 법칙을 다시 짚으며, 토큰 수·파라미터 수·연산량을 함께 늘리면 손실이 감소한다는 점을 상기시킨다.
- 발표자는 이 접근이 최근 수년간의 AI 발전을 이끈 큰 동력이었다는 점을 인정한다.
- 다만 이번 발표의 초점은 그 연장선에서 더 나은 토큰 효율을 달성하는 새로운 연구 방향에 맞춰진다.
- 토큰 효율은 비용 문제가 아니라 지능 상한 문제 [04:59]
- 토큰 효율은 단순히 컴퓨팅 비용을 아끼는 문제가 아니라, 도달 가능한 지능의 상한을 끌어올리는 문제라고 강조된다.
- 고품질 토큰이 유한하다는 가정 아래, 효율이 2배 좋아지면 체감상 데이터가 2배 많아진 것과 유사한 효과를 얻을 수 있다고 설명한다.
- 따라서 효율 개선은 제한된 자원으로 더 높은 성능에 접근하는 핵심 수단으로 제시되며, Meow 옵티마이저가 대표 사례로 소개된다.
- Meow 옵티마이저의 핵심 아이디어와 대규모 적용 [06:18]
- Meow는 2차 정보 기반 옵티마이저로, 각 그래디언트 업데이트를 직교하는 방향으로 변환하는 방식으로 설명된다.
- 발표자는 이 접근이 Adam 계열과는 다른 특성을 가지며, 제대로 구현하면 토큰 효율을 크게 끌어올릴 수 있다고 주장한다.
- 대규모 LLM 학습에 적용하기 위해 weight decay와 RMS 업데이트 규모 조정 같은 보완이 필요했다고 말한다.
- 또한 데이터 병렬 그룹에 상태를 분산하는 방식으로 GPU 클러스터 전반의 메모리 효율도 확보했다고 설명한다.
- AdamW 대비 성능 향상과 1조 파라미터 구간의 불안정성 [07:43]
- 같은 파라미터 수와 학습 토큰 수 조건에서 AdamW를 Meow로 교체하면 전반적 성능이 개선된 결과가 제시된다.
- 하지만 이를 1조 파라미터 규모로 키우자 새로운 학습 불안정성이 나타났다고 설명한다.
- 최대 로짓 값이 비정상적으로 커지고 손실이 후반에 폭발하는 현상이 관찰되며, 초대형 스케일에서는 안정성 자체가 별도 과제가 됨을 보여준다.
- QK clip으로 로짓 폭주를 억제하는 접근 [09:02]
- 이러한 불안정성의 해법으로 QK clip이라는 기법이 도입된다.
- 각 어텐션 헤드에서 최대 로짓을 계산하고 이를 바탕으로 query와 key 투영에 조정 계수를 적용해 값의 폭주를 막는 방식으로 설명된다.
- 제시된 결과에서는 클리핑 적용 전후 손실 감소 곡선이 거의 겹친다고 하며, 품질 저하 없이 안정성을 얻는 방향으로 소개된다.
- 최대값 제약으로 학습 안정화 [10:01]
- 발표자는 중간 계산값의 최대치가 일정 구간 동안 상수 수준으로 제한되고 이후 자연스럽게 내려가는 형태를 설명한다.
- 신경망이 최대값을 스스로 제한하는 방향으로 작동해 학습 안정성이 높아진다는 것이다.
- 이 기법을 K2 학습에 적용해 1조 파라미터까지 확장했다고 말한다.
- 긴 문맥이 두 번째 핵심 축으로 부상 [10:58]
- 다음 주제로 long context가 제시되며, 문맥 길이에 따라 모델 구조가 어떤 이득을 얻는지를 다른 관점에서 본다고 설명한다.
- 비교 대상으로 transformer와 LSTM이 등장하고, 같은 파라미터 수와 같은 학습 토큰 수 조건에서 차이를 살핀다.
- Transformer가 긴 문맥에서 더 좋아지는 이유 [11:21]
- 동일 조건에서 transformer가 더 낮은 학습 손실을 보여 표준 구조가 된 배경이 다시 확인된다.
- 특히 문맥을 따라 뒤로 갈수록 transformer의 손실이 더 낮아지는 점이 강조된다.
- 반면 LSTM은 일정 지점 이후 포화되며 긴 문맥에서 추가 이득이 제한된다고 대비된다.
- 에이전트 시대에 긴 문맥이 왜 필수인지 [12:25]
- 발표자는 코드베이스 전체 이해나 매우 긴 에이전트 실행 궤적 같은 작업은 짧은 메모리 구조로 처리하기 어렵다고 본다.
- 복잡한 과제가 늘어나는 에이전트 시대에는 긴 컨텍스트를 다루는 능력이 필수 역량이라고 연결한다.
- 따라서 더 긴 문맥 길이로 효율적으로 확장하면서도 뒤쪽 토큰의 손실까지 낮추는 구조가 목표가 된다.
- Kimilinear 구조와 혼합 비율 설계 [12:58]
- 이런 문제의식에서 Kimilinear라는 새 아키텍처가 제시된다.
- 핵심 요소로 Kimidelta attention이라는 선형 어텐션 변형이 소개되며, 기존 recurrent memory의 한계를 개선하려는 시도로 설명된다.
- 선형 어텐션 층과 full attention 층을 1:2:3 비율로 혼합해 긴 문맥 능력과 구현 효율의 균형을 맞추려는 설계가 제시된다.
- 채널별 감쇠율로 기억과 망각을 분리 [13:58]
- 기존 선형 어텐션에서는 하나의 감쇠 계수가 전체 메모리에 적용돼 기억과 망각을 세밀하게 조절하기 어렵다고 설명한다.
- 이를 해결하기 위해 감쇠 인자를 스칼라가 아닌 대각행렬로 바꿔 채널별 서로 다른 감쇠율을 갖도록 설계한다.
- 일부 채널은 장기 정보를 유지하고, 다른 채널은 빠르게 새 정보를 반영하도록 만들어 표현력을 높이려는 접근이다.
- GPU 병렬화를 위한 정확한 재정식화 [15:27]
- 현대 GPU 활용을 위해서는 chunk-wise formulation이 필요하다고 설명한다.
- 그러나 새로 도입된 항이 행렬이 되면서 기존처럼 단순 분리가 어려워져 구현 난도가 높아졌다고 말한다.
- 이를 해결하기 위해 수식을 정확히 동등한 다른 형태로 재정식화해 병렬성과 효율을 확보했다고 주장한다.
- 공정 비교에서 확인된 성능과 효율 [16:50]
- 공정 비교 결과, 짧은 문맥 과제에서 Kimilinear가 다른 구조보다 더 좋은 성능을 보였다고 제시된다.
- 긴 문맥 과제에서도 우수하면서 MLA 대비 훨씬 효율적이라고 설명한다.
- 문맥 길이를 100만 토큰 이상으로 늘릴수록 효율 차이가 더 커지며, 짧은 문맥·긴 입력·긴 출력 과제를 모두 포함해 full attention을 전반적으로 능가한 첫 구조라고 주장한다.
- 에이전트 스웜의 기본 운영 구조 [17:49]
- 세 번째 핵심 축으로 agent swarm이 소개된다.
- 중앙의 orchestrator가 과업을 분해하고 여러 서브에이전트를 생성해 각각 다른 하위 과제를 맡긴다.
- 이후 결과를 수집하고 추가 작업을 배정하는 반복 구조를 통해 단일 에이전트보다 더 복잡한 과업을 해결할 수 있다고 설명한다.
- 조직 비유와 복잡도 축에서의 확장성 [19:00]
- 이 구조는 회사 조직에 비유되며, 중앙 조정자가 역할을 나누고 각 전문 팀이 병렬적으로 움직이는 형태와 유사하다고 설명된다.
- AI 연구자, 웹 개발자, 물리 연구자 등 전문 역할이 병렬적으로 탐구하고, 이후 fact-checker나 집계 담당이 결과를 모아 최종 보고서를 만드는 흐름이 예시로 제시된다.
- 논의는 자연스럽게 “더 복잡한 과업을 처리할 수 있는가”라는 복잡도 축의 스케일링 문제로 이어진다.
- 병렬 에이전트 스웜의 확장성 [20:00]
- 에이전트 스웜은 단일 에이전트보다 실행 시간을 줄이고 더 높은 효율을 낼 수 있는 구조로 제시된다.
- 서브에이전트를 100개, 1000개 수준까지 운용하면 매우 복잡한 과업도 감내 가능한 시간 안에 처리할 수 있어 경제적 가치가 생긴다고 본다.
- 확장의 의미는 단순한 처리량 증가가 아니라, 해결 가능 과업의 범위를 넓히는 데 있다고 설명한다.
- 입력·출력·행동 규모를 동시에 키우는 구조 [20:33]
- 병렬 구조에서는 수백~수천 개의 자료를 동시에 읽는 식으로 입력 규모를 늘릴 수 있다고 말한다.
- 출력 측면에서는 100페이지짜리 문헌 검토 같은 긴 산출물도 병렬로 작성할 수 있다고 설명한다.
- 행동 규모 역시 여러 데이터 분석 과업을 동시에 수행하는 방식으로 확대할 수 있지만, 이를 위해서는 하위 과업 설계와 결과 집계가 필수라고 짚는다.
- 병렬 실행을 유도하는 첫 번째 보상 설계 [21:06]
- agent swarm 학습을 위해 기존 단일 에이전트 강화학습과는 다른 새로운 목적함수가 정의됐다고 설명한다.
- 첫 번째 보상은 서브에이전트 생성 자체를 장려하는 instantiation reward로, 학습이 다시 단일 에이전트 형태로 수렴하지 않게 만드는 장치다.
- 특히 학습 초기에 병렬 실행을 강하게 유도하고, 이후에는 가중치를 줄이는 전략이 제시된다.
- 과업 남발을 막는 완료 보상과 전체 성과 보상 [22:11]
- 두 번째 항인 finished reward는 서브과업이 생성만 되고 끝나지 않는 문제를 막기 위해 도입된다고 설명한다.
- 이를 통해 많은 서브에이전트를 띄워 첫 번째 보상만 편법적으로 얻는 학습을 방지하려는 목적이 있다.
- 세 번째 항은 전체 과업의 성공 여부를 보는 outcome reward이며, 최종적으로 세 보상을 결합해 시스템을 학습한다고 정리한다.
- 세 축의 스케일링이 Kimi K2.5로 수렴 [23:38]
- 지금까지의 세 축, 즉 optimizer를 통한 토큰 효율 개선, 긴 컨텍스트용 선형 아키텍처, agent swarm 패러다임이 하나의 모델 계열로 묶여 제시된다.
- 발표자는 이를 결합해 약 한 달 전 공개한 새 모델 Kimi K2.5를 만들었다고 연결한다.
- 세 가지 확장 축이 서로 분리된 연구가 아니라 실제 제품 모델로 수렴했다는 점이 강조된다.
- 데모 이후 드러난 능력과 안정적 사전학습의 의미 [25:19]
- 데모 이후에는 시각 능력과 코딩 능력이 결합되며 예상 밖의 새로운 성질이 나타났다고 설명한다.
- 예시로 영상을 읽고 원본 스타일을 어느 정도 반영한 웹사이트를 생성하는 능력이 언급된다.
- 이러한 능력은 사전학습 단계의 성공적이고 안정적인 학습 덕분이라고 해석되며, 학습 곡선이 매우 매끄럽고 장기간 추가 학습에도 loss spike가 없었다고 강조한다.
- 인프라와 조기 융합형 비전-텍스트 학습 [26:52]
- Kimi K2.5의 또 다른 혁신으로, 네이티브한 vision-text 공동 능력을 가진 첫 오픈 모델이라는 점이 제시된다.
- 기존 오픈 모델이 텍스트 모델 위에 시각 능력을 나중에 붙이는 late fusion을 썼다면, 이 모델은 처음부터 비전과 텍스트를 함께 학습하는 early fusion을 택했다고 설명한다.
- 발표자는 이런 초기 공동학습이 late fusion보다 더 좋은 성능을 보였다는 예비 결과를 언급하며, 특히 vision-to-code 같은 능력은 두 모달리티의 강한 정렬이 필요하다고 주장한다.
- 비전과 텍스트가 서로를 강화한다는 관찰 [28:17]
- 비전과 텍스트가 서로 성능을 갉아먹을 수 있다는 우려와 달리, 적절히 학습시키면 상호 강화가 가능하다고 말한다.
- vision RL만 수행했는데도 텍스트 과업 성능이 좋아졌다는 관찰이 소개된다.
- 반대로 강한 텍스트 기반이 비전에도 도움을 주며, 그래서 비전 SFT 데이터를 사실상 쓰지 않는 zero vision SFT 접근을 채택했다고 설명한다.
- 텍스트 SFT 데이터만으로도 텍스트와 비전을 공동 최적화해 매우 높은 수준의 성능에 근접했다고 주장한다.
- 텍스트 기반이 비전까지 밀어 올리는 이유 [30:00]
- 발표자는 텍스트와 비전 두 모달리티가 사전학습 단계에서 하나의 공유 표현 공간으로 정렬되면, 직접적인 비전 데이터가 많지 않아도 비전 성능 향상이 가능하다고 말한다.
- 앞서 언급된 시각 디자인과 프런트엔드 코딩 능력도 이런 비전-텍스트 공동 사전학습의 결과로 연결된다.
- Kimi 8.5에서 다음 세대 아키텍처 이야기로 전환 [30:39]
- 발표자는 지금까지의 설명을 Kimi 8.5에 관한 내용이라고 정리한 뒤, 전날 공개한 새 아키텍처를 짧게 소개하겠다고 전환한다.
- 기술 보고서 이름은 attention residue라고 밝히며, 차기 세대 모델에 들어갈 수 있는 방향으로 제시한다.
- 이 구간부터는 현재 모델 설명에서 다음 세대 설계 철학 소개로 초점이 이동한다.
- 시간축 아이디어를 깊이축으로 옮기려는 발상 [31:07]
- 동기는 시간 차원에서 쓰던 아이디어를 깊이 차원에도 적용할 수 있는지 묻는 데서 출발한다고 설명한다.
- residual connection 이전에는 깊은 네트워크 학습이 매우 어려웠고, 기울기 폭주·소실·안정성 문제가 주요 장벽이었다고 회고한다.
- ResNet 이후 깊은 네트워크 학습이 가능해졌다는 점을 바탕으로, 이제 깊이 방향의 연결 구조도 다시 생각해볼 수 있다는 문제의식이 제시된다.
- 잔차 연결을 LSTM의 회전된 형태로 해석 [32:13]
- residual connection을 90도 회전한 LSTM 변형처럼 볼 수 있다는 해석이 소개된다.
- 시간축의 순환 구조와 깊이축의 레이어 연결이 구조적으로 유사하다는 관점이다.
- 차이는 결합 방식의 수식 형태지만, 본질적으로는 깊이 방향 순환 구조로 볼 수 있다는 해석이 핵심이다.
- attention을 깊이 차원에 적용하는 일반화 [33:27]
- 여기서 더 나아가, 깊이 차원에서 attention을 쓰는 일반화를 제안한다.
- 이전 은닉 상태 하나만 쓰는 대신 이전의 모든 은닉 상태를 attention으로 결합해 현재 레이어 출력을 계산하겠다는 구상이다.
- 발표자는 이를 residual connection의 자연스러운 확장으로 보며, 트랜스포머 시대의 성공을 깊이축에도 옮겨올 수 있다고 말한다.
- attention residue와 block attention residue의 구현 방향 [34:21]
- attention residue는 이전 모든 상태를 모아 현재 출력을 만드는 구조로 설명된다.
- 다만 그대로 쓰면 통신 비용과 메모리 오버헤드가 커지기 때문에, 전체 레이어를 여러 블록으로 나누고 블록 간에만 attention residue를 적용하는 block attention residue가 제시된다.
- 블록 내부는 기존 residual을 유지해 정확도 손실을 최소화하면서도 오버헤드를 낮추는 방향이다.
- 새 아키텍처의 실험 결과와 스케일링 이득 [35:32]
- 발표자는 새 아키텍처가 스케일링 법칙 측면에서 토큰 효율을 24% 개선했다고 주장한다.
- 비유적으로는 50조 개의 고품질 토큰이 60조 개가 넘는 것처럼 작동하는 셈이라고 설명한다.
- 검증 손실도 일관되게 더 낮았고, 코딩·수학·추론 비중이 큰 벤치마크에서 특히 개선이 컸다고 덧붙인다.
- 오래된 기본기술도 다시 설계할 수 있다는 연구 관점 [36:24]
- 발표자는 커뮤니티가 계속 전진하는 과정에서, 이미 표준처럼 굳어진 기술도 다시 설계할 여지가 있다고 본다.
- Adam을 대체하는 새 최적화, full attention을 대체·보완하는 선형 구조, residual connection을 일반화하는 attention residue를 예로 들며, 이런 시도를 오픈소스로 확장하고 있다고 말한다.
- 충분한 자원과 스케일링 실험, 다양한 벤치마크가 축적된 지금은 더 단단한 결론을 낼 수 있는 시대라고 진단한다.
- 마지막으로 모델은 계속 스케일링될 것이고, agentic 형태 역시 종착점이 아니라 또 다른 새로운 확장 축이 계속 등장할 것이라고 정리하며 발표를 마무리한다.
🧾 결론
- 이 키노트는 “오픈 모델도 최전선까지 갈 수 있는가”라는 질문에 대해, 단일 해법이 아니라 세 가지 상호보완적 스케일링 축을 제시하는 답변으로 구성된다.
- 첫째는 토큰 효율 개선이며, 둘째는 긴 컨텍스트를 더 효율적으로 다루는 구조 혁신, 셋째는 복잡한 과업을 병렬 협업으로 푸는 에이전트 스웜이다.
- 발표의 설득력은 이 세 축이 단순 연구 아이디어로 끝나지 않고 실제 모델 계열과 데모, 그리고 차세대 설계 제안으로 연결된다는 데 있다.
- 동시에 초대형 학습에서 나타나는 불안정성과 인프라 제약을 정면으로 다루며, “좋은 모델”은 성능뿐 아니라 안정적 학습과 실용적 배치 가능성까지 포함해야 한다는 메시지를 남긴다.
📈 투자·시사 포인트
- 오픈 모델 진영의 경쟁력은 단순 공개 여부보다, 폐쇄형 모델과의 성능 격차를 얼마나 좁히느냐로 재평가될 가능성이 크다.
- 고품질 데이터가 병목이 되는 국면에서는 데이터 양 확대보다 토큰 효율 개선 기술이 더 높은 전략적 가치를 가질 수 있다.
- 긴 컨텍스트와 에이전트 스웜은 단순 챗봇 고도화가 아니라, 장시간·대규모 작업 자동화 시장의 기반 기술로 읽힌다.
- early fusion 기반 비전-텍스트 학습이 실제로 우수하다면, 멀티모달 모델 설계의 중심축이 late fusion에서 이동할 가능성이 있다.
- 발표 후반의 attention residue 제안은 최적화·어텐션·잔차 연결처럼 “이미 정답이 정해진 것처럼 보이던 기본기술”도 다시 혁신 대상이 될 수 있음을 시사한다.
⚠️ 불확실하거나 확인이 필요한 부분
- 발표 내용 요약에는 Meow optimizer, Muon clip optimizer, Neon clip 등 명칭이 혼재되어 있어 동일 계열인지 별도 기법인지 원문 자료 확인이 필요하다.
- 중후반부에서 Kimi K2.5, K2, Kimi 8.5가 교차로 언급되므로, 어떤 설명이 정확히 어느 모델 세대를 가리키는지 기술 보고서 원문 대조가 필요하다.
- “첫 오픈 모델”, “full attention을 전반적으로 능가한 첫 구조”, “거의 최고 수준 성능” 같은 표현은 발표자의 주장으로 이해해야 하며, 독립 벤치마크 비교표 확인이 필요하다.
- vision RL이 텍스트 성능을 향상시켰다는 관찰과 zero vision SFT의 효과는 흥미롭지만, 구체적 실험 설정과 재현 조건은 본 발표 요약만으로 확정하기 어렵다.
- attention residue의 24% 토큰 효율 개선 역시 발표 중 소개된 결과로 보이며, 실험 범위·모델 크기·비교 기준에 대한 추가 문서 확인이 필요하다.
✅ 액션 아이템
- Kimi K2.5 / Kimi 8.5 / attention residue 관련 기술 보고서를 찾아 모델명과 기법 명칭 혼선을 먼저 정리한다.
- 토큰 효율 개선을 비용 절감이 아닌 “지능 상한 확대” 관점으로 재해석해, 현재 사용하는 학습·파인튜닝 전략에도 적용 가능한지 점검한다.
- 긴 컨텍스트와 agent swarm이 실제 제품 워크플로우에서 어떤 유형의 작업 자동화로 연결될 수 있을지 사례 중심으로 정리한다.
- early fusion과 late fusion의 차이를 멀티모달 제품 설계 관점에서 비교 메모로 남긴다.
- 발표 후반의 attention residue 아이디어를 기존 residual / recurrent / attention 구조 비교 관점에서 별도 학습 노트로 확장한다.
❓ 열린 질문
- 토큰 효율 개선이 실제 산업 현장에서는 데이터 병목을 얼마나 실질적으로 완화할 수 있을까?
- 긴 컨텍스트와 agent swarm 중, 향후 에이전트 제품의 체감 성능에 더 큰 영향을 주는 축은 무엇일까?
- early fusion 기반 멀티모달 학습은 모든 과제에서 유리할까, 아니면 특정 작업군에서만 강점을 보일까?
- attention residue 같은 깊이축 일반화가 향후 표준 아키텍처로 자리잡을 가능성은 얼마나 될까?
- 오픈 모델이 “좋다”고 평가받기 위한 기준은 앞으로 벤치마크 점수보다 배치 가능성·수정 가능성·안정성 쪽으로 이동할까?