YouTube2026-03-21·Kimi AI

How We Scaled Kimi K2.5

링크: https://youtu.be/CwePo4847ho?si=nZbhVdnhpwiWpv4n

원문/원본: https://youtu.be/CwePo4847ho?si=nZbhVdnhpwiWpv4n기존 공개 버전: pogovet.com

🎬 How We Scaled Kimi K2.5 | Zhilin Yang's full GTC 2026 Keynote

▶️ 유튜브

원본 링크: https://youtu.be/CwePo4847ho?si=nZbhVdnhpwiWpv4n

🖼️ 4컷 인포그래픽

💡 한 줄 결론

오픈 모델을 진짜 경쟁력 있게 만들려면 단순 공개를 넘어, 토큰 효율·긴 컨텍스트·에이전트 스웜이라는 세 축을 함께 확장하고 초대형 학습의 안정성까지 해결해야 한다는 것이 이번 키노트의 핵심입니다.

📌 핵심 요점

발표자는 오픈 모델의 가치는 “공개되어 있다”는 사실만이 아니라, 실제로 폐쇄형 모델과 경쟁할 만큼 충분히 좋아야 한다는 점에 있다고 강조한다.
모델 성능 향상의 핵심 동력으로 스케일링을 보되, 이제는 학습 토큰 수만 늘리는 것이 아니라 같은 데이터로 더 잘 배우는 토큰 효율 개선이 중요한 전선으로 제시된다.
긴 컨텍스트는 단순 메모리 확장이 아니라, 더 오래 지속되는 복잡한 에이전트 작업을 가능하게 하는 기반 역량으로 해석된다.
단일 에이전트 대신 여러 서브에이전트를 병렬로 조율하는 에이전트 스웜은 과업 복잡도·입력 규모·출력 규모·행동 규모를 함께 키우는 새로운 스케일링 축으로 소개된다.
발표 후반부에서는 Kimi K2.5 계열의 학습·멀티모달 설계와 더불어, 차세대 아키텍처 후보로 attention residue를 제시하며 오래된 기본기술도 다시 설계할 수 있다고 주장한다.

🧩 배경과 문제 정의

이 발표의 문제의식은 오픈 모델을 단순히 배포 가능한 소프트웨어가 아니라, 누구나 배치·검증·수정할 수 있으면서도 실제 성능 면에서 폐쇄형 모델을 따라잡는 수준까지 끌어올리는 데 있다.
발표자는 최근 AI 진보의 공통 원인으로 스케일링을 인정하지만, 기존처럼 토큰 수·파라미터 수·연산량을 비례적으로 늘리는 접근만으로는 충분하지 않다고 본다.
특히 고품질 데이터가 무한하지 않은 상황에서 토큰 효율은 비용 절감 문제가 아니라, 제한된 데이터로 도달 가능한 지능 상한을 높일 수 있느냐의 문제로 재정의된다.
동시에 에이전트 시대에는 모델이 더 긴 시간 동안 상태를 유지하며 복잡한 작업을 이어가야 하므로, 긴 컨텍스트는 선택지가 아니라 필수 역량으로 다뤄진다.
여기에 더해 단일 모델 인스턴스 하나로는 해결하기 어려운 복잡한 과업을 여러 에이전트의 병렬 협업 구조로 풀어내려는 시도가 세 번째 축으로 제시된다.
다만 이런 확장은 새로운 최적화 기법과 구조 개선이 초대형 스케일에서 학습 불안정성을 유발할 수 있기 때문에, 성능 개선과 안정성 확보를 동시에 달성하는 것이 핵심 과제로 남는다.

🕒 시간순 섹션별 상세정리

오픈 모델의 목표와 의미 [00:11]

발표자는 더 나은 오픈 모델을 만드는 일이 지능의 민주화와 직결된다고 설명한다.
오픈 모델은 로컬 서버나 클라우드 등 원하는 환경에 배치할 수 있고, 블랙박스 API와 달리 내부 가중치와 구성에 접근할 수 있다는 점이 장점으로 제시된다.
오픈 모델이 폐쇄형 모델과의 성능 격차를 빠르게 줄이며 전선에 가까워지고 있다는 인식도 함께 제시된다.

공개만으로는 부족하고, “좋아야” 한다는 기준 [01:15]

발표자는 오픈 모델이 단지 열려 있다는 사실만으로는 충분하지 않으며, 실제로 강해야 한다고 못박는다.
이후 논의의 초점은 오픈 모델을 어떻게 더 좋게 만들 것인가, 즉 실제 역량을 어떻게 확장할 것인가에 맞춰진다.
최근 AI 발전의 핵심 동력으로 스케일링이 다시 호출되며, 발표 전체가 여러 축의 스케일링 전략으로 전개될 것임을 예고한다.

첫 번째 축: 토큰 수가 아니라 토큰 효율까지 함께 확장 [01:40]

일반적인 스케일링 법칙에서는 학습 토큰 수가 늘어날수록 손실이 줄어드는 관계가 설명된다.
그러나 여기서는 같은 양의 토큰으로 더 낮은 손실을 내는 방향, 즉 곡선 자체를 더 효율적인 쪽으로 이동시키는 것이 목표가 된다.
이는 더 많은 데이터를 먹이는 방식뿐 아니라, 더 좋은 아키텍처와 옵티마이저를 통해 “얼마나 잘 학습하느냐”를 높이는 문제로 전환된다.

두 번째·세 번째 축: 긴 컨텍스트와 에이전트 스웜 [02:32]

컨텍스트 길이를 늘리면 특정 위치 토큰의 예측 정확도를 높일 수 있고, 더 복잡한 과제를 수행할 기반이 생긴다고 설명한다.
긴 컨텍스트는 모델이 더 오래 작업 상태를 유지하는 능력과 연결된다.
동시에 단일 에이전트가 아니라 여러 에이전트를 병렬로 조율하는 agent swarm 학습 패러다임이 새로운 확장 축으로 제시된다.

에이전트 관점으로 다시 해석한 세 가지 확장 축 [03:28]

토큰 효율은 에이전트 강화학습에서 더 나은 해를 탐색할 수 있게 만드는 강한 사전지식의 문제로 해석된다.
긴 컨텍스트는 며칠 이상 지속될 수 있는 장기 실행 에이전트를 가능하게 하는 기반으로 설명된다.
에이전트 스웜은 여러 에이전트가 동시에 탐색하고 해결하는 병렬성의 축을 더한다.
최종적으로는 강한 사전지식, 초장문 컨텍스트, 다수의 병렬 에이전트가 결합된 전체 시스템이 지향점으로 그려진다.

고전적 스케일링 법칙에서 토큰 효율 문제로 이동 [04:19]

Kaplan 등의 고전적 스케일링 법칙을 다시 짚으며, 토큰 수·파라미터 수·연산량을 함께 늘리면 손실이 감소한다는 점을 상기시킨다.
발표자는 이 접근이 최근 수년간의 AI 발전을 이끈 큰 동력이었다는 점을 인정한다.
다만 이번 발표의 초점은 그 연장선에서 더 나은 토큰 효율을 달성하는 새로운 연구 방향에 맞춰진다.

토큰 효율은 비용 문제가 아니라 지능 상한 문제 [04:59]

토큰 효율은 단순히 컴퓨팅 비용을 아끼는 문제가 아니라, 도달 가능한 지능의 상한을 끌어올리는 문제라고 강조된다.
고품질 토큰이 유한하다는 가정 아래, 효율이 2배 좋아지면 체감상 데이터가 2배 많아진 것과 유사한 효과를 얻을 수 있다고 설명한다.
따라서 효율 개선은 제한된 자원으로 더 높은 성능에 접근하는 핵심 수단으로 제시되며, Meow 옵티마이저가 대표 사례로 소개된다.

Meow 옵티마이저의 핵심 아이디어와 대규모 적용 [06:18]

Meow는 2차 정보 기반 옵티마이저로, 각 그래디언트 업데이트를 직교하는 방향으로 변환하는 방식으로 설명된다.
발표자는 이 접근이 Adam 계열과는 다른 특성을 가지며, 제대로 구현하면 토큰 효율을 크게 끌어올릴 수 있다고 주장한다.
대규모 LLM 학습에 적용하기 위해 weight decay와 RMS 업데이트 규모 조정 같은 보완이 필요했다고 말한다.
또한 데이터 병렬 그룹에 상태를 분산하는 방식으로 GPU 클러스터 전반의 메모리 효율도 확보했다고 설명한다.

AdamW 대비 성능 향상과 1조 파라미터 구간의 불안정성 [07:43]

같은 파라미터 수와 학습 토큰 수 조건에서 AdamW를 Meow로 교체하면 전반적 성능이 개선된 결과가 제시된다.
하지만 이를 1조 파라미터 규모로 키우자 새로운 학습 불안정성이 나타났다고 설명한다.
최대 로짓 값이 비정상적으로 커지고 손실이 후반에 폭발하는 현상이 관찰되며, 초대형 스케일에서는 안정성 자체가 별도 과제가 됨을 보여준다.

QK clip으로 로짓 폭주를 억제하는 접근 [09:02]

이러한 불안정성의 해법으로 QK clip이라는 기법이 도입된다.
각 어텐션 헤드에서 최대 로짓을 계산하고 이를 바탕으로 query와 key 투영에 조정 계수를 적용해 값의 폭주를 막는 방식으로 설명된다.
제시된 결과에서는 클리핑 적용 전후 손실 감소 곡선이 거의 겹친다고 하며, 품질 저하 없이 안정성을 얻는 방향으로 소개된다.

최대값 제약으로 학습 안정화 [10:01]

발표자는 중간 계산값의 최대치가 일정 구간 동안 상수 수준으로 제한되고 이후 자연스럽게 내려가는 형태를 설명한다.
신경망이 최대값을 스스로 제한하는 방향으로 작동해 학습 안정성이 높아진다는 것이다.
이 기법을 K2 학습에 적용해 1조 파라미터까지 확장했다고 말한다.

긴 문맥이 두 번째 핵심 축으로 부상 [10:58]

다음 주제로 long context가 제시되며, 문맥 길이에 따라 모델 구조가 어떤 이득을 얻는지를 다른 관점에서 본다고 설명한다.
비교 대상으로 transformer와 LSTM이 등장하고, 같은 파라미터 수와 같은 학습 토큰 수 조건에서 차이를 살핀다.

Transformer가 긴 문맥에서 더 좋아지는 이유 [11:21]

동일 조건에서 transformer가 더 낮은 학습 손실을 보여 표준 구조가 된 배경이 다시 확인된다.
특히 문맥을 따라 뒤로 갈수록 transformer의 손실이 더 낮아지는 점이 강조된다.
반면 LSTM은 일정 지점 이후 포화되며 긴 문맥에서 추가 이득이 제한된다고 대비된다.

에이전트 시대에 긴 문맥이 왜 필수인지 [12:25]

발표자는 코드베이스 전체 이해나 매우 긴 에이전트 실행 궤적 같은 작업은 짧은 메모리 구조로 처리하기 어렵다고 본다.
복잡한 과제가 늘어나는 에이전트 시대에는 긴 컨텍스트를 다루는 능력이 필수 역량이라고 연결한다.
따라서 더 긴 문맥 길이로 효율적으로 확장하면서도 뒤쪽 토큰의 손실까지 낮추는 구조가 목표가 된다.

Kimilinear 구조와 혼합 비율 설계 [12:58]

이런 문제의식에서 Kimilinear라는 새 아키텍처가 제시된다.
핵심 요소로 Kimidelta attention이라는 선형 어텐션 변형이 소개되며, 기존 recurrent memory의 한계를 개선하려는 시도로 설명된다.
선형 어텐션 층과 full attention 층을 1:2:3 비율로 혼합해 긴 문맥 능력과 구현 효율의 균형을 맞추려는 설계가 제시된다.

채널별 감쇠율로 기억과 망각을 분리 [13:58]

기존 선형 어텐션에서는 하나의 감쇠 계수가 전체 메모리에 적용돼 기억과 망각을 세밀하게 조절하기 어렵다고 설명한다.
이를 해결하기 위해 감쇠 인자를 스칼라가 아닌 대각행렬로 바꿔 채널별 서로 다른 감쇠율을 갖도록 설계한다.
일부 채널은 장기 정보를 유지하고, 다른 채널은 빠르게 새 정보를 반영하도록 만들어 표현력을 높이려는 접근이다.

GPU 병렬화를 위한 정확한 재정식화 [15:27]

현대 GPU 활용을 위해서는 chunk-wise formulation이 필요하다고 설명한다.
그러나 새로 도입된 항이 행렬이 되면서 기존처럼 단순 분리가 어려워져 구현 난도가 높아졌다고 말한다.
이를 해결하기 위해 수식을 정확히 동등한 다른 형태로 재정식화해 병렬성과 효율을 확보했다고 주장한다.

공정 비교에서 확인된 성능과 효율 [16:50]

공정 비교 결과, 짧은 문맥 과제에서 Kimilinear가 다른 구조보다 더 좋은 성능을 보였다고 제시된다.
긴 문맥 과제에서도 우수하면서 MLA 대비 훨씬 효율적이라고 설명한다.
문맥 길이를 100만 토큰 이상으로 늘릴수록 효율 차이가 더 커지며, 짧은 문맥·긴 입력·긴 출력 과제를 모두 포함해 full attention을 전반적으로 능가한 첫 구조라고 주장한다.

에이전트 스웜의 기본 운영 구조 [17:49]

세 번째 핵심 축으로 agent swarm이 소개된다.
중앙의 orchestrator가 과업을 분해하고 여러 서브에이전트를 생성해 각각 다른 하위 과제를 맡긴다.
이후 결과를 수집하고 추가 작업을 배정하는 반복 구조를 통해 단일 에이전트보다 더 복잡한 과업을 해결할 수 있다고 설명한다.

조직 비유와 복잡도 축에서의 확장성 [19:00]

이 구조는 회사 조직에 비유되며, 중앙 조정자가 역할을 나누고 각 전문 팀이 병렬적으로 움직이는 형태와 유사하다고 설명된다.
AI 연구자, 웹 개발자, 물리 연구자 등 전문 역할이 병렬적으로 탐구하고, 이후 fact-checker나 집계 담당이 결과를 모아 최종 보고서를 만드는 흐름이 예시로 제시된다.
논의는 자연스럽게 “더 복잡한 과업을 처리할 수 있는가”라는 복잡도 축의 스케일링 문제로 이어진다.

병렬 에이전트 스웜의 확장성 [20:00]

에이전트 스웜은 단일 에이전트보다 실행 시간을 줄이고 더 높은 효율을 낼 수 있는 구조로 제시된다.
서브에이전트를 100개, 1000개 수준까지 운용하면 매우 복잡한 과업도 감내 가능한 시간 안에 처리할 수 있어 경제적 가치가 생긴다고 본다.
확장의 의미는 단순한 처리량 증가가 아니라, 해결 가능 과업의 범위를 넓히는 데 있다고 설명한다.

입력·출력·행동 규모를 동시에 키우는 구조 [20:33]

병렬 구조에서는 수백~수천 개의 자료를 동시에 읽는 식으로 입력 규모를 늘릴 수 있다고 말한다.
출력 측면에서는 100페이지짜리 문헌 검토 같은 긴 산출물도 병렬로 작성할 수 있다고 설명한다.
행동 규모 역시 여러 데이터 분석 과업을 동시에 수행하는 방식으로 확대할 수 있지만, 이를 위해서는 하위 과업 설계와 결과 집계가 필수라고 짚는다.

병렬 실행을 유도하는 첫 번째 보상 설계 [21:06]

agent swarm 학습을 위해 기존 단일 에이전트 강화학습과는 다른 새로운 목적함수가 정의됐다고 설명한다.
첫 번째 보상은 서브에이전트 생성 자체를 장려하는 instantiation reward로, 학습이 다시 단일 에이전트 형태로 수렴하지 않게 만드는 장치다.
특히 학습 초기에 병렬 실행을 강하게 유도하고, 이후에는 가중치를 줄이는 전략이 제시된다.

과업 남발을 막는 완료 보상과 전체 성과 보상 [22:11]

두 번째 항인 finished reward는 서브과업이 생성만 되고 끝나지 않는 문제를 막기 위해 도입된다고 설명한다.
이를 통해 많은 서브에이전트를 띄워 첫 번째 보상만 편법적으로 얻는 학습을 방지하려는 목적이 있다.
세 번째 항은 전체 과업의 성공 여부를 보는 outcome reward이며, 최종적으로 세 보상을 결합해 시스템을 학습한다고 정리한다.

세 축의 스케일링이 Kimi K2.5로 수렴 [23:38]

지금까지의 세 축, 즉 optimizer를 통한 토큰 효율 개선, 긴 컨텍스트용 선형 아키텍처, agent swarm 패러다임이 하나의 모델 계열로 묶여 제시된다.
발표자는 이를 결합해 약 한 달 전 공개한 새 모델 Kimi K2.5를 만들었다고 연결한다.
세 가지 확장 축이 서로 분리된 연구가 아니라 실제 제품 모델로 수렴했다는 점이 강조된다.

데모 이후 드러난 능력과 안정적 사전학습의 의미 [25:19]

데모 이후에는 시각 능력과 코딩 능력이 결합되며 예상 밖의 새로운 성질이 나타났다고 설명한다.
예시로 영상을 읽고 원본 스타일을 어느 정도 반영한 웹사이트를 생성하는 능력이 언급된다.
이러한 능력은 사전학습 단계의 성공적이고 안정적인 학습 덕분이라고 해석되며, 학습 곡선이 매우 매끄럽고 장기간 추가 학습에도 loss spike가 없었다고 강조한다.

인프라와 조기 융합형 비전-텍스트 학습 [26:52]

Kimi K2.5의 또 다른 혁신으로, 네이티브한 vision-text 공동 능력을 가진 첫 오픈 모델이라는 점이 제시된다.
기존 오픈 모델이 텍스트 모델 위에 시각 능력을 나중에 붙이는 late fusion을 썼다면, 이 모델은 처음부터 비전과 텍스트를 함께 학습하는 early fusion을 택했다고 설명한다.
발표자는 이런 초기 공동학습이 late fusion보다 더 좋은 성능을 보였다는 예비 결과를 언급하며, 특히 vision-to-code 같은 능력은 두 모달리티의 강한 정렬이 필요하다고 주장한다.

비전과 텍스트가 서로를 강화한다는 관찰 [28:17]

비전과 텍스트가 서로 성능을 갉아먹을 수 있다는 우려와 달리, 적절히 학습시키면 상호 강화가 가능하다고 말한다.
vision RL만 수행했는데도 텍스트 과업 성능이 좋아졌다는 관찰이 소개된다.
반대로 강한 텍스트 기반이 비전에도 도움을 주며, 그래서 비전 SFT 데이터를 사실상 쓰지 않는 zero vision SFT 접근을 채택했다고 설명한다.
텍스트 SFT 데이터만으로도 텍스트와 비전을 공동 최적화해 매우 높은 수준의 성능에 근접했다고 주장한다.

텍스트 기반이 비전까지 밀어 올리는 이유 [30:00]

발표자는 텍스트와 비전 두 모달리티가 사전학습 단계에서 하나의 공유 표현 공간으로 정렬되면, 직접적인 비전 데이터가 많지 않아도 비전 성능 향상이 가능하다고 말한다.
앞서 언급된 시각 디자인과 프런트엔드 코딩 능력도 이런 비전-텍스트 공동 사전학습의 결과로 연결된다.

Kimi 8.5에서 다음 세대 아키텍처 이야기로 전환 [30:39]

발표자는 지금까지의 설명을 Kimi 8.5에 관한 내용이라고 정리한 뒤, 전날 공개한 새 아키텍처를 짧게 소개하겠다고 전환한다.
기술 보고서 이름은 attention residue라고 밝히며, 차기 세대 모델에 들어갈 수 있는 방향으로 제시한다.
이 구간부터는 현재 모델 설명에서 다음 세대 설계 철학 소개로 초점이 이동한다.

시간축 아이디어를 깊이축으로 옮기려는 발상 [31:07]

동기는 시간 차원에서 쓰던 아이디어를 깊이 차원에도 적용할 수 있는지 묻는 데서 출발한다고 설명한다.
residual connection 이전에는 깊은 네트워크 학습이 매우 어려웠고, 기울기 폭주·소실·안정성 문제가 주요 장벽이었다고 회고한다.
ResNet 이후 깊은 네트워크 학습이 가능해졌다는 점을 바탕으로, 이제 깊이 방향의 연결 구조도 다시 생각해볼 수 있다는 문제의식이 제시된다.

잔차 연결을 LSTM의 회전된 형태로 해석 [32:13]

residual connection을 90도 회전한 LSTM 변형처럼 볼 수 있다는 해석이 소개된다.
시간축의 순환 구조와 깊이축의 레이어 연결이 구조적으로 유사하다는 관점이다.
차이는 결합 방식의 수식 형태지만, 본질적으로는 깊이 방향 순환 구조로 볼 수 있다는 해석이 핵심이다.

attention을 깊이 차원에 적용하는 일반화 [33:27]

여기서 더 나아가, 깊이 차원에서 attention을 쓰는 일반화를 제안한다.
이전 은닉 상태 하나만 쓰는 대신 이전의 모든 은닉 상태를 attention으로 결합해 현재 레이어 출력을 계산하겠다는 구상이다.
발표자는 이를 residual connection의 자연스러운 확장으로 보며, 트랜스포머 시대의 성공을 깊이축에도 옮겨올 수 있다고 말한다.

attention residue와 block attention residue의 구현 방향 [34:21]

attention residue는 이전 모든 상태를 모아 현재 출력을 만드는 구조로 설명된다.
다만 그대로 쓰면 통신 비용과 메모리 오버헤드가 커지기 때문에, 전체 레이어를 여러 블록으로 나누고 블록 간에만 attention residue를 적용하는 block attention residue가 제시된다.
블록 내부는 기존 residual을 유지해 정확도 손실을 최소화하면서도 오버헤드를 낮추는 방향이다.

새 아키텍처의 실험 결과와 스케일링 이득 [35:32]

발표자는 새 아키텍처가 스케일링 법칙 측면에서 토큰 효율을 24% 개선했다고 주장한다.
비유적으로는 50조 개의 고품질 토큰이 60조 개가 넘는 것처럼 작동하는 셈이라고 설명한다.
검증 손실도 일관되게 더 낮았고, 코딩·수학·추론 비중이 큰 벤치마크에서 특히 개선이 컸다고 덧붙인다.

오래된 기본기술도 다시 설계할 수 있다는 연구 관점 [36:24]

발표자는 커뮤니티가 계속 전진하는 과정에서, 이미 표준처럼 굳어진 기술도 다시 설계할 여지가 있다고 본다.
Adam을 대체하는 새 최적화, full attention을 대체·보완하는 선형 구조, residual connection을 일반화하는 attention residue를 예로 들며, 이런 시도를 오픈소스로 확장하고 있다고 말한다.
충분한 자원과 스케일링 실험, 다양한 벤치마크가 축적된 지금은 더 단단한 결론을 낼 수 있는 시대라고 진단한다.
마지막으로 모델은 계속 스케일링될 것이고, agentic 형태 역시 종착점이 아니라 또 다른 새로운 확장 축이 계속 등장할 것이라고 정리하며 발표를 마무리한다.

🧾 결론

이 키노트는 “오픈 모델도 최전선까지 갈 수 있는가”라는 질문에 대해, 단일 해법이 아니라 세 가지 상호보완적 스케일링 축을 제시하는 답변으로 구성된다.
첫째는 토큰 효율 개선이며, 둘째는 긴 컨텍스트를 더 효율적으로 다루는 구조 혁신, 셋째는 복잡한 과업을 병렬 협업으로 푸는 에이전트 스웜이다.
발표의 설득력은 이 세 축이 단순 연구 아이디어로 끝나지 않고 실제 모델 계열과 데모, 그리고 차세대 설계 제안으로 연결된다는 데 있다.
동시에 초대형 학습에서 나타나는 불안정성과 인프라 제약을 정면으로 다루며, “좋은 모델”은 성능뿐 아니라 안정적 학습과 실용적 배치 가능성까지 포함해야 한다는 메시지를 남긴다.

📈 투자·시사 포인트

오픈 모델 진영의 경쟁력은 단순 공개 여부보다, 폐쇄형 모델과의 성능 격차를 얼마나 좁히느냐로 재평가될 가능성이 크다.
고품질 데이터가 병목이 되는 국면에서는 데이터 양 확대보다 토큰 효율 개선 기술이 더 높은 전략적 가치를 가질 수 있다.
긴 컨텍스트와 에이전트 스웜은 단순 챗봇 고도화가 아니라, 장시간·대규모 작업 자동화 시장의 기반 기술로 읽힌다.
early fusion 기반 비전-텍스트 학습이 실제로 우수하다면, 멀티모달 모델 설계의 중심축이 late fusion에서 이동할 가능성이 있다.
발표 후반의 attention residue 제안은 최적화·어텐션·잔차 연결처럼 “이미 정답이 정해진 것처럼 보이던 기본기술”도 다시 혁신 대상이 될 수 있음을 시사한다.

⚠️ 불확실하거나 확인이 필요한 부분

발표 내용 요약에는 Meow optimizer, Muon clip optimizer, Neon clip 등 명칭이 혼재되어 있어 동일 계열인지 별도 기법인지 원문 자료 확인이 필요하다.
중후반부에서 Kimi K2.5, K2, Kimi 8.5가 교차로 언급되므로, 어떤 설명이 정확히 어느 모델 세대를 가리키는지 기술 보고서 원문 대조가 필요하다.
“첫 오픈 모델”, “full attention을 전반적으로 능가한 첫 구조”, “거의 최고 수준 성능” 같은 표현은 발표자의 주장으로 이해해야 하며, 독립 벤치마크 비교표 확인이 필요하다.
vision RL이 텍스트 성능을 향상시켰다는 관찰과 zero vision SFT의 효과는 흥미롭지만, 구체적 실험 설정과 재현 조건은 본 발표 요약만으로 확정하기 어렵다.
attention residue의 24% 토큰 효율 개선 역시 발표 중 소개된 결과로 보이며, 실험 범위·모델 크기·비교 기준에 대한 추가 문서 확인이 필요하다.

✅ 액션 아이템

Kimi K2.5 / Kimi 8.5 / attention residue 관련 기술 보고서를 찾아 모델명과 기법 명칭 혼선을 먼저 정리한다.
토큰 효율 개선을 비용 절감이 아닌 “지능 상한 확대” 관점으로 재해석해, 현재 사용하는 학습·파인튜닝 전략에도 적용 가능한지 점검한다.
긴 컨텍스트와 agent swarm이 실제 제품 워크플로우에서 어떤 유형의 작업 자동화로 연결될 수 있을지 사례 중심으로 정리한다.
early fusion과 late fusion의 차이를 멀티모달 제품 설계 관점에서 비교 메모로 남긴다.
발표 후반의 attention residue 아이디어를 기존 residual / recurrent / attention 구조 비교 관점에서 별도 학습 노트로 확장한다.