YouTube2026-03-10

Apple''s New M5 Max Changes the Local AI Story

링크: https://youtu.be/XGe7ldwFLSE?si=n3zzVL7F gwvZIsP

원문/원본: https://youtu.be/XGe7ldwFLSE?si=n3zzVL7F-gwvZIsP기존 공개 버전: pogovet.com

🎬 Apple's New M5 Max Changes the Local AI Story

▶️ 유튜브

원본 링크: https://youtu.be/XGe7ldwFLSE?si=n3zzVL7F-gwvZIsP

🖼️ 4컷 인포그래픽

💡 한 줄 결론

M5 Max는 로컬 AI에서 단순 토큰 생성 성능 경쟁이 아니라 프롬프트 처리와 모델 로딩 병목을 크게 줄인 세대이며, 128GB 안에서 끝나는 워크로드라면 일부 구간에서는 M3 Ultra급 데스크톱보다 더 매력적인 선택지가 될 수 있다.

📌 핵심 요점

Speedometer 3.1에서 M5 Max는 60.5점으로 M4 Max의 56.7점을 넘어, 브라우저·자바스크립트 중심 개발 체감 성능에서도 세대 교체가 확인됐다.
멀티코어 테스트에서 M5 Max는 11.6~11.8초로 M4 Max의 14.6~15초보다 크게 빨라졌고, M3 Ultra의 8.5~8.6초와의 격차도 노트북치고 상당히 좁혔다.
SSD가 읽기 약 13,647MB/s, 쓰기 약 16GB/s대로 올라 대형 모델 로딩, 캐시 재사용, 대용량 파일 이동에서 기존 세대 대비 대기 시간을 크게 줄일 가능성이 높다.
Stream 기준 지속 메모리 처리량은 M5 Max가 약 351,000MB/s로 M4 Max와 M3 Ultra를 모두 앞섰고, MLX 기반 테스트에서도 토큰 생성 속도가 79.1tok/s에서 88.49tok/s로 개선됐다.
가장 큰 차별점은 프롬프트 처리로, Llama Bench에서 M5 Max는 4,468tok/s를 기록해 M4 Max의 1,855와 M3 Ultra의 2,959를 모두 크게 앞질렀다.

🧠 상세 요약

1) 배경과 문제 정의

이번 비교의 핵심은 M5 Max가 단순히 CPU·GPU 수치만 오른 칩인지, 아니면 로컬 AI와 개발 워크플로의 실제 병목 지점을 바꾸는 칩인지 확인하는 데 있다. 특히 판단 포인트는 개발자 체감 성능, 대형 모델 로딩 속도, 긴 프롬프트를 넣는 추론의 prefill 성능, 그리고 대형 모델 지속 생성에서 데스크톱 대비 어디까지 따라붙는가다.

2) 섹션별 상세 정리

비교 프레임은 “세대교체”보다 “노트북 대 데스크톱 근접도”에 맞춰졌다 [00:00]

발표자는 M5 Max 맥북 프로를 기존 M4 Max의 후속기로 보면서도, 실제 비교 대상에 M3 Ultra 맥 스튜디오까지 포함해 데스크톱급 AI 성능에 얼마나 가까워졌는지를 보겠다고 설정한다.
애플이 강조한 변화는 GPU 코어별 뉴럴 가속기와 최대 614GB/s 메모리 대역폭이며, 이 수치가 실제 로컬 AI 워크로드에서 의미가 있는지 검증하는 흐름으로 전개된다.

개발자 체감 성능은 단일 코어에서 먼저 확인된다 [00:56]

Speedometer 3.1에서 M5 Max는 60.5점을 기록해 M4 Max 56.7점, M3 계열 단일 코어 시스템 49.6점을 웃돌았다.
브라우저 반응성, 자바스크립트 실행, 일반 UI 체감 같은 일상적 개발 작업에서는 M5 Max가 눈에 띄는 상향을 보여주며, “가장 빠른 CPU 코어”라는 애플의 메시지가 과장은 아니라는 인상을 준다.

빌드·컴파일 계열 병렬 작업에서도 M5 Max는 의미 있는 점프를 만든다 [01:46]

Mandelbrot 계열 멀티코어 테스트에서 M5 Max는 11.6~11.8초를 기록해 M4 Max의 14.6~15초 대비 큰 폭으로 빨라졌다.
코어 구성이 16코어에서 18코어로 늘었고 코어 명칭도 바뀌었지만, 중요한 것은 마케팅 네이밍보다 실제 병렬 처리 시간이 줄었다는 점이다.

데스크톱 절대 우위는 유지되지만 “노트북이라서 어쩔 수 없다” 수준은 아니다 [03:24]

M3 Ultra는 같은 테스트에서 8.5~8.6초로 여전히 더 빠르다.
다만 발표자는 M5 Max가 훨씬 작은 폼팩터임에도 격차를 생각보다 많이 줄였다고 보고, 고정형 장비가 아닌 휴대형 장비로도 상당한 수준의 병렬 워크로드를 감당할 수 있다고 평가한다.

로컬 AI에서는 SSD·프롬프트 처리·토큰 생성을 따로 봐야 한다 [03:47]

발표자는 로컬 LLM 성능을 하나의 숫자로 보지 않고, 모델 로딩과 캐시 재사용에 영향을 주는 SSD, 추론 초반부인 프롬프트 처리, 그리고 응답 출력 단계인 토큰 생성으로 나눠 본다.
이 구분은 중요하다. 프롬프트 처리는 계산 성능과 GPU 쪽 영향이 크고, 토큰 생성은 메모리 대역폭 영향이 더 커서 같은 칩이라도 워크로드별 우위가 다르게 나타날 수 있기 때문이다.

SSD 성능 상승은 숫자 이상의 워크플로 이점을 준다 [05:27]

M5 Max의 SSD는 읽기 약 13,647MB/s, 쓰기 약 16GB/s대로, M4 Max와 M3 Ultra의 대략 읽기 7,300MB/s·쓰기 8,200MB/s 수준보다 거의 두 배 가까이 빨라졌다.
이는 대형 모델 로딩, 세션 재시작, 캐시 활용, 대형 프로젝트 파일 이동에서 체감 차이로 이어질 가능성이 높고, 랜덤 읽기/쓰기까지 M4 Max와 M3 Ultra보다 앞서 작은 파일이 많은 개발 환경에도 유리하다.

메모리 지속 처리량은 M5 Max가 실제로 가장 높게 측정됐다 [08:03]

Stream Triad에서 M4 Max는 약 319,000MB/s, M3 Ultra는 337,000MB/s, M5 Max는 351,000MB/s를 기록했다.
수치 차이 자체는 극적이지 않지만, 적어도 CPU 기반 지속 메모리 처리량 기준으로 M5 Max가 세 기기 중 최고였고, 이는 이후 토큰 생성 테스트에서 일부 우위로 연결된다.

MLX 기반 MoE 모델에서는 M5 Max의 생성 성능 개선이 비교적 깔끔하게 드러났다 [09:11]

Qwen 3.5 계열 혼합전문가 모델, 50,000토큰 컨텍스트 조건에서 첫 토큰 시간은 M4 Max와 M5 Max가 모두 1.58초로 같았다.
하지만 생성 속도는 M4 Max 79.1tok/s, M5 Max 88.49tok/s로 개선됐고, M3 Ultra는 69tok/s로 오히려 낮게 나왔다. 즉 특정 MLX 기반 워크로드에서는 M5 Max가 토큰 생성에서도 분명한 실익을 준다.

대형 GGUF에서는 M5 Max의 장점이 줄고 M3 Ultra의 체급 우위가 다시 드러난다 [10:20]

GPT-OSS 120B GGUF 테스트에서는 M4 Max 61tok/s, M5 Max 65tok/s, M3 Ultra 82tok/s가 나왔다.
이 구간에서는 M3 Ultra가 GPU 사용률 100%까지 올라간 반면 M4 Max와 M5 Max는 75~79% 수준에 머물렀고, 결국 대형 모델·장시간 생성·더 큰 메모리 여유가 필요한 워크로드에서는 데스크톱 체급이 아직 유효하다는 점이 드러난다.

이번 세대의 진짜 차이는 프롬프트 처리 성능 폭증이다 [12:01]

Gemma 34B GGUF 기반 Llama Bench에서 프롬프트 처리 속도는 M4 Max 1,855tok/s, M5 Max 4,468tok/s, M3 Ultra 2,959tok/s로 측정됐다.
여기서 M5 Max는 M4 Max를 크게 앞설 뿐 아니라 M3 Ultra까지 넘어섰고, 이는 긴 컨텍스트 입력이나 에이전트형 워크로드에서 응답 시작 전 대기 시간을 크게 줄일 수 있다는 뜻이다.
결국 이번 테스트의 핵심은 “토큰 생성이 조금 빨라졌다”가 아니라, 로컬 AI 병목 중 prefill 구간이 구조적으로 재편됐다는 데 있다.

✅ 액션 아이템

현재 쓰는 로컬 LLM 벤치마크 표를 프롬프트 처리 tok/s, 토큰 생성 tok/s, 모델 로드 시간, 첫 토큰 시간 4개 축으로 다시 나눠, M4/M5/M3 Ultra급 장비 비교 기준을 재정의한다.
50,000토큰 이상 긴 컨텍스트를 자주 넣는 워크플로가 있다면 Gemma 34B급 dense 모델과 Qwen 계열 MoE 모델을 각각 돌려 prefill 병목이 실제로 얼마나 줄어드는지 실측한다.
구매 판단 시 128GB 안에서 끝나는 개발·에이전트형 작업은 M5 Max 후보로, 120B급 GGUF 장시간 추론이나 128GB 초과 메모리 수요는 M3 Ultra급 데스크톱 후보로 분리해 의사결정 표를 만든다.
LM Studio 또는 llama.cpp에서 테스트할 때 tok/s만 보지 말고 GPU 사용률, 전력 사용량, 팬 소음, 첫 토큰 시간까지 함께 기록해 “생성 병목형”과 “prefill 병목형” 워크로드를 구분한다.
대형 모델을 자주 교체하는 환경이라면 동일 모델 기준으로 SSD 로드 시간과 캐시 재사용 시간을 측정해, M5 Max의 SSD 이점이 실제 세션 시작 시간 단축으로 얼마나 환산되는지 확인한다.

❓ 열린 질문

M5 Max의 프롬프트 처리 급등은 GPU 코어별 뉴럴 가속기 효과가 본질인지, 아니면 llama.cpp·MLX가 M5 아키텍처에 더 유리하게 최적화된 결과인지 어떻게 분리 검증할 수 있을까?
GGUF 120B에서 M5 Max가 큰 폭으로 벌리지 못한 원인은 128GB 메모리 한계, GPU 점유율 미포화, 모델 구조 특성 중 무엇이 가장 지배적일까?
에이전트형 워크로드처럼 긴 프롬프트를 반복 투입하는 실사용 환경에서, 프롬프트 처리 4,468tok/s라는 우위가 실제 업무 처리량과 대기 시간 감소로 어느 정도 환산될까?
M3 Ultra의 우위가 계속 남는 구간은 단순 체급과 메모리 용량 때문인지, 아니면 장시간 고부하에서 유지되는 GPU 활용률과 열·전력 여유까지 포함한 플랫폼 차이인지 추가 계측이 필요하지 않을까?

연관 글

엔비디아, 오픈클로 만드나 … GPU를 넘어 AI 에이전트 플랫폼까지 노리는 이유

AI Is a 5-Layer Cake

Jensen Huang

다들 죽기살기 모드" (실리콘밸리)