← 홈으로
YouTube2026-03-10
Apple''s New M5 Max Changes the Local AI Story
링크: https://youtu.be/XGe7ldwFLSE?si=n3zzVL7F gwvZIsP
원문/원본: https://youtu.be/XGe7ldwFLSE?si=n3zzVL7F-gwvZIsP기존 공개 버전: pogovet.com
🎬 Apple's New M5 Max Changes the Local AI Story
▶️ 유튜브
🖼️ 4컷 인포그래픽

💡 한 줄 결론
M5 Max는 로컬 AI에서 단순 토큰 생성 성능 경쟁이 아니라 프롬프트 처리와 모델 로딩 병목을 크게 줄인 세대이며, 128GB 안에서 끝나는 워크로드라면 일부 구간에서는 M3 Ultra급 데스크톱보다 더 매력적인 선택지가 될 수 있다.
📌 핵심 요점
- Speedometer 3.1에서 M5 Max는 60.5점으로 M4 Max의 56.7점을 넘어, 브라우저·자바스크립트 중심 개발 체감 성능에서도 세대 교체가 확인됐다.
- 멀티코어 테스트에서 M5 Max는 11.6~11.8초로 M4 Max의 14.6~15초보다 크게 빨라졌고, M3 Ultra의 8.5~8.6초와의 격차도 노트북치고 상당히 좁혔다.
- SSD가 읽기 약 13,647MB/s, 쓰기 약 16GB/s대로 올라 대형 모델 로딩, 캐시 재사용, 대용량 파일 이동에서 기존 세대 대비 대기 시간을 크게 줄일 가능성이 높다.
- Stream 기준 지속 메모리 처리량은 M5 Max가 약 351,000MB/s로 M4 Max와 M3 Ultra를 모두 앞섰고, MLX 기반 테스트에서도 토큰 생성 속도가 79.1tok/s에서 88.49tok/s로 개선됐다.
- 가장 큰 차별점은 프롬프트 처리로, Llama Bench에서 M5 Max는 4,468tok/s를 기록해 M4 Max의 1,855와 M3 Ultra의 2,959를 모두 크게 앞질렀다.
🧠 상세 요약
1) 배경과 문제 정의
이번 비교의 핵심은 M5 Max가 단순히 CPU·GPU 수치만 오른 칩인지, 아니면 로컬 AI와 개발 워크플로의 실제 병목 지점을 바꾸는 칩인지 확인하는 데 있다. 특히 판단 포인트는 개발자 체감 성능, 대형 모델 로딩 속도, 긴 프롬프트를 넣는 추론의 prefill 성능, 그리고 대형 모델 지속 생성에서 데스크톱 대비 어디까지 따라붙는가다.
2) 섹션별 상세 정리
- 비교 프레임은 “세대교체”보다 “노트북 대 데스크톱 근접도”에 맞춰졌다 [00:00]
- 발표자는 M5 Max 맥북 프로를 기존 M4 Max의 후속기로 보면서도, 실제 비교 대상에 M3 Ultra 맥 스튜디오까지 포함해 데스크톱급 AI 성능에 얼마나 가까워졌는지를 보겠다고 설정한다.
- 애플이 강조한 변화는 GPU 코어별 뉴럴 가속기와 최대 614GB/s 메모리 대역폭이며, 이 수치가 실제 로컬 AI 워크로드에서 의미가 있는지 검증하는 흐름으로 전개된다.
- 개발자 체감 성능은 단일 코어에서 먼저 확인된다 [00:56]
- Speedometer 3.1에서 M5 Max는 60.5점을 기록해 M4 Max 56.7점, M3 계열 단일 코어 시스템 49.6점을 웃돌았다.
- 브라우저 반응성, 자바스크립트 실행, 일반 UI 체감 같은 일상적 개발 작업에서는 M5 Max가 눈에 띄는 상향을 보여주며, “가장 빠른 CPU 코어”라는 애플의 메시지가 과장은 아니라는 인상을 준다.
- 빌드·컴파일 계열 병렬 작업에서도 M5 Max는 의미 있는 점프를 만든다 [01:46]
- Mandelbrot 계열 멀티코어 테스트에서 M5 Max는 11.6~11.8초를 기록해 M4 Max의 14.6~15초 대비 큰 폭으로 빨라졌다.
- 코어 구성이 16코어에서 18코어로 늘었고 코어 명칭도 바뀌었지만, 중요한 것은 마케팅 네이밍보다 실제 병렬 처리 시간이 줄었다는 점이다.
- 데스크톱 절대 우위는 유지되지만 “노트북이라서 어쩔 수 없다” 수준은 아니다 [03:24]
- M3 Ultra는 같은 테스트에서 8.5~8.6초로 여전히 더 빠르다.
- 다만 발표자는 M5 Max가 훨씬 작은 폼팩터임에도 격차를 생각보다 많이 줄였다고 보고, 고정형 장비가 아닌 휴대형 장비로도 상당한 수준의 병렬 워크로드를 감당할 수 있다고 평가한다.
- 로컬 AI에서는 SSD·프롬프트 처리·토큰 생성을 따로 봐야 한다 [03:47]
- 발표자는 로컬 LLM 성능을 하나의 숫자로 보지 않고, 모델 로딩과 캐시 재사용에 영향을 주는 SSD, 추론 초반부인 프롬프트 처리, 그리고 응답 출력 단계인 토큰 생성으로 나눠 본다.
- 이 구분은 중요하다. 프롬프트 처리는 계산 성능과 GPU 쪽 영향이 크고, 토큰 생성은 메모리 대역폭 영향이 더 커서 같은 칩이라도 워크로드별 우위가 다르게 나타날 수 있기 때문이다.
- SSD 성능 상승은 숫자 이상의 워크플로 이점을 준다 [05:27]
- M5 Max의 SSD는 읽기 약 13,647MB/s, 쓰기 약 16GB/s대로, M4 Max와 M3 Ultra의 대략 읽기 7,300MB/s·쓰기 8,200MB/s 수준보다 거의 두 배 가까이 빨라졌다.
- 이는 대형 모델 로딩, 세션 재시작, 캐시 활용, 대형 프로젝트 파일 이동에서 체감 차이로 이어질 가능성이 높고, 랜덤 읽기/쓰기까지 M4 Max와 M3 Ultra보다 앞서 작은 파일이 많은 개발 환경에도 유리하다.
- 메모리 지속 처리량은 M5 Max가 실제로 가장 높게 측정됐다 [08:03]
- Stream Triad에서 M4 Max는 약 319,000MB/s, M3 Ultra는 337,000MB/s, M5 Max는 351,000MB/s를 기록했다.
- 수치 차이 자체는 극적이지 않지만, 적어도 CPU 기반 지속 메모리 처리량 기준으로 M5 Max가 세 기기 중 최고였고, 이는 이후 토큰 생성 테스트에서 일부 우위로 연결된다.
- MLX 기반 MoE 모델에서는 M5 Max의 생성 성능 개선이 비교적 깔끔하게 드러났다 [09:11]
- Qwen 3.5 계열 혼합전문가 모델, 50,000토큰 컨텍스트 조건에서 첫 토큰 시간은 M4 Max와 M5 Max가 모두 1.58초로 같았다.
- 하지만 생성 속도는 M4 Max 79.1tok/s, M5 Max 88.49tok/s로 개선됐고, M3 Ultra는 69tok/s로 오히려 낮게 나왔다. 즉 특정 MLX 기반 워크로드에서는 M5 Max가 토큰 생성에서도 분명한 실익을 준다.
- 대형 GGUF에서는 M5 Max의 장점이 줄고 M3 Ultra의 체급 우위가 다시 드러난다 [10:20]
- GPT-OSS 120B GGUF 테스트에서는 M4 Max 61tok/s, M5 Max 65tok/s, M3 Ultra 82tok/s가 나왔다.
- 이 구간에서는 M3 Ultra가 GPU 사용률 100%까지 올라간 반면 M4 Max와 M5 Max는 75~79% 수준에 머물렀고, 결국 대형 모델·장시간 생성·더 큰 메모리 여유가 필요한 워크로드에서는 데스크톱 체급이 아직 유효하다는 점이 드러난다.
- 이번 세대의 진짜 차이는 프롬프트 처리 성능 폭증이다 [12:01]
- Gemma 34B GGUF 기반 Llama Bench에서 프롬프트 처리 속도는 M4 Max 1,855tok/s, M5 Max 4,468tok/s, M3 Ultra 2,959tok/s로 측정됐다.
- 여기서 M5 Max는 M4 Max를 크게 앞설 뿐 아니라 M3 Ultra까지 넘어섰고, 이는 긴 컨텍스트 입력이나 에이전트형 워크로드에서 응답 시작 전 대기 시간을 크게 줄일 수 있다는 뜻이다.
- 결국 이번 테스트의 핵심은 “토큰 생성이 조금 빨라졌다”가 아니라, 로컬 AI 병목 중 prefill 구간이 구조적으로 재편됐다는 데 있다.
✅ 액션 아이템
- 현재 쓰는 로컬 LLM 벤치마크 표를
프롬프트 처리 tok/s,토큰 생성 tok/s,모델 로드 시간,첫 토큰 시간4개 축으로 다시 나눠, M4/M5/M3 Ultra급 장비 비교 기준을 재정의한다. - 50,000토큰 이상 긴 컨텍스트를 자주 넣는 워크플로가 있다면 Gemma 34B급 dense 모델과 Qwen 계열 MoE 모델을 각각 돌려 prefill 병목이 실제로 얼마나 줄어드는지 실측한다.
- 구매 판단 시 128GB 안에서 끝나는 개발·에이전트형 작업은 M5 Max 후보로, 120B급 GGUF 장시간 추론이나 128GB 초과 메모리 수요는 M3 Ultra급 데스크톱 후보로 분리해 의사결정 표를 만든다.
- LM Studio 또는 llama.cpp에서 테스트할 때 tok/s만 보지 말고 GPU 사용률, 전력 사용량, 팬 소음, 첫 토큰 시간까지 함께 기록해 “생성 병목형”과 “prefill 병목형” 워크로드를 구분한다.
- 대형 모델을 자주 교체하는 환경이라면 동일 모델 기준으로 SSD 로드 시간과 캐시 재사용 시간을 측정해, M5 Max의 SSD 이점이 실제 세션 시작 시간 단축으로 얼마나 환산되는지 확인한다.
❓ 열린 질문
- M5 Max의 프롬프트 처리 급등은 GPU 코어별 뉴럴 가속기 효과가 본질인지, 아니면 llama.cpp·MLX가 M5 아키텍처에 더 유리하게 최적화된 결과인지 어떻게 분리 검증할 수 있을까?
- GGUF 120B에서 M5 Max가 큰 폭으로 벌리지 못한 원인은 128GB 메모리 한계, GPU 점유율 미포화, 모델 구조 특성 중 무엇이 가장 지배적일까?
- 에이전트형 워크로드처럼 긴 프롬프트를 반복 투입하는 실사용 환경에서, 프롬프트 처리 4,468tok/s라는 우위가 실제 업무 처리량과 대기 시간 감소로 어느 정도 환산될까?
- M3 Ultra의 우위가 계속 남는 구간은 단순 체급과 메모리 용량 때문인지, 아니면 장시간 고부하에서 유지되는 GPU 활용률과 열·전력 여유까지 포함한 플랫폼 차이인지 추가 계측이 필요하지 않을까?
