애플 M3 울트라, 미친 추론 성능으로 AI 추론 칩 최강 되나 | NVIDIA SOCAMM 만드는 이유 | Project Digits | Batch Size 1의 저지연 APP
애플 M3 울트라, 추론 성능과 Batch Size 1 — 안될공학
한 줄 요약
M3 울트라 맥 스튜디오가 512GB 통합 메모리로 6,710억 파라미터 모델(DeepSeek R1/V3)을 한 대에 올릴 수 있게 된 원리와, 애플이 “배치 사이즈 1 저지연 추론”에 특화한 이유, 그리고 엔비디아가 Project DIGITS·SOCAMM으로 대응하는 맥락을 풀어준 영상.
영상 메타
- URL: https://youtu.be/dypejk0TNZ4
- 채널: 안될공학 - IT 테크 신기술
- 길이: 24분 4초
- 조회수: 61,593 / 좋아요 1,330
- 시청일: 2026-05-31 KST (🍎 본진이 자막 추출 후 요약, 🪟 라이덴 요청)
픽업
- M3 울트라 맥 스튜디오는 CPU 32코어·GPU 80코어·통합 메모리 최대 512GB·썬더볼트 5(맥끼리 초당 12GB 연결)를 지원해, 예전엔 H100·H200을 열 개씩 엮어야 했던 6,710억 파라미터급 모델을 한 대로 올릴 수 있다.
- 애플의 통합(유니파이드) 메모리는 CPU·GPU가 메모리를 공유해 GPU↔CPU 복사가 필요 없고, LPDDR로 용량을 크게 넓혀 거대 모델 적재가 가능하다. M1 울트라 대비 16.9배 빨라졌다고 홍보한다.
- 기가바이트당 비용은 H100(HBM)이 약 313달러인 반면 M3 울트라(LPDDR)는 약 20달러로, 메모리 용량당 가격에서 애플이 압도적으로 싸다.
- 단 throughput은 애플이 약하다 — 메모리 대역폭이 H100 초당 3TB 대 애플 0.8TB, FP16 연산은 엔비디아 1,200 TFLOPS급 대 애플 26~43 TFLOPS 수준이라 계산량 자체가 작다.
- 추론 병목은 둘이다: (1) 메모리가 GPU에 데이터를 못 따라 보내는 ‘메모리 월’(HBM이 등장한 이유), (2) GPU 자체 연산 성능. 대부분의 서버 GPU는 메모리 바틀넥 상태다.
- 애플은 ‘배치 사이즈 1’(한 번에 1개 요청)에 최적화했다. 메모리 리프레시도 엔비디아 초당 37회 대 애플 1.56회로 낮아 지연이 적어, 실시간 대화·AR/VR·온디바이스 같은 저지연 엣지 추론에 유리하다.
- 믹스처 오브 엑스퍼트(MoE) 구조(딥시크)는 전체 모델을 메모리에 적재하되 토큰마다 필요한 전문가만 계산하므로, 메모리 크고 연산 작은 맥 스튜디오 프로파일에 잘 맞는다 — 그래서 엔비디아도 Project DIGITS와 SOCAMM(하이닉스·삼성) 신메모리 규격으로 같은 저지연 AI PC 시장을 준비 중이다.
용어
- 유니파이드 메모리(Unified Memory) [기타]: CPU·GPU가 하나로 공유하는 통합 메모리. 데이터 복사 오버헤드를 없애 거대 모델 적재에 유리.
- HBM(고대역폭 메모리) [기타]: GPU에 데이터를 초당 수 TB로 빠르게 공급하는 적층 메모리. 비싸지만 대역폭이 크다.
- LPDDR [기타]: 저전력 D램. HBM보다 대역폭은 낮지만 용량당 가격이 훨씬 싸 애플이 대용량 통합 메모리에 활용.
- 배치 사이즈(Batch Size) [하니스·패턴]: 한 번에 묶어 처리하는 입력 샘플 수. 크면 서버 throughput↑, 1이면 단일 요청 저지연에 특화.
- 믹스처 오브 엑스퍼트(MoE) [모델·구독]: 전체 모델은 메모리에 적재하되 토큰마다 필요한 전문가 모듈만 계산하는 구조. 딥시크·제미나이가 채택.
- 메모리 월(Memory Wall) [기타]: GPU 연산은 빠른데 메모리가 데이터를 못 따라 보내 생기는 추론 병목.
- 양자화(4/8비트, FP4) [기타]: 파라미터를 적은 비트로 표현해 메모리 사용을 줄이는 경량화. 671B 모델을 1바이트면 약 671GB 필요.
- Project DIGITS / SOCAMM [기타]: 엔비디아의 맥 스튜디오 크기 저지연 AI PC 디바이스와, 하이닉스·삼성과 만드는 신메모리 규격.