맥북에서 초거대 4000억 AI 돌려봤습니다... 속도도 빠르다? Flash-MoE 분석 || 메모리는 더욱 중요해질겁니다
안될공학 - IT 테크 신기술 • 67.0K views • 1d ago
Description
맥북에서 397B급 초거대 AI 모델이 돌아간다는 놀라운 사례를 다뤘습니다.
겉보기에는 단순한 데모처럼 보이지만, 실제로는 AI 추론 구조가 어떻게 바뀌고 있는지를 보여주는 신호에 가깝습니다.
이번 영상에서는 Flash-MoE가 왜 가능했는지, Dense 모델과 MoE 모델의 차이부터 차근차근 짚어봅니다.
특히 레이어 안에서 attention과 FFN, 그리고 expert가 어떤 식으로 나뉘고 선택되는지 쉽게 설명했습니다.
또 왜 모델 전체를 메모리에 올리지 않고도 일부만 SSD에서 읽어 계산할 수 있는지도 함께 다뤘습니다.
이 과정에서 SSD가 단순한 저장장치를 넘어 추론을 떠받치는 계층으로 바뀔 가능성도 살펴봤습니다.
결국 중요한 것은 GPU 성능만이 아니라 HBM, DRAM, SSD를 어떻게 나눠 쓰는지라는 점도 이야기합니다.
앞으로 AI 반도체 경쟁이 단순 연산 성능이 아니라 메모리 티어링 경쟁으로 넓어질 수 있다는 부분도 정리했습니다.
마지막으로 이런 구조가 모든 모델에 바로 적용되는 것은 아닌 이유와 현실적인 한계도 함께 짚었습니다.
이번 영상은 Flash-MoE라는 사례를 통해 앞으로의 AI 인프라가 어디로 가는지 큰 그림으로 이해하는 데 초점을 맞췄습니다.
Written by Error
Edited by 이진이
[email protected]