The Real Moat in Tech Isn't Code

한 줄 요약

앱 레이어(파운데이션 모델 API + 프롬프트 + UI 래퍼)는 로컬 추론·소비자 하드웨어 성능 상승으로 복제 비용이 0 에 수렴했고, 진짜 해자는 한 단계 아래 — 데이터·전력·칩·툴체인 같은 컴파운딩 인프라 레이어로 이동했다.

영상 메타

URL: https://www.youtube.com/watch?v=UfTAIEQqrJU
채널: Tiff In Tech
길이: 11분 41초
업로드: 2026-05-20
조회수: 26,945 / 좋아요 926
시청일: 2026-05-26 KST (🍎 본진이 자막 추출 후 요약)

픽업

최근 SW 섹터 시총 $2T 증발은 “코드가 나빠져서” 가 아니라 “코드가 너무 쉽게 복제돼서” 발생. 트리거는 모델이 아니라 하드웨어 — RTX GPU, M 시리즈 칩, 모바일 프로세서까지 capable model 로컬 추론이 가능해진 순간 클라우드 추론 워크로드의 경제학이 통째로 깨졌다.
파운데이션 모델 API 위에 프롬프트 + RAG + UI 얹은 wrapper 스타트업은 “제품이 아니라 피처”. 플랫폼이 동일 기능을 네이티브로 ship 하는 순간 끝난다 — OpenAI 플러그인 생태계, AI writing tool 들이 모델 자체 성능 향상에 흡수당한 패턴이 가속 중.
가치는 앱 레이어 아래로 내려갔다. 6개월 차에 검색이 필요하면 Elasticsearch, 그 다음 벡터/임베딩이 필요하면 또 다른 벤더 — 진짜 비용은 시스템들 사이의 seam(데이터 중복, 동기화 파이프라인, eventual consistency gap, 운영 복잡도) 에 있다. MongoDB Atlas 처럼 같은 클러스터에서 document + 풀텍스트 검색 + 벡터 검색 + Voyage AI 임베딩을 한 번에 처리하는 “compounding infrastructure” 가 진짜 해자.
하이퍼스케일러의 진짜 베팅은 물리 레이어. Microsoft 가 Three Mile Island 원전 (835MW) 20년 재가동 계약, Amazon 이 펜실베이니아 원전 인접 데이터센터 캠퍼스 $650M 매입, Google 이 소형 모듈식 원자로 PPA 체결. LLM 추론은 웹 검색 대비 10~100배 컴퓨트를 잡아먹어 전력망이 모델 품질보다 먼저 병목이 된다.
Nvidia 의 진짜 해자는 GPU 가 아니라 CUDA — 십 년 누적된 SDK/라이브러리/툴체인이 silicon alternative 가 나와도 사람들을 끌어 당긴다. 다만 inference at scale 에서 Nvidia margin 을 영구히 빌리는 건 나쁜 전략 — 그래서 Apple Silicon, Amazon Graviton/Tranium, Nvidia 자신의 Nemo Claw(로컬 하드웨어 에이전트 플랫폼) 같은 ASIC 자체 설계 흐름이 동시에 터지는 중.
개발자 속도 측정 연구: AI 코딩 도구로 본인은 20% 빠르다고 느끼지만 실측은 19% 느림 — 인식/현실 40 포인트 갭. Claude Code 커밋 90% 가 별 2개 미만 repo 로 향함(throwaway). 그러나 상업 측은 정반대 — Claude Code 가 9 개월 만에 ARR $0 → $2.5B, 매출 top 10 중 8 곳 사용, 엔터프라이즈가 매출 절반 이상. 대량생산된 앱 코드는 노이즈, 인프라 결정 위에 ship 하는 엔지니어가 승자.

용어

로컬 추론 (Local Inference) [컨텍스트 · 캐시]: 모델 실행을 클라우드 GPU 가 아닌 사용자 기기(RTX GPU, M 시리즈, 모바일 칩 등) 에서 직접 돌리는 방식. 추론 비용을 0 에 수렴시켜 앱 레이어 복제를 사실상 무료로 만든 트리거.
MCP (Model Context Protocol) [도구 통신 (MCP · CLI · API)]: 코딩 에이전트가 IDE 를 떠나지 않고 외부 도구(DB, 파일, 서비스)에 표준화된 프로토콜로 접근하게 해주는 인터페이스. MongoDB 가 MCP 서버 공급으로 “피처가 아니라 인프라 사고” 의 예시로 인용됨.
벡터 검색 (Vector Search) [도구 통신 (MCP · CLI · API)]: 임베딩 벡터 간 거리(유사도) 로 의미 기반 검색을 수행. RAG/추천 엔진의 코어 컴포넌트. Atlas Vector Search 가 같은 클러스터에서 처리 가능한 게 차별점.
임베딩 (Embeddings) [지식 · 컨텍스트 자산]: 텍스트/이미지 등 데이터를 고차원 벡터로 변환한 표현. Voyage AI 모델이 MTEB 벤치마크에서 Gemini, Cohere 보다 우수한 성능으로 MongoDB Atlas 에 통합됨.
MTEB (Massive Text Embedding Benchmark) [지식 · 컨텍스트 자산]: 임베딩 모델의 검색·분류·클러스터링 성능을 표준화해 비교하는 벤치마크. Voyage AI 가 여기서 Gemini/Cohere 능가한다고 언급.
ASIC (Application-Specific Integrated Circuit) [도구 통신 (MCP · CLI · API)]: 특정 워크로드(AI 추론 등) 전용으로 설계된 칩. Apple Silicon, Amazon Tranium, Google TPU 가 대표. 범용 Nvidia GPU 의 margin 구조를 우회하려는 하이퍼스케일러 자체 칩 트렌드의 핵심.
CUDA [도구 통신 (MCP · CLI · API)]: Nvidia GPU 용 병렬 컴퓨팅 플랫폼/툴체인. Nvidia 의 진짜 해자가 silicon 자체보다 십 년 누적된 SDK·라이브러리·옵티마이제이션이라는 주장.
SMR (Small Modular Reactor) [빌링 · 운영]: 소형 모듈식 원자로. Google 이 차세대 데이터센터 전력 확보를 위해 PPA(전력구매계약) 체결. LLM 추론 전력 수요가 웹 검색 10~100배라 전력이 핵심 자원이 됨.
PPA (Power Purchase Agreement) [빌링 · 운영]: 발전 사업자와 장기 전력 구매 계약. Microsoft Three Mile Island 20년 계약, Google SMR 계약 등이 빅테크 “물리 레이어 잠그기” 의 형식.
Compounding Infrastructure [하니스 · 패턴]: 요구사항이 늘어도 기존 결정을 다시 짜지 않고 위에 쌓을 수 있는 인프라 패턴. MongoDB Atlas 가 document → search → vector → embedding 을 같은 클러스터에 점진 추가해온 게 예시.