← 인사이트

unknown

모델보다 중요한건 하니스 입니다.

모델보다 중요한건 하니스 입니다. — 메이커 에반 | Maker Evan

한 줄 요약

같은 AI 모델이라도 주변에 두르는 시스템(하니스)을 어떻게 짜느냐가 결과의 거의 전부를 결정한다는 주장. 스펙 리뷰·스킬·도메인 매뉴얼·자동 검사 4가지로 하니스를 쌓는 실전 방법을 다룬다.

영상 메타

  • URL: https://youtu.be/8DySHAuAmts
  • 채널: 메이커 에반 | Maker Evan
  • 길이: 13분 52초
  • 업로드: unknown
  • 조회수: - / 좋아요 - (메타 추출 실패, yt-dlp 429)
  • 시청일: 2026-05-20 KST (💻 가 자막 추출 후 요약)

픽업

  • 커서의 실험에서 같은 클로드 모델·같은 벤치마크인데 주변 시스템 설계에 따라 점수가 46점에서 80점까지(34점 차) 갈렸다. 한 연구자의 표현으로 “모델은 천장을 정하고 하니스는 그 천장에 얼마나 가까이 갈지를 정한다.”
  • 모델은 신입의 IQ, 하니스는 그 신입을 둘러싼 회사 시스템에 해당한다. 스탠포드 연구에서 하니스를 잘 짜면 결과물 품질이 28~47% 오르지만, 프롬프트만 다듬으면 3%도 안 오른다.
  • 하니스는 11가지 요소(작업 명세, 컨텍스트 선택, 도구 접근, 프로젝트 메모리, 작업 상태, 관찰성, 실패 분석, 검증, 권한, 감사, 개입 기록)로 나뉘며, 모델은 그중 하나일 뿐이고 가장 변동이 적은 부분이다.
  • 작년 6월 반나절 만에 끝낸 코드 마이그레이션의 차이는 최신 모델이 아니라 한 달간 짠 하니스였다 — 작업 전 스펙 리뷰 강제, 읽기→변경→테스트→커밋 고정 워크플로우, 빌드가 깨지면 즉시 알람이 오는 자동 검사.
  • 자주 하는 리팩토링 패턴을 한 페이지짜리 ‘스킬’(레시피 카드)로 정리하면 결과가 일정해지고, 실수가 나오면 그 스킬 문서만 고치면 재발하지 않는다. 모델을 갈아엎어도 스킬은 죽지 않아 누적되면 자산이 된다.
  • 코드를 파일 종류(컴포넌트/훅/유틸)가 아니라 도메인(결제·인증)별로 묶고 그 폴더에 도메인 전용 매뉴얼을 두면, AI 작업 범위를 그 폴더 안으로 좁혀 컨텍스트가 깨끗해지고 도메인 일관성이 유지된다.
  • 지금 당장 시작할 4단계: ① 코드 작성 전 AI에게 계획부터 쓰게 하기, ② 세 번 이상 반복한 일을 한 페이지 스킬로 옮기기, ③ 신규 기능부터 도메인 폴더+규칙 문서 적용, ④ 작업 끝나면 빌드·테스트·린트 자동 검사가 먼저 거르게 하기.

🧠 강대종 형님 적용 (5노드 챗봇 운영자 관점)

이미 적용 중

  • ① 계획부터 쓰게 하기: plan mode + writing-plans / brainstorm 스킬로 운영.
  • ② 반복 → 스킬: 3회 이상 반복 작업을 슬래시 스킬로 옮기는 습관 정착(~/claude-skills).
  • 하니스 11요소 대부분: 메모리(프로젝트 메모리) / 룰(권한·감사) / 훅(개입 기록) / coord(작업 상태) 로 이미 커버.

새 인사이트 / 적용 가치 (빈틈)

  1. ④ “빌드·테스트·린트 자동검사가 먼저 거르게” — 형님 시스템 최대 빈틈: night-runner v1 은 read-only 점검(grep/test/lint 보고만)이고 PR 머지 직전 게이트는 약함. 2026-05-20 약먹자/더치페이 워킹트리에 SPM 빌드 찌꺼기가 낀 사고도, 머지 전 flutter analyze + 빌드가 자동으로 도는 게이트가 있었으면 사람 눈 안 거치고 걸렸을 일. 앱 repo 에 머지 전 analyze 게이트 = 가성비 1위 개선점.
  2. ③ 도메인별 폴더 + 폴더 전용 규칙 md: 형님 Flutter 앱들은 아직 파일 종류(screen/widget/util)로 묶임. 신규 기능부터 도메인(약 알림 / 결제 / 동기화)별로 묶고 폴더에 규칙 문서를 두면 AI 작업 범위가 그 폴더로 좁아져 컨텍스트가 깨끗해지고 도메인 일관성 유지. 메모요 1.0.7 작업에 시범 적용 가치.

용어

  • Harness (하니스) [하니스 · 패턴]: 모델 주위에 두르는 시스템 — 작업 명세·컨텍스트 선택·도구 접근·메모리·검증·권한 등 11 요소. Cursor 실험에서 같은 모델로 점수 46→80 (34점 차). “모델은 천장을 정하고 하니스는 그 천장에 얼마나 가까이 갈지를 정한다.”
  • Skill (스킬) [하니스 · 패턴]: markdown 파일로 적은 작업 매뉴얼. name + description 만 자동 로드되고 본문은 필요할 때만 펼침 → 토큰 절약. “썸네일 만들어 줘” 같은 자연어로 자동 호출. 100+ 공개 (Anthropic 16+ + community).
  • Verification loop [하니스 · 패턴]: 모델이 자기 work 를 검증할 way 를 제공하는 루프 — Chrome extension 으로 UI 열어 테스트 + iterate. Boris: “이 레벨에서 가장 중요한 것.” 품질 2~3x.