모델보다 중요한건 하니스 입니다.

한 줄 요약

같은 AI 모델이라도 주변에 두르는 시스템(하니스)을 어떻게 짜느냐가 결과의 거의 전부를 결정한다는 주장. 스펙 리뷰·스킬·도메인 매뉴얼·자동 검사 4가지로 하니스를 쌓는 실전 방법을 다룬다.

영상 메타

URL: https://youtu.be/8DySHAuAmts
채널: 메이커 에반 | Maker Evan
길이: 13분 52초
업로드: unknown
조회수: - / 좋아요 - (메타 추출 실패, yt-dlp 429)
시청일: 2026-05-20 KST (💻 가 자막 추출 후 요약)

픽업

커서의 실험에서 같은 클로드 모델·같은 벤치마크인데 주변 시스템 설계에 따라 점수가 46점에서 80점까지(34점 차) 갈렸다. 한 연구자의 표현으로 “모델은 천장을 정하고 하니스는 그 천장에 얼마나 가까이 갈지를 정한다.”
모델은 신입의 IQ, 하니스는 그 신입을 둘러싼 회사 시스템에 해당한다. 스탠포드 연구에서 하니스를 잘 짜면 결과물 품질이 28~47% 오르지만, 프롬프트만 다듬으면 3%도 안 오른다.
하니스는 11가지 요소(작업 명세, 컨텍스트 선택, 도구 접근, 프로젝트 메모리, 작업 상태, 관찰성, 실패 분석, 검증, 권한, 감사, 개입 기록)로 나뉘며, 모델은 그중 하나일 뿐이고 가장 변동이 적은 부분이다.
작년 6월 반나절 만에 끝낸 코드 마이그레이션의 차이는 최신 모델이 아니라 한 달간 짠 하니스였다 — 작업 전 스펙 리뷰 강제, 읽기→변경→테스트→커밋 고정 워크플로우, 빌드가 깨지면 즉시 알람이 오는 자동 검사.
자주 하는 리팩토링 패턴을 한 페이지짜리 ‘스킬’(레시피 카드)로 정리하면 결과가 일정해지고, 실수가 나오면 그 스킬 문서만 고치면 재발하지 않는다. 모델을 갈아엎어도 스킬은 죽지 않아 누적되면 자산이 된다.
코드를 파일 종류(컴포넌트/훅/유틸)가 아니라 도메인(결제·인증)별로 묶고 그 폴더에 도메인 전용 매뉴얼을 두면, AI 작업 범위를 그 폴더 안으로 좁혀 컨텍스트가 깨끗해지고 도메인 일관성이 유지된다.
지금 당장 시작할 4단계: ① 코드 작성 전 AI에게 계획부터 쓰게 하기, ② 세 번 이상 반복한 일을 한 페이지 스킬로 옮기기, ③ 신규 기능부터 도메인 폴더+규칙 문서 적용, ④ 작업 끝나면 빌드·테스트·린트 자동 검사가 먼저 거르게 하기.

🧠 강대종 형님 적용 (5노드 챗봇 운영자 관점)

이미 적용 중

① 계획부터 쓰게 하기: plan mode + writing-plans / brainstorm 스킬로 운영.
② 반복 → 스킬: 3회 이상 반복 작업을 슬래시 스킬로 옮기는 습관 정착(~/claude-skills).
하니스 11요소 대부분: 메모리(프로젝트 메모리) / 룰(권한·감사) / 훅(개입 기록) / coord(작업 상태) 로 이미 커버.

새 인사이트 / 적용 가치 (빈틈)

④ “빌드·테스트·린트 자동검사가 먼저 거르게” — 형님 시스템 최대 빈틈: night-runner v1 은 read-only 점검(grep/test/lint 보고만)이고 PR 머지 직전 게이트는 약함. 2026-05-20 약먹자/더치페이 워킹트리에 SPM 빌드 찌꺼기가 낀 사고도, 머지 전 flutter analyze + 빌드가 자동으로 도는 게이트가 있었으면 사람 눈 안 거치고 걸렸을 일. 앱 repo 에 머지 전 analyze 게이트 = 가성비 1위 개선점.
③ 도메인별 폴더 + 폴더 전용 규칙 md: 형님 Flutter 앱들은 아직 파일 종류(screen/widget/util)로 묶임. 신규 기능부터 도메인(약 알림 / 결제 / 동기화)별로 묶고 폴더에 규칙 문서를 두면 AI 작업 범위가 그 폴더로 좁아져 컨텍스트가 깨끗해지고 도메인 일관성 유지. 메모요 1.0.7 작업에 시범 적용 가치.

용어

Harness (하니스) [하니스 · 패턴]: 모델 주위에 두르는 시스템 — 작업 명세·컨텍스트 선택·도구 접근·메모리·검증·권한 등 11 요소. Cursor 실험에서 같은 모델로 점수 46→80 (34점 차). “모델은 천장을 정하고 하니스는 그 천장에 얼마나 가까이 갈지를 정한다.”
Skill (스킬) [하니스 · 패턴]: markdown 파일로 적은 작업 매뉴얼. name + description 만 자동 로드되고 본문은 필요할 때만 펼침 → 토큰 절약. “썸네일 만들어 줘” 같은 자연어로 자동 호출. 100+ 공개 (Anthropic 16+ + community).
Verification loop [하니스 · 패턴]: 모델이 자기 work 를 검증할 way 를 제공하는 루프 — Chrome extension 으로 UI 열어 테스트 + iterate. Boris: “이 레벨에서 가장 중요한 것.” 품질 2~3x.