https://openai.com/index/harness-engineering/
ChatGPT 요약
1️⃣ 핵심 메시지
이 글의 핵심은 다음입니다.
AI 모델보다 더 중요한 것은 “에이전트를 작동시키는 시스템(harness)”이다.
즉 미래의 개발은
-
좋은 LLM 모델을 만드는 것보다
-
AI가 안정적으로 일할 수 있는 실행 환경과 피드백 루프를 만드는 것이 더 중요하다는 주장입니다.
OpenAI는 이를 Harness Engineering이라고 부릅니다.
2️⃣ 실제 실험: “사람이 코드 0줄 작성”
OpenAI 팀은 내부 실험을 했습니다.
조건:
-
사람이 직접 작성한 코드: 0줄
-
모든 코드: Codex가 생성
-
대상:
-
앱 로직
-
테스트
-
CI
-
문서
-
운영 코드
-
결과:
-
약 100만 줄 코드
-
5개월
-
기존 대비 약 10배 빠른 개발 속도
사람의 역할은 다음으로 바뀌었습니다.
Humans steer. Agents execute.
(사람은 방향을 잡고, 에이전트가 실행한다)
3️⃣ 엔지니어 역할 변화
기존 개발자:
코드 작성
→ 테스트
→ 디버깅
Agent-first 개발:
환경 설계
→ 목표 정의
→ 피드백 루프 설계
→ 에이전트 실행
즉 엔지니어는 **코드 작성자가 아니라 “시스템 설계자”**가 됩니다.
4️⃣ Harness Engineering의 핵심 원칙
(1) Repository가 “유일한 진실”
AI는 다음을 읽지 못합니다.
-
Slack
-
Google Docs
-
사람 머릿속
따라서 모든 지식은 repo 안에 있어야 합니다.
(2) 매뉴얼 대신 “지도”
에이전트에게
❌ 1000페이지 문서
✔ 짧은 navigation 문서
예:
AGENTS.md
→ 프로젝트 구조
→ 규칙
→ 문서 링크
Context window가 제한되기 때문입니다.
(3) 구현이 아니라 invariant를 강제
좋은 방식:
데이터 구조 규칙
아키텍처 규칙
테스트 규칙
이런 것은 lint / CI / tests로 강제합니다.
하지만
❌ 함수 구현 방식까지 강제하지 않음
(4) Agent legibility
코드는 사람이 읽기 쉬운 것보다
AI가 이해하기 쉬운 구조가 중요합니다.
예:
-
명확한 디렉토리 구조
-
타입 중심 설계
-
자동 테스트
5️⃣ 개발 프로세스 변화
AI 에이전트 개발에서는 merge philosophy도 달라집니다.
기존:
큰 PR
사람 리뷰
Agent 개발:
작은 PR
빠른 merge
자동 테스트
왜냐하면 에이전트 throughput이 매우 높기 때문입니다.
6️⃣ AI 코드의 특징
OpenAI는 “agent-generated code”를 이렇게 설명합니다.
AI 코드 특징:
-
완벽하지 않음
-
반복적으로 수정됨
-
자동 테스트로 품질 관리
즉 코드 품질은
코드 자체 X 테스트 + feedback loop O
7️⃣ 가장 중요한 개념: Harness
Harness란:
LLM + tools + rules + feedback loop
즉
Model + Tools + Repo knowledge + CI + Tests + Execution loop
이 전체가 AI 개발 시스템입니다.
8️⃣ 앞으로의 소프트웨어 엔지니어링
OpenAI의 결론:
앞으로 엔지니어의 핵심 기술은
1️⃣ Prompting
2️⃣ Tooling
3️⃣ Harness design
4️⃣ Feedback loops
5️⃣ Agent safety
즉
“코드를 잘 쓰는 것”보다
“AI가 잘 쓰도록 환경을 만드는 것”이 중요
한 줄 요약
Harness Engineering = AI coding agent가 안정적으로 일하도록 만드는 실행 환경 + 피드백 시스템 설계