https://openai.com/index/harness-engineering/

ChatGPT 요약

1️⃣ 핵심 메시지

이 글의 핵심은 다음입니다.

AI 모델보다 더 중요한 것은 “에이전트를 작동시키는 시스템(harness)”이다.

즉 미래의 개발은

좋은 LLM 모델을 만드는 것보다
AI가 안정적으로 일할 수 있는 실행 환경과 피드백 루프를 만드는 것이 더 중요하다는 주장입니다.

OpenAI는 이를 Harness Engineering이라고 부릅니다.

2️⃣ 실제 실험: “사람이 코드 0줄 작성”

OpenAI 팀은 내부 실험을 했습니다.

조건:

사람이 직접 작성한 코드: 0줄
모든 코드: Codex가 생성
대상:
- 앱 로직
- 테스트
- CI
- 문서
- 운영 코드

결과:

약 100만 줄 코드
5개월
기존 대비 약 10배 빠른 개발 속도

사람의 역할은 다음으로 바뀌었습니다.

Humans steer. Agents execute.
(사람은 방향을 잡고, 에이전트가 실행한다)

3️⃣ 엔지니어 역할 변화

기존 개발자:

코드 작성
→ 테스트
→ 디버깅

Agent-first 개발:

환경 설계
→ 목표 정의
→ 피드백 루프 설계
→ 에이전트 실행

즉 엔지니어는 **코드 작성자가 아니라 “시스템 설계자”**가 됩니다.

4️⃣ Harness Engineering의 핵심 원칙

(1) Repository가 “유일한 진실”

AI는 다음을 읽지 못합니다.

Slack
Google Docs
사람 머릿속

따라서 모든 지식은 repo 안에 있어야 합니다.

(2) 매뉴얼 대신 “지도”

에이전트에게

❌ 1000페이지 문서
✔ 짧은 navigation 문서

예:

AGENTS.md
→ 프로젝트 구조
→ 규칙
→ 문서 링크

Context window가 제한되기 때문입니다.

(3) 구현이 아니라 invariant를 강제

좋은 방식:

데이터 구조 규칙
아키텍처 규칙
테스트 규칙

이런 것은 lint / CI / tests로 강제합니다.

하지만

❌ 함수 구현 방식까지 강제하지 않음

(4) Agent legibility

코드는 사람이 읽기 쉬운 것보다

AI가 이해하기 쉬운 구조가 중요합니다.

예:

명확한 디렉토리 구조
타입 중심 설계
자동 테스트

5️⃣ 개발 프로세스 변화

AI 에이전트 개발에서는 merge philosophy도 달라집니다.

기존:

큰 PR
사람 리뷰

Agent 개발:

작은 PR
빠른 merge
자동 테스트

왜냐하면 에이전트 throughput이 매우 높기 때문입니다.

6️⃣ AI 코드의 특징

OpenAI는 “agent-generated code”를 이렇게 설명합니다.

AI 코드 특징:

완벽하지 않음
반복적으로 수정됨
자동 테스트로 품질 관리

즉 코드 품질은

코드 자체
X

테스트 + feedback loop
O

7️⃣ 가장 중요한 개념: Harness

Harness란:

LLM + tools + rules + feedback loop

즉

Model
+ Tools
+ Repo knowledge
+ CI
+ Tests
+ Execution loop

이 전체가 AI 개발 시스템입니다.

8️⃣ 앞으로의 소프트웨어 엔지니어링

OpenAI의 결론:

앞으로 엔지니어의 핵심 기술은

1️⃣ Prompting
2️⃣ Tooling
3️⃣ Harness design
4️⃣ Feedback loops
5️⃣ Agent safety

즉

“코드를 잘 쓰는 것”보다
“AI가 잘 쓰도록 환경을 만드는 것”이 중요

한 줄 요약

Harness Engineering = AI coding agent가 안정적으로 일하도록 만드는 실행 환경 + 피드백 시스템 설계

[OpenAI] 엔지니어링 활용: 에이전트 우선 환경에서 Codex를 활용하기

단축키