article detail
[팽동현의 테크픽] AI에이전트 성능 좌우…‘하네스 엔지니어링’ 부상
2026. 5. 18. 오후 4:45
AI 요약
인공지능 모델 성능이 상향평준화되면서 모델을 둘러싼 도구·시스템 프롬프트·메모리·샌드박스·권한·관측·피드백 루프 등 이른바 하네스(harness)를 설계하는 '하네스 엔지니어링'이 프롬프트·컨텍스트 엔지니어링을 넘어 핵심 경쟁력으로 부상하고 있습니다. 업계에서는 랭체인이 하네스만 재설계해 자사 코딩 에이전트의 터미널벤치 점수를 52.8%에서 66.5%로 끌어올렸고, 오픈AI는 코덱스 에이전트로 약 100만줄·1500풀리퀘스트 규모의 내부 베타 사례를 공개했으며, 앤스로픽은 클로드 매니지드 에이전트를 세션 런타임 시간당 0.08달러로 내놓고 AWS와 MS도 하네스 관련 기능·제품을 잇달아 공개했습니다. 다만 ETH 연구진은 자동 생성한 콘텍스트 파일이 성공률을 평균 3% 낮추고 추론비용을 20% 이상 늘렸다고 밝혀 정교한 설계의 필요성을 지적했으며, MS는 MDASH가 사이버짐 벤치마크에서 1507개 과제 중 88.45%의 성공률로 최고 점수를 기록하고 윈도우 네트워킹·인증 스택에서 16개의 신규 취약점을 식별했다고 밝혔습니다.



![“GPT-5.5, 미토스 앞선 결과”…상향 평준화되는 AI해커 [팩플]](https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202605/17/4c453a60-248a-408c-b514-0e84c5381d37.jpg)


