Woojin Kim
https://noc.social/@cloudflare/116595715712015674
핵심 내용
- Mythos Preview의 가장 큰 진전은 두 가지입니다: 여러 작은 버그를 이어 실제 공격 경로를 구성하는 능력, 그리고 PoC 코드를 직접 작성·실행·수정하며 취약점의 악용 가능성을 스스로 검증하는 능력입니다.
- 이전의 범용 프런티어 모델들도 버그 자체는 어느 정도 찾았지만, 그 버그들을 하나의 실제 익스플로잇으로 엮는 단계에서 자주 멈췄습니다.
- 그래서 예전에는 우선순위가 낮아 보이던 작은 결함들이, Mythos 같은 모델을 통해 실제로는 더 심각한 취약점 체인으로 드러날 수 있다고 봅니다. 한계와 문제점
- 모델이 때때로 위험한 요청을 스스로 거부하는 경향은 있었지만, 그 기준이 일관적이지 않았습니다. 같은 작업도 표현 방식이나 실행 맥락이 조금만 달라지면 거부하거나 허용하는 결과가 달라졌습니다.
- 따라서 이런 “자연 발생적 가드레일”만으로는 안전 경계로 삼기 어렵고, 일반 공개용 모델에는 별도 보호장치가 반드시 더해져야 한다고 주장합니다.
- 또 취약점 탐지의 큰 문제는 노이즈입니다. 특히 C/C++처럼 메모리 안전성이 낮은 언어에서는 허위 양성이 많고, 모델은 확신이 낮은 추측성 결과도 많이 내놓아 인간 검토 비용을 키웁니다.
왜 일반 코딩 에이전트로는 부족한가
- 저장소 전체를 대상으로 “취약점 찾아라”라고 지시하는 방식은 커버리지가 낮고 비효율적이라고 설명합니다.
- 보안 연구는 넓고 막연한 탐색이 아니라, 특정 기능·신뢰 경계·취약점 유형을 좁게 잡고 병렬로 반복 조사해야 하는 작업인데, 일반 코딩 에이전트는 한 번에 하나의 가설을 오래 붙드는 방식에 최적화돼 있습니다.
- 결국 중요한 것은 단일 대화형 에이전트가 아니라, 좁은 범위의 작업을 대량 병렬 처리하고 결과를 검증·중복 제거·추적하는 하네스라는 결론입니다.
Cloudflare의 하네스 구조 Cloudflare는 대략 이런 파이프라인을 사용했다고 설명합니다.
- Recon: 저장소 구조, 빌드 방법, 진입점, 신뢰 경계를 파악.
- Hunt: 여러 에이전트를 병렬로 돌려 좁은 범위의 취약점 가설을 탐색.
- Validate: 다른 프롬프트·다른 모델 계열의 검증 에이전트가 반박 시도.
- Gapfill / Dedupe / Trace: 놓친 영역 재탐색, 중복 제거, 실제 외부 입력이 취약점에 도달하는지 추적.
- Report: 최종 결과를 정형화된 스키마로 보고. 핵심은 “많은 좁은 작업 + 독립 검증 + 도달 가능성 추적”이 한 명의 똑똑한 에이전트보다 실전에서 더 낫다는 점입니다.
보안팀에 주는 메시지
- 글은 “더 빨리 스캔하고 더 빨리 패치하자”만으로는 부족하다고 강조합니다.
- 회귀 테스트, 배포 구조, 서비스 분리, 경계 방어처럼 취약점이 있어도 실제 악용이 어렵도록 만드는 아키텍처적 방어가 더 중요하다고 봅니다.
- 즉 앞으로는 패치 속도 경쟁만이 아니라, 취약점이 공개돼도 공격 성공까지 이어지지 않게 만드는 시스템 설계가 핵심 과제가 된다는 이야기입니다.
Cloudflare
Cloudflare's security team spent the last few weeks testing Anthropic's Mythos against fifty of our own repositories. What we learned about offensive AI, why faster patching is the wrong reaction, and what the architecture around vulnerabilities has to look like next. https://blog.cloudflare.com/cyber-frontier-models/