5월 25일, Anthropic은 지금의 에이전트 안전성 논쟁에서 가장 솔직한 문장을 내놨다. Claude Cowork의 첫 데스크톱 아키텍처가 macOS에서는 Apple의 Virtualization 프레임워크, Windows에서는 HCS를 사용해 “완전한 가상 머신” 안에서 실행됐고, 자체 Linux 커널, 파일시스템, 프로세스 테이블까지 갖췄다는 것이다 (Anthropic). 2주 뒤, Hacker News에서는 사용자가 그저 채팅만 원했는데도 Windows의 Claude Desktop이 1.8GB짜리 Hyper-V VM을 띄울 수 있는 이유를 두고 논쟁이 벌어졌다 (Hacker News).
우연이 아니다. 제품 청구서가 도착한 것이다.
편한 이야기는 Anthropic이 버그를 냈다는 쪽이다. 맞다, 버그 리포트도 있다. 더 날카로운 이야기는 안전한 데스크톱 에이전트가 모델 회사를 런타임 벤더로 밀어 넣고 있다는 것이다. 에이전트가 로컬 파일을 읽고, 코드를 실행하고, 도구를 호출하고, 세션을 넘어 상태를 유지할 수 있게 되는 순간, “AI 안전성”은 더 이상 모델 카드 문제가 아니다. 파일시스템, 커널, 하이퍼바이저, 네트워크 정책, ID, 감사, 엔드포인트 모니터링 문제가 된다.

VM은 우연이 아니다
Anthropic의 공개 아키텍처는 분명하다. Claude Cowork는 파일 업로드가 붙은 채팅창이 아니다. Help Center는 Cowork가 두 개의 실행 환경을 쓴다고 설명한다. 에이전트 루프는 기기에서 네이티브로 실행되고, 셸 명령과 생성된 코드는 macOS의 Apple Virtualization.framework와 Windows의 Hyper-V로 격리된 전용 Linux VM 안에서 실행된다 (Claude Help Center).
이 설계는 방어 가능하다. 사실 내가 가장 신뢰하는 부분이기도 하다.
Anthropic의 엔지니어링 글은 Claude Code가 왜 사람의 승인 루프에 기대도 되지만 Cowork는 그럴 수 없는지 설명한다. Claude Code 사용자는 개발자다. 이들은 보통 bash 명령을 승인하기 전에 어느 정도 살펴볼 수 있다. Cowork는 더 넓은 지식 노동을 겨냥한다. 그런 사용자에게 find . -name "*.tmp" -exec rm {} \;를 판단하라고 묻는 건 연극에 가깝다. 그 사용자에게 맞는 경계는 무서운 경고창이 아니다. 항상 켜져 있는 샌드박스다.
Anthropic은 유용한 숫자도 제시한다. 사용자는 Claude Code 권한 프롬프트의 약 93%를 승인했다. OS 수준 샌드박스를 추가하자 권한 프롬프트는 84% 줄었다. Claude Code 자동 모드는 “과도하게 나서는” 행동의 약 83%를 잡아내며, Anthropic의 각주에 따르면 약 17%는 여전히 통과한다 (Anthropic). 교훈은 냉정하다. 프롬프트는 정책 힌트다. 샌드박스는 정책 집행이다.
Anthropic이 실제로 하고 있는 격리의 트레이드오프는 이렇다.
| 제품 표면 | 런타임 경계 | 주요 안전 비용 |
|---|---|---|
| claude.ai 코드 실행 | 서버 측 gVisor 컨테이너 | 로컬 기능이 줄어듦 |
| Claude Code | OS 샌드박스와 승인 | 사용자가 위험을 이해해야 함 |
| Claude Cowork | 로컬 Linux VM | 시작 시간, 메모리, 디스크, IT 가시성 |
VM이 존재하는 이유는 Anthropic이 로컬 폭발 반경을 진지하게 보고 있기 때문이다. 선택된 작업공간과 .claude 폴더가 마운트된다. 자격 증명은 호스트 키체인에 남는다. 네트워크 송신은 제한된다. Anthropic은 심볼릭 링크 검증과 마운트 모드까지 언급한다. 읽기 전용, 읽기-쓰기, 읽기-쓰기-삭제 불가.
진짜 엔지니어링이다. 그리고 진짜 비용도 있다.
커뮤니티가 화난 건 경계가 아니라 청구서다
HN에 올라간 GitHub 이슈는 2026년 2월 26일에 열렸다. 제보자는 16GB Razer Blade 노트북에서 Windows 11 Pro 25H2를 쓰고 있었고, VirtualMachinePlatform은 켜져 있었으며 Hyper-V, WSL, Docker, Windows Sandbox는 꺼져 있었다고 설명한다. Cowork 또는 에이전트 모드를 한 번 사용한 뒤부터 Claude Desktop이 시작할 때마다 Hyper-V VM을 띄웠고, Vmmem이 대략 1,796~1,846MB를 표시했다는 것이다 (GitHub).
이건 중요하다. 1.8GB는 추상적인 숫자가 아니다. 16GB 노트북에서는 사용자가 에이전트에게 에이전트 작업을 시키기도 전에 RAM의 11% 이상을 먹는다. 같은 이슈에 따르면 유휴 메모리는 약 50%에서 62%로 올랐고, 일반적인 앱 부하에서는 70~75%까지 올라갔다. 제보자는 %APPDATA%\Claude\local-agent-mode-sessions\ 아래에 오래된 세션 파일 2,689개도 발견했다.
우회책은 보기 좋지 않았다.
Disable-WindowsOptionalFeature -Online -FeatureName "VirtualMachinePlatform" -NoRestart
Stop-Process -Name vmwp -Force
Stop-Process -Name vmcompute -Force
소비자용 우회책이 아니다. IT 티켓이다.
HN 스레드는 HN답게 흘러갔다. 어떤 사람들은 허술함을 탓했고, 어떤 사람들은 샌드박스의 필요성을 옹호했으며, 몇몇은 Anthropic이 직접 답해야 할 제품 질문을 던졌다. 왜 Cowork가 그냥 옵트인이 아닌가? 한 댓글은 유용한 중간 지대를 짚었다. 에이전트에게 모든 것을 주는 것과 아무것도 주지 않는 것 사이에는 스펙트럼이 있다 (Hacker News). 그 프레임이 맞다.
Linux 쪽 불만도 같은 곳에서 나온다. Anthropic의 공식 설치 페이지는 macOS 11+와 Windows 10+만 나열하며, 설치 선택지도 “macOS”와 “Windows”뿐이다 (Claude Help Center). Meanwhile, Reddit 스레드에서는 왜 Linux 데스크톱 앱이 없는지 계속 묻는다. 특히 Claude Desktop이 로컬 에이전트 실행을 위해 이미 Linux VM을 배송하고 있기 때문이다 (Reddit). 공통된 불만은 단지 “내 OS도 지원해 달라”가 아니다. 안전한 런타임이 Linux라면 왜 Linux 사용자는 공식 데스크톱 지원을 가장 적게 받는가?
답은 패키징, 엔터프라이즈 배포, 키체인 통합, 앱 샌드박싱, 지원 부담, 또는 단일한 Linux 데스크톱 보안 API의 부재일 수 있다. 모두 진지한 이유다. 하지만 제품의 인상은 좋지 않다. 개발자는 VM을 볼 수 있다. Hyper-V를 볼 수 있다. 오래된 세션 폴더를 볼 수 있다. 비공식 Linux 리패키징 프로젝트도 볼 수 있다. 추상화가 새는 순간을 안다.

안전성은 런타임 문제가 됐다
Anthropic 글에서 가장 중요한 부분은 VM이 아니다. 실패 모드다.
Anthropic은 Cowork의 송신 허용 목록이 정확히 설정된 대로 동작한 제3자 제보 사례를 설명한다. 제품에 그 API가 필요하기 때문에 api.anthropic.com으로 가는 트래픽을 허용했다. 마운트된 작업공간의 악성 파일에는 숨겨진 지시문과 공격자가 제어하는 API 키가 들어 있었다. Claude는 파일을 읽고 Anthropic의 Files API를 통해 공격자의 계정으로 업로드했다. Anthropic의 요약은 치명적이다. 샌드박스는 작동했고, 데이터는 그래도 빠져나갔다 (Anthropic).
이 한 사건에 에이전트 보안 문제가 압축돼 있다. 도메인 허용 목록만으로는 부족하다. 도메인은 권한이 아니기 때문이다. 그것은 기능 묶음이다. api.anthropic.com을 허용한다는 것은 런타임이 출처, 토큰 범위, 헤더, 의도를 이해하지 못하는 한 그 API 뒤에 닿을 수 있는 모든 작업을 허용한다는 뜻이다.
Anthropic의 수정은 VM 내부의 방어적 중간자 프록시였다. VM 자체가 발급받은 세션 토큰을 가진 요청만 통과시키고, 공격자가 심어 넣은 키는 거부한다. 좋은 조치다. 동시에 데스크톱 에이전트를 만드는 모두에게 보내는 표지판이기도 하다. 샌드박스는 IP 주소와 경로만이 아니라 ID와 기능을 이해해야 한다.
전통적인 데스크톱 앱에는 이렇게 많은 장치가 필요하지 않았다. 스스로 파일을 열지, 명령을 합성할지, 도구를 연결할지, 빠진 권한을 우회할지 자율적으로 결정하지 않았기 때문이다. 브라우저 샌드박스는 신뢰할 수 없는 웹 페이지를 격리한다. 컨테이너는 서비스를 격리한다. 데스크톱 에이전트 샌드박스는 적대적인 문서에서 지시를 읽은 뒤 합법적인 도구를 써서 잘못된 일을 할 수 있는 반자율 운영자를 격리해야 한다.
그래서 이것은 OS/런타임 계층이 되고 있다.
OS는 이미 대부분의 기본 요소를 갖고 있다. 프로세스 격리, 파일시스템 권한, 안전한 자격 증명 저장소, 네트워크 필터링, 감사 로그, 공증, EDR 훅, 기기 관리. 모델 회사는 에이전트 루프와 정책 의도를 갖고 있다. 빠져 있는 제품은 둘 사이의 계약이다.
엔터프라이즈 IT는 두 번 비용을 낸다
VM은 Anthropic에 단단한 격리 경계를 준다. 동시에 기업이 의존하는 바로 그 보안 도구들로부터 활동을 숨긴다.
Anthropic은 이를 직접 말한다. Cowork 아키텍처 FAQ에서 “엔드포인트 탐지(EDR) 도구가 VM 내부 활동을 검사할 수 있나요?”라는 질문의 답은 “아니요”다. VM은 설계상 호스트 기반 보안 도구와 격리되어 있다 (Claude Help Center). 엔지니어링 글은 현재 완화책이 관리자용 풀 기반 OTLP 내보내기라고 덧붙이는데, 이는 실시간 모니터링과 같지 않다 (Anthropic).
이는 IT가 두 번 비용을 낸다는 뜻이다.
첫째, 리소스 비용을 낸다. 디스크 번들, VM 시작, RAM 압박, 가상화 충돌, 네트워킹 문제, 헬프데스크 스크립트. 둘째, 가시성 비용을 낸다. 에이전트를 호스트로부터 더 안전하게 만드는 바로 그 장치가 호스트 기반 모니터링에는 더 불투명하게 만든다.
VM을 거부해야 한다는 뜻은 아니다. “VM에서 실행된다”가 보안 이야기의 끝인 척을 멈춰야 한다는 뜻이다. 엔터프라이즈 롤아웃에서 일급 텔레메트리가 없는 밀봉된 VM은 멋진 외곽선을 가진 블랙박스다.
감사 격차는 더 날카롭다. Help Center는 Cowork 활동이 감사 로그, Compliance API, 데이터 내보내기에 “현재는” 캡처되지 않는다고 말하고, 관리자에게 모니터링 지침으로 OpenTelemetry를 안내한다 (Claude Help Center). 사람이 셸을 쓰고, 파일을 복사하고, API를 호출했다면 기업은 로그를 기대한다. 에이전트가 VM 안에서 같은 일을 한다면 “믿어 달라, 격리되어 있다”는 조달 과정을 버티지 못한다.

개발자가 요구해야 할 것
커뮤니티 논쟁은 1.8GB가 “너무 많은가”에 너무 집중돼 있다. 그건 기기와 작업에 달렸다. 진짜 요구는 통제여야 한다.
데스크톱 에이전트 벤더는 샌드박스 상태를 제품 표면으로 드러내야 한다. AppData와 작업 관리자 속에 묻어서는 안 된다. 개발자와 관리자는 다섯 가지를 요구해야 한다.
첫째: 지연 시작. 채팅이 VM을 부팅해서는 안 된다. Cowork는 그래도 된다. 예약 작업에는 따뜻한 런타임이 정당화될 수 있지만, 그것은 보여야 하고 설정 가능해야 한다.
둘째: 샌드박스 대시보드. VM 상태, 메모리, 디스크 사용량, 마운트된 폴더, 활성 세션, 송신 정책, 마지막 정리 시점을 보여줘라. Docker Desktop이 컨테이너를 보여줄 수 있다면 Claude Desktop도 에이전트 런타임을 보여줄 수 있다.
셋째: 명시적인 설치 선택지. 어떤 시스템에서 Cowork에 10GB급 번들이 필요하다면 다운로드 전에 말해야 한다. 사용자가 위치를 선택하게 하라. 채팅을 망가뜨리지 않고 제거할 수 있게 하라.
넷째: 코드로서의 정책. 개발자는 유효한 샌드박스 정책을 검사하고 버전 관리할 수 있어야 한다. 마운트, 네트워크 대상, 로컬 MCP 권한, 토큰 범위, 삭제 규칙까지. 애매한 “송신 설정” 패널로는 실제 작업을 배송하는 팀에 충분하지 않다.
다섯째: 실시간 관측 훅. OTLP 내보내기는 시작이다. 기준은 도구 호출별 로그, 파일 접근 이벤트, 거부된 동작, 네트워크 결정, 세션 ID, 관리자가 읽을 수 있는 사유 코드여야 한다. EDR의 실명 상태를 격리의 대가라며 대충 넘길 수는 없다.
Linux 요구도 여기에 속한다. Linux 데스크톱 앱은 커뮤니티에 베푸는 친절이 아니다. 많은 샌드박싱 기본 요소, 개발자 워크플로, 컨테이너식 사고방식이 이미 네이티브인 플랫폼 위에 구축할 기회다. 어려운 부분이 데스크톱 통합이라면 그렇게 말하라. 어려운 부분이 배포판 전반의 엔터프라이즈 지원이라면 그렇게 말하라. 침묵은 사용자가 방치를 추론하게 만든다.
올바른 결론
Anthropic은 불편한 세부사항을 공개한 점에서 인정받을 만하다. 그 글에는 실제 숫자, 실제로 놓친 위험, 실제 트레이드오프가 들어 있다. 대부분의 벤더라면 “안전한 샌드박스”에서 멈췄을 것이다. Anthropic은 샌드박스가 어디서 실패했는지, 사용자 승인이 어디서 실패했는지, VM 격리가 어디서 엔터프라이즈 모니터링을 더 나쁘게 만들었는지 설명했다.
하지만 HN의 분노도 정당하다. 아키텍처 다이어그램이 탄탄하다고 해서 안전 비용이 사라지지는 않는다. 그 비용은 사용자의 노트북, 관리자의 배포 계획, 개발자의 일상 워크플로로 옮겨간다.
Claude Cowork의 VM은 일찍 도착한 미래다. 로컬 에이전트에는 단단한 런타임 경계, 범위가 지정된 ID, 네트워크 중재, 감사 가능한 도구 실행이 필요해질 것이다. 승자는 그 장치를 숨기는 벤더가 아니다. 그 장치를 읽을 수 있고, 조정할 수 있고, 관측할 수 있고, 지루하게 만드는 벤더다.
파일과 도구를 조작할 수 있는 데스크톱 에이전트는 더 이상 그냥 앱이 아니다. 작은 운영 환경이다. 그렇게 다뤄야 한다.
Claude Fable 5를 직접 써보고 싶은 독자는 OneHop의 Claude Fable 5를 통해 사용할 수 있다. 정가보다 약 30% 낮은 가격의 드롭인 엔드포인트다. 새 계정은 카드 없이도 $10 무료 크레딧으로 시작할 수 있다.
더 읽을거리: Claude Fable 5 시작하기.