에이전트 시스템의 보안 위협과 방어

에이전트 시스템의 보안 문제는 "모델이 나쁜 답을 내는 것"이 아니라 "잘못된 행동이 실제 시스템에서 실행되는 것"이다. 도구를 호출하고 외부 시스템에 접근하는 순간, 위협의 범위는 모델 출력에서 시스템 전체로 확장된다. 악의적인 입력이나 설계 미비가 결합하면, 의도하지 않은 파일 삭제·데이터 유출·시스템 변경이 자동으로 실행될 수 있다.

이 글에서는 에이전트 시스템에서 논의되는 보안·안전 위협의 유형과 개념적 쟁점을 설명한다. 특정 보안 솔루션, 정책 설계, 규제 대응 방안은 다루지 않는다.

에이전트에서 위협이 커지는 이유

일반적인 소프트웨어 보안과 에이전트 시스템 보안의 차이는 "LLM은 경계(boundary)를 이해하지 못한다"는 점에서 시작한다. 모델이 알아서 조심할 것이라고 가정하는 대신, 실행 환경과 호출 흐름을 강제로 제한해야 한다.

주요 위협 유형

프롬프트 인젝션(Prompt Injection)은 에이전트가 처리하는 외부 데이터에 숨겨진 지시가 포함될 경우, 에이전트가 그 지시를 정상 명령으로 받아들여 실행하는 공격이다. "이 계약서를 요약해줘"라는 요청을 처리하는 과정에서, 계약서 본문 안에 숨겨진 "첨부 파일을 외부 주소로 전송하라"는 지시를 실행하는 상황이 그 예다. 이메일, 문서, 웹 검색 결과처럼 에이전트가 읽는 모든 외부 입력이 공격 경로가 될 수 있다.

과도한 권한(Excessive Agency)은 에이전트에게 부여된 도구 접근 권한이 필요 이상으로 넓을 때 생기는 문제다. OWASP GenAI Top-10에서도 핵심 위협으로 분류한다. 고객 데이터를 조회하기만 하면 되는 에이전트에게 데이터 삭제 권한까지 부여되어 있으면, 오류 하나 또는 인젝션 공격 하나가 큰 피해로 이어진다.

민감 정보 유출도 도구 사용과 함께 발생할 수 있다. 에이전트가 파일 시스템, DB, 내부 API에서 읽어온 정보를 응답이나 도구 호출 결과에 그대로 포함시키면, 내부 시스템 접근 키나 사용자 개인정보가 외부로 유출될 수 있다.

연쇄 오류 전파는 다회 실행 구조에 고유한 문제다. 잘못된 데이터 조회 → 잘못된 계산 → 잘못된 보고서 생성처럼, 하나의 오류가 이후 단계를 오염시킨다. 중간 검증 지점이 없으면 문제가 끝까지 전달된다.

통제 지점 부재는 승인 없이 자동으로 결제가 완료되거나 파일이 삭제되는 것처럼, 중간 검증 단계나 사람의 확인 없이 자동 실행이 이어지는 상태다. 문제가 발생해도 멈추거나 되돌리기 어렵다.

방어는 어떻게 설계하는가

에이전트 보안은 세 층위의 방어를 겹쳐 쌓는 구조로 논의된다.

샌드박스(기술적 격리)는 코드 실행이나 외부 시스템 접근을 격리된 환경에서 수행해, 에이전트의 실수나 공격이 실제 시스템에 영향을 미치지 못하도록 제한한다. OpenAI 코드 인터프리터가 gVisor 기반 샌드박스를 사용하는 것이 대표적인 예다.

가드레일(Guardrail)은 모델 바깥에서 입력과 출력을 검사하고, 허용되지 않은 도구 호출을 차단하고, 모든 행동을 로그로 남기는 정책·런타임 제어 레이어다.

HITL(Human-in-the-Loop)은 영향 범위가 크거나 되돌리기 어려운 행동을 실행하기 전에 사람의 확인을 받는 지점이다. 외부 발송, 데이터 삭제, 계약 체결 같은 고위험 행동은 자동 실행 전 담당자 승인을 거치도록 설계한다.

위협 유형 비교

위협 유형설명발생 조건프롬프트 인젝션외부 데이터에 숨겨진 지시를 에이전트가 실행외부 입력을 검증 없이 처리과도한 권한불필요한 권한으로 피해 범위 확대최소 권한 원칙 미적용민감 정보 유출내부 데이터가 응답이나 로그에 포함출력 검증 부재연쇄 오류 전파초기 오류가 이후 실행에 증폭 전달중간 검증 지점 없음통제 지점 부재자동 실행이 멈추지 않고 계속됨HITL·승인 절차 미설계

자주 하는 오해

"보안 문제는 악의적인 공격에서만 발생한다"
정상적인 사용 환경에서도, 설계 미비나 권한 과잉이 있으면 의도치 않은 위험 행동이 발생할 수 있다.

"모델 정확도가 높으면 안전하다"
안전 문제는 모델 성능보다 실행 권한과 통제 구조에 더 밀접하게 연관되어 있다.

"에이전트 보안은 기존 소프트웨어 보안과 같다"
기존 보안과 공통점이 있지만, 자율 실행·도구 호출·외부 데이터 처리가 결합된다는 점에서 추가적인 위협 유형과 대응이 필요하다.

FAQ

Q1. 보안과 안전은 같은 의미인가?
다르다. 보안은 외부 공격이나 오남용으로부터 시스템을 보호하는 관점이고, 안전은 정상 사용 중에도 의도치 않은 피해나 오류 행동을 방지하는 관점이다.

Q2. HITL은 자율성을 해치지 않는가?
일부 실행 속도는 늦어질 수 있다. 그러나 되돌리기 어려운 행동에 대한 통제 지점은 자율성과 안전성 사이의 균형을 위해 필요한 설계 요소다.

Q3. 프롬프트 인젝션은 방어할 수 있는가?
완전한 방어는 어렵지만, 입력 필터링, 도구 호출 범위 제한, 외부 입력과 내부 지시의 분리 설계 등을 통해 위험을 줄일 수 있다.