AI

설명 가능한 AI(XAI): Grad-CAM, LIME을 이용해 비전 모델이 '왜' 그렇게 판단했는지 분석하기

만듀s 2025. 7. 13. 21:02

인공지능(AI), 특히 딥러닝 기술은 이미지 인식, 자율 주행, 의료 진단 등 다양한 컴퓨터 비전 분야에서 인간의 능력을 뛰어넘는 성능을 보여주고 있습니다. 하지만 대부분의 고성능 딥러닝 모델은 '블랙박스(Black Box)'처럼 작동합니다. 즉, 모델이 특정 예측을 내놓았을 때, '왜' 그런 결정을 내렸는지 그 이유나 과정을 이해하기가 매우 어렵습니다. 이러한 불투명성은 모델의 신뢰도를 떨어뜨리고, 예상치 못한 오류가 발생했을 때 원인을 파악하기 어렵게 만듭니다. 특히, 사람의 생명이나 안전과 직결되는 의료, 금융, 자율주행과 같은 분야에서는 모델의 결정 과정을 이해하고 신뢰하는 것이 무엇보다 중요합니다. 바로 이 지점에서 설명 가능한 AI(eXplainable AI, XAI)의 필요성이 대두됩니다.

XAI는 AI 모델의 예측 결과를 사람이 이해할 수 있는 형태로 설명해주는 다양한 기술과 방법을 통칭합니다. 이를 통해 우리는 모델의 내부 동작을 들여다보고, 결정의 근거를 파악하며, 잠재적인 편향이나 오류를 감지하고 수정할 수 있습니다. 컴퓨터 비전 분야에서는 모델이 이미지의 어느 부분에 주목하여 특정 클래스로 분류했는지를 시각적으로 보여주는 기법들이 활발히 연구되고 있으며, 그중 가장 대표적인 것이 Grad-CAM(Gradient-weighted Class Activation Mapping)LIME(Local Interpretable Model-agnostic Explanations)입니다.

이번 포스트에서는 인공지능 비전 모델의 판단 근거를 분석하는 핵심적인 XAI 기법인 Grad-CAM과 LIME의 원리를 심도 있게 알아보고, 각각의 장단점과 활용 방안에 대해 상세히 살펴보겠습니다.

XAI는 인공지능이라는 블랙박스를 열어 그 결정 과정을 이해하고 신뢰할 수 있도록 돕는 핵심 기술입니다.
XAI는 인공지능이라는 블랙박스를 열어 그 결정 과정을 이해하고 신뢰할 수 있도록 돕는 핵심 기술입니다.

 

1. Grad-CAM: 모델의 시선을 추적하는 히트맵

Grad-CAM은 '모델이 이미지의 어느 영역을 중요하게 보고 특정 예측을 했는가?'라는 질문에 답을 주는 대표적인 시각화 기법입니다. 주로 CNN(Convolutional Neural Network) 기반 모델에 사용되며, 특정 클래스에 대한 예측에 결정적인 영향을 미친 이미지 영역을 '히트맵(Heatmap)' 형태로 보여줍니다. 붉은색에 가까울수록 모델이 해당 영역을 더 중요하게 판단했다는 의미입니다.

Grad-CAM의 작동 원리

Grad-CAM의 핵심 아이디어는 '특정 클래스에 대한 예측 점수의 마지막 합성곱 레이어(Convolutional Layer)의 특성 맵(Feature Map)에 대한 그래디언트(Gradient)'를 활용하는 것입니다. 말이 조금 복잡하게 들릴 수 있지만, 단계별로 풀어보면 다음과 같습니다.

  1. 입력 및 예측: 이미지를 학습된 CNN 모델에 입력하여 특정 클래스에 대한 예측 점수(Score)를 얻습니다.
  2. 그래디언트 계산: 우리가 설명하고자 하는 특정 클래스의 예측 점수에 대해, 모델의 마지막 합성곱 레이어의 각 특성 맵에 대한 그래디언트를 계산합니다. 이 그래디언트는 '해당 특성 맵이 최종 예측에 얼마나 큰 영향을 미쳤는가'를 의미하는 신호로 볼 수 있습니다.
  3. 가중치(Weight) 계산: 계산된 그래디언트들의 평균을 구해 각 특성 맵의 '중요도 가중치(Neuron Importance Weight)'를 얻습니다. 즉, 수많은 특성 맵 중에서 최종 예측에 긍정적인 영향을 준 맵들을 가려내는 과정입니다.
  4. 히트맵 생성: 각 특성 맵에 방금 구한 중요도 가중치를 곱하고, 이들을 모두 더하여 하나의 맵으로 합칩니다. 이렇게 얻어진 맵이 바로 Grad-CAM 히트맵의 원본입니다.
  5. ReLU 적용 및 시각화: 마지막으로, 음의 값을 제거하여 예측에 긍정적인 영향을 준 영역만 남기기 위해 ReLU 활성화 함수를 적용합니다. 이 히트맵을 원본 이미지 크기로 확대한 후, 원본 이미지 위에 반투명하게 겹쳐서 시각화하면 모델이 주목한 영역을 직관적으로 확인할 수 있습니다.

이러한 방식 덕분에 Grad-CAM은 모델의 구조를 변경하거나 재학습할 필요 없이, 이미 학습된 모델에 그대로 적용할 수 있다는 큰 장점을 가집니다. 예를 들어, '고양이' 사진을 보여주고 모델이 '고양이'라고 정확히 예측했다면, Grad-CAM은 고양이의 얼굴이나 귀, 몸통 부분에 붉은 히트맵을 생성하여 모델이 올바른 근거로 판단했음을 보여줍니다. 반대로 모델이 엉뚱한 배경을 보고 판단했다면, 우리는 모델이 잘못 학습되었을 가능성을 인지하고 디버깅의 단서로 삼을 수 있습니다.

Grad-CAM의 장점과 한계

장점:

  • 적용성: 모델 구조 변경 없이 대부분의 CNN 기반 아키텍처에 적용할 수 있습니다.
  • 해석 용이성: 시각적인 히트맵을 통해 모델의 판단 근거를 직관적으로 이해할 수 있습니다.
  • 디버깅: 모델이 잘못된 예측을 했을 때, 그 원인이 이미지의 어떤 부분에 있는지 파악하여 모델 개선에 활용할 수 있습니다. 데이터셋의 편향(bias)을 찾는 데도 유용합니다.

한계:

  • 해상도 문제: 마지막 합성곱 레이어의 특성 맵을 사용하므로, 원본 이미지보다 해상도가 낮아 세밀한 영역을 표현하는 데 한계가 있습니다.
  • 다중 객체 문제: 하나의 이미지에 같은 클래스의 객체가 여러 개 있을 경우, 모든 객체를 정확하게 찾아내지 못하고 일부에만 활성화되는 경향이 있습니다.

2. LIME: 어떤 모델이든 설명하는 만능 해석기

LIME(Local Interpretable Model-agnostic Explanations)은 이름에서 알 수 있듯이 '모델에 구애받지 않고(Model-agnostic)', 특정 예측에 대한 '지역적(Local)'인 해석을 제공하는 방법론입니다. 즉, 복잡한 블랙박스 모델 전체를 이해하려는 대신, 단일 예측 건에 대해서 그 주변의 작은 영역에서만 동작하는 단순하고 해석 가능한 모델(예: 선형 회귀 모델)을 만들어 원래 모델의 결정을 '흉내 내는' 방식입니다.

LIME의 작동 원리 (이미지 분류 예시)

LIME을 이미지 분류 모델에 적용하는 과정은 매우 독창적입니다.

  1. 슈퍼픽셀(Superpixel) 분할: 설명하고자 하는 원본 이미지를 색상, 질감 등이 비슷한 픽셀들의 묶음인 '슈퍼픽셀' 단위로 분할합니다. 이는 개별 픽셀을 다루는 것보다 계산적으로 효율적이고 의미 있는 단위로 해석하기 위함입니다.
  2. 샘플 데이터 생성 (섭동, Perturbation): 원본 이미지의 슈퍼픽셀들을 무작위로 켜고 끄는(원본 영역을 보여주거나 회색 등으로 가리는) 방식으로 수많은 가짜 샘플 이미지를 생성합니다. 이를 '섭동' 과정이라고 합니다.
  3. 블랙박스 모델 예측: 생성된 수많은 가짜 샘플 이미지들을 우리가 설명하려는 원래의 블랙박스 모델에 입력하여 각각의 예측 확률을 얻습니다.
  4. 가중치 부여 및 해석 가능한 모델 학습: 생성된 샘플들 중에서 원본 이미지와 더 유사한(더 적은 슈퍼픽셀을 끈) 샘플에 더 높은 가중치를 부여합니다. 이제 이 가중치가 적용된 샘플 데이터셋(입력: 슈퍼픽셀 on/off 상태, 출력: 블랙박스 모델의 예측 확률)을 가장 잘 설명할 수 있는 단순한 선형 회귀 모델과 같은 '해석 가능한 모델'을 학습시킵니다.
  5. 설명 생성: 학습된 선형 모델에서 가중치가 높은 (즉, 예측에 큰 영향을 미친) 슈퍼픽셀들이 바로 원본 모델이 해당 예측을 내리는 데 중요하게 사용한 영역이라고 해석합니다. 이 슈퍼픽셀들을 원본 이미지에 표시하여 시각적인 설명을 제공합니다.

결론적으로 LIME은 "비록 전체 모델은 복잡해서 이해할 수 없지만, 이 사진을 '개'라고 판단한 이 순간만큼은, 개의 '얼굴'과 '귀' 부분이 있었기 때문이야"라고 말해주는 지역적인 대리인(Surrogate model)을 만드는 것과 같습니다.

LIME의 장점과 한계

장점:

  • 모델 독립성(Model-agnostic): CNN, RNN, 트리 기반 모델 등 어떤 종류의 블랙박스 모델에도 적용할 수 있는 최고의 범용성을 자랑합니다.
  • 직관적인 설명: 특정 예측에 긍정적 또는 부정적 영향을 미친 부분을 시각적으로 명확하게 구분하여 보여줄 수 있습니다.

한계:

  • 설명의 불안정성: 샘플링 과정이 무작위적이기 때문에, 같은 이미지에 대해 실행할 때마다 설명 결과가 조금씩 달라질 수 있습니다.
  • 지역적 해석의 한계: 설명이 매우 '지역적'이므로, 모델의 전반적인 동작 방식을 대표하지 못할 수 있습니다.
  • 매개변수 민감성: 슈퍼픽셀을 나누는 방법, 샘플 개수 등 설정해야 할 매개변수에 따라 설명의 품질이 달라질 수 있습니다.

3. Grad-CAM vs. LIME, 언제 무엇을 써야 할까?

Grad-CAM과 LIME은 모두 비전 모델의 판단 근거를 이해하는 데 매우 유용한 도구이지만, 각각의 특성이 명확하여 상황에 맞게 선택하는 것이 중요합니다.

  • Grad-CAM은 설명하려는 모델이 CNN 기반이고, 모델 내부의 그래디언트 정보에 접근할 수 있을 때 우선적으로 고려할 수 있습니다. 비교적 안정적이고 빠르게 모델이 활성화된 전체적인 영역을 부드러운 히트맵으로 확인하고 싶을 때 적합합니다.
  • LIME은 모델의 종류를 전혀 알 수 없거나, CNN이 아닌 모델(예: Vision Transformer의 일부 변형 또는 트리 기반 앙상블 모델)을 설명해야 할 때 유일한 대안이 될 수 있습니다. 단일 예측에 대해 어떤 부분이 '결정적인' 근거가 되었는지 명확한 경계로 확인하고 싶을 때 효과적입니다.

궁극적으로 인공지능 기술이 더욱 발전하고 우리 삶에 깊숙이 들어올수록, 우리는 그저 높은 정확도에 만족하는 것을 넘어 AI가 내리는 결정의 과정을 이해하고, 공정성을 검증하며, 그 책임을 물을 수 있어야 합니다. Grad-CAM과 LIME과 같은 XAI 기법들은 이러한 '신뢰할 수 있는 AI'로 나아가는 중요한 첫걸음이며, 개발자와 사용자 모두에게 인공지능과의 더 나은 소통 방식을 제시해 줄 것입니다.