PatchCore 이물 검사 심층 분석

만듀s 2025. 7. 7. 22:00

서론

자동화된 시각 검사(AVI)의 산업적 필요성

현대의 대규모 제조 공정에서 제품의 품질을 일관되게 유지하는 것은 기업의 경쟁력과 직결되는 핵심 과제입니다. 전통적으로 인간 작업자의 육안에 의존해 온 품질 검사는 피로 누적, 주관적 판단, 일관성 부족 등의 문제로 인해 오류 발생 가능성이 높으며, 이는 생산 효율성 저하와 잠재적 손실로 이어집니다. 이러한 한계를 극복하기 위해, 딥러닝 기술에 기반한 자동화된 시각 검사(Automated Visual Inspection, AVI) 시스템이 산업 현장의 필수 요소로 자리 잡고 있습니다. AVI 시스템은 미세한 결함을 신속하고 정확하게 탐지하여 시스템 신뢰성을 보장하고 생산 효율을 극대화하는 데 결정적인 역할을 합니다.

산업용 이상 탐지(IAD)의 "콜드 스타트(Cold-Start)" 문제

산업용 이상 탐지(Industrial Anomaly Detection, IAD) 분야에서 가장 큰 난제 중 하나는 이른바 "콜드 스타트" 문제입니다. 이는 정상(non-defective) 제품의 이미지 데이터만을 사용하여 결함 탐지 모델을 학습시켜야 하는 상황을 의미합니다. 실제 생산 환경에서는 결함 제품의 발생 빈도가 매우 낮고, 그 종류와 형태가 매우 다양하며 예측 불가능하기 때문에 충분한 양의 결함 데이터를 확보하는 것이 거의 불가능합니다. 이러한 현실적 제약은 결함 데이터 없이 정상 데이터의 분포만을 학습하여 이로부터 벗어나는 패턴을 이상으로 간주하는 비지도 학습(unsupervised learning) 또는 단일 클래스 학습(one-class learning) 접근법의 필요성을 야기했습니다.

랜드마크 솔루션으로서의 PatchCore

2021년, Roth 연구팀은 메모리 뱅크(memory bank) 기반의 새로운 이상 탐지 방법론인 PatchCore를 제안하며 이 분야에 큰 반향을 일으켰습니다. PatchCore는 앞서 언급된 콜드 스타트 문제를 효과적으로 해결하면서, 당시 산업 표준 벤치마크 데이터셋인 MVTec AD에서 기존 최고 성능 모델(SOTA, State-of-the-Art)의 오류율을 절반 이상 줄이는 압도적인 성능을 기록하며 새로운 기준을 제시했습니다. 이를 통해 PatchCore는 단순한 성능 향상을 넘어, 산업 현장에서 실질적으로 적용 가능한 고성능 이상 탐지 모델의 가능성을 입증한 랜드마크로 평가받고 있습니다.

보고서의 목표 및 구조

본 보고서는 PatchCore 프레임워크에 대한 포괄적이고 심층적인 기술 분석을 제공하는 것을 목표로 합니다. 먼저 PatchCore를 구성하는 핵심 원리와 아키텍처를 상세히 분해하여 그 작동 방식을 명확히 설명합니다. 이어서, 다른 주요 이상 탐지 패러다임과의 비교 분석을 통해 PatchCore의 차별점과 장점을 부각시킬 것입니다. 다음으로, PatchCore의 한계를 보완하기 위해 파생된 주요 변형 모델들을 살펴보고, 마지막으로 PatchCore를 넘어 현재 산업용 이상 탐지 분야의 SOTA를 형성하고 있는 최신 모델들의 동향까지 분석하여 해당 분야의 기술적 흐름을 종합적으로 조망하고자 합니다.

PatchCore의 핵심 원리 및 아키텍처 분석

PatchCore 알고리즘의 탁월한 성능은 세 가지 핵심 구성 요소의 유기적인 결합에서 비롯됩니다. 이 섹션에서는 사전 훈련된 특징 추출, 메모리 뱅크 구성, 그리고 효율성을 극대화하는 Coreset 샘플링에 이르는 각 단계를 심층적으로 분석하여 PatchCore가 어떻게 정상 상태를 학습하고 이상을 탐지하는지 상세히 설명합니다.

사전 훈련된 CNN을 활용한 패치 특징 추출

사전 훈련된 백본(Backbone) 활용

PatchCore의 가장 큰 특징 중 하나는 모델 전체를 처음부터 학습시킬 필요가 없다는 점입니다. 대신, ImageNet과 같은 대규모 데이터셋으로 사전 훈련된 컨볼루션 신경망(CNN)이 학습한 강력하고 일반화된 특징 표현 능력을 그대로 활용합니다. 이는 "전이 학습(transfer learning)"의 개념을 차용한 것으로, 별도의 학습 과정 없이도 이미지의 복잡한 패턴을 이해하는 능력을 확보하게 해줍니다. 주로 WideResNet-50이나 ResNet 계열의 아키텍처가 백본으로 사용됩니다.

중간 레벨 특징(Mid-Level Feature) 선택의 "골디락스 원칙"

PatchCore의 성능을 결정짓는 매우 중요한 설계 철학은 바로 네트워크의 중간 레벨 특징을 선택하여 사용한다는 점입니다. 예를 들어 ResNet 구조에서 layer2와 layer3의 출력을 사용하는 것이 일반적입니다. 이러한 선택의 근거는 다음과 같습니다.

네트워크의 초기 레이어에서 추출된 특징(예: 엣지, 색상)은 너무 일반적(generic)이어서 복잡한 결함을 구분하기 어렵습니다.
반대로, 최종 레이어의 특징은 원본 데이터셋(예: ImageNet)의 특정 클래스(예: '고양이', '개')를 분류하는 데 과도하게 특화되어 있으며, 이 과정에서 미세한 공간 정보를 대부분 잃어버리게 됩니다.

따라서 PatchCore는 이 양극단의 중간 지점, 즉 충분한 의미 정보(semantic information)와 공간적 세부 정보(spatial detail)가 균형을 이루는 "골디락스" 지점의 특징을 활용합니다. 이 전략적 선택은 미세한 흠집부터 구조적인 변형에 이르는 다양한 유형의 결함을 효과적으로 탐지하는 데 결정적인 역할을 합니다. 이는 ImageNet 사전 학습의 이점을 극대화하면서도, 소스 도메인(ImageNet)으로부터의 부정적 간섭(negative interference)을 최소화하는 실용적인 접근법이라 할 수 있습니다.

이웃 인식 집계(Neighborhood-Aware Aggregation)

실제 산업 현장에서 이미지는 미세한 위치 틀어짐이나 조명 변화에 영향을 받을 수 있습니다. 이러한 변화에 대한 강건함(robustness)을 높이고, 각 패치 특징이 주변의 지역적 맥락(local spatial context)을 포함하도록 하기 위해 PatchCore는 특정 패치 위치의 특징 벡터뿐만 아니라 그 주변 이웃의 특징 벡터들을 함께 집계하는 방식을 사용합니다. 예를 들어, 3x3 커널을 사용한 적응형 평균 풀링(adaptive average pooling)을 통해 주변 특징들을 하나의 대표 벡터로 통합합니다. 이 과정은 특징 맵의 해상도를 희생하지 않으면서도 각 패치 특징의 수용 영역(receptive field)을 넓혀, 작은 공간적 편차에 덜 민감한, 보다 안정적인 특징 표현을 가능하게 합니다.

메모리 뱅크: 정상 상태의 집약적 표현

메모리 뱅크(M) 구성

PatchCore의 심장부에는 '메모리 뱅크'가 있습니다. 이는 학습 데이터셋에 포함된 모든 정상 이미지로부터 추출된 패치 특징 벡터들을 모아놓은 거대한 데이터베이스입니다. 구체적으로, 학습용으로 제공된 모든 정상 이미지에 대해 앞서 설명한 이웃 인식 집계 방식의 패치 특징 추출을 수행하고, 이렇게 얻어진 수많은 특징 벡터들을 하나의 집합(M)으로 통합하여 메모리 뱅크를 구축합니다. 이 메모리 뱅크는 정상 데이터가 가질 수 있는 모든 패턴의 총체적인 라이브러리 역할을 하며, '정상 상태(normality)'에 대한 비모수적(non-parametric) 모델 그 자체가 됩니다.

Coreset 샘플링: 효율성과 성능의 균형

확장성 문제

메모리 뱅크 방식의 명백한 단점은 확장성입니다. 학습에 사용되는 정상 이미지의 수가 증가할수록 메모리 뱅크의 크기는 기하급수적으로 커집니다. 이는 막대한 저장 공간을 요구할 뿐만 아니라, 추론(inference) 시 모든 뱅크의 특징들과 거리를 계산하는 최근접 이웃(nearest-neighbor) 탐색 과정의 연산 비용을 폭증시켜 실시간 적용을 불가능하게 만듭니다.

Coreset 솔루션

이러한 확장성 문제를 해결하기 위해 PatchCore는 **탐욕적 Coreset 부분 샘플링(greedy coreset subsampling)**이라는 매우 지능적인 기법을 도입합니다. 이는 단순히 무작위로 특징을 추출하는 것과는 근본적으로 다릅니다. Coreset 샘플링은 원래의 거대한 메모리 뱅크()가 표현하는 특징 공간의 분포를 최대한 잘 근사하는, 작지만 대표성을 가진 부분 집합()을 선택하는 것을 목표로 합니다. 이를 위해 미니맥스 시설 위치(minimax facility location)와 같은 원칙에 기반한 반복적이고 탐욕적인 알고리즘을 사용하여, 원본 뱅크의 어떤 특징 벡터라도 Coreset에 있는 가장 가까운 특징 벡터와의 거리가 최소화되도록 하는 부분 집합을 구축합니다.

실용적 효과

이 기법은 메모리 사용량과 추론 시간을 극적으로 감소시키는 효과를 가져옵니다. 원 논문에서는 전체 특징의 단 1%만을 Coreset으로 샘플링하더라도 SOTA 성능을 유지하면서도 충분히 경쟁력 있는 추론 속도를 달성할 수 있음을 실험적으로 증명했습니다. Coreset 샘플링은 단순한 최적화 기법을 넘어, PatchCore를 자원이 제한된 실제 산업 현장에 적용 가능하게 만든 핵심 열쇠였습니다. 이러한 실용적 필요성은 '어떻게 더 효율적으로 메모리 뱅크를 압축할 것인가'라는 새로운 연구 방향을 촉발시켰고, 이는 PCA-KMeans PatchCore와 같은 후속 연구로 이어지는 계기가 되었습니다.

이상 탐지 및 위치 특정

추론 과정

테스트 이미지가 입력되면, 학습 때와 동일한 사전 훈련된 백본을 사용하여 패치 특징들을 추출합니다. 그리고 각 테스트 패치 특징에 대해, Coreset으로 축소된 메모리 뱅크() 내에서 가장 가까운 특징 벡터(최근접 이웃)를 찾고 그 거리를 계산합니다.

이미지 레벨 이상 점수

전체 이미지에 대한 최종 이상 점수는 모든 패치들에서 계산된 최근접 이웃 거리 중 *가장 큰 값(maximum distance)*으로 결정됩니다. 이는 "이미지 내 단 하나의 패치라도 비정상이면, 그 이미지는 비정상이다"라는 직관적인 가정에 기반합니다.

픽셀 레벨 이상 맵

결함의 정확한 위치를 특정하기 위해, 각 패치에 대해 계산된 개별 거리 점수를 이미지 상의 원래 공간적 위치에 다시 매핑합니다. 이렇게 하면 저해상도의 이상 맵이 생성되는데, 이를 양선형 보간법(bilinear interpolation) 등을 통해 원본 이미지 크기로 확대하고 가우시안 필터로 부드럽게 처리하면 최종적으로 픽셀 단위의 정밀한 이상 히트맵(anomaly heatmap)이 완성됩니다.

주요 이상 탐지 모델과의 비교 분석

PatchCore의 혁신성을 이해하기 위해서는 당시 지배적이었던 다른 이상 탐지 패러다임들과의 비교가 필수적입니다. 이 섹션에서는 PatchCore와 동일한 메모리 뱅크 계열 모델 및 재구성 기반 모델들과의 근본적인 접근 방식 차이를 분석하고, 이를 통해 PatchCore가 출시 시점에 왜 우수한 성능을 달성할 수 있었는지를 설명합니다.

메모리 뱅크 기반 모델

SPADE 및 PaDiM과의 비교

PatchCore는 SPADE, PaDiM과 함께 메모리 뱅크 계열로 분류됩니다.

SPADE: SPADE 역시 메모리 뱅크를 사용하지만, 이미지 레벨 탐지와 픽셀 레벨 탐지를 위해 서로 다른 복잡한 접근법을 별도로 사용해야 했습니다. PatchCore는 이 두 가지를 단일 메커니즘으로 우아하게 통합했습니다.
PaDiM: PaDiM은 특징 벡터 자체를 메모리 뱅크에 저장하지 않습니다. 대신, 각 패치의 위치별로 정상 특징들의 분포를 다변량 가우시안 분포(평균과 공분산)로 모델링하고, 테스트 시에는 마할라노비스 거리(Mahalanobis distance)를 계산하여 이상 점수를 산출합니다.

PatchCore의 장점

PatchCore는 PaDiM과 비교하여 다음과 같은 명확한 장점을 가집니다.

더 풍부한 컨텍스트: PaDiM은 각 위치의 특징 분포를 통계치(평균, 공분산)로 요약하면서 원본 특징 벡터가 가진 풍부한 정보를 상당 부분 손실합니다. 반면, PatchCore는 실제 특징 벡터들을 그대로 메모리 뱅크에 보존함으로써, 테스트 패치를 훨씬 더 풍부한 정상 데이터의 컨텍스트와 비교할 수 있습니다.
정렬 불변성(Alignment Invariance): PaDiM은 테스트 패치를 정확히 그 위치에 대해 구축된 통계 모델과 비교하기 때문에 이미지 간의 엄격한 정렬에 매우 민감합니다. 하지만 PatchCore는 테스트 패치를 위치에 구애받지 않고 전체 메모리 뱅크와 비교하여 가장 잘 맞는 특징을 찾을 수 있으므로, 이러한 정렬 문제에 훨씬 강건합니다.
유연한 입력 크기: PaDiM과 달리, PatchCore는 학습과 테스트 이미지의 해상도가 동일해야 한다는 제약이 없습니다.

재구성 기반 모델

오토인코더(AE) 및 생성적 적대 신경망(GAN)과의 비교

이는 이상 탐지 분야의 근본적인 패러다임 차이를 보여줍니다. AE나 GAN과 같은 재구성 기반 모델들은 정상 이미지를 입력받아 최대한 원본과 동일하게 *복원(reconstruct)*하도록 학습됩니다. 그리고 테스트 시에는 입력 이미지와 복원된 이미지 간의 차이, 즉 '재구성 오류(reconstruction error)'를 이상 점수로 사용합니다.

재구성 모델의 핵심 실패 모드

이러한 재구성 모델들의 고질적인 문제점은 일반화 성능이 "지나치게 좋을" 수 있다는 것입니다. 만약 결함의 형태가 단순하다면(예: 깨끗한 스크래치, 있어야 할 구멍이 없는 경우), 모델이 이 결함 패턴까지 학습하여 완벽하게 복원해버릴 수 있습니다. 이 경우 재구성 오류가 매우 낮게 나타나 결함을 탐지하지 못하는 '위음성(false negative)' 문제가 발생합니다. 이는 잘 알려진 재구성 모델의 약점입니다.

PatchCore의 장점

PatchCore의 거리 기반 접근법은 이러한 실패 모드에 훨씬 강건합니다. 비정상적인 패치가 아무리 단순한 형태를 가졌더라도, 그 특징 표현은 정상 패치들로만 구성된 메모리 뱅크 내에 존재할 가능성이 매우 낮습니다. 따라서 최근접 이웃과의 거리가 크게 계산되어 성공적으로 이상으로 탐지될 수 있습니다. 이러한 차이는 "표현(Representation) 대 재구성(Reconstruction)"이라는 이상 탐지 분야의 근본적인 철학적 분기를 드러냅니다. 재구성 모델이 "내가 아는 정상 지식으로 이 이미지를 만들 수 있는가?"라고 묻는다면, PatchCore와 같은 표현 기반 모델은 "내가 본 적 있는 정상 패턴 중에 이 패치와 비슷한 것이 있는가?"라고 묻는 것과 같습니다. MVTec AD와 같이 단순한 구조적 결함이 많은 벤치마크에서 PatchCore 계열이 재구성 기반 모델들을 압도했던 이유가 바로 여기에 있습니다.

정성적 및 정량적 비교

주요 이상 탐지 패러다임 아키텍처 비교

아래 표는 주요 비지도 이상 탐지 접근법들의 핵심적인 차이점을 요약하여 보여줍니다. 이를 통해 각 패러다임의 철학과 장단점을 한눈에 파악할 수 있습니다.

속성PatchCorePaDiM오토인코더 (AE)생성적 적대 신경망 (GAN)

핵심 패러다임	메모리 뱅크 (거리 기반)	통계적 모델링 (거리 기반)	재구성 기반	재구성/판별 기반
정상 데이터 모델	정상 이미지에서 추출한 실제 패치 특징들의 Coreset	각 패치 위치에 대한 다변량 가우시안 분포	정상 데이터를 복원할 수 있는 압축된 잠재 공간	정상 데이터의 다양체를 학습하는 생성기
이상 점수	특징 공간에서의 최대 최근접 이웃 거리	패치 위치별 분포로부터의 마할라노비스 거리	픽셀 단위 재구성 오류 (입력 vs. 출력)	재구성 오류 또는 판별자 점수
핵심 강점	"높은 정확도, 정렬에 강건함, 풍부한 컨텍스트 유지"	추론 시 대용량 메모리 뱅크 불필요	개념적으로 단순함	고품질 재구성 이미지 생성 가능
주요 한계	"Coreset 이전의 거대한 메모리 뱅크, kNN 탐색에 의존적인 추론 속도"	"이미지 정렬에 민감, 특징 정보 손실"	"단순한 이상을 완벽하게 재구성하여 탐지 실패 가능"	"학습 불안정성, AE와 유사한 실패 모드"

PaDiM에서 PatchCore로의 발전 과정은 정보 충실도(information fidelity)와 모델 복잡도 사이의 필연적인 트레이드오프를 보여줍니다. PaDiM은 각 패치 위치의 정상 분포를 통계 모델로 '단순화'하여 계산 효율성을 얻었지만 정보 손실을 감수해야 했습니다. 반면 PatchCore는 실제 특징 벡터를 저장하여 '충실도'를 높이는 대신, 메모리/속도라는 새로운 확장성 문제에 직면했고, 이를 Coreset 샘플링이라는 또 다른 혁신으로 해결했습니다. 이처럼 '문제 정의 -> 해결책 제시 -> 새로운 문제 발생 -> 다시 해결'의 순환은 머신러닝 엔지니어링 분야의 발전을 이끄는 전형적인 패턴을 보여줍니다.

PatchCore 관련 주요 연구 및 발전 동향

PatchCore의 등장은 수많은 후속 연구를 촉발시키는 계기가 되었습니다. 이 섹션에서는 PatchCore의 기반이 된 원 논문을 시작으로, 그 한계를 극복하고 기능을 확장하기 위해 제안된 주요 변형 모델들을 추적하여 기술의 발전 계보를 분석합니다.

원 논문: "Towards Total Recall in Industrial Anomaly Detection" (Roth et al., CVPR 2022)

핵심 기여: 이 논문은 정상(nominal) 패치 특징들의 최대 대표성을 가지는 메모리 뱅크를 사용하는 PatchCore 알고리즘을 최초로 제안했습니다.
주요 성과: MVTec AD 벤치마크에서 이미지 레벨 이상 탐지 AUROC(Area Under the Receiver Operating Characteristic curve) 점수 **99.6%**라는 경이로운 기록을 달성하며, 이전 SOTA였던 PaDiM의 오류율을 절반 이하로 줄였습니다. 또한, 적은 수의 정상 샘플만으로도 높은 성능을 내는 높은 샘플 효율성(high sample efficiency)과 경쟁력 있는 추론 시간을 보여주어 실제 산업 현장에서의 적용 가능성을 크게 높였습니다. Amazon Science는 이 연구의 공식 구현 코드를 공개하여 후속 연구를 장려했습니다.

주요 변형 모델 분석

PatchCore의 성공 이후, 연구 커뮤니티는 그 한계점을 파고들기 시작했고, 이는 다양한 변형 모델의 탄생으로 이어졌습니다. 각 변형 모델은 원본 PatchCore의 특정 약점을 명확히 겨냥하고 있으며, 이는 마치 하나의 '가계도'처럼 기술의 발전 과정을 보여줍니다.

FR-PatchCore (Feature-Level Registration PatchCore):
- 해결하고자 한 문제: 원본 PatchCore는 객체의 회전이나 위치 변화에 민감합니다. 실제 산업 현장에서는 동일 클래스의 제품이라도 완벽하게 정렬되어 촬영되지 않는 경우가 많습니다.
- 방법론: 특징들을 비교하기 전에 공간 변환 네트워크(Spatial Transformer Network, STN)를 포함한 '등록 모듈(registration module)'을 도입하여 특징 레벨에서 정렬을 수행합니다. 이를 통해 모델이 공간적 변환에 더욱 강건해지도록 만들었습니다. 메모리 뱅크는 음의 코사인 유사도 손실(negative cosine similarity loss)을 사용하여 지속적으로 업데이트됩니다.
- 성능: MVTec AD에서 98.81%의 AUROC를 달성하며 향상된 일반화 성능을 입증했습니다.
SA-PatchCore (Self-Attention PatchCore):
- 해결하고자 한 문제: PatchCore는 개별 패치의 국소적인 이상을 탐지하는 데는 뛰어나지만, "동시 발생(co-occurrence)" 관계나 논리적 이상(logical anomaly)에는 취약합니다. 예를 들어, '나사가 있긴 하지만, 엉뚱한 구멍에 박혀있는' 경우를 탐지하기 어렵습니다.
- 방법론: PatchCore 프레임워크에 셀프 어텐션(self-attention) 모듈을 통합했습니다. 이를 통해 모델이 공간적으로 멀리 떨어진 패치들 간의 관계를 고려할 수 있게 되어, 전역적인 컨텍스트와 동시 발생 정보를 포착할 수 있게 됩니다. 계산 복잡도를 관리하기 위해 셀프 어텐션은 보다 전역적인 정보를 담고 있는 상위 레이어(Layer 3)의 특징 맵에 적용됩니다.
- 성능: 동시 발생 이상을 포함하도록 특별히 설계된 커스텀 데이터셋(CAD-SD)에서 원본 PatchCore보다 높은 성능을 보였으며, MVTec AD에서는 유사한 성능을 유지했습니다.
AnomalousPatchCore (APC):
- 해결하고자 한 문제: '정상 데이터만으로 학습한다'는 단일 클래스 가정은 때로 너무 엄격한 제약입니다. 많은 산업 현장에서는 소수의 불량 샘플을 확보할 수 있는 경우가 많습니다. APC는 이 "자주 이용 가능한 이상(frequently available anomalous)" 데이터를 활용하는 것을 목표로 합니다.
- 방법론: 단일 클래스 패러다임에서 벗어납니다. PatchCore의 사전 훈련된 특징 추출기를 가져와, 사용 가능한 정상 샘플과 이상 샘플을 모두 사용하여 미세 조정(fine-tuning)합니다. 이 미세 조정은 분류, 분할, 재구성 등 세 가지 보조 작업(auxiliary tasks)을 통해 이루어집니다. 특징 추출기 이후의 메모리 뱅크 구성 및 추론 과정은 원본 PatchCore와 동일하게 유지됩니다.
- 성능: MVTec AD 데이터셋에서 원본 PatchCore를 능가하는 탐지 성능을 보였으며, 특히 'Pill' 카테고리에서는 AUROC가 11.27%p나 상승했습니다. 다만, 더 추상적인 특징을 학습하게 되므로 때로는 위치 특정(localization) 성능이 다소 저하되는 트레이드오프가 발생하기도 합니다.
효율성 중심 변형 모델 (PCA-KMeans & Sequential PatchCore):
- 해결하고자 한 문제: PatchCore의 메모리 및 계산 비용 문제, 특히 고해상도 이미지를 처리하거나 엣지 디바이스에 배포할 때 발생하는 병목 현상입니다.
- 방법론:
  - PCA-KMeans PatchCore: 메모리 뱅크를 2단계로 압축합니다. 먼저 주성분 분석(PCA)을 사용하여 특징 벡터의 차원을 축소하고, 그 다음 K-평균 군집화(K-Means clustering)를 적용하여 유사한 특징 벡터들을 그룹화한 뒤, 각 클러스터의 중심점(centroid)만을 최종 메모리 뱅크에 저장합니다.
  - Sequential PatchCore: 매우 큰 고해상도 이미지로 학습할 때 발생하는 메모리 병목 현상을 해결하기 위해, Coreset을 순차적으로 구축하여 일반 소비자용 하드웨어에서도 학습이 가능하도록 만듭니다.
- 성능: 이 모델들은 메모리 사용량을 획기적으로 줄이거나 더 큰 이미지에 대한 학습을 가능하게 하며, 정확도 측면에서 수용 가능한 수준의 트레이드오프를 통해 PatchCore를 실시간, 저자원 환경에 더 적합하게 만듭니다.

이러한 변형 모델들의 등장은 학문적 탐구의 목표와 산업적 실용성의 목표가 어떻게 분기하는지를 보여줍니다. FR-PatchCore나 SA-PatchCore와 같은 모델들은 더 복잡한 문제를 해결하여 벤치마크 점수를 높이는 학문적 목표를 추구하는 반면, 효율성 중심 변형 모델들은 '충분히 좋은' 성능을 유지하면서 빠르고, 저렴하며, 메모리 효율적인, 즉 산업 현장에서 실제로 배포 가능한 모델을 만드는 것을 목표로 합니다. 이는 본 보고서의 대상 독자인 엔지니어와 연구원들에게 매우 중요한 시사점을 제공합니다.

최신 기술 동향 및 SOTA(State-of-the-Art) 모델

PatchCore 계열을 넘어, 현재 산업용 이상 탐지 분야는 새로운 패러다임과 파운데이션 모델의 등장으로 빠르게 진화하고 있습니다. 이 섹션에서는 현재 SOTA를 정의하는 최신 기술 동향과 모델들을 살펴봅니다.

벤치마크의 진화

MVTec AD의 포화: 기존의 MVTec AD 데이터셋에서는 많은 SOTA 모델들이 99%를 상회하는 거의 완벽에 가까운 AUROC 점수를 기록하면서 성능 포화 상태에 이르렀습니다. 이로 인해 모델 간의 의미 있는 성능 비교가 어려워졌습니다.
새로운 챌린지의 등장: 연구의 발전을 촉진하기 위해 더 어렵고 현실적인 시나리오를 담은 새로운 벤치마크들이 등장했습니다.
- VisA: 12개의 객체 카테고리, PCB와 같은 복잡한 구조, 단일 이미지 내 다중 객체 인스턴스 등 MVTec AD보다 더 크고 복잡한 데이터셋입니다.
- MVTec 3D-AD: 2D 이미지에서는 보이지 않는 기하학적 결함을 탐지하기 위해 RGB 이미지와 함께 3D 데이터(포인트 클라우드)를 포함합니다.
- MVTec LOCO AD: 단순한 흠집이나 얼룩 같은 구조적 결함뿐만 아니라, 객체의 개수가 틀리거나 조립 순서가 잘못되는 등의 논리적 이상을 탐지하도록 특별히 설계되었습니다.
- MVTec AD 2: 가장 최신 버전으로, 다양한 조명 조건 변화와 같은 실제 환경의 분포 변화(distribution shift)에 대한 모델의 강건성을 테스트하고, 투명 객체나 극도로 작은 결함과 같은 훨씬 더 도전적인 시나리오를 포함합니다.

새로운 SOTA 패러다임

새로운 벤치마크의 등장은 새로운 접근법의 개발을 이끌었습니다. 현재 SOTA는 크게 세 가지 패러다임으로 요약될 수 있습니다.

이상 합성 (Anomaly Synthesis) - 데이터 중심 AI:
- 대표 모델: GLASS (Global and Local Anomaly co-Synthesis Strategy)
- 패러다임: 정상 데이터에만 의존하는 대신, 이미지 레벨과 특징 레벨 모두에서 매우 현실적인 이상(anomaly)을 다양하게 합성합니다. 그리고 판별자(discriminator)가 이 합성된 이상과 정상을 구분하도록 학습시켜, 특히 미세한 결함에 대해 훨씬 더 정교하고 강건한 결정 경계(decision boundary)를 형성합니다.
- 성능: MVTec AD에서 이미지 레벨 AUROC **99.9%**라는 놀라운 성능을 달성하며 현재 최고 수준의 정확도를 자랑합니다.
지식 증류 및 효율성 (Knowledge Distillation & Efficiency) - 속도 중심 AI:
- 대표 모델: EfficientAD
- 패러다임: 실시간 적용을 위한 극단적인 효율성에 초점을 맞춥니다. 크고 강력한 사전 훈련된 '교사(teacher)' 네트워크의 특징 출력을, 작고 빠른 '학생(student)' 네트워크가 모방하도록 학습시킵니다. 이상은 학생 네트워크가 교사 네트워크의 출력을 제대로 예측하지 못하는 불일치를 통해 탐지됩니다. 또한, 논리적 이상을 탐지하기 위해 경량의 오토인코더를 효율적으로 통합합니다.
- 성능: SOTA 수준의 탐지 성능(AUROC 99.8%)을 밀리초 단위의 지연 시간(초당 약 600개 이미지 처리)으로 달성하여, 실제 생산 라인에 경제적으로 배포할 수 있는 가장 현실적인 솔루션 중 하나로 평가됩니다.
대조 학습 및 일반화 (Contrastive Learning & Generalization):
- 대표 모델: UniNet
- 패러다임: 산업, 의료 등 다양한 도메인에 걸쳐 우수한 성능을 내는 범용 통합 프레임워크를 목표로 합니다. 교사-학생 구조에 새로운 도메인 관련 특징 선택 메커니즘과 유사도-대조 손실(similarity-contrastive loss)을 도입하여, 동종(정상) 특징들을 특징 공간에서 서로 더 가깝게 모으고 이상 특징들과는 멀어지게 하여 판별력을 극대화합니다.
- 성능: MVTec AD에서 이미지 레벨 AUROC **99.90%**를 기록하며 뛰어난 일반화 성능을 입증했습니다.

파운데이션 모델의 부상: Zero/Few-Shot 프론티어

이는 특정 작업별로 모델을 학습시키는 기존 패러다임에서 벗어나, 방대한 데이터로 사전 훈련된 거대 모델을 활용하여 도메인 내 학습 데이터가 거의 또는 전혀 없이도 이상 탐지를 수행하는 중대한 변화를 의미합니다.

CLIP 기반 접근법 (비전-언어 모델):
- 핵심 아이디어: 이미지와 텍스트를 연결하는 CLIP의 능력을 활용합니다. 이상 탐지를 "정상 병의 사진"과 "손상된 병의 사진" 같은 텍스트 프롬프트와 이미지를 비교하는 문제로 재구성합니다.
- WinCLIP: CLIP에서 패치 레벨 특징을 얻기 위해 윈도우 기반 접근법을 제안합니다. 다양한 프롬프트를 조합하는 앙상블 기법을 사용하며, 소수의 정상 이미지를 참조하여 few-shot 성능을 높이는 WinCLIP+로 확장될 수 있습니다.
- AnomalyCLIP: 특정 객체에 구애받지 않는, 즉 *객체 불가지론적(object-agnostic)*인 "정상성"과 "비정상성"에 대한 프롬프트를 학습하여, 광범위한 프롬프트 엔지니어링 없이도 다양한 종류의 객체에 대해 더 잘 일반화하는 것을 목표로 합니다.
비전-온리 파운데이션 모델:
- 대표 모델: AnomalyDINO
- 핵심 아이디어: 고품질의 시각적 특징만으로도 충분히 SOTA에 필적할 수 있다고 주장합니다. DINOv2가 학습한 강력한 자기지도학습(self-supervised) 기반의 패치 레벨 특징을 활용합니다. 방법론 자체는 PatchCore(메모리 뱅크 내 패치 기반 유사도 비교)와 유사하지만, 훨씬 더 강력하고 별도의 학습이 필요 없는 특징 추출기를 사용한다는 점에서 차이가 있습니다.
- 성능: 방법론의 단순함에도 불구하고 one-shot 및 few-shot 이상 탐지에서 새로운 SOTA를 달성했으며, MVTec-AD에서의 one-shot AUROC 성능을 **96.6%**까지 끌어올렸습니다.

성능 벤치마킹

현재 SOTA 모델들은 정확도, 속도, 데이터 효율성 이라는 세 가지 축 사이에서 명확한 트레이드오프 관계를 보입니다. 어떤 단일 모델도 현재 이 세 가지를 모두 완벽하게 만족시키지는 못하며, 이는 사용자가 자신의 애플리케이션 요구사항에 따라 전략적인 선택을 해야 함을 의미합니다.

표 2: MVTec AD에서의 SOTA 모델 성능 비교 (이미지 레벨 탐지)

아래 표는 현재 경쟁 환경에 대한 정량적인 스냅샷을 제공하여, 사용자가 PatchCore와 최신 주요 모델들의 성능을 직접 비교할 수 있도록 합니다.

모델이미지 레벨 AUROC (%)핵심 패러다임속도/효율성주요 강점

PaDiM	97.9	통계적 모델링	빠름	낮은 메모리
PatchCore	99.6	메모리 뱅크	보통	"높은 정확도, 강력한 베이스라인"
EfficientAD	99.8	지식 증류	매우 빠름 (600+ FPS)	실시간 추론
DDAD	99.8	확산 모델	느림	높은 정확도
UniNet	99.90	대조 학습	보통	교차 도메인 일반화
GLASS	99.9	이상 합성	느림 (학습 시)	"최고 수준 정확도, 미세 결함 탐지"
AnomalyDINO (1-shot)	96.6	파운데이션 모델 (비전)	빠름 (학습 불필요)	Few-Shot 성능
WinCLIP (0-shot)	91.8	파운데이션 모델 (비전-언어)	빠름 (학습 불필요)	Zero-Shot 성능

이러한 기술 동향은 산업용 이상 탐지 분야가 두 갈래로 나뉘고 있음을 시사합니다. 한쪽은 충분한 정상 데이터가 있다는 가정 하에 특정 작업에 고도로 전문화된 모델(PatchCore, EfficientAD, GLASS 등)을 학습시키는 "데이터 풍부(data-rich)" 패러다임입니다. 다른 한쪽은 데이터가 희소하다는 가정 하에 거대한 외부 지식을 활용하여 최소한의 데이터로 문제를 해결하는 파운데이션 모델 기반의 "데이터 부족(data-poor)" 패러다임입니다. 미래의 산업 현장에서는 초기 프로토타이핑 및 신규 라인 적용에는 파운데이션 모델을 사용하고, 데이터가 충분히 축적되면 더 높은 성능의 전문화된 모델로 전환하는 실용적인 접근법이 보편화될 것으로 예상됩니다.

결론 및 제언

연구 결과 종합

PatchCore는 중간 레벨 특징 활용과 Coreset 샘플링이라는 핵심 혁신을 통해 메모리 뱅크 기반 접근법의 우수성을 입증한 혁명적인 방법론이었습니다. 이는 높은 정확도의 기준을 세웠으며 오늘날까지도 강력하고 잘 알려진 베이스라인으로 남아있습니다. 그러나 이후 산업용 이상 탐지 분야는 이상 합성, 지식 증류, 그리고 파운데이션 모델의 변혁적인 힘에 힘입어 SOTA의 기준을 계속해서 경신해왔습니다. 연구의 초점은 단순히 정상성을 모델링하는 것에서 벗어나, 합성된 이상을 적극적으로 활용하거나, 실시간 속도를 최우선으로 하거나, 방대한 외부 지식을 활용하여 최소한의 데이터로 작동하는 방향으로 다각화되었습니다.

모델 선택을 위한 전문가 제언

최적의 모델 선택은 '가장 좋은' 모델을 찾는 것이 아니라, '주어진 과업에 가장 적합한' 모델을 찾는 문제입니다. 본 보고서의 분석에 기반하여 다음과 같은 선택 가이드라인을 제언합니다.

최고 수준의 정확도와 미세 결함 탐지가 최우선일 경우: GLASS 또는 UniNet이 현재 최고의 선택지입니다. 결함 하나를 놓치는 비용이 매우 크고, 학습 시간이나 복잡성이 부차적인 문제일 때 이 모델들을 고려해야 합니다.
실시간, 대용량 처리 환경에 배포해야 할 경우: EfficientAD가 명백한 해답입니다. 밀리초 단위의 추론 속도는 속도가 핵심 제약 조건인 생산 라인에 최적화되어 있습니다.
데이터가 거의 없는 신규 제품 라인(Few-Shot)의 경우: AnomalyDINO는 성능과 배포 용이성 사이에서 탁월한 균형을 제공합니다. 별도의 학습이 필요 없는 특성과 SOTA 수준의 few-shot 성능은 새로운 환경에 신속하게 적응해야 할 때 이상적입니다.
도메인 내 학습 데이터가 전혀 없는 프로토타이핑(Zero-Shot) 단계의 경우: WinCLIP과 같은 CLIP 기반 방법론들은 단 한 장의 학습 이미지 없이도 이상 탐지 능력을 제공하여 놀라운 출발점을 제시합니다.
잘 알려져 있고 신뢰할 수 있는 베이스라인이 필요한 경우: 원본 PatchCore와 그 변형 모델들(예: 회전 변화에 강건한 FR-PatchCore)은 충분한 정상 데이터가 확보된 일반적인 이상 탐지 시나리오에서 여전히 매우 우수하고 신뢰성 높은 선택지입니다.

향후 전망

산업용 이상 탐지 분야는 파운데이션 모델의 통합이 더욱 가속화되면서, 보다 범용적이고, 다중 클래스를 지원하며, 맥락을 이해하는 시스템으로 발전할 것입니다. 향후 기술의 핵심 과제는 파운데이션 모델이 가진 zero-shot의 유연성과 EfficientAD와 같은 모델이 가진 전문화된 고속 성능을 어떻게 융합할 것인가에 있습니다. 또한, MVTec AD 2 데이터셋의 등장이 보여주듯, 조명 변화와 같은 실제 환경의 분포 변화에 대한 강건함이 점점 더 중요한 평가 지표가 될 것입니다. 미래의 SOTA 모델은 단순히 정확할 뿐만 아니라, 변화하는 환경에 적응할 수 있고 효율적인 모델이 될 것입니다.