AI

데이터가 부족할 때: 반도체/PCB 검사 이미지 생성을 위한 GAN/Diffusion 활용법

만듀s 2025. 7. 12. 10:00

 

현대 제조업의 핵심인 반도체와 인쇄 회로 기판(PCB) 생산 공정은 나노미터 단위의 정밀도를 요구합니다. 미세한 결함 하나가 제품 전체의 성능 저하와 신뢰도 문제로 이어질 수 있기 때문에, 자동화된 광학 검사(AOI) 시스템과 딥러닝 기반의 불량 검출 기술 도입이 활발하게 이루어지고 있습니다. 하지만 딥러닝 모델이 높은 정확도를 달성하기 위해서는 방대한 양의 '학습 데이터'가 필수적입니다. 특히, 다양한 유형의 불량 이미지를 충분히 확보하는 것은 현실적으로 매우 어려운 과제입니다. 수율이 높은 공정일수록 불량 데이터는 극히 드물게 발생하기 때문입니다. 바로 이 '데이터 부족(Data Scarcity)' 문제가 딥러닝 모델의 성능을 저해하는 가장 큰 걸림돌이 됩니다.

이러한 난제를 해결하기 위한 강력한 대안으로 생성형 AI(Generative AI) 기술, 특히 GAN(Generative Adversarial Network, 생성적 적대 신경망)과 Diffusion Model(확산 모델)이 주목받고 있습니다. 이 기술들은 실제와 매우 유사한 합성 이미지(Synthetic Image)를 생성하여 부족한 불량 데이터를 증강(Augmentation)함으로써 딥러닝 모델의 학습 효과를 극대화합니다.

1. GAN(생성적 적대 신경망): '위조지폐범'과 '경찰'의 경쟁

GAN은 2014년 이안 굿펠로우(Ian Goodfellow)에 의해 제안된 모델로, 두 개의 신경망이 서로 경쟁하며 학습하는 독특한 구조를 가집니다. 이미지를 생성하는 생성자(Generator)와 생성된 이미지가 실제인지 가짜인지를 판별하는 판별자(Discriminator)로 구성됩니다. 이는 마치 위조지폐를 정교하게 만들려는 '위조지폐범'과 이를 감별하려는 '경찰'의 관계와 같습니다.

반도체/PCB 검사에서는 이 원리를 다음과 같이 적용할 수 있습니다.

  • 생성자(Generator): 정상 제품 이미지나 간단한 노이즈를 입력받아 특정 유형의 불량(예: 단선, 쇼트, 홀 누락)이 포함된 이미지를 생성하도록 학습됩니다.
  • 판별자(Discriminator): 실제 불량 이미지와 생성자가 만들어낸 가짜 불량 이미지를 구별하도록 학습됩니다.

학습 초기에는 생성자가 만든 이미지가 조잡하여 판별자가 쉽게 가짜임을 알아차립니다. 하지만 학습이 반복될수록 생성자는 판별자를 속이기 위해 점점 더 실제와 가까운, 정교한 불량 이미지를 만들어내고, 판별자 또한 더 날카롭게 진짜와 가짜를 구분하게 됩니다. 이 경쟁 과정의 최종 결과물은 판별자조차 구별하기 힘든 수준의 고품질 합성 불량 이미지입니다.

주요 GAN 활용 기법: CycleGAN

특히 CycleGAN과 같은 변형 모델은 '비정형 데이터(Unpaired Data)'를 활용할 수 있어 매우 유용합니다. 즉, 특정 정상 이미지와 정확히 동일한 위치에 불량이 발생한 이미지가 쌍으로 존재하지 않아도, 다수의 정상 이미지 그룹과 다수의 불량 이미지 그룹만 있으면 학습이 가능합니다. CycleGAN은 정상 이미지를 입력받아 해당 이미지의 '가상 불량 버전'을 생성하거나, 반대로 불량 이미지를 입력받아 결함이 제거된 '이상적인 정상 이미지(Golden Template)'를 생성할 수 있습니다. 이렇게 생성된 골든 템플릿과 원본 불량 이미지를 비교하면, 정확한 불량 위치와 형태를 픽셀 단위로 특정하는 데 활용할 수 있습니다.

2. Diffusion Model(확산 모델): 노이즈에서 명작을 빚어내다

최근 이미지 생성 분야에서 가장 뛰어난 성능을 보여주는 Diffusion Model은 GAN과는 다른 접근 방식을 취합니다. 원본 이미지에 점진적으로 노이즈를 추가하여 완전히 무작위 한 노이즈 이미지로 만드는 '확산 과정(Forward Process)'을 먼저 정의하고, 딥러닝 모델이 이 과정을 정확히 거꾸로 수행하여 노이즈로부터 원본 이미지를 복원하도록 학습하는 '역확산 과정(Reverse Process)'이 핵심입니다.

이 과정은 마치 조각가가 돌덩어리(노이즈)에서 불필요한 부분을 점차 깎아내어 정교한 조각상(이미지)을 완성하는 것과 비유할 수 있습니다. Diffusion Model은 데이터의 분포를 매우 정밀하게 학습하기 때문에, 현존하는 생성 모델 중 가장 높은 품질과 다양성을 갖춘 이미지를 생성하는 것으로 평가받습니다.

반도체/PCB 분야에서의 적용

Diffusion Model은 주로 정상 데이터의 분포를 학습하는 데 사용됩니다. 모델이 수많은 정상 웨이퍼 맵 또는 PCB 이미지를 학습하고 나면, '정상'이 무엇인지에 대한 완벽한 이해를 갖추게 됩니다. 이 상태에서 약간의 가이드(예: '중앙에 Scratch 결함 추가')를 주거나, 학습된 분포에서 벗어나는 이상 신호를 감지하는 방식으로 활용됩니다.

  • 이상 탐지(Anomaly Detection): 학습된 모델에 새로운 이미지를 입력했을 때, 모델이 이미지를 제대로 복원하지 못하고 큰 오차(Reconstruction Error)를 보인다면 해당 이미지는 '비정상(불량)'일 가능성이 높다고 판단합니다.
  • 제어 가능한 불량 생성: ControlNet과 같은 기술과 결합하면, 사용자가 원하는 위치나 형태, 종류의 불량을 매우 정교하게 제어하며 생성할 수 있습니다. 이는 특정 불량 유형에 대한 모델의 견고성(Robustness)을 집중적으로 테스트하고 강화하는 데 매우 효과적입니다.

3. GAN vs. Diffusion Model: 무엇을 선택해야 할까?

구분 GAN (생성적 적대 신경망) Diffusion Model (확산 모델)
장점 - 생성 속도가 빠름
- 상대적으로 적은 컴퓨팅 자원으로 학습 가능
- 다양한 변형 모델 존재 (CycleGAN 등)
- 생성 이미지의 품질과 다양성이 매우 높음
- 학습 과정이 안정적 (Mode Collapse 문제 적음)
- 제어 가능한 이미지 생성에 유리
단점 - 학습이 불안정할 수 있음 (Mode Collapse)
- 생성물의 다양성이 부족할 수 있음
- 생성 속도가 느림 (반복적 노이즈 제거 과정)
- 학습에 많은 컴퓨팅 자원과 시간 필요

선택은 당면 과제와 보유한 자원에 따라 달라집니다. 빠른 속도로 대량의 데이터를 생성하는 것이 중요하다면 GAN이 유리할 수 있습니다. 반면, 최고의 이미지 품질과 다양성이 요구되고, 학습 시간과 비용을 감당할 수 있다면 Diffusion Model이 더 나은 선택이 될 것입니다. 최근에는 두 모델의 장점을 결합하려는 연구도 활발히 진행되고 있습니다.

데이터의 한계를 넘어, 완벽한 품질을 향해

반도체 및 PCB 제조 공정에서 GAN과 Diffusion Model과 같은 생성형 AI 기술의 활용은 더 이상 선택이 아닌 필수가 되어가고 있습니다. 현실적으로 수집하기 불가능에 가까웠던 희귀 불량 데이터를 무한에 가깝게 생성함으로써, 딥러닝 기반 검사 시스템의 정확도와 신뢰성을 전례 없는 수준으로 끌어올릴 수 있습니다. 이는 곧 수율 향상, 제조 비용 절감, 그리고 최종적으로는 제품 경쟁력 강화로 이어질 것입니다. 데이터가 부족하다는 현실에 좌절하기보다, 데이터를 '창조'해내는 생성형 AI의 가능성에 주목해야 할 때입니다.