물리 정보 콜모고로프-아놀드 네트워크(PIKANs) 분석
Abstract
인공지능(AI)을 활용한 과학 및 공학 문제 해결, 특히 편미분방정식(PDEs)의 수치 해석 분야에서 물리 정보 신경망(Physics-Informed Neural Networks, PINNs)은 중요한 패러다임을 제시했다. PINNs는 신경망의 손실 함수에 물리 법칙을 명시적으로 포함시켜 데이터 효율성과 물리적 타당성을 높였으나, 그 기반이 되는 다층 퍼셉트론(Multi-Layer Perceptrons, MLPs)의 '스펙트럼 편향(spectral bias)' 문제로 인해 복잡하고 다중 스케일(multi-scale) 특성을 갖는 함수를 근사하는 데 본질적인 한계를 보였다. 본 리뷰에서는 이러한 한계를 극복하기 위한 대안으로 최근 제안된 콜모고로프-아놀드 네트워크(Kolmogorov-Arnold Networks, KANs)와 이를 물리 정보 학습 프레임워크에 통합한 물리 정보 콜모고로프-아놀드 네트워크(PIKANs)를 심층적으로 분석한다. KAN의 수학적 기반인 콜모고로프-아놀드 표현 정리부터 시작하여, PIKANs의 구조적 특징, 손실 함수 구성, 그리고 신경망 탄젠트 커널(NTK) 분석을 통한 이론적 우위성을 고찰한다. 또한, '차원의 저주' 문제를 해결하기 위한 분리형 PIKANs(SPIKANs)와 같은 주요 변형 모델들을 살펴보고, 마지막으로 PIKANs가 직면한 과제와 과학적 발견을 위한 해석 가능한 AI로서의 미래 전망을 논한다.
1. 서론: 물리 정보 머신러닝의 현주소와 MLP의 근본적 한계
2017년 Raissi 등에 의해 제안된 PINNs는 관측 데이터와 지배 물리 법칙(governing physical laws)을 결합하여 PDEs를 해결하는 새로운 길을 열었다. PINN의 손실 함수 $\mathcal{L}_{total}$는 일반적으로 데이터 손실 $\mathcal{L}_{data}$와 물리 법칙 잔차(residual)에 대한 손실 $\mathcal{L}_{physics}$의 가중합으로 구성된다.
$$ \mathcal{L}_{total} = \lambda_{data} \mathcal{L}_{data} + \lambda_{physics} \mathcal{L}_{physics} $$여기서 $\mathcal{L}_{data}$는 경계 및 초기 조건에서의 예측과 실제 값의 불일치를 측정하며, $\mathcal{L}_{physics}$는 자동 미분(automatic differentiation)을 통해 계산된 PDE 잔차가 0이 되도록 강제하는 역할을 한다. 이 접근법은 격자 생성(mesh generation) 없이 복잡한 형상의 문제를 다룰 수 있는 장점을 제공했다.
그러나 PINNs의 성능은 MLP 아키텍처의 내재적 한계에 부딪혔다. 핵심적인 문제는 '스펙트럼 편향'으로, 표준 신경망이 경사 하강법 기반으로 훈련될 때 저주파 성분을 고주파 성분보다 훨씬 빠르게 학습하는 경향을 의미한다. 이는 복잡한 동역학이나 불연속성을 포함하는 PDE 해(solution)의 고주파 디테일을 포착하는 데 실패하고, 훈련 불안정성을 야기하는 주된 원인이 된다. 신경망 탄젠트 커널(NTK) 이론은 여러 손실 항의 수렴 속도 불균형이 어떻게 훈련 실패로 이어지는지 이론적으로 규명하며, MLP를 대체할 새로운 아키텍처의 필요성을 강력하게 시사했다.
2. 패러다임 전환: 콜모고로프-아놀드 네트워크(KAN)
PIKANs의 근간을 이루는 KAN은 MLP와는 근본적으로 다른 철학에 기반한다.
2.1. 수학적 기반: 콜모고로프-아놀드 표현 정리
KAN의 이론적 토대는 다변수 연속 함수 $f(x_1, \dots, x_n)$는 유한한 개수의 일변수 함수 $\phi_{q,p}$와 덧셈의 조합으로 표현될 수 있다는 콜모고로프-아놀드 표현 정리다.
$$ f(x_1, \dots, x_n) = \sum_{q=1}^{2n+1} \Phi_q \left( \sum_{p=1}^{n} \phi_{q,p}(x_p) \right) $$이는 고차원 함수 근사 문제를 다수의 저차원 함수 학습 문제로 분해할 수 있음을 시사하며, KAN 아키텍처 설계의 직접적인 영감이 되었다.
2.2. 아키텍처: 활성화 함수의 위치 이동
MLP와 KAN의 가장 큰 차이는 비선형 활성화 함수의 위치와 특성이다. MLP가 노드(뉴런)에 고정된(fixed) 활성화 함수(예: ReLU, Sigmoid)를 적용하는 반면, KAN은 엣지(가중치)에 학습 가능한(learnable) 활성화 함수를 배치한다. KAN의 각 엣지는 B-스플라인(B-spline)과 같은 기저 함수들의 선형 결합으로 매개변수화된 1D 함수로 표현된다. 노드는 단순히 입력 신호를 합산하는 역할만 수행한다. 이 구조 덕분에 KAN은 합성 구조(compositional structure)를 가진 함수에 대해 MLP보다 월등히 높은 매개변수 효율성과 정확도를 달성하며, 학습된 1D 함수를 직접 시각화하여 모델의 내부 작동을 분석할 수 있는 뛰어난 해석 가능성(interpretability)을 제공한다.
3. PIKANs: KAN과 물리 정보 학습의 통합
PIKAN은 PINN 프레임워크의 MLP 백본을 KAN으로 대체한 모델이다. 목표는 KAN의 우수한 함수 근사 능력과 해석 가능성을 활용하여 기존 PINNs의 한계를 극복하는 것이다. PIKAN의 손실 함수는 PINN과 동일한 형태를 가지지만, 최적화 과정에서 조정되는 대상이 MLP의 선형 가중치가 아닌, KAN 엣지를 구성하는 B-스플라인의 계수(coefficients)라는 점이 근본적인 차이다.
3.1. 개념 증명을 위한 코드 분석
아래 코드는 PIKANs의 손실 함수 구성 원리를 보여주는 개념적 예제다. 실제 KAN 아키텍처 대신 MLP(torch.nn.Sequential
)를 플레이스홀더로 사용했지만, 자동 미분을 통해 PDE 잔차를 계산하고 이를 데이터 손실과 결합하는 핵심 메커니즘을 명확히 보여준다.
import torch
# 참고: 아래 모델은 MLP이며, 실제 KAN 아키텍처가 아닙니다.
# 이 코드는 PIKANs의 '손실 함수' 구성 방식을 설명하기 위한 개념적 예시입니다.
# 실제 KAN 구현은 'pykan'과 같은 전문 라이브러리를 참조해야 합니다.
placeholder_model = torch.nn.Sequential(
torch.nn.Linear(1, 64),
torch.nn.Tanh(),
torch.nn.Linear(64, 1)
)
# --- 물리 상수 및 하이퍼파라미터 ---
g = 9.8 # 중력 가속도
lambda_physics = 0.1 # 물리 손실에 대한 가중치
# --- 손실 함수 정의 ---
# 1. 데이터 손실 (Mean Squared Error)
data_criterion = torch.nn.MSELoss()
# 2. 물리 손실 (Physics-Informed Loss)
def physics_loss_pde_residual(t, model):
"""
자유낙하 운동 방정식(d²y/dt² + g = 0)의 잔차(residual)를 계산합니다.
자동 미분(torch.autograd.grad)을 활용하여 신경망 출력의 미분을 계산합니다.
"""
t.requires_grad_(True)
y = model(t)
# 1차 미분: dy/dt (속도)
dy_dt = torch.autograd.grad(y, t, grad_outputs=torch.ones_like(y), create_graph=True)[0]
# 2차 미분: d²y/dt² (가속도)
d2y_dt2 = torch.autograd.grad(dy_dt, t, grad_outputs=torch.ones_like(dy_dt), create_graph=True)[0]
# PDE 잔차: 이 값이 0에 가까워지도록 학습
residual = d2y_dt2 + g
return torch.mean(residual**2)
# --- 가상 훈련 데이터 및 샘플링 ---
t_data = torch.tensor([[0.0], [1.0], [2.0]])
y_true = torch.tensor([[100.0], [90.2], [60.8]]) # 관측 데이터
# 물리 법칙을 강제할 collocation points
t_physics = torch.linspace(0, 2, 20, requires_grad=True).view(-1, 1)
# --- 손실 계산 ---
# 1. 데이터 기반 손실
y_pred = placeholder_model(t_data)
loss_data = data_criterion(y_pred, y_true)
# 2. 물리 기반 손실
loss_physics = physics_loss_pde_residual(t_physics, placeholder_model)
# 3. 최종 손실 함수
# PIKAN(PINN)의 훈련은 이 복합 손실을 최소화하는 B-스플라인 계수(또는 MLP 가중치)를 찾는 과정
total_loss = loss_data + lambda_physics * loss_physics
print(f"Data Loss: {loss_data.item():.4f}")
print(f"Physics Loss: {loss_physics.item():.4f}")
print(f"Total Loss (Weighted): {total_loss.item():.4f}")
4. 성능 및 이론적 분석: PIKANs는 왜 우수한가?
4.1. 정량적 성능 평가
Faroughi & Mostajeran 등의 연구는 확산(Diffusion), 헬름홀츠(Helmholtz) 방정식 등 다양한 벤치마크 PDE 문제에서 PIKANs(정확히는 cPIKANs)가 PINNs를 압도하는 성능을 보임을 실험적으로 입증했다. 예를 들어 강제 진동 방정식 문제에서 영역 분해를 적용했을 때, cPIKAN은 상대 오차 $7.06 \times 10^{-3}$을 달성한 반면, 동일 조건의 PINN은 $7.79 \times 10^{-1}$에 그쳐 두 자릿수 이상의 성능 차이를 보였다.
4.2. NTK를 통한 이론적 규명
이러한 성능 차이는 NTK 분석을 통해 이론적으로 설명된다. NTK는 무한히 넓은 신경망의 훈련 동역학을 설명하는 커널이다. 연구에 따르면, 체비셰프 다항식을 기저 함수로 사용하는 cPIKANs의 NTK는 그 고유값 스펙트럼이 훈련 내내 넓고 안정적으로 유지된다. 이는 cPIKAN이 해의 다양한 주파수 성분(저주파와 고주파)을 동시에 효과적으로 학습할 수 있음을 의미한다. 반면, PINN의 NTK 스펙트럼은 훈련이 진행됨에 따라 빠르게 붕괴(decay)하여 고주파 정보를 소실하는데, 이것이 바로 스펙트럼 편향의 발현이다. 결국 KAN 아키텍처는 스펙트럼 편향 문제에 더 강건한 내재적 속성을 지니고 있다.
5. 확장성 문제와 극복: SPIKANs의 등장
KAN/PIKANs의 주요 약점은 MLP 대비 느린 훈련 속도와 고차원 문제에서의 확장성 한계, 즉 '차원의 저주(curse of dimensionality)'다. PDE의 차원이 증가함에 따라 필요한 배치 지점(collocation points)의 수가 지수적으로 증가하여 계산 비용이 폭발한다.
이 문제를 해결하기 위해 분리형 PIKANs(Separable PIKANs, SPIKANs)가 제안되었다. SPIKANs는 고전적인 PDE 해법인 '변수 분리법(separation of variables)' 원리를 KAN 아키텍처에 적용한다. 다변수 함수 $u(x, y, t)$를 근사하기 위해 하나의 거대한 KAN을 사용하는 대신, 이를 단일 입력 KAN들의 곱이나 합으로 분해하는 것이다. 예: $u(x, t) \approx u_x(x) \cdot u_t(t)$. 이 접근법은 계산 복잡도를 다항식 수준으로 극적으로 낮춰, PIKANs를 고차원 문제에 적용할 수 있는 길을 열었다.
6. 결론 및 미래 전망
PIKANs는 MLP 기반 PINNs의 근본적인 표현력 한계를 극복하고, 과학 계산 분야에서 AI의 역할을 한 단계 끌어올릴 잠재력을 보여주었다. KAN의 뛰어난 함수 근사 능력과 해석 가능성은 물리 법칙에 내재된 복잡한 함수 관계를 더 정확하고 효율적으로 포착한다.
물론 정확도-속도 간의 트레이드오프, 고차원 문제에 대한 확장성 확보(SPIKANs 이후의 과제), 그리고 대규모 네트워크에서의 해석 가능성 유지 등 해결해야 할 과제들이 남아있다. 향후 연구는 스플라인 연산을 위한 하드웨어 가속, 더 정교한 최적화 기법, 그리고 KAN을 활용한 기호 공식 발견(symbolic formula discovery) 자동화 등에 집중될 것으로 전망된다. PIKANs는 AI가 단순히 데이터를 모방하는 것을 넘어, 세상의 근본 원리를 '이해'하고 과학적 발견 과정에 능동적으로 기여하는 새로운 시대의 서막을 열고 있다.