개요
Image Super Resolution(이하 SR)은 저해상도(Low Resolution) 이미지를 고해상도 이미지(High Resolution) 이미지로 변환시키는 문제를 의미한다. 이미지 SR은 크게 하나의 이미지를 이용하는지, 여러 이미지를 이용하는지에 따라 Single Image Super Resolution(이하, SISR), Multi Image Super Resolution(이하, MISR)로 나뉘게 된다.
Super Resolution은 저해상도 이미지를 고해상도로 복원을 해야 하는데, 복원해야 하는 타겟인 고해상도의 이미지가 정답이 여러 개 존재할 수 없다. 정확히 말하면 유일한 정답이 존재하지 않는, 정의할 수 없는 문제를 의미한다. 이러한 경우를 Regular Inverse Problem 혹은 Ill-Posed Problem이라 부른다.
원래는 여러 기법들이 있어왔지만, 딥러닝으로 해결했을 경우 더 뛰어난 성능을 자랑하여 현재 추세는 딥러닝으로 해결하는 분위기다.
Deep Learning based SR
SRCNN
얇은 CNN네트워크를 이용하여 super resolution하는 기법이다. 딥러닝을 처음으로 Super Resolution에 적용한 논문인 “Image Super-Resolution Using Deep Convolutional Networks, 2014 ECCV” 은 SRCNN 이라는 이름으로 불리며, 2014년 ECCV에 공개된 논문이다. 논문이 나온 시기가 시기인지라 요즘처럼 수백개의 layer를 쌓진 않았고 단 3개의 convolutional layer만 사용하였으며 딥러닝을 적용하지 않은 방법들에 비해 높은 성능 수치를 보이며 Super Resolution 분야에도 딥러닝을 적용할 수 있다는 가능성을 보인 논문이다. 흥미로운 점은 architecture를 구성할 때, 각각 convolutional layer가 가지는 의미를 전통적인 Super Resolution 관점에서 해석하고 있으며 각각 layer가 patch extraction, nonlinear mapping, reconstruction을 담당하고 있다고 서술하고 있는 점이다.
VDSR
“Accurate Image Super-Resolution Using Very Deep Convolutional Networks, 2016 CVPR” 논문은 VDSR 이라는 이름으로 불리며 논문의 제목에서 알 수 있듯이 Very Deep한 ConvNet 구조를 사용하여 Super Resolution을 수행하였으며 Deep network를 사용함으로써 기존 방법들 대비 높은 정확도를 달성하게 되었다. 이러한 깊은 네트워크에서 발생할 수 있는 문제인 Gradient Vanshinhg과 Gradient Exploding을 해결하기 위해서, gradient clipping 도 같이 수행을 하고 있다.
SRGAN
“Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network”, 2017 CVPR” 이라는 논문이며 SRGAN 이라는 이름으로 잘 알려진 논문이다. 이 논문에서 위에 소개드린 SRResNet 구조도 제안이 되었으며 기존 Super Resolution 들은 MSE loss를 사용하여 복원을 하다보니 PSNR 수치는 높지만 다소 blurry 한 output을 내고 있음을 지적하며, 사람 눈에 그럴싸하게 보이는 복원을 하기 위해 GAN을 접목시키는 방법을 제안하고 있다. 최대 신호 대 잡음비(Peak Signal-to-noise ratio, PSNR)는 신호가 가질 수 있는 최대 전력에 대한 잡음의 전력을 나타낸 것이다. 주로 영상 또는 동영상 손실 압축에서 화질 손실 정보를 평가할때 사용된다.
참고
https://hoya012.github.io/blog/SIngle-Image-Super-Resolution-Overview/