IT 기술 정보

대표적인 CNN 모델들을 정리해보자 (LeNet, ResNet 등 CNN의 계보)

공부하는기술사 2025. 10. 28. 04:28
반응형

LeNet (1990/1998)

LeNet은 최초의 합성곱 신경망(CNN) 중 하나이다. 합성곱 신경망 자체는 이전에도 이론적으로 제시된 바가 있으나 실제로 완성된 모델로 구현된 것은 이것이 최초라고 본다. 그래서 그냥 개념적인 제시가 아니라 입력 사이즈, 층의 개수, 층마다의 채널, 층 사이의 풀링 등 세부적인 구조를 제시하였다. 

 

 

즉 그냥 합성곱 신경망, 필터의 이론적 개념 등은 1960~1980년대 동안 꾸준히 발표가 되어 왔으나 이를 모두 조합하여 너무나 잘 동작하는 모델을 만들어낸 것이 LeNet이라는 것이다. 이로써 얀 르쿤이라는 컴퓨터 과학자는 레전드로 발돋움 한다. 마치 스마트폰에 사용되는 여러가지 기술은 분산적으로 존재하였으나 이를 모두 예쁘게 조립하여 아이폰이라는 혁신을 만들어낸 스티브 잡스와 유사한 맥락이다.

 

그리고 이 이후의 CNN은 LeNet 처럼 겹겹이 쌓인 네트워크에 이런저런 변형과 새로운 아이디어들을 덧붙여 더 발전된 형태의 CNN이 발표되었다. 

 

내가 기술사를 공부할 때 LeNet-5의 구성을 달달 외운적이 있다. 난 그때 왜 6개의 5x5의 필터를 사용하는지, 왜 6개의 층으로, 왜 이런 순서로 구성이 되어야 하는지 궁금해했던 기억이 난다. 결론은 그냥 "알 수 없다"였다. LeNet을 개발한 얀 르쿤조차 수많은 실험과 시행착오를 거쳐서 이렇게 구성하니깐 효과가 가장 잘 나오는구나 했던 것이다.

 

마치 하이퍼파라미터 튜닝을 하듯, 경험적인 지식이나 큰 틀에서의 규칙은 작용될 수 있더라도 이런 구성의 수학적 최적성을 증명해내는 것은 거의 불가능에 가깝다. 아래 다른 모델들 또한 마찬가지이다. 어떤 아이디어를 가지고, 그 아이디어를 적용시켜 보고 실험해보고 효과가 있으니 발표를 하는 것이다. 마치 의학 분야에서 임상 실험을 하는 것과 비슷한데, 효과가 있으니 출시를 하는 것이지만 실제로는 분자식이 조금만 바뀌어도 놀랍게 더 좋은 효과를 내는 경우가 있을 수 있다. 다만 찾은 것 중에서 가장 효과가 좋고 안전한 것을 시장에 내어 놓는 것이다.

 

AlexNet (2012)

CNN의 계보에서 LeNet 이후로 참 오랜 시간 뒤에 한번더 이루어지 혁신이자, 그리고 CNN을 대세로 만든 모델이다. GPU를 이용한 병렬 연산이 도입되었고 활성화 함수가 tanh에서 ReLU로 변경되었다. 그리고 Dropout이 적용되어 성능이 대폭 향상되었다.

구조는 합성곱층(Conv) → 풀링층(Pool) → 완전연결층(FC)이라는 점에서 LeNet과 유사하지만 층이 더 깊어졌다. 여기서도 물론 경험적 지식과 다양한 실험 등을 통해 층과 필터의 크기, 필터의 수, 풀링 크기 등이 변경이 되었다. LeNet 때는 하드웨어 성능의 한계로 불가능했던 것들이 가능해진 것이 컸다. 

 

이 모델은 2012년 ImageNet 대회에서 엄청나게 높은 성능을 보여주며 우승을 한 것으로 유명하다. 이전까지는 얀 르쿤이 제안한 CNN 방식이 아이디어 자체는 좋지만 너무 과적합되고, 무겁고 느려서 써먹기 힘들다는 생각이 지배적이었지만 GPU 훈련과 드롭아웃 도입 등으로 이 문제를 해결하자 이제 이미지 인식 및 분류에 관해선 CNN이 다른 방식들을 압도해버린 것이다.

VGG (2014)

VGG는 AlexNet 이후에 불 붙은 CNN 연구에서 아주 중요한 발견을 한 모델로 회자된다. AlexNet이 ImageNet 대회에서 우승을 한 후 많은 연구자들이 AlexNet 부터 LeNet까지 뜯어보며 CNN이 어떻게 동작하고 어떻게 해야 성능이 더 높아질 수 있는지 다양한 연구를 해보았을 것이다. 하지만 아까 말했듯이 규칙을 찾긴 어려웠다. 특히 AlexNet은 너무나도 복잡해서 이런 뒤죽박죽인 구성의 어떤 부분에서 좋은 성능이 발휘되는지 머리를 싸매고 이리저리 실험을 해보았을 것이다.

 

그러던 중 VGG는 매우 작은 3×3 필터를 여러 번 연속으로 쌓는 단순한 구조를 통해 깊이가 성능 향상에 중요한 역할을 한다는 점을 보여주었다. 즉 굳이 복잡하게 할 필요 없이 단순한 형태로 깊게만 쌓아도 성능이 충분히 잘 나온다는 것이었다. 심지어 AlexNet보다 더 단순한데도 더 좋은 성적을 내었다. 물론 미래에 다양한 기법들이 개발되고 적응되어 가며 다시 복잡해지긴 하였으나 이 모델의 단순하고 일관된 설계 덕분에 이후 많은 네트워크의 기반이 되었다.

 

ResNet (2015)

VGG 이후 깊은 모델이 유행이 되었다. 모델의 층은 계속 깊어져만 갔다. 학습시키는데 비용은 많이 들었지만 이제 GPU가 있었다. 그리고 CNN의 성능에 감탄한 빅테크 등에서도 펀딩을 많이하여 자본적 여유도 생겼다. 하지만 이렇게 계속 깊이를 깊게 하다 보니 깊이가 곧 성능이라는 믿음이 현실과는 다르다는 것을 깨닫는다. VGG의 20층 정도까진 괜찮았는데 50층 이상 내려가니 층이 늘어남에 따라서 오히려 성능이 악화되는 것이었다. 기울기 소실/폭발 등 다양한 문제가 나타났다.

 

 

이걸 해결해준 것이 ResNet이다. 잔차 연결(residual link)을 도입하여 학습 의 판도를 바꾸었고, 매우 깊은 높이에서 성능이 안 좋아지는 부작용을 없애버렸다. 즉 엄청나게 깊은 깊이로 층을 쌓아 학습을 할 수 있게 되었다.

 

그 결과 150층이 넘는 엄청나게 무거운 모델들이 등장을 하였고 이제 오차율 5%이하로, 인간의 이미지 인식 및 분류 능력을 넘어서게 된다. 그리고 이를 기점으로 사실상 ImageNet 대회는 사라진다. 기존엔 50%, 60%, 70% 이렇게 성능이 향상되고 있는 걸 보는 맛이 있었고, 인간이 훨씬 잘 하는 것을 컴퓨터가 따라오는 것을 구경하는게 재미있었을 것이다. 하지만 컴퓨터가 인간의 능력을 뛰어 넘으면 이제 비교가 재미가 없어진다. 채스와 바둑에 인공지능이 인간을 한번 뛰어넘은 뒤 부터는 더이상 경기가 성사되지 않는다. (성사 되었더라도 주목받지 못했을 것이다.) 너무 결과가 뻔하기 때문이다. 컴퓨터끼리 대결을 시킬수도 있지만, 이제 충분히 증명된 능력을, 0.1%, 0,01%를 위에 끌어올리는 것 보다는 아직 해결 못한 다른 문제를 찾아 해결하는 것이 더 흥미롭다. 성능의 비법은 알려졌으니 이제 이를 조금만 더 개선하고, 조금만 더 무겁게, 조금만 더 좋은 성능의 하드웨어로 돌리면 약간의 성능 개선은 더 이룰 수 있다. 결국 자금력의 싸움이 되어 버리는 것이다.

 

하지만 이제 그렇게 무겁게 연락 능력을 투자하는 것 보다는 "어떻게 하면 더 낮은 층에서도 충분히 좋은 성능을 발휘하게 될까?" "합성곱 말고 완전 새로운, 계산이 가벼운 다른 방식은 없을까?"를 연구하는 것이 훨씬 더 이득이다. 이젠 성능을 높이는 것보단 효율화를 하는 방향으로 새로운 막이 오른 것이다.

SqueezeNet (2016년)

AlexNet 수준의 정확도를 50배 적은 파라미터로 달성한 초경량 네트워크이다. AlexNet이라면 가장 초기 형태의 CNN으로 VGG나 ResNet 등 이후에 나온 모델들에 비해 성능이 떨어진다. 하지만 그만큼 이후에 나온 모델들에 비해서는 가벼운 모델이다. SqueezeNet은 그런 AlexNet 보다도 훨씬 가벼우면서도 성능은 그럭저럭 나오는 경량화를 중점으로 개발된 모델이다.

 

 

이 모델의 핵심은 3×3 필터를 1×1 필터로 대체했다는 것이다. 그대신 입력 채널 수를 줄였다 늘리는 "fire module" 구조를 활용하여 필요한 파라미터 수를 최소화했다. 그 결과 AlexNet이 6천만 파라미터를 사용한 것에 비해 SqueezeNet은 고작 124만 파라미터만으로도 동등한 성능을 발휘할 수 있었다.

DenseNet (2016)

DenseNet은 경량화보다는 효율적인 정보 흐름과 특징 재사용(feature reuse)에 초점을 맞춘 모델이다. 기존의 CNN들은 각 층이 바로 앞 층의 출력만 입력으로 받았지만, DenseNet은 각 층의 출력을 모든 이후 층과 직접 연결(dense connection)하도록 하였다.

이 구조를 통해 한 층에서 추출된 특징이 뒤로 갈수록 사라지거나 약해지지 않고, 여러 층에서 반복적으로 재활용될 수 있게 되었다. 그 덕분에 정보 손실이 줄고, 기울기 소실(vanishing gradient) 문제도 완화되었다. 또 동일한 성능을 내기 위해 필요한 파라미터 수도 기존 네트워크보다 훨씬 줄일 수 있었다.

 

 

즉 DenseNet은 ResNet의 잔차 연결보다 한 단계 더 나아가, 모든 층이 서로의 출력을 공유함으로써 학습 효율을 극대화한 구조였다. 이런 효율적 피처 재활용 아이디어는 이후 MobileNet이나 EfficientNet 등 다양한 경량 모델들의 설계 철학에도 큰 영향을 주게 된다.

MobileNet (2017년)

MobileNet은 연산 효율화의 관점에서 새롭게 주목을 받은 모델로, 이름에서 알 수 있듯이 모바일 및 임베디드 기기용으로 설계된 경량 CNN 구조이다. 표준 합성곱을 깊이별 합성곱(depthwise separable convolution)으로 대체하여 계산량과 파라미터 수를 획기적으로 줄였다.

 

 

즉 기존의 합성곱은 입력 채널마다 필터가 전부 곱해져 거대한 계산을 필요로 했지만, MobileNet은 입력의 각 채널에 대해 개별적으로 필터링을 수행한 뒤(pointwise convolution) 채널을 다시 합쳐주는 방식을 취했다. 이를 통해 정확도 손실은 최소화하면서도 계산량을 대폭 줄일 수 있었다. ResNet-50과 비교하면 정확도는 5%정도 줄어들었으나 모델 사이즈는 5배 이상 작았다.

이는 GPU나 고성능 서버 환경이 아닌, 모바일 기기 등 엣지 디바이스에서 로컬 학습 및 추론이 가능한 방향으로 개발이 된 것이다. 또 DenseNet의 효율적 피처 재활용 개념이 일부 계승되어, MobileNet V2부터는 inverted residual 구조나 bottleneck 설계를 통해 적은 연산으로도 풍부한 표현을 얻는 방향으로 발전하게 된다.

이후 MobileNet은 여러 버전(MobileNetV2, V3 등)으로 발전하며, 경량화를 넘어 효율적 표현(효율적 피처 재활용, inverted residual 등)을 강조하게 된다. 이러한 흐름은 EfficientNet, ShuffleNet 등으로 이어졌다.

ShuffleNet (2017년)

ShuffleNet은 MobileNet과 마찬가지로 연산 효율을 극대화하기 위한 모델이다. MobileNet이 깊이별 합성곱을 통해 연산량을 줄였다면, ShuffleNet은 여기에 더해 그룹 합성곱(group convolution) 을 사용하여 채널 간 연산을 병렬로 수행하면서도 계산량을 줄였다. 하지만 그룹 합성곱은 각 그룹이 독립적으로 동작하기 때문에 채널 간 정보가 충분히 섞이지 않는다는 문제가 있었다.

이 한계를 해결하기 위해 ShuffleNet은 채널 셔플(channel shuffle) 이라는 아이디어를 도입했다. 말 그대로 그룹 간 채널 순서를 섞어주는 연산을 통해, 그룹 간 정보 교환이 자연스럽게 일어나도록 만든 것이다. 이로써 연산 효율은 그대로 유지하면서도 성능 저하를 막을 수 있었다.

 

 

ShuffleNet은 MobileNet보다 조금 더 복잡한 구조를 가졌지만, 연산량은 비슷한 수준이었고 정확도는 오히려 더 높았다. 즉, MobileNet이 효율성의 방향을 열었다면 ShuffleNet은 그 효율성을 유지하면서도 성능의 손실을 최소화하는 방법을 찾아낸 모델이라고 볼 수 있다. 이 구조는 이후 EfficientNet이나 GhostNet 같은 최신 경량 모델에도 영향을 주었다.

EfficientNet (2019년)

EfficientNet은 그동안의 CNN 연구가 “깊이를 늘리면 성능이 오른다” 또는 “너비를 늘리면 표현력이 높아진다”는 식으로 한 방향의 개선에만 집중해왔다는 문제의식에서 출발했다. EfficientNet은 이 세 가지 — 깊이(depth), 너비(width), 해상도(resolution) — 를 균형 있게 동시에 확장(compound scaling) 하는 방식을 제안했다.

즉, 단순히 층을 더 쌓거나 채널 수를 늘리는 대신, 세 요소를 일정한 비율로 함께 조정하면 주어진 연산량 내에서 가장 효율적인 모델을 만들 수 있다는 것이다. 이를 통해 같은 정확도를 훨씬 적은 연산으로 달성할 수 있었고, 반대로 같은 연산량으로 더 높은 정확도를 얻을 수도 있었다.

 

 

EfficientNet은 또한 Swish(SiLU) 활성함수를 사용하고, 정규화 및 구조 최적화를 통해 기존 CNN보다 훨씬 매끄럽고 안정적인 학습이 가능했다. MobileNet이나 ShuffleNet이 “작은 모델에서도 빠르게 추론할 수 있다”는 효율의 가치를 강조했다면, EfficientNet은 “한정된 계산 자원 안에서 정확도를 최대화하는 방법”을 제시했다고 볼 수 있다.

이 모델은 이후 EfficientNetV2로 발전하면서 학습 속도와 메모리 사용량까지 개선되었고, 이후 등장한 ConvNeXt나 Vision Transformer 계열 모델들의 설계에도 직접적인 영향을 주었다.

ConvNeXt (2022년)

ConvNeXt는 비전 트랜스포머(Vision Transformer, ViT)의 등장 이후, “CNN은 더 이상 경쟁력이 없는가?”라는 질문에서 출발했다. 하지만 연구자들은 트랜스포머가 뛰어난 이유가 완전히 새로운 원리 때문이 아니라, 현대적 설계(큰 커널, 정규화, 활성함수 등) 덕분이라는 점에 주목했다. ConvNeXt는 이런 통찰을 바탕으로 ResNet 구조를 현대적으로 재해석(modernize) 한 모델이다.

 

 

즉, 기존 CNN의 기본 뼈대를 유지하면서도 Swin Transformer에서 사용된 최신 기법들을 적극적으로 받아들였다. 예를 들어, 7×7의 대형 커널을 사용해 넓은 수용영역을 확보했고, Batch Normalization 대신 Layer Normalization을 도입하여 트랜스포머와 비슷한 안정성을 얻었다. 또한 ReLU 대신 GELU 활성함수를 사용하여 비선형성을 매끄럽게 표현하고, 전체 구조를 단순화하면서도 더 깊은 네트워크를 효율적으로 학습할 수 있도록 개선했다.

결과적으로 ConvNeXt는 CNN 구조임에도 불구하고 트랜스포머 수준의 성능을 보여주었으며, “트랜스포머 이후의 CNN은 죽지 않았다”는 것을 증명한 모델로 평가받는다. 이 모델은 전통적인 합성곱의 장점인 지역성(locality)과 최신 트랜스포머의 장점인 표현 유연성을 절묘하게 결합해냈다는 점에서, 이후의 하이브리드 모델 연구에 큰 영향을 미쳤다.

 

ShiftNet (2022년)

ShiftNet은 합성곱 신경망의 핵심 연산인 ‘컨볼루션’을 과감히 제거한 매우 독특한 접근법의 모델이다. 기존의 CNN이 필터를 곱하는 방식으로 공간 정보를 추출했다면, ShiftNet은 각 채널의 픽셀을 단순히 이동(shift)시키는 연산만으로 공간 정보를 반영한다.

이 연산은 학습 가능한 파라미터가 없기 때문에 연산량이 거의 0에 가깝고, 메모리 접근도 극도로 효율적이다. 즉, 복잡한 수학적 합성곱 없이도 공간적 특징을 근사적으로 포착할 수 있다는 아이디어다. 이후 이동된 채널들을 1×1 합성곱으로 다시 결합함으로써, ShiftNet은 합성곱에 버금가는 표현력을 훨씬 적은 계산량으로 달성했다.

 

 

이런 구조는 특히 메모리 대역폭이 제한된 환경, 예를 들어 저전력 모바일 기기나 임베디드 시스템 등에서 매우 유용하다. 기존의 MobileNet이나 ShuffleNet이 연산량을 줄이는 데 초점을 맞췄다면, ShiftNet은 한 단계 더 나아가 “합성곱 자체를 없애도 유사한 성능을 낼 수 있다” 는 가능성을 보여준 모델이라고 할 수 있다.

 

이젠 비전 트랜스포머의 시대. 그 이후엔?

앞서 언급한 EfficientNet, ConvNeXt, 그리고 ShiftNet까지의 흐름은 모두 합성곱 신경망(CNN)의 효율을 끝까지 밀어붙인 시도들이었다. 깊이를 조절하고, 커널을 확장하고, 연산량을 줄이는 다양한 방법들이 등장했다. 그러다 EfficientNet이 구조적 균형을 찾았지만 변화는 멈추지 않았다. ShiftNet은 아예 합성곱 자체를 없애는 실험까지 시도해 어느정도 성공했고, ConvNeXt는 트랜스포머의 설계를 끌어왔다. 

 

이젠 연구자들이 CNN을 많이 다루지 않는다. 비전 트랜스포머 (Vision Transformer, ViT) 가 대세로 자리잡았다. 지역적인 합성곱이 아닌, 입력 간의 전역적 관계를 직접 학습하는 비전 트랜스포머가 더 우월한 성능을 발휘하는 것을 확인하였기 때문이다. ViT는 이미지를 작은 패치로 나누고 이를 토큰처럼 처리하여, 한 이미지 안의 모든 부분 간 상호작용을 한 번에 학습할 수 있게 했다. 이는 합성곱 기반 모델이 한계적으로 처리하던 ‘전체 문맥 이해’를 가능하게 만든 획기적인 전환이었다. 비전 트랜스포머는 단순히 새로운 모델이 아니라, 인공지능이 세상을 바라보는 방식 자체를 바꿔놓았다. 앞서의 CNN들이 ‘부분을 보고 전체를 추론하던 시대’를 만들었다면, 트랜스포머는 ‘전체의 관계를 직접 이해하는 시대’를 연 셈이다. 

 

하지만 이런 패러다임조차 영원하진 않을 것이다. 기술의 발전은 언제나 효율과 한계의 경계에서 새 길을 찾아왔다. 지금의 트랜스포머는 거의 최적의 구조로 받아들여지고 있고, 이를 기반으로 이리저리 변형시키고 개선시켜 나감으로써 모든 문제가 해결될 것 처럼 믿고 있는 사람들도 많지만, 언젠가 또 다른 혁신이 등장해 이 구조를 대체하게 될지도 모른다.

 

내 개인적인 생각으론 지금의 LLM 역시 CNN의 계보를 따를 수도 있다고 본다. 현재의 LLM은 트랜스포머 구조를 기반으로 언어를 이해하고 정말 그럴듯하게 우리와 대화하지만, 본질적으로는 여전히 “말을 하는 기계”에 머물러 있다. 에이전틱 AI라고 해봐야 결국 말하는 기계에 몇 가지 행동 트릭을 얹은 수준일 뿐이다. 하지만 언젠가 진짜 ‘행동하는 인공지능’이 나타날지도 모른다. 스스로 세상을 인식하고, 판단하고, 목표를 세우는 존재 말이다.

 

그때가 오면 우리는 또 한 번의 패러다임 전환을 맞이하게 될 것이다. 합성곱이 그랬듯, 트랜스포머 또한 언젠가 지나간 시대의 유산이 될 수 있다. 그리고 그 과정에서 인공지능은 또 다른 형태로 진화할 것이다. 지금은 그저, 그 새로운 혁신의 조짐을 기다리고 있을 뿐이다.

반응형