수달이네 기술 블로그

딥러닝. Alexnet 본문

AI공부/딥러닝

딥러닝. Alexnet

슬픈 수달이 2026. 1. 15. 23:37

Alexnet: https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

지금 사용하진 않지만, 이후 모델들에 사용하는 이론들이 있다.

Alexnet은 2012년도 ILSVRC에서 우승한 딥러닝 모델, 딥러닝의 대중화를 이끈 합성곱 신경망(CNN)이다.

  • 8개의 레이어(5개의 Conv layer, 3개의 fully-connected layer)
  • ReLU 활성화함수
  • dropout
  • 데이터증강(data augmentation)
  • 과적합을 방지하고, 학습성능을 향상
  • gpu병렬연산으로 1000개의 클래스 분류문제 top-1, top-5 error rates가 각각 37.5%, 17.5%로 뛰어난 성능

  • 형태는 그대로, 숫자만 바꿔서 구현

ImageNet LSVRC

ImageNet이라는 대규모 데이터 이미지 셋으로 이미지를 분류하는 대회

  • 1400만장의 이미지, 1000개의 클래스
  • 목적: 컴퓨터 비전, 딥러닝 기술의 발전을 촉진 이미지 인식 분야에서 혁신적인 기술을 발견하는 것이 목표
  • 데이터셋이 헷갈리는게 많아서 사람도 헷갈리기도 한다.

Top-1 Error Rate

  • 모델이 예측한 가장 높은 확률의 클래스(Top-1)가 정답이 아닐 확률(error)
    • 이미지에 고양이가 있고 모델이 가장 높은 확률로 강아지라 예측했다면 이건top-1에러)
    • top-1 37.5면 62.5%정도가 정답

Top-5 Error Rate

  • 모델이 예측한 상위 5개 클래스중 하나도 정답에 포함되지 않을 확률(error)
    • 이미지가 고양이 인데, 강아지, 토끼, 호랑이, 여우, 늑대로 상위 5개를 예측하면 이건 top-5에러
    • top-5 17.5면 82.5%정도가 정답
  • 실용적 성능 파악이 좋다.

CIFAR 데이터셋

torchvision 라이브러리에서 제공되는 이미지 데이터셋

  • CIFAR-10, CIFAR-100 두가지 종류( - n : 클래스 개수, 10: 클래스당 6000개, 100: 클래스당 600개)
  • 32x32크기의 컬러 이미지
    • 알렉스넷은 227x227인데 이것에 맞춰 넣으면 성능이 떨어진다.(그냥 작게 사용)