본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day060]

Upstage AI Lab 2기

2024년 3월 8일 (금) Day_060

온라인 강의

 

nn.ModuleList 사용해서 VGG 구현해보기

 

Simonyan, Karen, and Andrew Zisserman. 

"Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).

 

large-scale image recognition setting

 

input : 224 × 224 RGB image

 

For instance, the best-performing submissions to the ILSVRC2013
(Zeiler & Fergus, 2013; Sermanet et al., 2014) utilised smaller receptive window size and
smaller stride of the first convolutional layer.

 

In this paper, we address another important aspect of ConvNet architecture
design – its depth.

 

 

https://www.robots.ox.ac.uk/~vgg/research/very_deep/

 

The only preprocessing
we do is subtracting the mean RGB value, computed on the training set, from each pixel.

 

In one of the configurations we also utilise 1 × 1 convolution filters, which can be seen as
a linear transformation of the input channels (followed by non-linearity).

 

The convolution stride is
fixed to 1 pixel; the spatial padding of conv. layer input is such that the spatial resolution is preserved
after convolution, i.e. the padding is 1 pixel for 3 × 3 conv. layers.

 

 

2.2 CONFIGURATIONS 부터 다시 읽기

 

 

VGG 에 cifar 10을 넣는 시도를 하는게 맞는지,

그냥 resize 해버리면 되는지