개요
해당 포스팅 시리즈는 “Unerstanding Deep Learning” 책을 학습하는 과정을 기록하는 스터디 노트이다.
이번에는 3장, Shallow neural networks에 대해 다룬다.
1. Linear region
3장에서 나온 “Linear region”이라는 개념을 처음 접할 때 잘못 알고 있었다가 새로히 알게 되었다.
위와 같은 Shallow neural network 모델이 있을 때, 이 모델의 최대 Linear region의 갯수는 4라는 말을 처음에는, “선형적인 방정식이 4개 존재하니 Linear region이 4개 있군” 이라고 잘못 알게 되었었다.

그러나 여러가지 문맥과 그래프를 살펴보니, Linear region은 수식과 직접적인 연관을 가지는 것이 아닌, 기하학적으로 나타나는 것이라는 걸 알게 되었다.
다시 알게 된 Linear region은 모델의 선형성을 가지는 영역으로, Linear region의 갯수란 여러 개의 경계로 나누어진 선형적인 영역들의 총 갯수를 뜻하는 것이었다.

실제로 1차원에서의 Linear region은 몇 개의 점으로 구분되는 직선들이 되겠지만, 2차원에서의 Linear region은 몇 개의 선으로 구분되는 면들로 이루어 진다.
위의 2차원 모델에서는 면으로 나타나는 Linear region이 총 7개가 나타나는 것을 알 수 있다.
2. 행렬 표기
일반화된 Shallow neural network 모델의 식을 보니, 이를 체계적으로 이해하기 쉽지 않겠다고 생각이 들었다.
또한 이가 행렬의 식과 매우 흡사하다는 점을 알 수 있어, 행렬로 한번 정리해보고 싶다는 생각 또한 들게 되었다.
행렬로 위의 Shallow neural network 모델을 정리한 식은 다음과 같다:
3. Activation function들과 ReLU

3장 끝자락에서는 여러가지 Activation function들을 소개해주며 그와 관한 발전의 역사를 알려주었다.
완전 초기에는 ReLU를 Activation function으로 사용되었다가, 나중에 로지스틱 함수나 tanh 함수를 사용하는 경향이 나타나다가, 이후에는 학습의 효율성과 관련되어 다시금 ReLU가 재조명되었던 역사를 알 수 있었다.
ReLU는 미분이 간편하여 학습 과정에서 연산이 매우 효율적이라는 점에서 장점을 가지지만, 음숫값에 대해서는 미분값이 0이라 학습이 진행되지 않는 “dying ReLU”라는 문제점을 가지기도 한다는 것을 알게 되었다.
이를 해결하기 위하여, 미분의 간편성을 그대로 살린 Leaky ReLU, Parametric ReLU 등의 ReLU의 파생 함수들과, 부드러운 함수 계열의 softplus, Swish 등의 함수들이 개발되었다는 것도 알 수 있었다.
개인적으로 지금까지 보아왔던 다른 딥러닝 문서들에서는 Activation function으로 대부분 ReLU를 사용하였지만, 왜 ReLU를 사용하는 지, ReLU 말고 다른 대안은 무엇이 있는 지에 대해 생각해볼 수 있었다.
4. Linear과 Affine
Neural network에서 자주 등장하는 꼴의 형태는 익숙하게도 Linear해 보이지만, 사실 Linear하지 않다.
Linear transform은 를 만족시켜야 하지만, 위의 식은 이를 만족시키지 않는다.
예를 들어 라고 가정한다면 이다.
따라서 이러한 식들은 Linear하지 않고, 다르게 이름을 붙여 Affine이라고 부른다.
Affine은 Linear에 평행 이동을 더한 것처럼 보이며, 그럼에도 Linear과는 구별되는 개념이다.
그러나 본 UDL 책에서는 머신 러닝 분야에서의 관습에 따라 Affine이든 Linear이든 그냥 Linear하다고 부르기로 약속을 한다.
이는 nonlinear한 식들과 linear한 식들의 차별점을 주려는 의도로 받아드릴 수 있을 것이다.
Reference
[1] Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Retrieved from http://udlbook.com