개요
해당 포스팅 시리즈는 “Unerstanding Deep Learning” 책을 학습하는 과정을 기록하는 스터디 노트이다.
이번에는 20장, Why does deep learning work?에 대해 다룬다.
이론적으로는 Deep learning이 안 돼야 한다?
이론적으로는 shallow neural network도 주어진 공간 내에서 충분히 자유로운 함수를 만들어낼 수 있다. 또한 train data 수보다 훨씬 적은 parameter로 충분히 좋은 성능을 낼 수도 있다.
하지만 그럼에도 depth가 깊을 수록 일반적으로 성능이 좋아진다. Overparameterization은 train도 원활하게 하고 generalization도 훨씬 잘하게 만든다고 한다. 책에서는 여전히 그 이유가 무엇인지 명확히 밝혀져 있지는 않다고 한다.
개인적으로 추론하자면 shallow한 nn보다 deep한 nn이 같은 파라미터 수를 가지고 훨씬 더 다양한 출력을 표현할 수 있다는 것이 가장 유력하다고 생각한다. 일종의 차원이 더 크게 증가한 것이 아닐까. 마치 shallow는 2차원 위에서 nn을 그리는 것이라면 dnn은 3차원 위에서 그리는 것이지 않을까? 이 부분에서 또 궁금한 점은 그렇다면 wide한 특성과 deep한 특성을 넘어서 또 다른 차원의 특성이 있을까? 그런 특성이 존재한다면 표현 가능한 정도를 지금보다 훨씬 늘릴 수 있지 않을까?
Reference
[1] Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Retrieved from http://udlbook.com