[UDL 스터디 노트] 20장 - Why does deep learning work?

Jzahnny
September 28, 2025

[UDL 스터디 노트] 20장 - Why does deep learning work?

Use Original Cover Image
Type
Post
Children
Language
ko
Tags
Deep Learning
UDL
Overparameterizatiion
Shallow Neural Networks
Deep Neural Networks
Generalization
Authors
Jzahnny
Published
September 28, 2025

개요

해당 포스팅 시리즈는 “Unerstanding Deep Learning” 책을 학습하는 과정을 기록하는 스터디 노트이다.
이번에는 20장, Why does deep learning work?에 대해 다룬다.

이론적으로는 Deep learning이 안 돼야 한다?

이론적으로는 shallow neural network도 주어진 공간 내에서 충분히 자유로운 함수를 만들어낼 수 있다. 또한 train data 수보다 훨씬 적은 parameter로 충분히 좋은 성능을 낼 수도 있다.
 
하지만 그럼에도 depth가 깊을 수록 일반적으로 성능이 좋아진다. Overparameterization은 train도 원활하게 하고 generalization도 훨씬 잘하게 만든다고 한다. 책에서는 여전히 그 이유가 무엇인지 명확히 밝혀져 있지는 않다고 한다.
 
개인적으로 추론하자면 shallow한 nn보다 deep한 nn이 같은 파라미터 수를 가지고 훨씬 더 다양한 출력을 표현할 수 있다는 것이 가장 유력하다고 생각한다. 일종의 차원이 더 크게 증가한 것이 아닐까. 마치 shallow는 2차원 위에서 nn을 그리는 것이라면 dnn은 3차원 위에서 그리는 것이지 않을까? 이 부분에서 또 궁금한 점은 그렇다면 wide한 특성과 deep한 특성을 넘어서 또 다른 차원의 특성이 있을까? 그런 특성이 존재한다면 표현 가능한 정도를 지금보다 훨씬 늘릴 수 있지 않을까?
 

Reference

[1] Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Retrieved from http://udlbook.com