[UDL 스터디 노트] 8장 - Measuring performance

Use Original Cover Image

Type

Post

Parent

『 Understanding Deep Learning 』 스터디 노트

Children

Language

개요

해당 포스팅 시리즈는 “Unerstanding Deep Learning” 책을 학습하는 과정을 기록하는 스터디 노트이다. 이번에는 8장, Measuring performance를 다룬다.

Understanding Deep Learning

https://udlbook.github.io/udlbook/

Noise, Bias, Variance

책에서 noise, bias, variance를 자세히 다루기는 하지만 얼핏 봐서는 잘 이해가 되지 않았다. 여러번 읽어보니 어떤 의미인지 명확히 알 수 있었다. 쉽게 설명하자면 noise는 data 자체에서 생기는 여러 가능성이다. 예를 들어 처음 데이터가 만들어질 때부터 실수로 이상한 값이 들어가져 있다거나 또는 해당 정답 값이 그 입력값으로만 결정될 수 없어서 다른 확률의 여지가 생길 수 있다.

Bias는 model의 capacity와 관련이 있다. 실제 정답과 비교해서 model이 표현 가능한 영역이 제한적이어서 나타난다.

Variance는 train data의 특성에 따라 달라진다. train data가 실제 정답과 비교해서 벗어날 수 있는데 이 데이터로 학습한 model과 다른 batch나 다른 seed로 만들어진 train data로 학습한 모델은 차이가 발생한다. 이 부분에서의 variance를 의미한다.

결국 정리하자면 noise는 입력 데이터 그 자체, bias는 model의 capacity, variance는 train data마다의 다른 정도에 의해 영향을 받는다.

Fixed Weights and Biases

Problem 8.3에서 위 두 그림 중 왼쪽 이미지의 간단한 모델에 대한 파라미터를 closed form으로 보여라고 한다. 이때 input과 hidden layer 사이의 weights와 biases가 fix되어 있다는 조건을 추가로 제시했다. 그런데 이 말이 정확히 무엇을 의미하는지 몰랐다. fix된 것과 안 된 것은 정확히 뭐가 다른지 몰랐다. 사실 막상 알고 나면 너무 당연하고 쉬워보이기는 한데, Chapter 3, Shalllow neural networks에서 위 두 그림 중 오른쪽 이미지와 비교할 수가 있다. 차이점은 말 그대로 input과 hidden layer 사이의 parameter가 고정되어 있는 것을 볼 수 있다. 고정되어 있기에 closed form으로 쉽게 나타낼 수 있다.

Reference

[1] Prince, S. J. D. (2023). Understanding Deep Learning. The MIT Press. Retrieved from http://udlbook.com