Theory1. Motivations and Basics

2 minute read

1. Motivations and BasicsPermalink

Machine Learning의 기초적인 이론부분을 다시 제대로 잡고 싶어서 문일철 교수님의 인공지능 및 기계학습 개론을 정리한 Post입니다.

  • 1.1 MLE
  • 1.2 MAP
  • 1.3 Probability and Distribution

1.1 MLEPermalink

Thumbtack Question
압정을 던졌을 경우 앞면의 나올 확률은?

만약 5번을 던졌을 경우 다음과 같이 결과가 나왔다고 가정하자.

  • 앞면: 3번
  • 뒷면: 2번

각각의 앞정을 던질 확률은 iid(독립)이라고 가정하자.
그러면 이러한 확률분포는 Discrete Distribution이며, 경우의 수는 2개인 Binomial Distribution형태일 것 이다.

즉, 앞면이 나올 확률이 P(H)=θ로서 가정하면 뒷면이 나올 확률은 자연적으로 P(T)=1θ가 되는 것 이다.

위와 같은 확률 분포가 만약 Data의 분포형태로 나타내고 싶으면 다음과 같이 나타낼 수 있다.

P(D|θ)=θαH(1θ)αT

αH:Number of Head

αT:Number of Tail

그렇다면 어떻게 식을 세워야 최적의 θ를 구할 수 있을까?

이러한 의문에서 사용하는 방법이 MLE(Maximum Likelihood Estimation) 즉, Likelihood를 최대화 하는 값을 추정 방법이다. 식으로서 표현하면 아래와 같다.

θ^=argmaxθP(D|θ)

위의 식을 설명하면, θ값을 조절하여 P(D|θ)값을 최대화 하는 θ^를 찾겠다는 의미이며, 여기서 P(D|θ)이 Likelihood라고 불리기 때문에 이러한 방법이 MLE(Maximun Likelihood Estimation)이 되는 것 이다.

위에서 우리는 P(D|θ)가 Binomial Distribution으로 설정하였으므로 식을 다음과 같이 변형할 수 있다.

argmaxθP(D|θ)=argmaxθθαH(1θ)αT

위의 식을 좀 더 편하게 치환하기 위하여 Monotonic Function(단조함수)인 Log변환을 적용한다.

argmaxθθαH(1θ)αT=argmaxθln(θαH(1θ)αT)

=argmaxθαHln(θ)+αTln(1θ)

위의 식에서 αH,αT는 시도 횟수이므로 양수이다. 또한, θ 는 확률이므로 0~1사이의 값을 가지므로 Concave한 Function인 것을 확인할 수 있다.

따라서 Concave Function에서 argmax를 구하기 위하여 미분한 값이 0인 Point를 찾는 문제로 변하게 된다.

ddθ(αHln(θ)+αTln(1θ))=0

θ=αHαH+αT

θ^=αHαH+αT

위와 같은 상황은 실제 상황에서 Noise가 존재하지 않는 Clear하고 Nice한 상황이다.
실제 Noise까지(ζ)까지 고려하여 Hoeffding’s inequality로서 표현하면 다음과 같다.

P(|θ^θ|ζ)2e2Nζ2

θ:Random variables that perfectly predict the actual noise

위의 식을 해석하면 다음과 같다.

  • ζ(Error Bound)를 많이 허용할 수록 실제 확률과 가까워 진다.
  • N이 높을 수록 실제 확률과 가까워 진다.(즉, 시도를 많이 할수록 더 정확한 확률을 구할 수 있다.)

1.2 MAPPermalink

MAP(Maximum a Posteriori Estimation)이란 MLE 방법에서 이미 사전에 알고있는 지식을 추가로 적용하고 싶을 때 사용하는 방법이다.

P(θ|D)=P(D|θ)P(θ)P(D)

Posterior=LikelihoodPriorKnowledgeNormalizingConstant

위의 식에서 P(D)는 Constant한 상수라고 생각하면 기존의 MLE에서 사용하였던 Likelihood에 사전정보를 곱한 식이라고 생각할 수 있다.

따라서 최종적인 식은 다음과 같이 나타낼 수 있다.

P(θ|D)P(D|θ)P(θ)

위의 식에서 위의 식에서 MLE에서 Likelihood는 P(D|θ)=θαH(1θ)αT로서 표현하였다.

이제 그러면 P(θ)만 잘 표현하면 Argmax의 값을 구할 수 있을 것 이다.

우리는 이러한 확률분포를 Beta Distribution으로서 표현할 수 있다. 식으로서 표현하면 다음과 같다.

PDF = xα1(1x)β1B(α,β)

B(α,β)=γ(α)γ(β)γ(α+β)

γ(): Gamma Function이다.

위의 Beta Distribution의 특징은 CDF가 0~1의 값을 가진다는 것 이다.

Cumulative distribution function for the Beta distribution
사진 출처:WIKI

따라서 Beta Distribution은 확률을 표현하는 Distribution이 될 수 있고 적용하여 계산하면 최종적인 식은 다음과 같이 될 수 있다.

P(θ|D)θαH+α1(1θ)αT+β1

MLE와 마찬가지로 θ^를 구하고자 하면 다음과 같다.

θ^=argmaxθP(θ|D)=αH+α1αH+α+αT+β2

위의 수식 전개는 위의 MLE와 같으므로 생략한다.
최종적으로 MLE와 MAP를 비교하게 되면 사전 정보를 사용하고 싶으면 MAP로서 변환이 가능하다는 것 이다.

1.3 Probability and DistributionPermalink

많이 사용되는 Probability와 Distribution에 대하여 설명하는 부분이다.
짧은 강의시간안에 깊은 내용까지 다루시기에는 시간이 많이 부족하여 보였다.
따라서 개인적으로 공부한 Statistics에서 기본적인 통계지식을 읽힌 뒤 다음 강의를 진행하는 것을 추천한다.

Leave a comment