※본 포스팅은 직접 강의하는 내용이 아닌, 김성훈 교수님의 머신러닝 강의를 정리하기 위한 포스팅입니다.
김성훈 교수님의 강의는 모두를 위한 머신러닝/딥러닝(http://hunkim.github.io/ml)에서 들을 수 있습니다.
Classification
Linear하지 않고, Binary한 값을 예측하기 위한 모델(둘 중에 하나를 고르는 것)이다. 대표적으로 아래와 같은 모델들이 있다.
- 이메일 스팸 구분 : 스팸 메일 or 정상적인 메일(햄 메일)
- 페이스북 피드 : 타임라인에 특정 피드 보여주기 or 숨기기(친구들이 만들어내는 피드는 수없이 많지만, 사용자가 관심 가질만한 피드인지를 구분해 타임라인에 보여줄지 말지를 결정)
- 신용카드 도난 여부 확인 : 정상 사용 or 도난 사용인지(평소 사용 패턴을 분석하여 구분
주로 0과 1의 값으로 구분 값을 나타낸다.
- 이메일 스팸 구분 : 스팸(1) or 햄(0)
- 페이스북 피드 : 피드 보여주기(1) or 숨기기(0)
- 신용카드 도난 여부 확인 : 정상 사용(1) or 도난 사용(0)
실제 적용 분야)
방사선 이미지를 보고 악성 종양인지 괜찮은 종양인지 구분
주식 시장 예측. 주식을 살지 팔지 구분
수업에서 사용할 예시-공부 시간에 따른 Pass(1)/Fail(0) 예측 모델
이런 예측을 Linear Regression을 사용한다면 어떻게 될까?
문제점1. 부정확한 예측
매우 큰 값으로 학습을 진행하면 그래프가 기울어지며 부정확한 예측
문제점2. 0과 1사이의 값이 나오지 않을수도 있다.
예시) H(x) = Wx + b 에서 x = [1,2,5,10,11], W=0.5 , b=0인 data를 학습시킨 후 x=100 인 data가 들어와 값이 50인 모델이 생길 수있다.
따라서 Linear Regression 대신 0과 1사이의 값으로 압축시켜주는 Sigmoid 함수를 도입한다.
이 함수를 그리면 S자 형태의 그래프가 나타난다. logistic function, sigmoid function이라 한다.
Logistic Hypothesis
위와 같이 Logistic Classification의 가설을 정의할 수 있고, 다음 단계는 cost를 구하고 minimize 하는 것이다.
'IT 기록 > 머신러닝' 카테고리의 다른 글
[머신러닝]06-1.Softmax Regression 기본 개념 소개 (0) | 2018.08.02 |
---|---|
[머신러닝]05-2.Logistic Regression의 cost 함수 (0) | 2018.07.30 |
[머신러닝]04-3.TensorFlow로 파일에서 데이터 읽어 오기 (0) | 2018.07.24 |
[머신러닝]04-2.multi-variable linear regression TensorFlow 구현 (0) | 2018.07.23 |
[머신러닝]04-1.여러개의 입력(feature)의 Linear Regression (0) | 2018.07.16 |
댓글