[Machine Learning] linear regression(선형 회귀)
[Machine Learning] linear regression(선형 회귀)
linear : 선형(직선)
regression : 회귀
- 지도학습 중 예측 문제에 사용하는 알고리즘
- 예측 문제 : 기존 데이터를 기반으로 생성된 모델(여기서는 회귀모델)을 이용하여 새로운 데이터가 들어왔을 때 어떤 '값'이 될지 예측하는 문제
- 선형 회귀분석은 기본적으로 설명변수와 반응변수가 연속형 변수일 때 사용 가능
- 연속형 변수의 예 : 키, 몸무게, 온도, 나이 등
- 범주형 변수의 예 : 학년, 혈액형, 성별 등
- 만약 설명변수가 범주형 변수인 경우 이를 더미 변수(Dummy Variable)로 변환하여 회귀분석을 적용해야 함
- 더미 변수 : 범주형 변수를 연속형 변수로 변환한 것, 즉 연속형 변수스럽게 만든것
선형 회귀분석
- 주어진 데이터를 대표하는 하나의 직선을 찾는 것
- y=ax+b인 회귀식에서 x가 1개인 것을 보면 알 수 있듯이 단순 선형 회귀분석에선 input이 되는 설명변수는 1개
회귀선을 찾는 기준중 대표적인 최소제곱법
- 선형 회귀분석은 최소제곱법(최소자승법)을 기준으로 회귀선을 찾음
- 최소제곱법을 설명하기 위해서는 잔차라는 개념을 알아야 함
- 잔차 : 관측값의 y와 예측값의 y간의 차이
- 최소제곱법은 잔차의 제곱의 합이 최소가 되도록 하는 직선을 회귀선으로 한다는 것
- 회귀식을 바꿔가면서 잔차의 제곱의 합이 최소가 되게 하는 직선을 찾는 것이 선형 회귀분석이고 그 직선을 회귀선이라고 부르고 그 선의 함수를 회귀식이라고 부름
선형 회귀분석을 한다는 것은?
- 분석가가 데이터, x변수, y변수를 지정하고 통계 툴이 최소제곱버을 이용해 회귀식 y=ax+b에서 a와 b를 구하는 과정
- 회귀식에서 a를 회귀계수, b를 y절편이라고 부름
다중 선형 회귀분석
- 단순 선형 회귀분석이 설명변수 x가 1개, 반응변수 y가 1개인 선형 회귀분석이라면
다중 선형 회귀분석은 설명변수 x가 2개이상, 반응변수 y가 1개인 선형 회귀분석
예)
출처 :http://kkokkilkon.tistory.com/37
출처 :http://kkokkilkon.tistory.com/77
댓글
댓글 쓰기