[Machine Learning] linear regression(선형 회귀)

[Machine Learning] linear regression(선형 회귀)


linear : 선형(직선)
regression : 회귀


  • 지도학습 중 예측 문제에 사용하는 알고리즘
    • 예측 문제 : 기존 데이터를 기반으로 생성된 모델(여기서는 회귀모델)을 이용하여 새로운 데이터가 들어왔을 때 어떤 '값'이 될지 예측하는 문제
  • 선형 회귀분석은 기본적으로 설명변수와 반응변수가 연속형 변수일 때 사용 가능
    • 연속형 변수의 예 : 키, 몸무게, 온도, 나이 등
    • 범주형 변수의 예 : 학년, 혈액형, 성별 등
  • 만약 설명변수가 범주형 변수인 경우 이를 더미 변수(Dummy Variable)로 변환하여 회귀분석을 적용해야 함
    • 더미 변수 : 범주형 변수를 연속형 변수로 변환한 것, 즉 연속형 변수스럽게 만든것


선형 회귀분석

  • 주어진 데이터를 대표하는 하나의 직선을 찾는 것
  • y=ax+b인 회귀식에서 x가 1개인 것을 보면 알 수 있듯이 단순 선형 회귀분석에선 input이 되는 설명변수는 1개

회귀선을 찾는 기준중 대표적인 최소제곱법

  • 선형 회귀분석은 최소제곱법(최소자승법)을 기준으로 회귀선을 찾음
  • 최소제곱법을 설명하기 위해서는 잔차라는 개념을 알아야 함
    • 잔차 : 관측값의 y와 예측값의 y간의 차이
  • 최소제곱법은 잔차의 제곱의 합이 최소가 되도록 하는 직선을 회귀선으로 한다는 것
  • 회귀식을 바꿔가면서 잔차의 제곱의 합이 최소가 되게 하는 직선을 찾는 것이 선형 회귀분석이고 그 직선을 회귀선이라고 부르고 그 선의 함수를 회귀식이라고 부름

선형 회귀분석을 한다는 것은?

  • 분석가가 데이터, x변수, y변수를 지정하고 통계 툴이 최소제곱버을 이용해 회귀식 y=ax+b에서 a와 b를 구하는 과정
  • 회귀식에서 a를 회귀계수, b를 y절편이라고 부름

다중 선형 회귀분석

  • 단순 선형 회귀분석이 설명변수 x가 1개, 반응변수 y가 1개인 선형 회귀분석이라면
    다중 선형 회귀분석은 설명변수 x가 2개이상, 반응변수 y가 1개인 선형 회귀분석
예) 


회귀분석의 가설을 검정하기 위해 쓰이는 방법중 하나가 분산분석이 있음


출처 :http://kkokkilkon.tistory.com/37
출처 :http://kkokkilkon.tistory.com/77

댓글

이 블로그의 인기 게시물

[Python] # -*- coding: utf-8 -*-를 쓰는 이유

[소프트웨어공학] NS(Nassi-Schneiderman) 차트

[컴퓨터네트워크] Telnet이란?