목록ML/Algorithm (4)
JJ Dev Diary

알고리즘 1.선형 회귀 분석(linear regression) 회귀 분석은 기본적인 머신러닝 방법이며 여러분야에서 사용된다. 회귀 분석은 여로 종류로 나뉘는데 가장 기초적인 방법이 선형 회귀 분석이다. 선형 회귀 분석은 피처 데이터와 타깃 데이터 간의 선형 관계를 파악하는 알고리즘이다. 설명을 위해 오직 1개의 피처만 존재하는 데이터 셋을 가정하고 해당 피처를 x라고 가정한다. 또한 예측하려는 타깃 데이터를 y라고 하면 피처 데이터 x와 타킷 데이터 y사이에 선형 관계까 존재할 때 이를 수식화 하면 다음과 같다. 위와 같은 선형 관계는 직선의 방정식을 생각하면 이해하기 쉽고 데이터 x가 주어질때 데이터 x에 가중치 w를 곱하고 y절편 b를 더하면 타깃 데이터값을 예측 할 수 있다. 이때 가중치 w는 직선..

알고리즘 1.로지스틱 회귀(logistic resgression) 일반적인 선형 회귀 분석은 예측 문제를 풀기에는 적합하지만 분류문제를 풀기에는 적합하지 않다. 선형 회귀 분석의 타깃 데이터의 값의 범위에는 제한이 없고 어떤 값이든 가질수 있다. 하지만 0과1로 분류해야하는 상황에서 결과값은 0과1로 제한되고 결과값이 2가 나왔을경우 처리하기 어려운 부분이 있다. 이러한 문제점을 해결하기 위해 사용하는 방법이 로지스틱 회귀 분석 이다. 다음은 실행 예제이다. import pandas as pd import numpy as np import numpy as np import matplotlib.pyplot as plt from scipy.special import expit fish = pd.read_cs..

지도 학습 개요 및 알고리즘 지도 학습이란 라벨링이 된 데이터를 학습시키는 것을 의미하고 이때 라벨링이란 트레이닝 데이터(training data)에 정답이 표시된 것을 의미하며 정답 부분을 타깃 데이터라고 한다. 타깃의 형태에 따라 지도 학습은 세부적으로 두 가지 종류로 나눌 수 있다. 타깃이 범주형인 경우에는 분류(Classification) 문제라고 하고, 연속형 숫자인 경우에는 회귀(Regression)문제라고 한다. 타깃이 범주형이라는 말은 해당 데이터를 클래스(class)별로 구분하는 것을 의미한다. 예를 들어 과일을 분류할 때 사과, 배, 오렌지 등과 같이 분류하는 것을 의미한다. 반면 타킷이 연속형 숫자라는 말은 타깃의특정 종류로 구분하는 것이 아닌 연속형 숫자로 예측하는 것을 의미한다. ..

Supervised, Semi-supervised, Unsupervised, Reinforcement 1.지도 학습(Supervised) 지도 학습 알고리즘은 한 세트의 사례들을(examples) 기반으로 예측을 수행한다. 예를 들어, 과거 매출 이력(historical sales)을 이용해 미래 가격을 추산할 수 있다. 지도 학습에는 기존에 이미 분류된 학습용 데이터(labeled training data)로 구성된 입력 변수와 원하는 출력 변수가 수반되는데, 알고리즘을 이용해 학습용 데이터를 분석함으로써 입력 변수를 출력 변수와 매핑시키는 함수를 찾을 수 있다. 이렇게 추론된 함수는 학습용 데이터로부터 일반화(generalizing)를 통해 알려지지 않은 새로운 사례들을 매핑하고, 눈에 보이지 않는 ..