728x90
반응형

MACHINE LEARNING 17

ML(머신러닝) : SVM (Support Vector Machine) 개념 정리 (sklearn.svm 의 SVC 인공지능 생성)

# Support Vector Machine (SVM)은 지도 학습 알고리즘 중 하나로, 데이터를 분류하기 위한 최적의 결정 경계(decision boundary)를 찾는 것을 목표로 한다.아래의 3개 의 선 모두, 분류하는 선이 모두 맞다. 그러면 어떤것이 더 정확할까?분류선에 가장 가까운 데이터들을, 가장 큰 마진(margin)으로 설정하는 선으로 결정하자.분류선을 Maximum Margin Classifer 라고 한다.SVM은 다른 머신러닝 알고리즘과 비교해서 무엇이 특별한가?사과인지 오렌지인지 분석하는 문제일반적인 사과와 오렌지들은, 클래서파이어에서 멀리 분포한다.정상적이지 않은 것들, 즉 구분하기 힘든 부분에 있는 것들은 클래서파이어 근처에 있게 되며,이 데이터들이 레이블링 되어 있으므로, Ma..

ML(머신러닝) : KNN 개념 정리 및 sklearn 라이브러리의 KNeighborsClassifier 만들기

# K-Nearest Neighbors (K-NN)는 지도 학습 알고리즘 중 하나로, 학습 데이터셋 내에서 새로운 데이터 포인트와 가장 가까운 k개의 이웃을 찾아 해당 이웃들의 라벨 또는 값을 기반으로 예측을 수행 # Logistic Regression과 같은 분류형 내 주위에 몇개의 이웃을 확인해 볼것인가를 결정한다. => K 새로운 데이터가 발생 시, Euclidean distance 에 의해서, 가장 가까운 K 개의 이웃을 택한다. K 개의 이웃의 카테고리를 확인한다. 카테고리의 숫자가 많은 쪽으로, 새로운 데이터의 카테고리를 정해버린다. import pandas as pd # Logistic Regr..

ML(머신러닝) 실습 : Logistic Regression 분류 모델 (up sampling, SMOTE 활용법)

문제) pima-indians-diabetes.csv 파일을 읽어서, 당뇨병을 분류하는 모델을 만드시오. 컬럼 정보 : Preg=no. of pregnancy Plas=Plasma Pres=blood pressure skin=skin thickness test=insulin test mass=body mass pedi=diabetes pedigree function age=age class=target(diabetes of not, 1:diabetic, 0:not diabetic) import numpy as np import matplotlib.pyplot as plt import pandas as pd # 데이터 불러오기 df = pd.read_csv('../data/pima-..

ML(머신러닝) : Logistic Regression 개념 정리 (sklearn 으로 classifier 생성 및 Confusion Matrix = cm 만들기)

- Logistic Regression은 기계 학습과 통계에서 사용되는 통계적 분류 방법 - 주로 두 개 이상의 클래스 중 하나에 속하는 경우를 예측하는 데 사용된다. - 주로 이진 분류(binary classification) 문제에 적용되며, 예를 들어 스팸 메일 여부 판별, 질병 진단 등 다양한 분야에서 활용된다. - 이 방법은 선형 회귀(Linear Regression)와 비슷해 보이지만, 출력 값이 0과 1 사이의 확률값으로 제한되며, S자 형태의 로지스틱 함수를 사용하고, 이를 통해 예측값을 확률로 해석할 수 있다. - 간단히 말하면, Logistic Regression은 주어진 입력 변수를 기반으로 특정 클래스에 속할 확률을 예측하는 모델 ..

ML(머신러닝) : Multiple Linear Regression 개념 정리 (regressor / ct 만들기 joblib 으로 pkl 파일로 저장하고 불러오기)

다중 선형 회귀(Multiple Linear Regression)는 두 개 이상의 독립 변수가 종속 변수에 미치는 영향을 분석하는 회귀 분석 방법이다. 단순 선형 회귀(Linear Regression)와 달리, 다중 선형 회귀는 종속 변수와 관련된 여러 개의 독립 변수를 사용하여 예측 모델을 구축한다. 아래처럼, 여러개의 features 를 기반으로, 수익을 예측하려 한다. 위와 같이, 여러개의 변수들을 통해, 수익과의 관계를 분석하고, 이를 통해, 새로운 데이터가 들어왔을 때, 수익이 어떻게 될 지를 예측하고자 한다. 아래는 하나의 변수일때와, 여러개의 변수가 있을때의 leaner regression 을 나타낸다. 2차원에서는 선 이지만, ..

ML(머신러닝) : Linear Regression 개념 정리 및 예제 regressor 만들기

경력과 연봉의 관계(스케터를 이용)를 분석하여, 경력이 주어졌을때 연봉을 예측하려 한다. 데이터를 살펴보니, 아래와 같은 그래프로 나왔다고 가정했을 때, 아래 그림처럼, 해당 분포를 만족하는 직선을 찾으려(데이터의 피팅되는 방적식을 찾는것) 하는것이 목표이다.직선을 찾기 위해서는 우리가 잘 아는 직선의 방정식을 이용하여, 직선의 기울기와 y절편을 구하면 되는것이다.여기에서 주의! x, y 가 우리에게 데이터셋으로 주어졌다. 따라서 우리는 b 를 찾아야 하는것이다.즉, b0, b1 의 값을 찾아 가는 과정을 학습이라고 부른다!그렇다면 학습이란??? 바로 error(오차)를 줄여 나가는 것이다. 아래는 오차를 나타낸다.그렇다면 오차(error)란? [오차 = 실제값 - 예측값 =>..

ML(머신러닝) 실습 문제 : Linear regression 예측 모델 실습 (sklearn.linear, LinearRegression model)

auto-mpg.csv 데이터를 통해, mpg (mile per gallern, 자동차 연비) 를 예측하는 모델을 만드세요. # 필요한 import를 한번에 정리 # numpy와 pnadas 데이터 시각화에 필요 import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sb # 데이터 인코딩에 필요 from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.compose import ColumnTransformer # 스케일링에 필요 from sklearn.preprocessing import StandardScaler, MinM..

728x90
반응형