반응형

MACHINE LEARNING 17

데이터 프리프로세싱(Data Preprocessing) : 스케일링의 StandardScaler(), MinMaxScaler() 과 train_test_split() 데이터 분리까지

# 전장에서 사용하였던 데이터프레임을 가지고와 이어서 진행 Age 와 Salary 는 같은 스케일이 아니다. Age 는 27 ~ 50 Salary 는 40k ~ 90k (만단위) # 유클리디언 디스턴스로 오차를 줄여 나가는데, 하나의 변수는 오차가 크고, 하나의 변수는 오차가 작으면, 나중에 오차를 수정할때 편중되게 된다. # 따라서 값의 레인지를 맞춰줘야 정확히 트레이닝 된다. 표준화 : 평균을 기준으로 얼마나 떨어져 있느냐? 같은 기준으로 만드는 방법, 음수도 존재, 데이터의 최대최소값 모를때 사용. 정규화 : 0 ~ 1 사이로 맞추는 것. 데이터의 위치 비교가 가능, 데이터의 최대최소값 알떄..

데이터 프리프로세싱(Data Preprocessing) : NaN 처리부터 LabelEncoder, OneHotEncoder 인코딩 까지

머신러닝 모델을 학습시키기 전에 데이터를 정제하고 준비하는 과정이 과정은 데이터의 품질을 향상시키고, 머신러닝 모델의 성능을 향상시키기 위해 필수적 데이터를 분석하여 어떻게 데이터를 분리할지 인코딩을 할지 확인 후, 1) NaN 처리 2) X, y 데이터 분리 : 학습할 변수와 레이블링 변수로 분리 2) 문자열 데이터 인코딩 : 원-핫 인코딩, 레이블 인코딩 등의 방법을 사용 3) 특성 스케일링 : 표준화(Standardization)나 정규화(Normalization) 등의 방법을 사용 4) 데이터셋을 Training 용과 Test 용으로 나눈다. import library # ..

Machine Learning 개념 정리

편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들을 취향이 비슷한 그룹으로 묶기 가지고 이는 데이터가 내가 원하는 문제의 답을 가지고 있는가? 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가 문제를 풀기에 충분한 데이터를 모았는가? 머신러닝의 성과를 어떻게 측정할 것인가 레퍼런스 : https://www.youtube.com/watch?v=KDrys0OnVho 우리는 Iris꽃의 꽃잎의 길이와 넓이, 꽃받..

728x90
반응형