728x90
반응형

data preprocessing 2

데이터 프리프로세싱(Data Preprocessing) : 스케일링의 StandardScaler(), MinMaxScaler() 과 train_test_split() 데이터 분리까지

# 전장에서 사용하였던 데이터프레임을 가지고와 이어서 진행 Age 와 Salary 는 같은 스케일이 아니다. Age 는 27 ~ 50 Salary 는 40k ~ 90k (만단위) # 유클리디언 디스턴스로 오차를 줄여 나가는데, 하나의 변수는 오차가 크고, 하나의 변수는 오차가 작으면, 나중에 오차를 수정할때 편중되게 된다. # 따라서 값의 레인지를 맞춰줘야 정확히 트레이닝 된다. 표준화 : 평균을 기준으로 얼마나 떨어져 있느냐? 같은 기준으로 만드는 방법, 음수도 존재, 데이터의 최대최소값 모를때 사용. 정규화 : 0 ~ 1 사이로 맞추는 것. 데이터의 위치 비교가 가능, 데이터의 최대최소값 알떄..

데이터 프리프로세싱(Data Preprocessing) : NaN 처리부터 LabelEncoder, OneHotEncoder 인코딩 까지

머신러닝 모델을 학습시키기 전에 데이터를 정제하고 준비하는 과정이 과정은 데이터의 품질을 향상시키고, 머신러닝 모델의 성능을 향상시키기 위해 필수적 데이터를 분석하여 어떻게 데이터를 분리할지 인코딩을 할지 확인 후, 1) NaN 처리 2) X, y 데이터 분리 : 학습할 변수와 레이블링 변수로 분리 2) 문자열 데이터 인코딩 : 원-핫 인코딩, 레이블 인코딩 등의 방법을 사용 3) 특성 스케일링 : 표준화(Standardization)나 정규화(Normalization) 등의 방법을 사용 4) 데이터셋을 Training 용과 Test 용으로 나눈다. import library # ..

728x90
반응형