반응형

전체 글 206

Pandas Operations 예제 : 데이터 필터링과 분석 .loc(), .iloc(), 조건부 기호 &, | 활용

import pandas as pd # 예제 실행을 위해 데이터 프레임 생성 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) # 판다스는 반복문 필요없이 알아서 데이터(행)를 찾아준다. df['Years of Experience'] >= 3 0 True 1 True 2 True 3 False Name: Years of Experience, dt..

데이터 프리프로세싱(Data Preprocessing) : 스케일링의 StandardScaler(), MinMaxScaler() 과 train_test_split() 데이터 분리까지

# 전장에서 사용하였던 데이터프레임을 가지고와 이어서 진행 Age 와 Salary 는 같은 스케일이 아니다. Age 는 27 ~ 50 Salary 는 40k ~ 90k (만단위) # 유클리디언 디스턴스로 오차를 줄여 나가는데, 하나의 변수는 오차가 크고, 하나의 변수는 오차가 작으면, 나중에 오차를 수정할때 편중되게 된다. # 따라서 값의 레인지를 맞춰줘야 정확히 트레이닝 된다. 표준화 : 평균을 기준으로 얼마나 떨어져 있느냐? 같은 기준으로 만드는 방법, 음수도 존재, 데이터의 최대최소값 모를때 사용. 정규화 : 0 ~ 1 사이로 맞추는 것. 데이터의 위치 비교가 가능, 데이터의 최대최소값 알떄..

데이터 프리프로세싱(Data Preprocessing) : NaN 처리부터 LabelEncoder, OneHotEncoder 인코딩 까지

머신러닝 모델을 학습시키기 전에 데이터를 정제하고 준비하는 과정이 과정은 데이터의 품질을 향상시키고, 머신러닝 모델의 성능을 향상시키기 위해 필수적 데이터를 분석하여 어떻게 데이터를 분리할지 인코딩을 할지 확인 후, 1) NaN 처리 2) X, y 데이터 분리 : 학습할 변수와 레이블링 변수로 분리 2) 문자열 데이터 인코딩 : 원-핫 인코딩, 레이블 인코딩 등의 방법을 사용 3) 특성 스케일링 : 표준화(Standardization)나 정규화(Normalization) 등의 방법을 사용 4) 데이터셋을 Training 용과 Test 용으로 나눈다. import library # ..

Machine Learning 개념 정리

편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들을 취향이 비슷한 그룹으로 묶기 가지고 이는 데이터가 내가 원하는 문제의 답을 가지고 있는가? 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가 문제를 풀기에 충분한 데이터를 모았는가? 머신러닝의 성과를 어떻게 측정할 것인가 레퍼런스 : https://www.youtube.com/watch?v=KDrys0OnVho 우리는 Iris꽃의 꽃잎의 길이와 넓이, 꽃받..

Python Pandas 카테고리컬 데이터 다루기 : groupby() , agg(), value_counts() 함수 활용

# 새로운 데이터 불러오기 # 상위 폴더로 경로 지절할땐 '../' 을 사용 df = pd.read_csv('../data/fake_company.csv') # 중복이 발생하는 데이터 ex) 성별, 나이 등.. # 유니크한 데이터의 개수와 데이터 확인 # 상단에 데이터에서 'Year'을 가지고 실행 df['Year'].unique() array([1990, 1991, 1992], dtype=int64) ㄴ 데이터의 종류는 총 3가지인것 확인 # 유니크한 항목이 몇개인지 숫자로 바로 확인할떄 df['Year'].nunique() 3 # 'Department' 컬럼을 가지고 실행 df['Department'].unique() array..

Python Pandas로 결측치 데이터 처리하기: NaN 처리 isna(), notna(), dropna(), fillna()

# We create a list of Python dictionaries # 실습전 데이터 프레임에 사용할 item2 변수 생성 items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7}, {'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}] # 비어있는 데이터를 어떻게 처리할 것인가??? df = pd.DataFrame(data= ite..

Python Pandas 데이터프레임 조작 : 행/열 삭제부터 이름/타입 변경까지 drop() 함수 , rename({}) 함수

# 행 삭제, 열 삭제 # drop() 함수를 이용하고, axis 만 설정해 주면 된다. # 이전장에서 사용했던 데이터를 그대로 가져와서 진행 # store 2 삭제 (행) df.drop('store 2' , axis= 0) # glasses 컬럼 삭제 (열) df.drop('glasses', axis=1) # pants, glasses, shirts 3개 컬럼 삭제 df.drop(['pants','glasses','shirts'] , axis=1) # 1) '=' 기호를 사용하여 데이터를 다시 저장하는 방법 df = df.drop('glasses' , axis=1) ㄴ 삭제한 결과값을 df 원본에 다시 저장 # 2) inpl..

728x90
반응형