반응형

PYTHON LIBRARY/Pandas Library 11

Pandas를 활용한 데이터 연결과 병합 : concat()과 merge()의 비교

Reference: https://pandas.pydata.org/pandas-docs/stable/merging.html # 판다스를 활용하여 데이터끼리 연결과 병합을 해보자 # 우선 예제 실행에 필요한 데이터 프레임 세개를 생성하여 각각 df1, df2, df3 으로 메모리에 업로드 한다. df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3]) df2 = pd.DataFrame({'A': ['A4', 'A5', ..

Pandas로 데이터 정렬하기 : sort_values()와 sort_index() 활용법

# 정렬할 데이터프레임을 먼저 생성하여 df 라는 변수명으로 저장 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) # 경력을 가지고 오름차순 정렬 => index가 아니라 values 로 df.sort_values('Years of Experience') # 경력을 가지고 내림차순 정렬 ascending= False 를 컬럼명 뒤에 기재 # ascending 의 de..

Pandas 데이터프레임 컬럼에 함수(문자열 전용 함수까지) 적용하기 : def와 apply() 사용법

# 데이터 가공할때 사용 ! => 기존의 데이터를 가지고 새로운 컬럼을 만들때 많이 사용 # 고급 함수로 데이터 분석시에 굉장히 중요한 개념 # 이전장 예제에서 사용하였던 데이터를 가지고 실행 # 시급이 30 이상이면 'A' 이고 그렇지 않으면 'B' 라고 해라. = 조건문 // 이전 실습 예시에서 일정 수치보다 큰 데이터를 가져와라 라는것과는 다름 # salary >= 30 : # print('A') # else : # print('B') # 이런 결과를 얻고 싶은것이기 때문에 함수로 만들어서 사용한다. # 예로 35인 그룹은 A로 28인 그룹은 B가 되도록 코드 블록을 만들고 싶다. #get_group(35) # 'A' #get_group(28) # 'B' #..

Pandas Operations 예제 : 데이터 필터링과 분석 .loc(), .iloc(), 조건부 기호 &, | 활용

import pandas as pd # 예제 실행을 위해 데이터 프레임 생성 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) # 판다스는 반복문 필요없이 알아서 데이터(행)를 찾아준다. df['Years of Experience'] >= 3 0 True 1 True 2 True 3 False Name: Years of Experience, dt..

Python Pandas 카테고리컬 데이터 다루기 : groupby() , agg(), value_counts() 함수 활용

# 새로운 데이터 불러오기 # 상위 폴더로 경로 지절할땐 '../' 을 사용 df = pd.read_csv('../data/fake_company.csv') # 중복이 발생하는 데이터 ex) 성별, 나이 등.. # 유니크한 데이터의 개수와 데이터 확인 # 상단에 데이터에서 'Year'을 가지고 실행 df['Year'].unique() array([1990, 1991, 1992], dtype=int64) ㄴ 데이터의 종류는 총 3가지인것 확인 # 유니크한 항목이 몇개인지 숫자로 바로 확인할떄 df['Year'].nunique() 3 # 'Department' 컬럼을 가지고 실행 df['Department'].unique() array..

Python Pandas로 결측치 데이터 처리하기: NaN 처리 isna(), notna(), dropna(), fillna()

# We create a list of Python dictionaries # 실습전 데이터 프레임에 사용할 item2 변수 생성 items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7}, {'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}] # 비어있는 데이터를 어떻게 처리할 것인가??? df = pd.DataFrame(data= ite..

Python Pandas 데이터프레임 조작 : 행/열 삭제부터 이름/타입 변경까지 drop() 함수 , rename({}) 함수

# 행 삭제, 열 삭제 # drop() 함수를 이용하고, axis 만 설정해 주면 된다. # 이전장에서 사용했던 데이터를 그대로 가져와서 진행 # store 2 삭제 (행) df.drop('store 2' , axis= 0) # glasses 컬럼 삭제 (열) df.drop('glasses', axis=1) # pants, glasses, shirts 3개 컬럼 삭제 df.drop(['pants','glasses','shirts'] , axis=1) # 1) '=' 기호를 사용하여 데이터를 다시 저장하는 방법 df = df.drop('glasses' , axis=1) ㄴ 삭제한 결과값을 df 원본에 다시 저장 # 2) inpl..

728x90
반응형