반응형

PYTHON LIBRARY 29

Pandas 데이터프레임 컬럼에 함수(문자열 전용 함수까지) 적용하기 : def와 apply() 사용법

# 데이터 가공할때 사용 ! => 기존의 데이터를 가지고 새로운 컬럼을 만들때 많이 사용 # 고급 함수로 데이터 분석시에 굉장히 중요한 개념 # 이전장 예제에서 사용하였던 데이터를 가지고 실행 # 시급이 30 이상이면 'A' 이고 그렇지 않으면 'B' 라고 해라. = 조건문 // 이전 실습 예시에서 일정 수치보다 큰 데이터를 가져와라 라는것과는 다름 # salary >= 30 : # print('A') # else : # print('B') # 이런 결과를 얻고 싶은것이기 때문에 함수로 만들어서 사용한다. # 예로 35인 그룹은 A로 28인 그룹은 B가 되도록 코드 블록을 만들고 싶다. #get_group(35) # 'A' #get_group(28) # 'B' #..

Pandas Operations 예제 : 데이터 필터링과 분석 .loc(), .iloc(), 조건부 기호 &, | 활용

import pandas as pd # 예제 실행을 위해 데이터 프레임 생성 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) # 판다스는 반복문 필요없이 알아서 데이터(행)를 찾아준다. df['Years of Experience'] >= 3 0 True 1 True 2 True 3 False Name: Years of Experience, dt..

Python Pandas 카테고리컬 데이터 다루기 : groupby() , agg(), value_counts() 함수 활용

# 새로운 데이터 불러오기 # 상위 폴더로 경로 지절할땐 '../' 을 사용 df = pd.read_csv('../data/fake_company.csv') # 중복이 발생하는 데이터 ex) 성별, 나이 등.. # 유니크한 데이터의 개수와 데이터 확인 # 상단에 데이터에서 'Year'을 가지고 실행 df['Year'].unique() array([1990, 1991, 1992], dtype=int64) ㄴ 데이터의 종류는 총 3가지인것 확인 # 유니크한 항목이 몇개인지 숫자로 바로 확인할떄 df['Year'].nunique() 3 # 'Department' 컬럼을 가지고 실행 df['Department'].unique() array..

Python Pandas로 결측치 데이터 처리하기: NaN 처리 isna(), notna(), dropna(), fillna()

# We create a list of Python dictionaries # 실습전 데이터 프레임에 사용할 item2 변수 생성 items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7}, {'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}] # 비어있는 데이터를 어떻게 처리할 것인가??? df = pd.DataFrame(data= ite..

Python Pandas 데이터프레임 조작 : 행/열 삭제부터 이름/타입 변경까지 drop() 함수 , rename({}) 함수

# 행 삭제, 열 삭제 # drop() 함수를 이용하고, axis 만 설정해 주면 된다. # 이전장에서 사용했던 데이터를 그대로 가져와서 진행 # store 2 삭제 (행) df.drop('store 2' , axis= 0) # glasses 컬럼 삭제 (열) df.drop('glasses', axis=1) # pants, glasses, shirts 3개 컬럼 삭제 df.drop(['pants','glasses','shirts'] , axis=1) # 1) '=' 기호를 사용하여 데이터를 다시 저장하는 방법 df = df.drop('glasses' , axis=1) ㄴ 삭제한 결과값을 df 원본에 다시 저장 # 2) inpl..

Python Pandas로 데이터 다루기 : 데이터 액서스 .loc, .iloc 및 기본 인덱싱 방법

import pandas as pd # We create a list of Python dictionaries items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}] # 상단에서 생성한 items2 딕셔너리를 데이터프레임으로 변환 df = pd.DataFrame(data= items2, index= ['store 1', 'store 2']) df ### 가장 중요한것!!! "데이터 프레임" 에서 원하는 데이터를 억세스 하는..

Python Pandas로 데이터 분석 시작하기 : DataFrame 기초

레이블로 생성하기 # 판다스의 2차원 데이터 처리는, 데이터 프레임으로 한다. (DataFrame) # 실제 데이터 분석에서는 csv 파일을 판다스의 데이터 프레임으로 읽어와서 작업한다. # 연습을 위해 예제로 데이터 프레임을 생성하여 분석해 보자. import pandas as pd # We create a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants..

728x90
반응형