반응형

pandas 7

프로젝트(범죄현황) 연습(2) : Pandas pivot_table 익혀서 범죄 데이터에 적용 및 데이터 시각화

- 바로 이전 프로젝트 연습예제문을 이어서 진행 # 구이름을 인덱스로 만들려는데# 인덱스는 유니크해야 하므로 구이름이 중복된 값은 모든 데이터 값을 합친다# 그러기 위한 방법이 pivot_table ( 데이터프레임의 데이터를 피벗하여 요약하는 데 사용) import pandas as pdimport numpy as np # 피봇팅 한다. 즉 컬럼의 값을 인덱스로 만들되, # 인덱스를 중복제거하여 유니크 하게 만드는 방법# 새로운 데이터로 코딩 한다. df_test = pd.read_excel('../data/sales-funnel.xlsx')df_test # Name 열을 가지고 하나로 합쳐서 인덱스로 만들고 싶을때#기본적으로 동일한 데이터를 합칠때, 숫자 데이터를 default 평균으로 출력한다 pd...

Pandas를 활용한 데이터 연결과 병합 : concat()과 merge()의 비교

Reference: https://pandas.pydata.org/pandas-docs/stable/merging.html # 판다스를 활용하여 데이터끼리 연결과 병합을 해보자 # 우선 예제 실행에 필요한 데이터 프레임 세개를 생성하여 각각 df1, df2, df3 으로 메모리에 업로드 한다. df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3]) df2 = pd.DataFrame({'A': ['A4', 'A5', ..

Pandas로 데이터 정렬하기 : sort_values()와 sort_index() 활용법

# 정렬할 데이터프레임을 먼저 생성하여 df 라는 변수명으로 저장 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) # 경력을 가지고 오름차순 정렬 => index가 아니라 values 로 df.sort_values('Years of Experience') # 경력을 가지고 내림차순 정렬 ascending= False 를 컬럼명 뒤에 기재 # ascending 의 de..

Pandas 데이터프레임 컬럼에 함수(문자열 전용 함수까지) 적용하기 : def와 apply() 사용법

# 데이터 가공할때 사용 ! => 기존의 데이터를 가지고 새로운 컬럼을 만들때 많이 사용 # 고급 함수로 데이터 분석시에 굉장히 중요한 개념 # 이전장 예제에서 사용하였던 데이터를 가지고 실행 # 시급이 30 이상이면 'A' 이고 그렇지 않으면 'B' 라고 해라. = 조건문 // 이전 실습 예시에서 일정 수치보다 큰 데이터를 가져와라 라는것과는 다름 # salary >= 30 : # print('A') # else : # print('B') # 이런 결과를 얻고 싶은것이기 때문에 함수로 만들어서 사용한다. # 예로 35인 그룹은 A로 28인 그룹은 B가 되도록 코드 블록을 만들고 싶다. #get_group(35) # 'A' #get_group(28) # 'B' #..

Python Pandas 데이터프레임 조작 : 행/열 삭제부터 이름/타입 변경까지 drop() 함수 , rename({}) 함수

# 행 삭제, 열 삭제 # drop() 함수를 이용하고, axis 만 설정해 주면 된다. # 이전장에서 사용했던 데이터를 그대로 가져와서 진행 # store 2 삭제 (행) df.drop('store 2' , axis= 0) # glasses 컬럼 삭제 (열) df.drop('glasses', axis=1) # pants, glasses, shirts 3개 컬럼 삭제 df.drop(['pants','glasses','shirts'] , axis=1) # 1) '=' 기호를 사용하여 데이터를 다시 저장하는 방법 df = df.drop('glasses' , axis=1) ㄴ 삭제한 결과값을 df 원본에 다시 저장 # 2) inpl..

Python Pandas로 데이터 다루기 : 데이터 액서스 .loc, .iloc 및 기본 인덱싱 방법

import pandas as pd # We create a list of Python dictionaries items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}] # 상단에서 생성한 items2 딕셔너리를 데이터프레임으로 변환 df = pd.DataFrame(data= items2, index= ['store 1', 'store 2']) df ### 가장 중요한것!!! "데이터 프레임" 에서 원하는 데이터를 억세스 하는..

Python Pandas로 시작하는 데이터 분석 : Series 데이터 생성 pd.Series()

Pandas 의 장점 Allows the use of labels for rows and columns 기본적인 통계데이터 제공 NaN values 를 알아서 처리함. 숫자 문자열을 알아서 로드함. 데이터셋들을 merge 할 수 있음. It integrates with NumPy and Matplotlib # 파이썬의 라이브러리 # 판다스는 넘파이를 확장해서 만든 데이터 스트렉쳐 / numpy는 기계 친화적 (숫자로 구성됨) # 판다스는 넘파이를 포함하고 있다 import pandas as pd index = ['eggs', 'apples', 'milk', 'bread'] data = [30, 6, 'Yes', 'No'] # numpy에서 1차원 데이터 벡..

728x90
반응형