반응형

PYTHON LIBRARY 29

Pandas 실습 문제 : 문자열 함수(str.replace()/contains()/startswith(), ~ 기호)와 astype(), isin()을 활용한 데이터 추출 및 비교

# 기초개념에서 배운것들을 실습문제를 통해서 복습 import pandas as pd DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/chipo.csv' df = pd.read_csv(DataUrl) ㄴ order_id 데이터를 보면 중복되는 데이터가 많은것을 볼수있다. ㄴ 카테고리컬 데이터로 한사람이 여러가지의 메뉴를 한꺼번에 주문한것을 알수있다. ㄴ 이럴때 중복없이 실제 주문을 한사람은 몇명인지 우선 파악해보는것도 중요하다. # 실제주문건은? df['order_id'].nunique() 1834 ㄴ 총 4622개의 데이터중 중복값을 제외하면 1834개의 데이터가 유니크한 데이터임을 알수있다. 문제) quantity컬럼 값이 3인 ..

Pandas 실습 문제 : 데이터 columns 다루기 및 read(encoding) 사용법과 기초 함수 복습

# 기초개념에서 배운것들을 실습문제를 통해서 복습 import pandas as pd 롤 랭킹 데이터 : https://www.kaggle.com/datasnaek/league-of-legends DataUrl = ‘https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv’ DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv' df = pd.read_csv(DataUrl, sep='\t') ㄴ pd.read_csv() 함수는 기본적으로 쉼표(,)로 구분된 CSV 파일을 읽는다. 그러나 데이터 파일이 쉼표 외의 다른 구분자(예: 탭, 공백 등)로 구분되어 있다면 sep..

Pandas 실습 문제 : 기초 연산함수 + 데이터 정렬 sort_index()/values(), 문자열 함수 str.contains(), def/apply() 함수 생성 및 적용

# 기초개념에서 배운것들을 실습문제를 통해서 복습 import pandas as pd # 리뷰 데이터를 read해 df 변수로 메모리에 업로드 df = pd.read_csv('../data/winemag-data.csv' , index_col=0) 문제) 리뷰 데이터프레임에서 points 컬럼의 median 값은? df['points'].median() 88.0 # describe()를 통해 한꺼번에 볼수도 있음. median()은 정렬후 정가운데 값이므로 50% 값과 일치 df['points'].describe() count 129971.000000 mean 88.447138 std 3.039730 min 80.000000 25% 86.000000 50% 88.000000 75% 91.000000 ma..

Pandas 실습 문제 : 데이터 불러오기 index_col, 인덱스 세팅 set_index, 통계 함수 복습, value_counts() 활용법

# 기초개념에서 배운것들을 실습문제를 통해서 복습 winemag-data-130k-v2.csv 파일을 reviews 로 읽는다. # import import pandas as pd pd.read_csv('../data/winemag-data.csv') ㄴ Unnamed: 0 라고 뜨는것은 인덱스가 컬럼으로 올라온것이라 밑으로 네려줘야함 # index_col= 0 자리에 'Unnamed: 0' 로 적어줘도됨 pd.read_csv('../data/winemag-data.csv' , index_col= 0) # 변수로 저장 df = pd.read_csv('../data/winemag-data.csv' , index_col= 0) 문제) 인덱스를 title 컬럼으로 셋팅한다. # 변수명.set_index('셋팅..

Pandas 실습 문제 : nparray[], loc, iloc, 조건부 기호 &, |, 기초 함수 및 데이터 다루기 복습

# 기초개념에서 배운것들을 실습문제를 통해서 복습 winemag-data-130k-v2.csv 파일을 reviews 로 읽는다. import pandas as pd df = pd.read_csv('../data/winemag-data_first150k.csv' , index_col= 0) # Unnamed: 0 이런 형태로 컬럼에 올라오는 형태는 인덱스가 컬럼으로 올라온것임 # 그럴땐 index_col= 0 을 사용하여 불러오면 정상적으로 출력됨 # 분석을 위해 해당 데이터의 기술 통계 확인 df.describe() 문제) 리뷰의 디스크립션 컬럼을 desc 로 저장한다. desc = df['description'] desc 0 This tremendous 100% varietal wine hails fr..

Pandas를 활용한 데이터 연결과 병합 : concat()과 merge()의 비교

Reference: https://pandas.pydata.org/pandas-docs/stable/merging.html # 판다스를 활용하여 데이터끼리 연결과 병합을 해보자 # 우선 예제 실행에 필요한 데이터 프레임 세개를 생성하여 각각 df1, df2, df3 으로 메모리에 업로드 한다. df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3]) df2 = pd.DataFrame({'A': ['A4', 'A5', ..

Pandas로 데이터 정렬하기 : sort_values()와 sort_index() 활용법

# 정렬할 데이터프레임을 먼저 생성하여 df 라는 변수명으로 저장 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) # 경력을 가지고 오름차순 정렬 => index가 아니라 values 로 df.sort_values('Years of Experience') # 경력을 가지고 내림차순 정렬 ascending= False 를 컬럼명 뒤에 기재 # ascending 의 de..

728x90
반응형