반응형

문자열 함수 2

Pandas 실습 문제 : 문자열 함수(str.replace()/contains()/startswith(), ~ 기호)와 astype(), isin()을 활용한 데이터 추출 및 비교

# 기초개념에서 배운것들을 실습문제를 통해서 복습 import pandas as pd DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/chipo.csv' df = pd.read_csv(DataUrl) ㄴ order_id 데이터를 보면 중복되는 데이터가 많은것을 볼수있다. ㄴ 카테고리컬 데이터로 한사람이 여러가지의 메뉴를 한꺼번에 주문한것을 알수있다. ㄴ 이럴때 중복없이 실제 주문을 한사람은 몇명인지 우선 파악해보는것도 중요하다. # 실제주문건은? df['order_id'].nunique() 1834 ㄴ 총 4622개의 데이터중 중복값을 제외하면 1834개의 데이터가 유니크한 데이터임을 알수있다. 문제) quantity컬럼 값이 3인 ..

Pandas 실습 문제 : 기초 연산함수 + 데이터 정렬 sort_index()/values(), 문자열 함수 str.contains(), def/apply() 함수 생성 및 적용

# 기초개념에서 배운것들을 실습문제를 통해서 복습 import pandas as pd # 리뷰 데이터를 read해 df 변수로 메모리에 업로드 df = pd.read_csv('../data/winemag-data.csv' , index_col=0) 문제) 리뷰 데이터프레임에서 points 컬럼의 median 값은? df['points'].median() 88.0 # describe()를 통해 한꺼번에 볼수도 있음. median()은 정렬후 정가운데 값이므로 50% 값과 일치 df['points'].describe() count 129971.000000 mean 88.447138 std 3.039730 min 80.000000 25% 86.000000 50% 88.000000 75% 91.000000 ma..

728x90
반응형