728x90
반응형

분류 전체보기 206

DL(딥 러닝)을 위한 Google Drive & Colab 환경 구성

# 딥 러닝을 본격적으로 실습하기 전에 이전 실습에서 사용한 anaconda 를 이용한 jupyter notebook 을 사용하지 않고, Google Colab과 Google Drive를 활용하여 실습을 진행한다. # 두가지 사이트에 모두 회원가입이 필요하다. # Colab을 사용하는 이유는 딥 러닝을 위해선 하드웨어 가속기 성능이 필요한데 Colab에서는 같은 jupyter notebook 환경에서 GPU 가속기를 사용할수 있기 때문에 딥 러닝 학습에 좀더 용이하기 때문이다.# 또한 Google Colab에서 제공하는 텐서플로우를 사용하여 딥러닝 학습을 좀더 용이하게 하기 위하여 사용한다. # 기본적인 코드 입력방법과 실행방법은 아나콘다 jupyter notebook과 동일하다.# 데이트럴 불러오는 방..

Deep Learning 개념 정리

딥러닝이란? 딥러닝은 머신 러닝의 한 분야로, 인공 신경망(ANN)을 기반으로 한다. 여러 계층으로 이루어진 신경망을 사용하여 복잡한 패턴을 학습할 수 있다. 이름에서 '딥(깊은)'이라는 말이 사용되는 이유는, 신경망이 여러 계층으로 깊게 구성되어 있기 때문이다. 인공 신경망 (Artificial Neural Networks, ANN) 1. 뉴런 (Neuron): 인공 신경망의 기본 단위 입력 데이터와 가중치를 곱한 후, 활성화 함수를 적용하여 출력 값을 생성 2. 계층 (Layer): 인공 신경망은 여러 계층으로 구성된다. 입력 계층 (Input Layer): 입력 데이터를 받는 계층 은닉 계층 (Hidden Layer): 입력 계층과 출력 계층 사이에 있는 중간 계층. 여러 개의 은닉 계층을 가진 경..

ML(머신러닝) : Linear Regression 개념 정리 및 예제 regressor 만들기

경력과 연봉의 관계(스케터를 이용)를 분석하여, 경력이 주어졌을때 연봉을 예측하려 한다. 데이터를 살펴보니, 아래와 같은 그래프로 나왔다고 가정했을 때, 아래 그림처럼, 해당 분포를 만족하는 직선을 찾으려(데이터의 피팅되는 방적식을 찾는것) 하는것이 목표이다.직선을 찾기 위해서는 우리가 잘 아는 직선의 방정식을 이용하여, 직선의 기울기와 y절편을 구하면 되는것이다.여기에서 주의! x, y 가 우리에게 데이터셋으로 주어졌다. 따라서 우리는 b 를 찾아야 하는것이다.즉, b0, b1 의 값을 찾아 가는 과정을 학습이라고 부른다!그렇다면 학습이란??? 바로 error(오차)를 줄여 나가는 것이다. 아래는 오차를 나타낸다.그렇다면 오차(error)란? [오차 = 실제값 - 예측값 =>..

ML(머신러닝) 실습 문제 : Linear regression 예측 모델 실습 (sklearn.linear, LinearRegression model)

auto-mpg.csv 데이터를 통해, mpg (mile per gallern, 자동차 연비) 를 예측하는 모델을 만드세요. # 필요한 import를 한번에 정리 # numpy와 pnadas 데이터 시각화에 필요 import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sb # 데이터 인코딩에 필요 from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.compose import ColumnTransformer # 스케일링에 필요 from sklearn.preprocessing import StandardScaler, MinM..

Python 데이터 시각화 : Matplotlib와 Seaborn 으로 Plot, Bar 차트 그리기

# Pandas를 통해서 가공한 데이터를 가지고 차트로 데이터 시각화를 할수있다 Tidy Data : 데이터 분석과 시각화에 적합한 형식으로 데이터를 정리한 것 each variable(변수) is a column (컬럼은 형식) each observation(하나의 행 => 행은 데이터) is a row each type of observational unit is a table # 파이썬에서 2D 그래픽을 생성하는 데 사용되는 라이브러리 # 다양한 유형의 그래프와 플롯을 만들 수 있으며, 데이터 분석 및 시각화 작업에서 널리 사용된다 # ref : 참고 레퍼런스 https://matplotlib.org/gallery.html#scales https://seaborn.pyda..

Pandas 실습 문제 : value_counts() , to_frame(), groupby(), agg() 활용

# 기초개념에서 배운것들을 실습문제를 통해서 복습 뉴욕 airBnB : https://www.kaggle.com/ptoscano230382/air-bnb-ny-2019 DataUrl = ‘https://raw.githubusercontent.com/Datamanim/pandas/main/AB_NYC_2019.csv’ df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/AB_NYC_2019.csv') df 문제) 데이터의 각 host_name의 빈도수를 구하고 host_name으로 정렬하여 상위 5개를 출력하라 df['host_name'].value_counts().head() host_name Michael 417 David ..

Pandas 실습 문제 : 문자열 함수(str.replace()/contains()/startswith(), ~ 기호)와 astype(), isin()을 활용한 데이터 추출 및 비교

# 기초개념에서 배운것들을 실습문제를 통해서 복습 import pandas as pd DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/chipo.csv' df = pd.read_csv(DataUrl) ㄴ order_id 데이터를 보면 중복되는 데이터가 많은것을 볼수있다. ㄴ 카테고리컬 데이터로 한사람이 여러가지의 메뉴를 한꺼번에 주문한것을 알수있다. ㄴ 이럴때 중복없이 실제 주문을 한사람은 몇명인지 우선 파악해보는것도 중요하다. # 실제주문건은? df['order_id'].nunique() 1834 ㄴ 총 4622개의 데이터중 중복값을 제외하면 1834개의 데이터가 유니크한 데이터임을 알수있다. 문제) quantity컬럼 값이 3인 ..

728x90
반응형