ML(머신러닝) 실습 : Clustering (K-Means, Agglomerative)을 활용한 고객 파악

MACHINE LEARNING/Machine Learning Project

ML(머신러닝) 실습 : Clustering (K-Means, Agglomerative)을 활용한 고객 파악

신강희 2024. 4. 30. 14:23

< Cust_Spend_Data.csv 파일을 통해서 고객의 의류소비, 음료소비, 음식소비 데이터를 통해서 비슷한 고객으로 그룹핑 하자 >

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('../data/Cust_Spend_Data.csv')

df.isna().sum()

Cust_ID            0
Name               0
Avg_Mthly_Spend    0
No_Of_Visits       0
Apparel_Items      0
FnV_Items          0
Staples_Items      0
dtype: int64

X = df.iloc[:,2:]

import scipy.cluster.hierarchy as sch

import matplotlib.pyplot as plt

#덴드로그램을그릴때메소드는'ward'라는명칭을많이씀
sch.dendrogram(sch.linkage(X,method='ward'))
plt.show()

ㄴ 3개 그룹으로 분리하자.

from sklearn.cluster import AgglomerativeClustering

# 깡통 인공지능 생성

hc=AgglomerativeClustering(n_clusters=3)

# 학습과 예측을 동시에

hc.fit_predict(X)

array([2, 1, 1, 1, 1, 0, 0, 0, 0, 0], dtype=int64)

y_pred=hc.fit_predict(X)

# 원본에 예측값을 넣어서 비교해 보자.

df['Group']=y_pred

df.loc[df['Group'] == 찾길 원하는 그룹, ]

##kmeans로도해보자

from sklearn.cluster import KMeans

wcss = [ ]
forkinrange(1,5+1):
kmeans = KMeans(n_clusters=k,random_state=5)
kmeans.fit(X)
wcss.append(kmeans.inertia_)

wcss

[74525310.2, 14500293.600000001, 5387740.75, 2187714.5, 854349.4166666667]

plt.plot(range(1,5+1),wcss)
plt.show()

ㄴ 그룹은 3개로 나누자

kmeans = KMeans(n_clusters=3,random_state=5)

y_pred2 = kmeans.fit_predict(X)

#hcc로예측
y_pred

array([2, 1, 1, 1, 1, 0, 0, 0, 0, 0], dtype=int64)

#kmeans로예측
y_pred2

array([2, 0, 0, 0, 0, 1, 1, 1, 1, 1])

# 숫자는 중요하지 않고 두방법 모두 비슷한 비율로 그룹을 묶은걸 볼수 있다.

다음 게시글로 계속

728x90

'MACHINE LEARNING > Machine Learning Project' 카테고리의 다른 글

ML(머신러닝) 실습 : 티처블 머신(teachable machine) 으로 food 예측 하기 (2)	2024.05.02
ML(머신러닝) 실습 : K-Means Clustering (for 문을 활용해 Elbow Method 찾기) (0)	2024.04.24
ML(머신러닝) 실습 : Logistic Regression 분류 모델 (up sampling, SMOTE 활용법) (2)	2024.04.22
ML(머신러닝) 실습 문제 : Linear regression 예측 모델 실습 (sklearn.linear, LinearRegression model) (0)	2024.04.15

현재글ML(머신러닝) 실습 : Clustering (K-Means, Agglomerative)을 활용한 고객 파악

실습 데이터 다운 Git : https://github.com/sorktjrrb/

python pandas, mysql connector, EC2, AWS, Python, ML, RESTful API, mysql workbench, 안드로이드 스튜디오, 딥러닝, AWS Lambda, mysql, android studio, streamlit, java, docker, dl, 머신러닝, 데이터 분석, pandas,

Today :
Yesterday :

Byte의 발자취