Data Science and Machine Learning - #35 K Means Clustering
25/02/2022Na aula de hoje aprenderemos como trabalhar com algorítimos não supervisionados, ou seja, aqueles onde não temos nenhum dado de parâmetro.
K Means Clustering
Neste tutorial vamos trabalhar com dataset de faculdades americanas.
Caso queira, pode baixar o dataset clicando aqui.
Importando Módulos
Vamos começar importando os módulos necessários:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split, GridSearchCV,cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
%matplotlib inline
Importano e Preparando Dados
df = pd.read_csv("faculdades.csv")
df.head()
idCat, cat = pd.factorize(df['private'])
idCat
#private = 0 public = 1
df['typeCollege'] = idCat
del df['private']
df.head()
Análise Exploratória
Vamos fazer uma pequena análise exploratória dos nossos dados:
df.info()
df.describe()
sns.countplot(x='typeCollege',data=df)
Ajustando e fazendo previsões
Vamos agora ajustar o nosso modelo e fazer previsões sobre as faculdades americanas:
ins = KMeans()
ins.fit(df)
ins.labels_
Testando o Desempenho
Vamos verificar o desempenho do nosso algorítimo para o conjunto de dados:
print(classification_report(df['typeCollege'],ins.labels_))
print(confusion_matrix(df['typeCollege'],ins.labels_))
Por hoje é só! Sucesso nos códigos e na vida!
Posts Relacionados
Cadastro e Login com Python - #08 Deploy
Na aula de hoje iremos fazer o deploy da nossa aplicação utilizando o Python com Django e o banco de dados MySQL.
Data Science and Machine Learning - #36 Projeto Completo (Análise Exploratória)
Neste tutorial vamos iniciar a criação de um projeto completo de Data Science e Machine Learning.