Home
Button Mobile Webdesign em Foco
Newsletter Webdesign em Foco
Support Webdesign em Foco
Contribuition Webdesign em Foco
Doe para a Webdesign em Foco
Suporte da Webdesign em Foco
Fechar

Data Science and Machine Learning - #40 Projeto Completo (Dados de Treino e Teste)

08/06/2022

Na aula de hoje aprenderemos como separar os nossos dados em dados de teste e treino no aprendizado de máquina.

xTrain, yTrain, xTeste, yTeste - Python

Primeiramente dividiremos nossos dados em X, que são as variáveis para se achar o preço, e Y que é o preço propriamente dito.

X=df.drop(['ocean_proximity','median_house_value'],axis=1)
X

y=df['median_house_value']
y

Posteriormente, na separação de dados deixaremos 80% para o aprendizado e 20% para o teste:

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=100)
print(X_train.shape,y_train.shape)

Não esqueça de importar o módulo SkLearn:

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score,GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error

Escalonando os Dados

Para evitar as distorções de escalas nos dados, faremos o escalonamento dos dados:

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_train = pd.DataFrame(X_train,columns=X.columns)
X_test = sc.transform(X_test)
X_test = pd.DataFrame(X_test,columns=X.columns)

Escolhendo melhor algorítimo

Vamos fazer testes com vários algorítimos para ver qual demonstra um melhor desempenho para o nosso conjunto de dados.

ins = LinearRegression()
ins.fit(X_train,y_train)
pred = ins.predict(X_test)
pred[:10]

y_test[:10]

Por hoje é só! Sucesso nos códigos e na vida!

Receba as aulas da Webdesign em Foco em Seu Email
Suporte Webdesign em Foco

Posts Relacionados

Data Science and Machine Learning - #39 Projeto Completo (Entendendo o Machine Learning)
Nesse tutorial vamos fazer uma análise dos objetivos e dos passos que trabalharemos para verificar qual bairro podemos investir para ter o maior retorno.
Saiba mais!
Data Science and Machine Learning - #41 Projeto Completo (Testando Vários Algorítimos)
No tutorial de hoje realizaremos os testes de desempenho em vários algorítimos diferentes para verificar qual oferecer o melhor resultado para nossos dados.
Saiba mais!
Python
Nesta seção aprofundaremos os conhecimentos sobre uma das linguagens em maior ascenção no mercado, o Python.
Saiba mais!