Data Science and Machine Learning - #40 Projeto Completo (Dados de Treino e Teste)
08/06/2022Na aula de hoje aprenderemos como separar os nossos dados em dados de teste e treino no aprendizado de máquina.
xTrain, yTrain, xTeste, yTeste - Python
Primeiramente dividiremos nossos dados em X, que são as variáveis para se achar o preço, e Y que é o preço propriamente dito.
X=df.drop(['ocean_proximity','median_house_value'],axis=1)
X
y=df['median_house_value']
y
Posteriormente, na separação de dados deixaremos 80% para o aprendizado e 20% para o teste:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=100)
print(X_train.shape,y_train.shape)
Não esqueça de importar o módulo SkLearn:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score,GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error
Escalonando os Dados
Para evitar as distorções de escalas nos dados, faremos o escalonamento dos dados:
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_train = pd.DataFrame(X_train,columns=X.columns)
X_test = sc.transform(X_test)
X_test = pd.DataFrame(X_test,columns=X.columns)
Escolhendo melhor algorítimo
Vamos fazer testes com vários algorítimos para ver qual demonstra um melhor desempenho para o nosso conjunto de dados.
ins = LinearRegression()
ins.fit(X_train,y_train)
pred = ins.predict(X_test)
pred[:10]
y_test[:10]
Por hoje é só! Sucesso nos códigos e na vida!
Posts Relacionados
Data Science and Machine Learning - #39 Projeto Completo (Entendendo o Machine Learning)
Nesse tutorial vamos fazer uma análise dos objetivos e dos passos que trabalharemos para verificar qual bairro podemos investir para ter o maior retorno.
Data Science and Machine Learning - #41 Projeto Completo (Testando Vários Algorítimos)
No tutorial de hoje realizaremos os testes de desempenho em vários algorítimos diferentes para verificar qual oferecer o melhor resultado para nossos dados.