Data Science and Machine Learning - #37 Projeto Completo (Preparação dos Dados)
08/04/2022Nesse tutorial vamos preparar o nosso Data Frame para que apresente dados concretos para o posterior uso do Machine Leaning.
Preparação de Dados - Python
Vamos começar limpando dados vazios e dividir quartos por família, além de transformar a coluna ocean proximity em dados binários.
df[df['total_bedrooms'].isnull()]
df['total_bedrooms'].fillna(df['total_bedrooms'].mean(),inplace=True)
df.info()
Para transormar os dados tipo string em binários podemos fazer assim:
df['ocean_proximity'].value_counts()
idCat,cat = df['ocean_proximity'].factorize()
df['ocean_proximity_cat']=idCat
df.tail()
Agora é só dividir os quartos pelas famílias:
df['total_rooms_per_households']=df['total_rooms']/df['households']
df['total_bedrooms_per_households']=df['total_bedrooms']/df['households']
df.head()
Podemos deletar agora as colunas sem uso:
del df['total_rooms']
del df['total_bedrooms']
Por hoje é só! Sucesso nos códigos e na vida!
Posts Relacionados
Data Science and Machine Learning - #36 Projeto Completo (Análise Exploratória)
Neste tutorial vamos iniciar a criação de um projeto completo de Data Science e Machine Learning.
Data Science and Machine Learning - #38 Projeto Completo (Plotagem de Dados)
Na aual de hoje aprenderemos como plotar gráficos dos dados através do Seaborn e Matplotlib utilizando como linguagem de programação o Python.