Você estuda, estuda, estuda, e estuda um pouco mais, mas é isso. Lê livros, vê vídeos no Youtube, mas permanece somente na teoria. Chega uma hora que você precisa colocar seu conhecimento em prática. Aplicar Árvore de Decisão, Random Forest, Regressão Linear, Regressão Logística e por aí vai. Abaixo, uma lista de datasets populares e quais técnicas você pode testar neles.
Iris – A base contém informação de espécies de flores e características delas. Uma boa ideia aqui seria utilizar uma técnica de clusterização, como o KNN, para identificar qual a espécie com base no comprimento e largura das sépalas e pétalas. Também é possível transformar a espécie em uma variável binária (ex.: a espécie é ou não é Virgínica) e testar modelos como Árvore de Decisão e Random Forest.
Housing – Esse dataset contém informações sobre preços de casas em Boston. Que tal você tentar identificar qual será o preço mediano da casa com base nas informações dela? Aplique uma Regressão Linear e veja no que dá! Se não der boa, avance para modelos como Lasso e Ridge Regression, só para citar alguns.
Spam – Que tal tentar identificar se um e-mail é ou não é um spam? Essa base tem um desafio diferente das anteriores, vai precisar de uma limpeza antes. Mas talvez esse desafio a torne mais interessante para alguns. Feita a limpeza, que tal usar a frequência de certas palavras ou caracteres, comprimento do texto do e-mail e outras características para aplicar uma Regressão Logística, uma Random Forest, um SVC, ou qualquer modelo de saída binária para prever se o e-mail é ou não um spam?
German Credit – Fiz minha primeira árvore de decisão com esses dados. Aqui, você encontra as informações dos clientes de um banco. Que tal tentar construir um modelo para prever se um cliente irá pagar ou não o empréstimo?
Breast Cancer – Se você tem pretenções de construir algo para a área da saúde um dia essa é a base certa! Aqui, você encontra informações de exames e diagnósticos de pacientes com câncer de mama. Uma das colunas contém o diagnóstico do tumor, se ele é benigno ou maligno, e as demais contém informações descritivas como perímetro, massa, etc. Teste seus conhecimentos em modelos de saída binária (sim ou não) e verifique se você consegue prever com boa precisão se o paciente tem ou não câncer. Alguns dos modelos que podem ser testados aqui: Regressão Logística, Árvore de Decisão, Random Forest, Adaboost, Catboost, XGboost
Twitter Sentiment Dataset – Você provavelmente já ouviu falar de NLP (Natural Language Processing). Nem sempre é simples encontrar uma base legal para treinar a técnica, mas aqui está uma excelente. Tente identificar o sentimento expressado pelos tweets deste dataset.
MNSIT – Redes Neurais estão bastante na moda. Mas você já conseguiu aplicá-las? Que tal usar nesse dataset? MNSIT é o acrônimo para Modified National Institute of Standards and Technology. No arquivo linkado, você encontra imagens em escala de cinza de dígitos de zero a nove. Esse é um bom desafio, vai encarar?
Esses foram os datasets que me vieram à cabeça hoje, mas prometo que faço uma segunda lista com outros bastante populares. Bora praticar?
E se você curtiu o conteúdo, não deixe de se inscrever para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato.
Bons estudos!