Olá pessoal!
Resolvi organizar o material de R do blog de uma forma que fique parecido com um curso, melhor organizado e na ordem a ser seguida para que tudo corra bem no seu aprendizado. Em outras palavras, seguindo os posts abaixo, nessa ordem, será como fazer um mini curso de R gratuito e acredito que você vá aprender o essencial (com a vantagem de não estar gastando nem um centavo).
PARTE 1 [NOVO]: TUTORIAL COMPLETO EM UM ÚNICO POST
No início, o tutorial em R era dividido em vários posts, conforme vocês podem ver abaixo na parte 2. Porém, agora vocês podem fazer o curso completo olhando somente para o post Machine Learning do Zero no R, onde são abordados todos os temas essenciais na vida de um cientista de dados, desde a limpeza da base, até a obtenção de estatísticas descritivas, traçar gráficos e até a modelagem estatística, onde inclui 3 modelos (KNN, Regressão Linear e Regressão Logística).
PARTE 2 [ANTIGO]: TUTORIAL DIVIDIDO EM VÁRIOS POSTS
Antes da criação do tutorial feito acima, eu possuía vários posts distintos com conteúdo em R. Eu sei que é chato ler posts sem ter uma direção clara do que você quer, mas eu recomendaria fortemente você pegar alguns destes posts e tentar replicar os tutoriais. Isso vai ajudar você a conhecer melhor a capacidade do R, pois quando você se deparar com uma tarefa nova, você saberá que é possível fazer no R.
INSTALAÇÃO E PRIMEIROS PASSOS: O passo inicial é baixar o software seguindo os passos de Primeiros passos no R (Studio). Além da instalação, você vai aprender alguns comandos simples que podem ser executados no R.
IMPORTAÇÃO E MANIPULAÇÃO DE DADOS: Após realizar o download e executar comandos simples, você precisará primeiro importar as informações que estão em formato txt, csv, etc.: Carregando / Importando seus dados no R. Em seguida, com os dados já no R, você precisa trabalhar a informação deixando na visão que lhe for conveniente. É provável que elas não estejam na visão ideal para seu projeto. É preciso consolidar informações, combinar tabelas, dentre outras coisas. Para isso, você pode estudar o post Tutorial: Manipulação e Análise de Dados em R. Outros posts relevantes que tratam o assunto são: Excluindo linhas missing no R, Excluindo linhas de uma tabela no R, SAS Group By no R, R: Ordenando colunas e Filtros no R.
ANÁLISE EXPLORATÓRIA/GRÁFICA: Agora que seus dados estão tratados, é interessante fazer analisar a informação visualmente. Neste caso, veja: Gráficos em R, Comparando graficamente dois grupos, Mais gráficos no R: qqplot() e também Gráfico no R, colorindo pontos por categoria.
ANÁLISE DESCRITIVA: Este passo anda lado a lado com o anterior. Após ajustar a informação, é útil analisar a frequência das variáveis, tal como as principais estatísticas. Isto serve tanto para validar a informação, quanto para entender as variáveis sendo estudadas. De cara, já falo para você utilizar a função summary() na base inteira. A saída deste comando lhe será útil. Além disso, leia Demonstrando dados com a função aggregate no R e Frequência no R utilizando o pacote Hmisc.
MODELAGEM ESTATÍSTICA: Enfim é hora de gerar os modelos estatísticos. Você pode gerar uma regressão linear, logística ou uma árvore de decisão. Leia os posts Regressão Linear Simples – Parte 1, Regressão Linear Simples – Parte 2, Regressão Linear Simples – Parte 3, Regressão Linear Múltipla, Análise dos Resíduos de uma Regressão Linear, Resíduos de uma Regressão Linear no R, Regressão Logística no R, Árvore de Decisão com Probabilidade em R. Não sabe o conceito de Árvore de Decisão? Leia o post Árvore de Decisão. Aliás, não se esqueça que antes de fazer o modelo, você deve separar as bases em treino e teste. Caso não saiba como fazer isso, dê uma olhada em Separando a base treino e teste no R.
Espero que consigam aprender com o plano de estudos acima. Vou fazer o possível para enriquecer ainda mais este conteúdo ao longo do tempo, mas creio que ele já contemple boa parte do que você vai utilizar no dia à dia como cientista de dados – considerando os primeiros cargos -, caso opte por esse carreira. Pode ser também que em alguns posts mais antigos o formato do código não esteja tão limpo como é hoje em dia, mas estou ajustando aos poucos. Mantenha-se atualizado dos posts acessando sempre Programação em R.
Gostou do conteúdo? Se inscreva para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato, como meu canal de Youtube Canal do Yukio.
Bons estudos!