Minha Trilha para Se Tornar um Cientista de Dados

A pergunta que mais recebo é de longe, mas disparado MESMO, quais livros alguém deve seguir para sair do zero e se tornar um cientista de dados. Pensando nisso, resolvi fazer esse post com uma trilha do que considero o ideal para alguém partir do zero e se tornar um cientista de dados. Claro, pode existir um assunto ou outro fora daqui que você pode acabar se deparando quando for efetivamente um profissional da área. Ainda assim, acho que deu para cobrir o essencial.

Antes da lista começar, vale sempre lembrar que um cientista de dados é feito de Matemática+Programação+Negócios. Aqui, vamos praticar muito dos dois primeiros, mas quase nada do último.

Você conseguirá completar todos esses livros? Creio que não. É muito difícil manter tamanha disciplina. Como eu imagino que você esteja na faculdade ou em uma pós, você pode ir pulando temas que já foram contemplados nas aulas e somente pegar os livros quando precisar. Se você não está nem na faculdade, nem em alguma pós-graduação, recomendo que pegue um curso no Coursera. A Universidade de Michigan possui duas ótimas especializações para a carreira de cientista de dados: Python for Everybody e Applied Data Science with Python. Volte para cá somente para cobrir as lacunas dos cursos.

Eu recomendaria que você estudasse num primeiro momento as recomendações 1 e 2. Na sequência, tentar usar as recomendações 3 e 4 juntas. Em seguida, vá para 5, 6 e 7 separadamente.

Enfim, vamos para as recomendações!

  1. Estatística Básica do Bussab e Morettin: Um clássico, todo mundo que passou pela disciplina de estatística já usou esse livro.
  2. Curso de Álgebra Linear da Khan Academy: Esse é o único caso em que não vou mencionar um livro. Acredito que o curso seja suficiente e bom o bastante para você prosseguir na sua trilha: https://www.khanacademy.org/math/linear-algebra. Em paralelo, se precisar de alguma ajuda extra, você pode usar o livro de Álgebra Linear para Leigos:
    Caso você tenha curiosidade de olhar, um livro que costumamos usar no curso de Matemática é o Álgebra Linear e Aplicações:
  3. EstatSite: Bom, agora que você tem boas noções matemáticas, é hora de aprender a linguagem mais usada no mercado: Python! Aqui no blog, você há alguns posts para se ter uma noção boa da linguagem. Vá em Mini Curso de Python e aprenda uns comandos!
  4. Python para Análise de Dados: Você já aprendeu alguns comandos, mas há espaço para se aprofundar. Utilize este livro da O’Reilly para se aprofundar ainda mais em Python:
  5. Kaggle: Pausa para testar seus conhecimentos! Acesse o Kaggle, baixe algumas bases e pratique tudo que aprendeu até agora.
  6. Data Science do Zero: Agora que você já sabe a matemática que será usada para modelagem e análises, que tal aprender a fazer alguns modelos preditivos usando Python? O livro Data Science do Zero da O’Reilly é excelente, bastante prático e didático. Como a linguagem está em constante atualização, assim como as bibliotecas, não se assuste se algum comando não funcionar. Você pode encontrar respostas para os erros no StackOverflow e no Google. Não conseguiu? Me mande um e-mail que te ajudo com isso. Meus contatos: Sobre o Estatsite / Contato.
  7. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow: Considero uma continuação da obra anterior, mais completo em todos os sentidos, desde a parte da programação até os conceitos matemáticos.

Pronto, agora você é o maior cientista de dados de todos, sabe absolutamente tudo, correto?

Creio que você já saiba que a resposta é não. Ainda vai ter muito o que estudar. Os livros acima são excelentes e te tornará um bom cientista de dados. No entanto, tanto a programação, quanto a matemática pode ser aperfeiçoada ainda. Se você pegar um livro como o Regression Modelling Strategies da Springer você vai ver que há muitos conceitos que são esquecidos nos livros acima. O que eu passei aqui foi o caminho mais curto que encontrei para fazer alguém se tornar um cientista de dados. Cabe a você ir completando algumas das lacunas que ficaram.

Também não é para se desesperar. Ninguém sabe absolutamente tudo de tudo que há nesses livros. Leva anos para chegar em tal nível de profundidade e ainda assim haverá lacunas. Então relaxa e curta a caminhada!

Conteúdos extra para se estudar:

  • Tutorial: SQL do Zero: SQL é uma das linguagens mais importantes no dia a dia de um cientista de dados. Não a menospreze simplesmente porque ela não costuma ser usada no dia a dia.
  • A Beginner’s Guide to Data Engineering — Part I – É importante ter noção do fluxo dos dados. Esse tutorial dá uma ideia do que faz um engenheiro de dados. Não vejo tanto a necessidade de ler as outras partes, mas recomendo bastante essa.
  • Livros O Andar do Bêbado e Todo Mundo Mente – É importante ter noção de onde a estatística e os dados podem nos levar e quanto do senso comum é confrontado quando o conhecimento chega. Não dá para ser um bom cientista de dados se você continuar com ideias anticientíficas. É importante fixar certos conhecimentos. Esses livros são leituras leves, não-acadêmicas, mas importante para moldar sua forma de pensar.
  • Github – Instale e leia alguns tutoriais introdutórios para entender o porquê de tantas empresas utilizarem a ferramenta. Spoiler alert: versionamento e trabalho em grupo.

Gostou do conteúdo? Se inscreva para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato.

Bons estudos!

4 comentários em “Minha Trilha para Se Tornar um Cientista de Dados”

  1. Cara, muito válida a sua iniciativa. Eu por muito tempo fui professor substituto de estatística, o que me engessou. Agora estou querendo aprender sobre cientista de dados (parece contraditório). Vou fazer bom uso do seu material.

    Parabéns!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *