Como é a rotina de um cientista de dados?

Essa pergunta é muito comum. Eu mesmo já fiz algumas vezes em entrevista. Bom, não exatamente ela, mas já perguntei como era a típica rotina do analista da área. É interessante saber exatamente o que é feito. Passam o dia programando? Passam o dia vendo modelos estatísticos? Se você tem essa curiosidade, aqui vai a rotina de um cientista de dados. Claro, a resposta ideal e que realmente serviria era: “depende”. Mas para não ficar em cima do muro, vou tentar encontrar o que seria o mais usual. Continuar a ler “Como é a rotina de um cientista de dados?”

Tipos de Aprendizado em Machine Learning

Machine Learning, como o próprio nome diz, é sobre aprendizado de máquinas. Mas a máquina não aprende sempre do mesmo jeito. Tal como um ser humano, há formas dela aprender. Aqui, vamos falar dos três tipos de aprendizados existentes: supervisionado, não-supervisionado e semi-supervisionado. Continuar a ler “Tipos de Aprendizado em Machine Learning”

Machine Learning e Data Science, o que é o que aí?

Os termos Machine Learning e Data Science, ou no português Aprendizado de Máquina e Ciência de Dados, estão na moda. Não dá mais para negar o hype. É comum, inclusive, as pessoas fazerem o uso dos dois termos de forma intercambiável. Porém, diferente de muitas coisas que são tratadas como as mesmas, mas com nomes diferentes, creio que aqui exista diferença. Vamos tentar entender o que aborda cada uma dessas áreas. Continuar a ler “Machine Learning e Data Science, o que é o que aí?”

Mulheres de Ciência de Dados para Seguir

Aproveitando o dia, vou deixar uma singela recomendação de algumas mulheres de #DATA incríveis que vocês deveriam acompanhar o trabalho. Busquem na rede social de preferência (eu sei que no Twitter e Linkedin elas estão todas): Continuar a ler “Mulheres de Ciência de Dados para Seguir”

Machine Learning do Zero no R

Análogo ao que foi feito no post Machine Learning do Zero no Python, teremos agora no blog um tutorial bem tranquilo, do ZERO, para quem quer aprender Machine Learning / Ciência de Dados, utilizando R. Não fique com medo por ser um post mais extenso, você pode fazer um pouco cada dia durante um certo período de tempo, caso sinta que está pesado demais. Abaixo, você vai aprender a tratar os dados, fazer filtros, localizar valores nulos, criar gráficos e até conhecer alguns modelos. Então bora aprender! Continuar a ler “Machine Learning do Zero no R”

Machine Learning do Zero no Python

Recentemente, estive na Python Brasil 2019. Um evento muito legal, falei um pouco sobre ele no Twitter do EstatSite (veja a thread aqui), e, inclusive, estou devendo um post aqui no blog. Acabei participando de um tutorial chamado “Machine Learning do Zero”, dado pelo Tarsis Azevedo – o cara é fera, recomendo que acompanhem o trabalho dele pelo Twitter ou Github, @tarsisazevedo. Aqui, vai o código feito em sala de aula, com algumas alterações e comentários que inclui porque achei relevante – outras porque achei que poderia facilitar para os mais novos

Atualização: Vocês agora podem visitar o post Regressão Linear no Python para aprender mais sobre regressão linear utilizando Python! Continuar a ler “Machine Learning do Zero no Python”

Algoritmo de Classificação: KNN (K Nearest Neighbors)

O algoritmo KNN, abreviação de K Nearest Neighbors, é um algoritmo bastante utilizado por cientistas de dados, principalmente pela sua facilidade de implementação (além de ser um lazy learner*). É um algoritmo supervisionado de machine learning, utilizado para problemas de classificação e regressão. Hoje, o foco é na parte de classificação. A ideia é simples, separar os indivíduos em grupos (ou classes) de acordo com a semelhança existente. Vamos entender o que isso quer dizer… Continuar a ler “Algoritmo de Classificação: KNN (K Nearest Neighbors)”

Estatística Tradicional e Machine Learning, qual a melhor?

Junto ao crescimento exponencial de informações e tipos de dados, surgem atualmente, de maneira acelerada, novas tecnologias e metodologias capazes de suportar, processar e analisar todo esse volume de informações. Com isso, alguns temas e discussões acabam vindo à tona no mundo do cientista de dados e dois dos que causam mais polêmica são justamente o que é melhor usar e como usar determinadas técnicas de análise de dados.  Continuar a ler “Estatística Tradicional e Machine Learning, qual a melhor?”

5 modelos básicos de forecast no R

Há algumas formas básicas de se fazer projeções para valores futuros (forecast), diferentes dos modelos geralmente falados nesse blog, mas que podem ser úteis. A seguir, temos 5 métodos simples que fazem parte do pacote fpp do R (na verdade são parte do pacote forecast que é carregado junto).

Leia mais…

Machine Learning no Nerdcast

Quem diria que meu podcast preferido faria um episódio de uma das minhas áreas de estudos preferida. Para ouvir é só clicar no link:

NerdTech 5 – Machine Learning

Para quem não conhece muito, a definição de aprendizado de máquina (Wikipedia):

A aprendizagem automática ou aprendizado de máquina (em inglês: “machine learning”) é um sub-campo da inteligência artificial dedicado ao desenvolvimento de algoritmos e técnicas que permitam ao computador aprender, isto é, que permitam ao computador aperfeiçoar seu desempenho em alguma tarefa.