ESTATSITE.COM.BR - Falando de Ciência de Dados desde 2016

Teste seus Conhecimentos em Data Science!

Quase que semanalmente, tenho feito alguns quizzes no twitter do EstatSite – você pode seguir indo em @EstatSite – sobre ciência de dados. As perguntas variam e vão desde questões sobre interpretação de gráficos até premissas utilizadas em modelos bastante comuns. Veja uns exemplos: Continuar a ler “Teste seus Conhecimentos em Data Science!”

SQL: Quantas vezes um caractere específico aparece?

Hoje me deparei com uma atividade na qual a solução que eu encontrei envolvia filtrar uma coluna de acordo com o número de vezes que uma determinada letra – um caractere qualquer – aparecia. Por exemplo, suponha que você tenha a coluna ‘NOME’ e você queira filtrar todos os nomes que contém 3 letras A. No meu caso, eu queria contar o número de vezes que aparecia ‘/’. O que eu fiz foi o seguinte: Continuar a ler “SQL: Quantas vezes um caractere específico aparece?”

Gráficos em Python Usando Pyplot e Seaborn

É possível fazer excelentes análises exploratórias no Python. Na última live que fiz no meu canal da Twitch, www.twitch.tv/yukiolive, mostrei algumas funcionalidades do Matplotlib e Seaborn. Como fazer gráficos de dispersão, de barras, como alterar os eixos, alterar o tamanho da figura utilizando plt.figure(), alterar o título (incluindo o tamanho e cor da fonte), dentre outras tantas coisas. Caso você não tenha assistido a live, fica o convite. E se você tiver interesse em olhar o material – que eu acredito estar bem auto-explicativo – você pode acessar meu github no link abaixo e estudar tudo o que foi feito. Além de poder explorar algumas bases interessantes! Continuar a ler “Gráficos em Python Usando Pyplot e Seaborn”

Erro na Leitura do CSV no Pandas (Python)

Muitos já viram o seguinte erro ao importar um arquivo csv no pandas:

ParserError: Error tokenizing data. C error: Expected 44 fields in line 66, saw 46

Ao que tudo indica, o Python esperava encontrar 44 campos na linha 66 e encontrou 46. Isso pode ter várias causas, mas uma das mais comuns é o arquivo ter um separador como a vírgula ou ponto-e-vírgula e algum campo também ter esse separador. Mas como resolver isso? Continuar a ler “Erro na Leitura do CSV no Pandas (Python)”

Trilha para Data Science em R (Springer)

Como vocês já sabem, a Springer disponibilizou diversos livros gratuitos. Dentre eles, há vários que podem ser utilizados para aprender mais sobre Ciência de Dados (separei alguns no post Livros da Springer – Gratuitos). Aqui, separei uma trilha de Data Science em R somente utilizando os livros disponibilizados por eles: Continuar a ler “Trilha para Data Science em R (Springer)”

Minha Trilha para Se Tornar um Cientista de Dados

A pergunta que mais recebo é de longe, mas disparado MESMO, quais livros alguém deve seguir para sair do zero e se tornar um cientista de dados. Pensando nisso, resolvi fazer esse post com uma trilha do que considero o ideal para alguém partir do zero e se tornar um cientista de dados. Claro, pode existir um assunto ou outro fora daqui que você pode acabar se deparando quando for efetivamente um profissional da área. Ainda assim, acho que deu para cobrir o essencial. Continuar a ler “Minha Trilha para Se Tornar um Cientista de Dados”

Gráficos com Dois Eixos-Y no Python

Ok, eu acabei de escrever um artigo falando para que você não utilize gráficos com dois eixos-y. Esse uso é desonesto, leva o leitor a interpretar de forma equivocada os dados. Se quiser entender melhor, leia o post O Problema com Dois Eixos-Y. Mas vamos supor que seu chefe mande você fazer isso, ele não se importa com esses problemas. Eu vou te deixar na mão? Claro que não. Abaixo, você encontra os códigos que utilizei para gerar os gráficos do post anterior. Continuar a ler “Gráficos com Dois Eixos-Y no Python”

O Problema dos Gráficos com Dois Eixos-Y

Gráficos com dois eixos-y são constantemente criticados por estatísticos e economistas, ao menos entre os mais experientes com análise exploratória. Para os leigos ou com pouco contato com esse tipo de análise é meio estranho essa implicância. Mas acredite em mim, não é em vão. Continuar a ler “O Problema dos Gráficos com Dois Eixos-Y”

Livros da Springer disponíveis para download gratuitos

A Springer liberou diversos livros para download em PDF. É uma editora excelente, uma das minhas preferidas junto com a O’Reilly. Vale a pena conferir alguns para Ciência de Dados: Continuar a ler “Livros da Springer disponíveis para download gratuitos”

Como é a rotina de um cientista de dados?

Essa pergunta é muito comum. Eu mesmo já fiz algumas vezes em entrevista. Bom, não exatamente ela, mas já perguntei como era a típica rotina do analista da área. É interessante saber exatamente o que é feito. Passam o dia programando? Passam o dia vendo modelos estatísticos? Se você tem essa curiosidade, aqui vai a rotina de um cientista de dados. Claro, a resposta ideal e que realmente serviria era: “depende”. Mas para não ficar em cima do muro, vou tentar encontrar o que seria o mais usual. Continuar a ler “Como é a rotina de um cientista de dados?”