Esta foi a descoberta, se não mais útil, mais divertida que tive até agora no Python. Recentemente, foi lançado o pacote MPLCYBERPUNK. Essa biblioteca sensacional foi baseada no Matplotlib e faz gráficos que vai deixar os nerds que nem eu doidos. Sem mais delongas, hoje é dia de fazer gráficos Cyberpunk no Python! Continuar a ler “Gráficos cyberpunk no Python!”
Pipeline usando Scikit-Learn: Exemplos Práticos
No post Introdução aos Pipelines no Scikit-Learn, mostrei alguns exemplos de pipelines utilizando a biblioteca mais famosa para machine learning no Python. Hoje, quero mostrar alguns exemplos de pipelines com diferentes funcionalidades. Sendo assim, será um post bastante direto e prático, mas que deve ajudar bastante o leitor. Bora ver logo exemplos práticos de pipelines usando scikit-learn! Continuar a ler “Pipeline usando Scikit-Learn: Exemplos Práticos”
Código para realizar testes AB no R
Recentemente, comecei a utilizar o R para realizar meus testes AB. Afinal, o R é a linguagem ideal quando o tema é estatística, logo, não tinha motivos para não dar uma chance. Gostei bastante, achei fácil de encontrar as funções que precisava e interessante de como é possível executar um AB de ponta a ponta nessa linguagem que eu abandonei por um tempo. Sendo assim, abaixo você encontrará completo o código para realizar testes AB no R. Continuar a ler “Código para realizar testes AB no R”
Os melhores podcasts de ciência de dados!
Se você é uma pessoa antenada, provavelmente já escutou que 2020 é o ano dos podcasts. Com o investimento mais pesado nos últimos anos de grandes empresas como a Rede Globo, na produção de conteúdo, e o Spotify, como plataforma de distribuição, o produto ganha cada vez mais espaço na vida do brasileiro. E é claro que a nossa área não ficou de fora do hype. Sendo assim, o post de hoje vai trazer uma lsita com os melhores podcasts de ciência de dados! Continuar a ler “Os melhores podcasts de ciência de dados!”
Análise de texto usando Python
A análise de texto (~text mining) consiste no processo de obter informações através de dados no formato de um texto. Por se tratar de dados não-estruturados, a limpeza e tratativa é parte relevante e pouco trivial do processo. Falei brevemente de text mining no post Introdução ao Text Mining com Python. Hoje, volto ao tema utilizando uma biblioteca que me deixou bastante surpreso com seu poder de análise: a texthero! Continuar a ler “Análise de texto usando Python”
Um jeito super fácil de criar e excluir colunas no R
Manipular dados no R é super prático desde sempre. Mas há uma função em especial que eu tenho grande apreço, pois não apenas é fácil de utilizar, mas a sintaxe é extremamente intuitiva. As funções que serão vistas aqui servem para criar novas colunas de diversas formas, novas colunas com base na soma ou outra operação com colunas existentes, pegando o valor da linha anterior ou posterior, soma cumulativa, percentual por linha, dentre outras coisas. Sem mais delongas, vamos falar do mutate() e do transmute()! Continuar a ler “Um jeito super fácil de criar e excluir colunas no R”
Tudo sobre valores missing no Pandas!
Lidar com valores nulos não é difícil para quem usa Pandas. Porém, é legal que o usuário tenha em mente todas as possibilidades, formas de identificar missing, como preenchê-los ou excluí-los, a depender da estratégia, dentre outras coisas. Se você está precisando de dicas para lidar com valores nulos no Pandas, este post é para você! Abaixo, temos diversas estratégias e comandos que serão úteis para quem está tendo que lidar com esse problema. Continuar a ler “Tudo sobre valores missing no Pandas!”
Tabela dinâmica no Python
Seguindo a linha de posts feitos para ajudar quem está migrando do Excel para o Python, hoje aprenderemos como fazer a famosa tabela dinâmica. Não tem muito segredo, você verá que o Pandas ajuda muito quem veio do Excel. Qualquer dúvida, deixe seu comentário. Se tiver elogios ou críticas, manda bala também! Continuar a ler “Tabela dinâmica no Python”
Filtros e seleções no Pandas
Sendo o Pandas a principal biblioteca do Python para fazer tratamentos nos dados, saber como localizar, selecionar e filtrar elementos nos dataframes dela é essencial. No vídeo de hoje, temos todas as formas de filtrar colunas e linhas, localizar a célula de acordo com a posição da linha e coluna ou a posição da linha e nome da coluna, dentre outras coisas. Abaixo, você encontra um vídeo contemplando as funções loc e iloc, o uso de pandasql, query, filter, e por aí vai. Bora pra mais um vídeo! Continuar a ler “Filtros e seleções no Pandas”
Introdução aos Pipelines no Scikit-Learn
Não vou mentir, pipeline sempre foi um tema negligenciado por mim. Não usava sempre que possível e, quando usava, era no automático. Usava somente por usar, mas nunca prestando atenção no seu potencial. De uns tempos para cá isso mudou. Neste post, vou introduzir o tema pela primeira vez aqui no EstatSite. Continuar a ler “Introdução aos Pipelines no Scikit-Learn”