Como ler arquivos pdf no Python e no R

Sempre que estudamos data science, uma das primeiras coisas que aprendemos é como importar arquivos no programa que você estiver usando. Quem nunca precisou de um pd.read_csv(), no Python, ou um fread(), no R, que atire a primeira pedra. A questão é que nem sempre temos csv, às vezes queremos, por exemplo, ler um pdf. E é exatamente isso que vamos ver hoje: como ler arquivos pdf no Python e no R! Continuar a ler “Como ler arquivos pdf no Python e no R”

Calculando o tempo de execução em Python e R

Saber quanto tempo seu script está demorando para ser executado pode ser muito útil. Seja porque você está querendo melhorar o código e quer fazer comparações, ou porque algum processo é demorado e você quer mensurar seu tempo de execução, saber obter este tempo é sempre vantajoso. Sendo assim, hoje vamos aprender como calcular o tempo da execução de um script tanto em Python quanto em R. Continuar a ler “Calculando o tempo de execução em Python e R”

Um jeito super fácil de criar e excluir colunas no R

Manipular dados no R é super prático desde sempre. Mas há uma função em especial que eu tenho grande apreço, pois não apenas é fácil de utilizar, mas a sintaxe é extremamente intuitiva. As funções que serão vistas aqui servem para criar novas colunas de diversas formas, novas colunas com base na soma ou outra operação com colunas existentes, pegando o valor da linha anterior ou posterior, soma cumulativa, percentual por linha, dentre outras coisas. Sem mais delongas, vamos falar do mutate() e do transmute()Continuar a ler “Um jeito super fácil de criar e excluir colunas no R”

Analisando o Twitter com o R

Já havia feito um post sobre Twitter + R em Postando Tweets Diretamente do R, mas hoje vem um mais interessante. Dessa vez, cortesia do grande Fernando Barbalho (sigam esse monstro no Twitter: @BarbalhoFernand), você vai aprender a saber com quais @’s você mais interage! Continuar a ler “Analisando o Twitter com o R”

Teste seus Conhecimentos em Data Science!

Quase que semanalmente, tenho feito alguns quizzes no twitter do EstatSite – você pode seguir indo em @EstatSite – sobre ciência de dados. As perguntas variam e vão desde questões sobre interpretação de gráficos até premissas utilizadas em modelos bastante comuns. Veja uns exemplos: Continuar a ler “Teste seus Conhecimentos em Data Science!”

Python, R ou SAS? Meus 2 centavos sobre esse debate!

Eu não costumo dar muitos pitacos sobre a discussão R ou Python. Na verdade, tem vezes que falo, mas é sempre falando que não importa. Recentemente, solicitaram minha resposta no Quora e resolvi atender ao pedido. Segue minha resposta. Continuar a ler “Python, R ou SAS? Meus 2 centavos sobre esse debate!”

Machine Learning do Zero no R

Análogo ao que foi feito no post Machine Learning do Zero no Python, teremos agora no blog um tutorial bem tranquilo, do ZERO, para quem quer aprender Machine Learning / Ciência de Dados, utilizando R. Não fique com medo por ser um post mais extenso, você pode fazer um pouco cada dia durante um certo período de tempo, caso sinta que está pesado demais. Abaixo, você vai aprender a tratar os dados, fazer filtros, localizar valores nulos, criar gráficos e até conhecer alguns modelos. Então bora aprender! Continuar a ler “Machine Learning do Zero no R”

Tweet: Operador Pipe (%<%) no R

Aqui vai uma recomendação que fiz do uso do operador Pipe no R. Por ser algo curtinho, fiz de uma forma bem informal e breve. No futuro, incluo um post mais trabalhado aqui no blog. Espero que gostem da dica. Como sempre, quaisquer dúvidas é só comentar no post, escrever pelo link em Sobre o Estatsite ou mandar uma DM pelo Twitter. Continuar a ler “Tweet: Operador Pipe (%<%) no R"

Algoritmo de Classificação: KNN (K Nearest Neighbors) no R

O código a seguir é um exemplo de execução de KNN no R. Além do código para executar o algoritmo em si, você verá que há uma parte de análise descritiva que eu inseri. É sempre interessante saber o que há no seu conjunto de dados. No caso, utilizaremos um dataset famoso chamado iris que não requer nenhum download. Peço encarecidamente que você visite o post Algoritmo de Classificação: KNN (K Nearest Neighbors), caso conheça pouco do algoritmo KNN. Continuar a ler “Algoritmo de Classificação: KNN (K Nearest Neighbors) no R”