Regressão linear é o primeiro algoritmo que aprendemos quando estudamos ciência de dados e machine learning. Apesar de muito útil, o algoritmo buscará sempre minimizar a soma dos quadrados de forma que se obtenha um modelo com o menor erro possível. Isso pode levar ao problema de overfitting (já explicado em posts como Overfitting e Cross Validation e Explicando overfitting com uma anedota). Uma forma de resolver isso é utilizando a regressão ridge ou lasso!
Continuar a ler “Regressão Ridge e Lasso”
Etiqueta: modelagem estatística
Pipeline usando Scikit-Learn: Exemplos Práticos
No post Introdução aos Pipelines no Scikit-Learn, mostrei alguns exemplos de pipelines utilizando a biblioteca mais famosa para machine learning no Python. Hoje, quero mostrar alguns exemplos de pipelines com diferentes funcionalidades. Sendo assim, será um post bastante direto e prático, mas que deve ajudar bastante o leitor. Bora ver logo exemplos práticos de pipelines usando scikit-learn! Continuar a ler “Pipeline usando Scikit-Learn: Exemplos Práticos”
Dividindo o dataset em treino e teste no Python
Quem está começando os primeiros modelos estatísticos sabe que uma coisa padrão é dividir a base em duas: treino e teste. A primeira é utilizada para construção do modelo e a segunda para testá-lo, verificar sua performance e entender se ele está overfittando – para overfitting, ler Overfitting e Explicando overfitting com uma anedota. Hoje, vamos ver como fazer essa divisão no Python. Bora! Continuar a ler “Dividindo o dataset em treino e teste no Python”
Machine Learning do Zero no R
Análogo ao que foi feito no post Machine Learning do Zero no Python, teremos agora no blog um tutorial bem tranquilo, do ZERO, para quem quer aprender Machine Learning / Ciência de Dados, utilizando R. Não fique com medo por ser um post mais extenso, você pode fazer um pouco cada dia durante um certo período de tempo, caso sinta que está pesado demais. Abaixo, você vai aprender a tratar os dados, fazer filtros, localizar valores nulos, criar gráficos e até conhecer alguns modelos. Então bora aprender! Continuar a ler “Machine Learning do Zero no R”
Algoritmo de Classificação: KNN (K Nearest Neighbors)
O algoritmo KNN, abreviação de K Nearest Neighbors, é um algoritmo bastante utilizado por cientistas de dados, principalmente pela sua facilidade de implementação (além de ser um lazy learner*). É um algoritmo supervisionado de machine learning, utilizado para problemas de classificação e regressão. Hoje, o foco é na parte de classificação. A ideia é simples, separar os indivíduos em grupos (ou classes) de acordo com a semelhança existente. Vamos entender o que isso quer dizer… Continuar a ler “Algoritmo de Classificação: KNN (K Nearest Neighbors)”
Regressão Logística: Conceitos Essenciais e Modelo
Regressão Logística, também chamada de Logit, é uma técnica de modelagem utilizada para lidar com variáveis binárias (0 ou 1). Para responder a questões como “qual o salário de um indivíduo, dado seus anos de estudos”, “qual o valor de uma casa, dadas suas características”, a regressão linear é suficiente. Entretanto, se quisermos responder a questões como “o indivíduo vai pagar uma dívida?”, “o consumidor vai comprar determinado produto?”, i.e., perguntas de sim (=1) ou não (=0), aí faz sentido usar outro modelo, dentre as diversas possibilidades temos a regressão logística. Continuar a ler “Regressão Logística: Conceitos Essenciais e Modelo”
Signo no modelo, vale?
Certo dia, uma amiga, da área de modelagem também, me disse a seguinte frase “se eu colocar signo, e for significativo, então eu uso no meu modelo”. Eu esperaria esse comentário de uma pessoa com zero conhecimento em econometria, ou um terraplanista, mas escutar isso de alguém envolvido com data science, me surpreendeu muito. Convenhamos, achar que a posição dos planetas no momento em que a pessoa nasce, significa algo, é muito leviano. Para não dizer outra coisa.
Como ter um modelo overfitted/sobreajustado?
Fez um modelo com preditores complexos e o treinou com poucos exemplos? Mudou a questão inicial para dar uma tunada nos indicadores?
Leia mais…
Muitos posts sobre manipulação de dados?
Às vezes eu tenho vontade de escrever mais sobre técnicas de modelagem estatística, mas me falta tempo por conta do trabalho, mestrado e outros hobbies além do blog. Postar alguma coisa de SAS e R é mais fácil, pois passo boa parte do dia manipulando dados nessas ferramentas. Continuar a ler “Muitos posts sobre manipulação de dados?”
Empréstimos inteligentes para pessoas sem histórico de crédito
Muitas pessoas não sabem o que faz uma pessoa que trabalha com modelagem estatística. E olha que isso pode estar presente no job description de muitos cargos: analista de risco de crédito, inteligência de cobrança, inteligência de mercado, cientista de dados, CRM, big data, pesquisa de mercado, só para citar alguns.
Então vai aí um exemplo prático, e nobre, do uso de modelagem estatística e mineração de dados: