Os termos Machine Learning e Data Science, ou no português Aprendizado de Máquina e Ciência de Dados, estão na moda. Não dá mais para negar o hype. É comum, inclusive, as pessoas fazerem o uso dos dois termos de forma intercambiável. Porém, diferente de muitas coisas que são tratadas como as mesmas, mas com nomes diferentes, creio que aqui exista diferença. Vamos tentar entender o que aborda cada uma dessas áreas.
Quando uma pessoa pensa em Machine Learning, em uma máquina aprendendo, é comum que se ligue isso a robôs. No entanto, a área está longe de ser somente isso. Na verdade, a área está muito mais próxima do que você imagina. Várias das recomendações que você recebe na internet são fruto de aprendizado de máquina Pode ser a propaganda de um carro que você estava pensando em comprar – calma, não tem ninguém te ouvindo… ainda! – ou de um filme para você assistir. Todos esses exemplos são frutos de soluções geradas utilizando o aprendizado de máquinas.
O princípio fundamental do Machine Learning é que o seu computador deve estar aprendendo. Como bem define o excelente livro Hands on Machine Learning with Scikit-Learn and Tensorflow, Machine Learning é a ciência de programar computadores para que eles possam aprender através dos dados. Sendo assim, para você saber se está lidando com essa ciência, deve se perguntar se sua máquina está aprendendo.
Um exemplo clássico de algoritmo de aprendizado de máquinas que é citado por muitos livros é a identificação de spams nos e-mails. Quando você mostra para o seu computador diversos e-mails marcados como SPAM ou NÃO-SPAM, ele vai tentar identificar os padrões que os e-mails que são SPAMs possuem. Quando ele observar um e-mail futuro, ele vai saber identificar se é ou não um spam. Mais do que isso, quanto mais você alimentar o seu programa com informações de outros e-mails, mais ele vai melhorar a performance e se adaptar a mudanças nos padrões dos e-mails que são spams. A sua máquina está aprendendo!
E Data Science? Não é a mesma coisa?
A Ciência de Dados tem uma definição muito mais ampla. Embora as pessoas tenham a tendência a olhar para o cientista de dados como um cara que vai ficar criando uma porrada de algoritmos complexos, a função dele está longe de ser essa. Como diria JOMA TECH: o cientista de dados é responsável por criar impacto na sua empresa, utilizando dados.
A Ciência de Dados é uma área interdisciplinar voltada para o estudo dos dados, contemplando a extração e mineração, análise e identificação de padrões afim de obter insights para os negócios. Em outras palavras, o cientista de dados vai coletar e analisar dados para gerar valor ao negócio. Isso pode envolver uma análise gráfica, um teste A/B ou outro experimento, modelagem estatística e forecast, dentre outras coisas. Pode envolver aprendizado de máquina? Com certeza! Se resume a isso? De jeito nenhum.
Espero que tenham entendido a diferença e o que esperar quando for adentrar algum desses campos.
Gostou do conteúdo? Se inscreva para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato.
Bons estudos!