Do BI ao Data Science
Explorando modelos de dados em Excel e R
Gustavo Mirapalheta
11 de agosto de 2017
1 Introdução
Este livro foi escrito por um usuário do Excel para usuários de Excel! Muitos criticam o Excel, mas mesmo estes, todos os dias pela manhã, ligam seus computadores e trabalham em relatórios e modelos feitos neste software. As vantagens proporcionadas por uma planilha eletrônica são inquestionáveis. Além disso, sua curva de aprendizado é suave, quase nula. Hoje em dia não perguntamos se uma pessoa conhece o Excel. Esperamos que a pessoa o conheça.No entanto, algum tempo depois de iniciarmos o seu uso, surgem limitações. Seja porque a planilha pode lidar com tabelas de no máximo 1M de linhas, juntar os dados de várias abas é difícil, o gráfico não está disponível ou o Excel não faz o cálculo que queremos, em algum momento atingimos uma barreira. É nestas horas que o guru de plantão nos dirá que é necessário usar um software de estatística ou de banco de dados.
Abrimos o manual deste software que nos foi indicado, buscamos informações na internet, as vezes até mesmo o help online do produto, tudo na tentativa de preparar o relatório ou análise que nos foi pedida, mas invariavelmente nos sentimos perdidos. Sabemos que o software indicado é capaz de resolver o problema, mas não conseguimos andar. Tudo é diferente. Sabemos como realizar as operações necessárias, mas no Excel e não no ambiente que precisamos agora trabalhar. Se neste momento existisse um guia, um passo-a-passo que ensinasse como fazer neste ambiente o que já sabemos fazer no Excel, isto sim seria um manual interessante. Pois é este o objetivo deste livro. Transpor esta ponte, mas partindo do princípio que o usuário não quer saber apenas como fazer, mas sim como fazer no ambiente novo, o que ele já sabe como poderia ser feito no Excel.
Quando é necessário combinar dados de várias fontes em um único relatório, até pouco tempo atrás era necessário usar um banco de dados relacional e aprender SQL. Quando o usuário precisa realizar uma análise complexa do ponto de vista matemático, com funções de estatística que não são suportadas nativamente na planilha, uma recomendação que tem se tornado cada vez mais comum é usar o software de estatística chamado R. O primeiro problema chamamos de “Business Intelligence” ou Inteligência de Negócios. O segundo problema passou recentemente a ser chamado de “Data Science” ou Ciência dos Dados. Até pouco tempo atrás o R era visto como um software acadêmico, usado por estatísticos quando o consultor queria uma solução baseada apenas em custo. Não mais! Dada a modularidade do R (os famosos pacotes de funções) mais e mais recursos, mais e mais similares aos disponíveis em uma planilha se tornaram disponíveis.
Estes serão os nossos dois companheiros. R e Excel. A metodologia de ensino será sempre como fazer no R algo que fazemos hoje no Excel. Mais importante ainda, sempre do ponto de vista de um usuário que quer resolver um problema de trabalho. Com o passar dos capítulos e dos exemplos, vamos apresentar as situações em que somente o R é capaz de resolver, deixando o Excel na função de interface final. Esperamos com isso tornar mais fácil a curva de aprendizado do R e mostrar aos usuários do Excel que esta é uma forma de ampliar os horizontes de utilização da própria planilha eletrônica. Bom divertimento!