Conceitos Básicos de Business Intelligence (BI)

Atualmente, podemos dizer com segurança que entramos na era dos dados e estamos imersos em um mar de dados de diferentes formas, como os estruturados (Exemplo de dados em um banco de dados relacional), semiestruturados (Aqueles que não estão de acordo com a estrutura formal, mas apresentam uma estrutura heterogênea necessitando que a mesma seja identificada como em um e-mail) e não-estruturados (dados originários de textos, onde não se tem uma estrutura, como por exemplo, em redes sociais). Produzimos dados através de tudo que fazemos, seja uma empresa com suas transações, uma simples busca do Google, uma compra na internet, utilizando GPS, até mesmo uma corrida pode ser considerada uma produção de dados.

Dessa forma, as projeções sobre o quanto estamos produzindo não param de crescer. Segundo a empresa de consultoria Gartner, estamos gerando aproximadamente 2,2 milhões de terabytes por dia em todo o mundo. Os dados levantados pela empresa de consultoria americana Visual Capitalist, referente a 2019, mostram o que acontecia na internet em um minuto, o que em 2020 já aumentou com toda certeza.

Fonte: (DESJARDINS, 2019)

O mercado está passando por uma reformulação em busca de profissionais capacitados para lidar com esses dados, porém não encontram o suficiente para atender a demanda. Segundo as análises de empresas como Linkedin e Indeed, hoje estamos criando mais vagas do que conseguimos preencher. As empresas se veem obrigadas a mudar a sua dinâmica empresarial, pois necessitam mais do que nunca implementar métodos e ferramentas de suporte a decisões, algo que no futuro com certeza será uma desvantagem para a empresa que não tiver algum método e/ou ferramenta implementado.

Uma das principais técnicas utilizada para empresas se adequarem a este cenário é o conhecido BI, sigla para Business Intelligence, que apesar de muitos acreditarem ser apenas um software, na verdade existe um conjunto de conceitos, metodologias e ferramentas que possuem como meta criar embasamento para a tomada de decisão através da transformação consciente dos dados, de uma ou mais fontes, em conhecimento de forma sistêmica uma vez implementado.

Fonte: (MARQUES, 2019)

Um dos pontos principais do BI é a forma como os dados são armazenados, saindo do modelo transacional OLTP (On-Line Transaction Processing) para o modelo dimensional OLAP (On-line Analytical Processing). Isso se dá porque o objetivo do modelo OLTP é utilizar comandos de inserção, atualização e/ou exclusão dos dados, ou seja, focado nas transações. Além disso, esse ambiente geralmente utiliza até a 3º forma normal. Com esse cenário, é muito improdutivo realizar consultas de select para analisar os dados, pois imagine um ambiente fazendo as transações e ao mesmo tempo realizando select e produzindo relatórios com esses dados, junto a isso isso as formas normais vão fazer com que se tenha uma quantidade excessiva de joins, prejudicando o processo de uma forma geral. No modelo dimensional OLAP, tem-se a estruturação sem seguir as formas normais e o ambiente só possui inserção de dados na hora de se carregar os dados, após isso são utilizados somente comandos selects, sendo muito mais otimizado para a geração de relatórios e insights. Segue abaixo uma tabela mostrando as principais diferenças entre os modelos:

Fonte: Devmedia

Para se chega até o modelo OLAP porém é necessário passar por alguns processos que começa com a identificação do sistema de origem e de como esses dados estão armazenados nela, depois temos o processo de extrair esses dados e carregá-los no Data Warehouse para somente depois através de alguma técnica apresentar esses dados de forma a transmitir sabedoria para a tomada de decisão. Todo esse caminho pode ser separado em 4 partes: Data Source, Data Integration, Data Storage (Data Warehouse) e Data Analysis.

Data Source

Esta é a etapa inicial do processo de Business Intelligence, consistindo em identificar onde os dados que serão utilizados estão localizados, ou seja, quais são as fontes. Pode ser um banco de dados, sistema ERP, Website, entre outros. Além de identificar, também se deve entender como é o comportamento dela, não se pode tratar da mesma forma os dados vindos de um banco de dados transacional como se trata os dados vindos de uma página web. Às vezes essa análise não tem a sua devida importância o que é um erro grave, pois é o primeiro passo e se estiver errado pode gerar um efeito em cascata.

Data Integration

Depois de identificada e analisada a fonte de dados, o próximo passo é o que muitos consideram a parte mais trabalhosa de todo o projeto de Business Intelligence, que é o chamado ETL (Extract Transform Load) ele tem por objetivo extrair os dados do(s) Data Source(s), realizar um processo de transformação para posteriormente esses dados serem carregados no Data Storage.

Vale ressaltar que o ETL engloba vários conceitos e técnicas próprias e não vamos abordar este processo mais a fundo nesse post, mas futuramente falaremos sobre ele, então não deixem de acompanhar nossas próximas postagens.

Etapas do ETL

Fonte: (Talend, 2019)

Data Storage (Data Warehouse)

É o banco de dados que vai armazenar os dados transformados vindo do processo anterior, popularmente conhecido como Data Warehouse que como já foi dito anteriormente nesse artigo utiliza o modelo dimensional.

Agora deve-se escolher qual modelo dimensional usar, existem dois modelos mais utilizados no mercado, o Snowflake (Floco de Neve) e o Star Schema (Esquema Estrela), e entre eles o mais utilizado é o Star Schema.

Essa preferência pelo modelo Star Scheama se dá principalmente pelo modelo Snowflake utilizar normalização de dados. Apesar de isso fazer com que ele ocupe menos espaço de armazenamento, quanto mais normalizado se encontra o banco mais complexo será para realizar consultas e também para a sua manutenção. Consequentemente isso resulta em uma queda de desempenho que é a principal função do Data Warehouse.

Modelo sem Normalização (Star Scheama)

Fonte: (DRKUŠIĆ, 2019)

Modelo com Normalização (SnowFlake)

Fonte: (DRKUŠIĆ, 2019)

Em ambos os modelos existem o conceito de tabelas dimensões e tabelas fatos

Tabela Dimensão

No esquema estrela, essas tabelas estão sempre ligadas a pelo menos uma tabela fato. Nas tabelas dimensões podem existir três tipos de dados que são a Surrogate Key (Chave substituta), a Natural Key (Chave Natural) e os Atributos. A chave substituta é a chave criada quando são inseridos os dados no Data Warehouse, consistindo na chave primária da dimensão, sendo auto incremental. A chave natural é a mesma chave que era utilizada no banco legado, são as chaves primárias dos bancos OLTP e os atributos são as demais colunas da tabela.

Tabela Fato

No esquema estrela, por um ponto de vista conceitual a tabela fato se encontra no meio, quando se tem várias tabelas fato em um esquema estrela, é dito que se tem uma constelação. O conteúdo desta tabela, como o próprio nome diz, são os fatos que foram reunidos, ou seja, os dados que foram extraídos pelo ETL e carregados no Data Warehouse. A tabela fato possui como estrutura os campos chaves das tabelas dimensões que estão ligadas a ela, ou seja, a tabela fato está sempre ligada às tabelas dimensões e tendo ao menos duas, nunca um número menor que este. Além das chaves das tabelas dimensões, a tabela fato também possuirá métricas que são valores gerados com base nas transações que foram executadas pela empresa.

Data Analyses

Agora que temos o Data Warehouse devidamente carregado e organizado em um formato mais apropriado para o cruzamento dos dados e suas análises, é que efetivamente será gerado o conhecimento para as tomadas de decisões. Para tal, existem diversos conceitos que em combinação com ferramentas irão fazer essa análise exploratória, porém o maior desafio desta etapa é saber qual combinação melhor atenderá as demandas do projeto, não existindo uma solução que possa ser replicada para qualquer problema, poderá ser necessário até mesmo a mesclagem de técnicas para conseguir encontrar uma solução. Inclusive é comum o analista de Business Intelligence trabalhar em conjunto com o usuário final para estabelecer qual será a melhor forma de transmitir o conhecimento, pois em alguns casos pode ocorre do conceito e a ferramenta estarem sendo utilizados de forma correta, porém não ser a opção que melhor transmita as informações para a tomada de decisão.

Hoje a principal forma de se fazer a analise dos dados é com a utilização de Dashboards, que são painéis ilustrativos que de forma centralizada apresentam uma visualização de um conjunto de dados através de um gráfico, ou um conjunto deles, de uma forma macro. Uma de suas grandes vantagens é o suporte à interação no gráfico, podendo fazer um filtro mostrando apenas informações relevantes a determinada área. Por exemplo, imagine um Dashboard com diversas informações mostradas em uma visão macro por estados, com apenas um click pode-se ter essa mesma visão só que de apenas um estado especifico. Isso é uma das coisas mais importantes porque dispensa a produção de um novo gráfico caso se queira uma informação que já esteja no agrupamento.

Com isso o processo de BI é finalizado e os gestores terão em mãos as principais informações para uma tomada de decisão mais assertiva, de forma mais eficiente e até mesmo automatizada.