Business Intelligence Entendendo a Inteligência de Negócios Ms. Fernando Prass Rua Tuiuti 2130, sala 302 Centro - Santa Maria RS (55) 3026-8469 w w w. f p 2. c o m. b r
Agenda Apresentação Business Intelligence Data Warehouse Data Mining Ferramentas Por onde começar? Contato
FP2 Tecnologia Fábrica de software Consultoria e Treinamento
Fernando Sarturi Prass Bacharel em Sistemas de Informação (UNIFRA - 1999) Mestre em Ciência de Computação (UFSC - 2004) Dissertação: Estudo comparativo entre algoritmos de Análise de Agrupamentos em Data Mining Atuação Profissional: Programador (UNIFRA), Analista de Sistema (FEESC), Gerente de Projeto (FEESC) e Diretor (FP2 Tecnologia) Atuação Acadêmica: Professor Universitário (FACVEST, Estácio de Sá, AMF e ULBRA) e Coordenador de Curso de SI (AMF)
O Ambiente de Negócios O modelo Pressões Reações Suporte de Negócios Fatores do ambiente de negócios Globalização, demandas dos consumidores, regulamentações governamentais, mercados, etc. Pressões Oportunidades Adapatado de Turban et. al. Business Intelligence. p.24. Reações da organização Estratégia, maior produtividade, novos negócios, colaboração entre parceiros, novos fornecedores, novos modelos, etc. Decisões e suporte Análise, decisões, previsões Suporte computadorizado Business Intelligence
Business Intelligence (BI) É um termo guarda-chuva Inclui arquiteturas, ferramentas, bancos de dados, aplicações e metodologias; É uma expressão livre Pode significar coisas diferentes para pessoas diferentes Objetivos do BI: Permitir acesso interativo aos dados; Proporcionar a manipulação desses dados; e Fornecer conhecimentos para a tomada de decisões
Um conceito de BI BI é uma metodologia que permite transformar dados em informações qualificadas, gerando conhecimento para a tomada de decisões.
Dado > Informação > Conhecimento Dado Informação Conhecimento Observações documentadas, em texto, figuras, tabelas. Conjunto de número ou caracteres, etc. Resultado do agrupamento, manipulação e/ou organização dos dados gerando mudanças quantitativas e/ou qualitativas. Aquilo que foi vivenciado, utilizado ou aprendido por alguém. Interpretação ou modificação da informação.
Histórico O termo BI foi criado por Gartner Group no início da década de 1990, entretanto sua origem está nos primeiros SIG (1970). Neste período os relatórios eram estatísticos, bidimensionais e não possuíam recursos de análises. No início dos nos 1980 surge o conceito de sistemas de informações executivas (EIS). Este conceito expandiu o suporte computadorizado aos gerentes e executivos de nível superior
Público Alvo O conhecimento gerado pelo BI possui um público alvo específico: alta gerência e diretoria ERPs respondem a perguntas simples: Qual o valor total vendido na última semana? BI responde a perguntas complexas: Estratégico Tático Operacional Qual o valor total vendido, por semana, neste ano, excetuando-se as semanas em que houveram feriados? Qual a diferença entre as vendas da Páscoa deste ano em relação a Páscoa do ano passado?
Vantagens do BI The Data Warehouse Institute publicou um estudo com 510 corporações denominado Smart Companies in the 21 st Century, que mostra que BI trouxe...... economia de tempo para 61% delas... versão única da verdade para 59% delas... melhores estratégias e planos para 57% delas... melhores decisões táticas para 56% delas... processos mais eficientes para 55% delas... economia de custos para 37% delas
Arquitetura e componentes do BI KDD Fontes de Dados Conhecimento ERP informação OLAP Suporte Dado ETL Data Warehouse DM DM DM informação Decisão
Data Warehouse Segundo Kimball (1998), Data Warehouse é uma coleção de dados orientados por assunto, integrados, temporais e não voláteis, utilizados para suportar processos de tomada de decisão (BI) Estes dados, em geral, estão organizados num Modelo Dimensional, também conhecido como Modelo/Esquema Estrela (uma espécie de banco de dados não normalizado)
Modelo Dimensional Técnica que busca apresentar os dados numa estrutura padronizada, mais intuitiva e com alto desempenho de acesso. Específica para suportar processamento analítico - OLAP; Evita-se a utilização da técnica de normalização; Cada modelo dimensional é composto de uma tabela com múltiplas chaves (fato) e um conjunto de outras tabelas (dimensões)
Exemplo de Modelo Estrela LOCADORA ID_LOCADORA: INTEGER NOME_LOCADORA: VARCHAR(25) RUA_LOCADORA: VARCHAR(40) FONE_LOCADORA: CHAR(11) NOME_DISTRIBUIDOR: VARCHAR(25) ENDERECO_DISTRIBUIDOR: VARCHAR(45) CIDADE_DISTRIBUIDOR: VARCHAR(20) ESTADO_DISTRIBUIDOR: CHAR(2) CEP_DISTRIBUIDOR: CHAR(8) FONE_DISTRIBUIDOR: CHAR(10) FILMES ID_FILME: INTEGER ID_FILME_ATUALIZACAO: INTEGER NUM_COPIA_FILME: INTEGER VALOR_PAGO: DOUBLE PRECISION CONDICAO_GERAL: CHAR(1) NUM_FILME: INTEGER NOME_FILME: VARCHAR(25) DIRETOR_FILME: VARCHAR(25) CATEGORIA_FILME: INTEGER ESTRELA_FILME: VARCHAR(25) CENSURA: CHAR(1) TAXA_ALUGUEL_FILME: DOUBLE PRECISION DATA_FILME: DATE ALUGUEL ID_FILME: INTEGER ID_LOCADORA: INTEGER ID_CLIENTE: INTEGER ID_FUNCIONARIO: INTEGER ID_TEMPO_RETIRADA: INTEGER ID_TEMPO_RETORNO: INTEGER NUM_ALUGUEL_FILME: INTEGER VALOR_ALUGUEL: INTEGER TEMPO ID_TEMPO: INTEGER DATA: DATE ANO: SMALLINT MES: SMALLINT DIA: SMALLINT DIA_SEMANA: SMALLINT FERIADO: CHAR(1) VESPERA_FERIADO: VARCHAR(1) TEMPORADA: VARCHAR(30) EVENTO: VARCHAR(30) CLIENTE ID_CLIENTE: INTEGER NOME_CLIENTE: VARCHAR(25) ENDERECO_CLIENTE: VARCHAR(40) CIDADE_CLIENTE: VARCHAR(29) ESTADO_CLIENTE: CHAR(2) CPF_CLIENTE: CHAR(11) FONE_CLIENTE: VARCHAR(10) NUM_CLIENTE: INTEGER FUNCIONARIO ID_FUNCIONARIO: INTEGER NOME_FUNCIONARIO: VARCHAR(25) NOME_SUPERVISOR: VARCHAR(25) NOME_LOCADORA: VARCHAR(25) ENDERECO_FUNCIONARIO: VARCHAR(4) CIDADE_FUNCIONARIO: VARCHAR(20) ESTADO_FUNCIONARIO: CHAR(2) CEP_FUNCIONARIO: CHAR(8) FONE_FUNCIONARIO: CHAR(10) CPF_FUNCIONARIO: CHAR(11) INGRESSO_FUNCIONARIO: DATE
OLAP On-line Analytical Processing (OLAP) é a capacidade para manipular e analisar um grande volume de dados sob múltiplas perspectivas. Consultas ad-hoc: geradas pelos usuários finais de acordo com suas necessidades Slice and Dice: possibilita a alteração da perspectiva de visão. Troca de linhas por colunas de maneira a facilitar a compreensão dos dados (girar o cubo). Drill down/up: consiste em realizar exploração em diferentes níveis de detalhes da informação. Com drill down dividi-se um item de resumo em seus componentes detalhados, como por exemplo ano, semestre trimestre, mensal e diário.
KDD O Knowledge Discovery in Databases (KDD) é o processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados (FAYYAD et al., 1996). Não trivial já que alguma técnica de busca ou inferência é envolvida (não é apenas um processo de computação direta). Os padrões descobertos devem ser válidos com algum grau de certeza, novos, trazer algum benefício e serem compreensíveis (se não imediatamente então depois da interpretação).
Fases do KDD Adaptado de Fayyad et. al. From data mining to knowledge discovery, 1996. Embora as fases devam ser executadas na ordem apresentada, o processo é interativo e iterativo. Interativo, pois o usuário pode, e por vezes necessita, intervir e controlar o curso das atividades. Iterativo, por ser uma sequência finita de operações em que o resultado de cada uma é dependente das anteriores.
Data Mining Data Mining é o processo de reconhecimento de padrões válidos ou não, existentes nos dados armazenados em grandes bancos de dados (FAYYAD et al., 1996) É a exploração e análise, de forma automática ou semiautomática, de grandes bases de dados com objetivo de descobrir padrões e regras. O objetivo do processo é fornecer as corporações informações que as possibilitem montar melhores estratégias de marketing, vendas, suporte, melhorando assim os seus negócios
Os tipo de Data Mining Confirmatório O usuário determina uma hipótese e investiga os dados O sistema devolve uma resposta ao usuário, confirmando ou não sua hipótese Problema É bastante difícil para o usuário definir, a priori, hipóteses confirmatórias Exploratório O usuário seleciona variáveis relevantes O sistema aciona mecanismos de associação e investiga a base de dados Problema Associações importantes podem não ser detectadas em função de variáveis mal escolhidas
Técnicas de Data Mining Não existe uma técnica que resolva todos os problemas de data mining. Diferentes técnicas servem para diferentes propósitos, cada uma oferecendo vantagens e desvantagens. A escolha da técnica está fortemente relacionada com o tipo de conhecimento que se deseja extrair ou com o tipo de dado no qual ela será aplicada. As mais conhecidas e usadas são: Árvores de Decisão; Regras de Indução; Redes Neurais; Análise de Agrupamentos
Aplicações Marketing: redução dos custos com o envio de correspondências (mala direta) a partir da identificação de grupos de clientes potenciais. Detecção de fraude: reclamações indevidas de seguro, chamadas clonadas de telefones celulares, compras fraudulentas com cartão de crédito. Investimento: diversas empresas têm usado técnicas de DM para obter ganhos financeiros, especialmente no mercado de ações e na previsão da cotação do dólar.
Exemplo de Caso: Interconexões Operadora A Operadora B Quando um usuário da Operadora A liga para outro da Operadora B, existe a chamada Tarifa de Interconexão. Hoje o custo é de cerca de R$ 0,35 por minutos. Controlar o tempo de chamada no horário de pico é complexo e pequenas diferenças (1 a 3 segundos) podem ocorrer.
Ferramenta de DW - Mondrian Ferramenta open source para a execução de consultas OLAP em base de dados Disponível em http://mondrian.pentaho.com
Ferramenta de DM - Weka Ferramenta open source que contempla os principais algoritmos de Data Mining Disponível em www.cs.waikato.ac.nz/ml/weka
Por onde começar?!?
Business Intelligence Business Intelligence: Um enfoque gerencial para a inteligência do negócio Efraim Turban; Ramesh Sharda; Jay E. Aronson; David King Custo: R$ 65,00
Data Warehouse Tecnologia e Projeto de Data Warehouse Felipe Nery Rodrigues Machado Custo: R$ 71,00
Data Mining Data Mining with Microsoft SQL Server 2008 Jamie MacLennan ZhaoHui Tang Bogdan Crivat Custo: U$ 41,00
Dados para Praticar Portal Brasileiro de Dados Abertos www.dados.gov.br Teradata University Network www.teradatauniversitynetwork.com
Referências Bibliográficas FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining. England: AAAI Press/The MIT Press, 1996, p.1-34. KIMBALL, Ralph; REEVES, Laura; ROSS, Margy & Thornthwaite. The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses. NewYork: John Wiley & sons,1998. TURBAN, Efraim; SHARDA, Ramesh; ARONSON, Jay; KING, David. Business Intelligence: um enfoque gerencial para a inteligência do negócio. Porto Alegre: Bookman, 2009.
Contato www.fp2.com.br www.fp2.com.br/blog www.twitter.com/fp2tecnologia www.facebook.com/fp2tecnologia