SPSS Data Mining Tips



Documentos relacionados
PSE Data Mining Tips

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

Como elaborar um Plano de Negócios de Sucesso

PHC Serviços CS. A gestão de processos de prestação de serviços

PHC dteamcontrol Interno

Capítulo. Sistemas de apoio à decisão

. evolução do conceito. Inspecção 3. Controlo da qualidade 4. Controlo da Qualidade Aula 05. Gestão da qualidade:

DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004)

Soluções de análise preditiva para optimizar os processos de negócio. João Pequito. Director Geral da PSE

Apresentação de Solução

Controlo da Qualidade Aula 05

Software PHC com MapPoint

Tópicos Abordados. Pesquisa de Mercado. Aula 1. Contextualização

Soluções de Gestão Integradas SENDYS ERP. Otimize a Gestão do Seu Negócio!

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Começo por apresentar uma breve definição para projecto e para gestão de projectos respectivamente.

O DESAFIO DOS EXECUTIVOS

PHC dcontroldoc. O acesso a diversos tipos de ficheiros

Guia de orientação Criação do Próprio Emprego

O aumento da força de vendas da empresa

Apresentação da Solução. Divisão Área Saúde. Solução: Gestão de Camas

Suporte Técnico de Software HP

PHC dcrm. Aumente o potencial da força de vendas da sua empresa, ao aceder remotamente à informação comercial necessária à sua actividade

NP EN ISO 9001:2000 LISTA DE COMPROVAÇÃO

PHC dteamcontrol Interno

Conceito. As empresas como ecossistemas de relações dinâmicas

PROCEDIMENTOS DE MUDANÇA DE COMERCIALIZADOR - CONSULTA PÚBLICA -

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

Segurança e Higiene no Trabalho

PHC Workflow CS. O controlo e a automatização de processos internos

Estratégias para aumentar conversões

Modelo Cascata ou Clássico

1. Motivação para o sucesso (Ânsia de trabalhar bem ou de se avaliar por uma norma de excelência)

Certificação da Qualidade dos Serviços Sociais. Procedimentos

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

Módulo 15 Resumo. Módulo I Cultura da Informação

Estabelecendo Prioridades para Advocacia

Em início de nova fase, forumb2b.com alarga a oferta

Business Intelligence & Performance Management

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

Servidores Virtuais. Um servidor à medida da sua empresa, sem investimento nem custos de manutenção.

Indicadores Gerais para a Avaliação Inclusiva

Negócios à Sua dimensão

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

PORQUÊ O PHC ENTERPRISE CS?

PHC XL CS. Reporting Financeiro em Microsoft Excel. O que ganha com este software:

Manual do Revisor Oficial de Contas. Directriz de Revisão/Auditoria 300 ÍNDICE

Extração de Requisitos

ARQUIVO DIGITAL e Gestão de Documentos

FERRAMENTAS E SOLUÇÕES DE APOIO À GESTÃO E MANUTENÇÃO DE ATIVOS

AVALIAÇÃO DA SATISFAÇÃO DO CLIENTE NOS SERVIÇOS SAGRA ONLINE

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS

Gestão do Risco e da Qualidade no Desenvolvimento de Software

O aumento da qualidade e eficiência das vendas

ARTIGO TÉCNICO. Os objectivos do Projecto passam por:

PHC Recursos Humanos CS

Análise de Sistemas. Conceito de análise de sistemas

Implemente a sua solução de Gestão de Marketing, Vendas e Serviço de Clientes, em menos de 7 dias.

Moçambique. Agenda EVENTOS 2013 NEW!! INSCREVA-SE EM. Também in Company. VISITE

ACOMPANHAMENTO GERENCIAL SANKHYA

Processo do Serviços de Manutenção de Sistemas de Informação

4 passos para uma Gestão Financeira Eficiente

Seção 2/E Monitoramento, Avaliação e Aprendizagem

A Gestão, os Sistemas de Informação e a Informação nas Organizações

Plataforma de Gestão de Actualizações de Software Descrição do Problema

MANUAL DE INSTRUÇÕES

Serviço a Pedido ( On Demand ) da CA - Termos e Política de Manutenção Em vigor a partir de 1 de Setembro de 2010

A Gestão da experiência do consumidor é essencial

SMARTCALL. Apresentação

Solução Integrada para Gestão e Operação Empresarial - ERP

Como melhorar o atendimento ao cliente através de uma abordagem multicanal

Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?

PHC Consolidação CS. A execução da consolidação contabilística de grupos de empresas

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

A gestão completa dos seus recursos humanos

O que ganhar com o nosso GRUPO?

PHC Factoring CS. A solução para a gestão dos contratos de Factoring, respectivas cessões, adiantamentos e recibos das entidades aderentes.

APOO Análise e Projeto Orientado a Objetos. Requisitos

COMO FAZER A TRANSIÇÃO

CRM. Customer Relationship Management

ISO 9001:2015 Avaliações de Transição Manual do Cliente

Consultadoria, Pesquisas de Mercado e Opinião

Programa de Parcerias e Submissão de Propostas 2014/15

Módulo 4. Construindo uma solução OLAP

TRANSIÇÃO DA ISO 9001:2000 PARA ISO 9001:2008 DOCUMENTO SUMÁRIO DE ALTERAÇÕES ALTERAÇÕES QUE PODEM AFECTAR O SISTEMA

Gestão dos Níveis de Serviço

Gestão da Qualidade. Identificação e Quantificação de Indicadores de Desempenho nos SGQ :12 Natacha Pereira & Sibila Costa 1

Transcrição:

SPSS Data Mining Tips Um guião para ajudá-lo a poupar tempo e dinheiro quando planeia e executa um projecto de data mining. Índice Introdução... 2 Dicas gerais para data mining... 3 Compreensão do problema... 4 Compreensão dos dados.. 5 Preparação dos dados... 5 Modelização 6 Avaliação... 7 Distribuição dos resultados. 7 Selecção de uma ferramenta de data mining... 7 Conclusão... 8 A SPSS Inc... 9 Os produtos SPSS... 9 1

Introdução Você está envolvido num projecto de data mining? Ou vai realizar o seu primeiro projecto? Qualquer que seja o seu nível de experiência, o SPSS Data Mining Tips ajudá-lo-á a planear e executar essa tarefa. Utilize as dicas adiante apresentadas para poupar recursos tempo e dinheiro e obter resultados mensuráveis. No decorrer da leitura verá símbolos que ajudá-loão a compreender melhor a informação deste guião. Este símbolo indica um exemplo ilustrativo de uma dica em particular. Em caso de dúvidas sobre qualquer dos temas em discussão neste documento contacte localmente a PSE ou visite o site www.spss.com. Temos ao seu dispôr diversos cursos de formação e programas de consultoria técnica sobre a implementação de projectos de data mining.. O que é o data mining? Data mining resolve um paradoxo muito comum quantos mais dados (informação) temos, mais difícil e demorado é a sua análise. O que deveria ser uma mina permanece muitas vezes inexplorado devido à falta de recursos sejam estes humanos, tempo ou conhecimento. O Data mining utiliza poderosas técnicas analíticas para rapidamente extrair valor de montanhas de dados. Que dados são utilizados no data mining? Dependendo da sua ferramenta de data mining, o seu projecto pode incluir dados provenientes das fontes mais diversas. De facto, os projectos de data mining beneficiam da utilização de diferentes tipos de dados, sempre que cada um deles adiciona informação preciosa ao objecto em análise. Tudo o que se relacione com informações sobre transacções guardadas em base de dados; com respostas contidas num inquérito; com registos dos acessos a páginas na internet; ou com informação textual, pode contribuir para aumentar a qualidade dos resultados finais. Recentes avanços na tecnologia analítica originaram dois novos tipos de mining text mining e web mining. Estas duas tecnologias abrem novas formas de abordagem da informação não estruturada sejam respostas de opinião a questões abertas em inquéritos ou ficheiros de log nos servidores de sítios na internet acrescentando informação valiosa sobre opiniões e preferências que dão a conhecer o porquê de determinada acção ou comportamento. Data mining e análise predictiva O data mining descobre padrões nos dados utilizando técnicas predictivas. A análise predictiva combina estas técnicas analíticas avançadas com a optimização do processo de decisão ou seja, os resultados analíticos são utilizados para determinar quais as acções que produzirão maiores benefícios para a instituição. Estas recomendações, bem como toda a informação que as suportam, são disponibilizadas às pessoas e sistemas que decidem. Em que é que o data mining é diferente de um sistema OLAP ou de reporting de informação? As ferramentas OLAP (online analýtical processing) e de reporting são importantes para compreender o que aconteceu no passado. Data mining é o processo para conhecer o que acontecerá no futuro. O data mining utiliza modelos predictivos, sejam estes estatísticos ou de auto aprendizagem (do tipo rede neuronal), para prever o que acontecerá. Por exemplo, uma pesquisa de informação permite-nos obter resultados sobre o que vendemos no mês de Janeiro do ano de 2005 ; um quadro OLAP permitenos ir um pouco mais longe, saber também essa informação por família de produtos ; um projecto data mining dir-nos-á quem terá maior propensão para comprar cada um dos nossos produtos no próximo mês. E com base nesta informação poderemos construir uma campanha de marketing com ofertas personalizadas para cada um dos segmentos identificados. Em que é que o data mining é diferente da estatística? O data mining não substitui a estatística. De facto, a estatística é um bom complemento dos projectos de data mining. As técnicas estatísticas tradicionais, como a regressão, são utilizadas a par das tecnologias de data mining como é o caso das redes neuronais. As estatísticas são muitas vezes utilizadas para validar os resultados de data mining. Porquê usar o data mining? Quando dispõe de instrumentos fiáveis para projectar o futuro do seu negócio, Você tem o poder de tomar hoje as decisões correctas. O data mining ajuda-o a gerir e actuar sobre a evolução do seu negócio, porque lhe permite compreender melhor as razões dos acontecimentos passados e presentes e projectar os cenários futuros mais previsíveis. Por exemplo, o data mining diz-lhe quais os prospects que têm mais probabilidade de se transformarem em seus clientes e quais aqueles que têm mais propensão a responder à sua proposta de valor. Com esta visão do futuro, aumenta o retorno do seu investimento (ROI). As suas decisões basearam-se numa visão de negócio e não num instinto ou num impulso. 2

Que problemas poderão ser solucionados por um projecto de data mining? O data mining pode ser-lhe extremamente útil em qualquer actividade que envolva dados, por exemplo: Aumentar vendas a clientes Conhecer segmentos de clientes e as suas preferências Identificar os clientes mais rentáveis e criar estratégias para retê-los Adquirir novos clientes Aumentar a capacidade de cross-selling e de up-selling Aumentar o ROI de campanhas de marketing, através de melhor identificação dos alvos Detectar situações de abuso, desperdício e fraude Determinar riscos de crédito Aumentar a rentabilidade do seu sítio na internet Monitorar a perfomance da sua actividade Como é que se implementa um projecto de data mining? Os produtos de data mining SPSS Clementine e os serviços que lhe estão associados, asseguram-lhe resultados fiáveis e mensuráveis porque se baseiam numa metodologia de implementação conhecida por CRISP-DM (Cross-Industry Standard Process for Data Mining). Esta metodologia está estruturada em torno de tarefas e objectivos para cada uma das fases do projecto de data mining. É uma metodologia não proprietária e adoptada por um consórcio internacional de empresas, em que se inclui a SPSS Inc. A metodologia CRISP-DM inclui 6 fases: Compreensão do problema obter uma visão clara das necessidades a satisfazer; Compreensão dos dados determinar quais os dados disponíveis (e onde se encontram) para encontrar respostas; Preparação dos dados Adaptar e formatar os dados de forma apropriada às respostas a encontrar; Modelização criar modelos explicativos das necessidades a satisfazer; Avaliação testar os resultados encontrados contra os objectivos do projecto; Distribuição dos resultados disponibilizar os resultados do projecto aos decisores. Dicas gerais para data mining Prepare-se para o sucesso Siga a metodologia CRISP-DM Utilizando o CRISP-DM como um guião de projecto, garante o seu sucesso. É crítico desenvolver o projecto segundo uma metodologia testada as tecnologias complexas de data mining e os grandes volumes de dados disponíveis podem sobrevalorizar-se num projecto em que as necessidades a prover não estão convictamente assimiladas pela equipa. Comece com a mente focada nos finalmente Para ser capaz de mostrar o retorno (ROI, ganho,..) do projecto, deve saber antes de começar como serão avaliados os resultados (ou seja, que métricas utilizar na sua medição? Como calculá-las? ). Por exemplo, o nosso objectivo é reduzir a taxa de churning (perda de clientes) de 70 para 60%. Como é que traduz esta informação em volume de receita recuperada (ou não perdida)? Ou, quanto ganharia se em vez de atingir o objectivo de 60% atingisse 58%? Coloque as expectativas no sítio certo Tenha a certeza de que os responsáveis da sua instituição sabem que o data mining não é uma poção mágica que automaticamente resolve os problemas. O data mining é um processo de negócio. E como tal tem que existir um problema resolúvel e trabalho para encontrar uma solução. Se planeia segmentar clientes para qualquer acção do seu departamento de marketing, faça com que estes saibam qual o tipo de informação que vão receber como resultado do projecto (por exemplo, estamos a utilizar informação sobre os produtos e as características demográficas dos clientes, pelo que esperamos fornecer segmentos defenidos pela idade, pelo rendimento, etc... e indicaremos qual o mix de produtos preferidos para cada um destes segmentos de clientes). Limite a abrangência do projecto inicial Comece com objectivos realísticos e prazos defenidos. À medida que vai tendo sucesso, passe para projectos mais complexos. Crie um grupo de apoio ao projecto Um projecto de data mining é um esforço de grupo. Requer-se que os utilizadores finais estejam presentes porque eles conhecem os dados e as informações relevantes subjacentes ao problema. Mas também são necessárias pessoas que percebam o que é a análise de dados. E aqueles que permitem o acesso aos dados não podem faltar. 3

Evite o bloqueio do projecto pelos dados Sempre, mas sempre, determine o problema a solucionar; defina os objectivos a atingir e obtenha suporte. Se pura e simplesmente começar a analisar uma montanha de dados sem qualquer estrutura de projecto, o mais provável é que se perca nos dados e esteja a perder tempo. Não deixe que o volume de dados dirija o seu projecto. O foco é a solução do problema. Pode não uitlizar todos os dados disponíveis só alguns poderão ser relevantes para o projecto. Pode até mesmo descobrir que os dados que possui não são suficientes para resolver o problema. Um grande volume de dados não é garantia de que tem os dados correctos. Por exemplo, normalmente informação recente é mais importante para caraterizar um cliente do que todo o histórico da sua relação com a sua empresa. Nas secções seguintes realçamos o que achamos importante em cada uma das fases da metodologia CRISP-DM. Se quiser obter informação mais detalhada sobre esta metodologia visite o sítio na internet www.crisp-dm.org. Compreensão do problema Saiba quem, o quê, quando, onde, porquê e como na perspectiva do problema Compreenda detalhadamente todos os parâmetros do projecto o enquadramento actual do problema; o objectivo principal do projecto; os critérios que definem o sucesso e quem determinará se houve ou não sucesso no projecto. Defina a forma como os resultados serão entregues Pense na forma como quer utilizar os resultados do seu projecto: Serão usados por especialistas a quem podem ser fornecidos tal como obtidos? Serão utilizados por diferentes tipos de utilizadores com necessidades diferentes de interpretação? Serão distribuídos por qualquer meio em particular (em papel, por ficheiros, electronicamente,...) que requeira um formato específico? Inventarie os recursos disponíveis e necessários ao projecto Liste adiantadamente todos os aspectos do projecto e assegure-se que tem tudo o que necessita para ter sucesso: Pessoal ( sponsor do projecto, técnicos conhecedores da actividade e da análise de dados) Fontes de dados (em data-waherouses ou nas aplicações operacionais, mas acessíveis) Recursos computacionais (computadores e software específico de análise) Quais são os requisitos do projecto Liste todos os requisitos do projecto: Calendário de execução Segurança a implementar Restrições legais no acesso aos dados Formas de distribuição e apresentação dos resultados. Que pressupostos poram estabelecidos no projecto Liste e clarifique todos os pressupostos assumidos sobre: Qualidade dos dados (disponibilidade e fiabilidade) Factores externos (envolvente económica, concorrentes, avanços tecnológicos) Factores internos (o problema) Modelos (restrições, descrições, apresentação) Sob que condicionalismos se fará o projecto? Verifique e crie soluções para: Restrições gerais (legais, orçamentais, de recursos, de tempo) Direiros de acesso aos dados (restrições, passwords necessários) Acessibilidade técnica aos dados (sistemas operativos, sistemas de gestão dos dados, formatos de ficheiros e de bases de dados, permissões de acesso) Acessibilidade a conhecimento relevante Elabore um plano de projecto Crie um plano que realçe as tarefas a executar para atingir os objectivos do projecto de data mining e encontrar a solução desejada para o problema. Defina a forma de manutenção do projecto Como fará a gestão dos dados uma vez terminado o projecto? Se o projecto é parte de um processo de gestão contínuo, será que: Os dados serão analisados periodicamente? Novos dados serão analisados em tempo real? 4

Compreensão dos dados Assegure-se que os dados estão disponíveis Disponha de todos os dados que necessitará para o seu projecto. Se tiverem origem em mais que uma fonte, assegure-se que a sua ferramenta de data mining tem capacidades para integrá-los. Os dados com origem no seu sítio internet podem ser valiosos para o seu projecto. Utilize uma ferramenta de web mining para integrá-los no seu projecto de data mining. Os dados com origem em inquéritos de opinião podem acrescentar informação importante sobre características e atitudes dos indivíduos nos seus modelos. Mais de 80 por cento da informação relevante pode estar incluida em documentos texto não estruturados. Utilize uma ferramenta de text mining para integrá-los no seu projecto de data mining. Descreva os dados Obtenha uma fotografia de todos os dados recolhendo a informação descritiva de formatos, de variáveis (ou campos), de número de registos e de variáveis e de toda as características julgadas relevantes. Assegure-se que os dados escolhidos são os que melhor representem o problema que pretende analisar. Experimente algumas técnicas exploratórias de dados e avalie a sua qualidade Seja com ferramentas de data mining ou de análise estatística, o conhecimento exploratório dos dados ajudar-lhe-á a tomar decisões sobre a qualidade dos dados. Para prevenir futuros problemas, elabore um plano de solução de qualquer erro detectado nos dados: Será que o nome das variáveis estão conformes com os valores que contêm? Há valores em falta? Há valores duplicados? Há dispersão elevada nos valores de determinada variável? Qual a sua causa? Existe correlação elevada entre variáveis? É esperada e conhecida? Reveja variáveis que conjugadas contêm informação errada e que o senso comum detecta de imediato (por exemplo, homens grávidos) Exclua qualquer dado não relevante (por exemplo, se estamos a analisar comportamentos de automobilistas, excluimos todos aqueles que não têm carta de condução) Preparação dos dados Seleccione os dados a utilizar Decida sobre quais os dados a utilizar na análise e liste as razões das suas decisões. Podem ser: Níveis de significância e testes de correlação que determinaram a inclusão de variáveis Condicionantes da selecção de subconjuntos de dados Técnicas de amostragem utilizadas para ver a adequadabilidade dos dados Decida se certos atributos são mais importantes que outros e pondere-os de forma adequada. Para aumentar a fiabilidade dos modelos, veja os benefícios de incluir neles informação não estruturada e que pode não estar disponível nas bases de dados da sua instituição. Por exemplo, será que a informação que recolheu no inquérito de satisfação aos seus clientes é importante para o seu projecto de retenção de clientes? Melhore a qualidade dos dados Para obter resultados fiáveis, perca agora tempo a corrigir os erros detectados nos dados aquando da avaliação da sua qualidade. Pode ter que realizar as seguintes actividades: Determinar como lidar com elementos anormais valores em falta; valores extremos; ou outras anomalias próprias dos dados Fixar regras de codificação de valores. Por exemplo, será que o ano deve ser sempre referenciado com quatro dígitos (2005) ou só com dois (05)? Algumas variáveis podem ser irrelevantes para os nossos objectivos actuais e não necessitam de ser limpos. Registe estas acções executadas porque mais tarde pode ter que reaproveitá-los no projecto. Disponha de uma ferramenta flexível para estas operações A sua ferramenta de data mining deve dispôr de funcionalidades para preparação dos dados de acordo com os requisitos do projecto. Deve ter a possibilidade de adicionar ou criar novas variáveis a partir das existentes nas fontes de dados. Relembre-se que o data mining é um processo de descoberta é impossível saber à priori para onde os dados nos levam. Determine se é necessário criar novas variáveis Pode ser necessário criar novas variáveis a partir dos dados existentes pelas seguintes razões: Devido à experiência anterior ou ao conhecimento da actividade, sabemos que um atributo (variável) em particular é importante na construção do modelo; 5

O algoritmo a utilizar só manipula certos tipos de variáveis, pelo que pode ser necessário recodificar dados caso essas variáveis sejam importantes e os seus formatos não estejam de acordo com os pressupostos técnicos; Os resultados obtidos demonstram que os modelos criados a partir dos dados originais não são analiticamente interessantes ou fiáveis. Antes de criar novas variáveis avalie se e como serão importantes para o processo de modelização. Consolide a informação agregando dados. Ao juntar informação de diferentes fontes (ficheiros ou bases de dados) pode ter que criar novas variáveis e/ou agregar valores com significado similar. Assegure-se que a sua ferramenta de data mining pode combinar diferentes tipos de dados provenientes de diferentes fontes e sem ter que criar rotinas informáticas caras e demoradas. Será que as técnicas analíticas requerem uma ordem específica nos dados a tratar? A sua ferramenta de data mining deve ter a possibilidade de ordenar os dados consoante os requisitos técnicos do procedimento analítico. Deverão os dados estar balanceados? A técnica analítica pode requerer partições de dados em grupos de igual dimensão. A sua ferramenta de data mining deve permiti-lo. Modelização Seleccione as técnicas analíticas a utilizar Para analisar os seus dados com o procedimento adequado, verifique quais os pressupostos que cada técnica impõe sobre formato e qualidade dos dados. Nalguns casos, só um procedimento poderá ser apropriado para abordar o problema. Tenha a certeza que considera: Quais os procedimentos são mais apropriados para o seu problema Se existem alguns requisitos prévios (expectativas da gestão, interpretação dos resultados) Se existem algumas restrições (estranhas características dos dados, conhecimento técnico dos analistas, tempo de execução) Teste antes de criar o modelo Antes de criar o modelo explicativo, teste a qualidade e validade das técnicas que planeia utilizar. Crie um desenho de teste que inclua um conjunto de dados para treino; outro para testes e outro para validação dos resultados. A partir do conjunto de treino crie o seu modelo e certifique a sua qualidade com o conjunto de dados para teste. Construa o seu modelo Para criar o seu modelo, execute a sua ferramenta de modelização no conjunto de dados que preparou. Descreva os resultados e confirme a sua fiabilidade e adequabilidade à realidade. Elabore um memorando detalhado sobre o modelo, assinalando as regras produzidas, a definição de parâmetros feita, o seu comportamento e a sua forma de interpretação. Utilize a indução para produzir uma regra Regras são no essencial parâmetros a que os dados devem obedecer para serem considerados num modelo. Normalmente têm o formato condicional If... Then. A indução permite-lhe escolher automaticamente quais as regras mais efectivas para obter um resultado específico. Por exemplo, utilize a indução para criar um conjunto de regras para qualificar o risco de um empréstimo: Se empregado há mais de 2 anos, então o risco é baixo; Se maior que 30 anos, o risco é baixo; Se alguma vez no passado entrou em incumprimento no pagamento das prestações, o seu risco é elevado. As técnicas de clustering são boas para: Encontrar grupos naturais de observações (individuos) que têm as mesmas características - por exemplo, detecte situações de fraude com técnicas de clustering porque encontrará grupos semelhantes de comportamento na utilização do cartão de crédito (e este foi o factor importante para a fraude). As regras de associação são boas para: Basket analysis descubra quais os produtos que têm maior probabilidade de serem comprados em conjunto. Utilize esta informação para melhorar a sua capacidade de cross-selling através de catálogo ou por técnicas de merchandising na sua loja. De forma a que tenha a técnica mais apropriada para cada modelo ou para cada problema, escolha uma ferramenta de data mining que lhe disponibilize um conjunto alargado de técnicas analíticas. 6

Avaliação Avalie os resultados do projecto de data mining Determine se e como os resultados de cada modelo serão úteis como solução do problema. Existe alguma razão para que o modelo explicativo encontrado seja deficiente? Se dispuser de tempo e recursos, tente testá-los com aplicações reais do dia a dia. Reveja todas as etapas do processo até agora Ao confirmar a qualidade dos seus resultados, reveja todo o trabalho feito no projecto para detectar se alguma fase foi esquecida ou se informação importante não foi considerada: Retrospectivamente, cada etapa feita foi necessária? Cada uma delas foi executada tal como previsto? Determine as próximas etapas Chegou o momento de determinar se o projecto tem o sucesso suficiente para passarmos à apresentação dos resultados. Se não, faça trabalho adicional para encontrar resultados satisfatórios. Tenha sempre em mente: O potencial interesse de cada resultado Como pode melhorar o processo Se existem recursos para trabalho adicional Distribuição dos resultados Crie um plano de distribuição dos resultados Aceites os resultados do projecto, decida qual a melhor forma de aportá-los à solução: Faça uma descrição sucinta dos modelos e resultados obtidos; Avalie as diferentes formas de apresentação disponíveis; Confirme a sua viabilidade e identifique possíveis problemas; Determine como monitorizará o uso dos resultados e medirá os benefícios. Monitorize a aplicação dos resultados Assegure-se que os resultados produzidos são utilizados correctamente e esteja atento a factores como: O que é que se poderá alterar no futuro e que influencie directamente a qualidade dos resultados? Como é que se controlará a eficiência dos resultados? Quando, se necessário, se deve interrromper o uso dos resultados? Produza um relatório final Dependendo da forma como planeou distribuir os resultados, o relatório pode ser ou um sumário de todo o projecto ou uma apresentação final dos resultados obtidos. Ao fazê-lo: Identifique os meios a utilizar Analise a aderência dos resultados aos objectivos iniciais do projecto Identifique os receptores do relatório Sublinhe a estrutura e conteúdo do relatório Inclua todos os pontos importantes do projecto. Reveja todo o projecto Finalmente tem a oportunidade de identificar o que correu bem, o que correu mal e o que é necessário corrigir em futuros projectos. Não se esqueça de: Entrevistar todos os elementos da equipa de projecto e conhecer a sua opinião; Entrevistar os utilizadores finais envolvidos e saber como avaliam os resultados; Documentar e analisar todas as acções realizadas em cada fase do projecto. Fazer recomendações para projectos futuros. Selecção de uma ferramenta de data mining As dicas apresentadas nesta secção são excertos do manual CRISP-DM, no capítulo que se refere a Performing a data mining tool evaluation. Procure uma ferramenta utilizada em projectos idênticos ao seu Escolha uma ferramenta que saiba ser utilizada no seu sector de actividade ou que tenha um conjunto conhecido de referências em projectos semelhantes ao seu. Seleccione uma ferramente que faça a ponte entre a metodologia e a capacidade técnica do data mining Assegure-se que a estrutura da ferramenta vai de encontro às suas necessidades não só no que se refere à qualidade e quantidade de procedimentos analíticos que inclui, mas também quanto ao controlo metodológico de todo o projecto: Os conceitos de data mining estão facilmente perceptíveis na ferramenta? Integra-se com software de gestão de projectos ou outras ferramentas que Você utiliza? Se não, como é feita essa integração? A sua ferramenta deve utilizar transparentemente as suas fontes de dados e os seus formatos Poupará tempo e dinheiro, e maximizará as probabilidades de obter resultados fiáveis, se a sua ferramenta de data mining for capaz de utilizar e importar dados provenientes de várias fontes e em vários formatos. Tal é particularmente importante, se em fases posteriores do projecto pretendermos adicionar novos dados de uma nova fonte. 7

Uma ferramenta de data mining que lhe permita combinar dados estruturados ou não (por exemplo, informação sobre atitudes e comportamentos provenientes de inquéritos), aumentará a probabilidade de termos melhores resultados no projecto. Disponha de capacidades interactivas de exploração e de visualização É mais fácil explorar os dados se a ferramenta incluir técnicas interactivas de visualização. Estas técnicas permitem-nos aumentar a capacidade de decisão e de informação porque podemos alterar de imediato os gráficos e as dimensões de visualização que nos são apresentadas. Disponha de funcionalidades de preparação e manipulação dos dados fáceis de utilizar Se as tarefas de preparação dos dados forem fáceis de executar, técnicos com diferentes níveis de conhecimento poderão participar nesta fase de extrema importância para o projecto e, potencialmente, de trabalho intensivo. A sua ferramente deve importar e extrair dados automaticamente Evite programar queries, por vezes complexas e demoradas, escolhendo uma ferramenta que extrai automaticamente os dados nas diferentes actividades de preparação dos dados. Pode criar um modelo eficiente e rapidamente? Procure uma ferramenta que permita aos analistas encontrar rapidamente os melhores modelos. A ferramenta deve incluir funcionalidades técnicas para construção e teste de múltiplos modelos. Escolha uma ferramenta com um largo espectro de técnicas Para obter os melhores resultados, assegure-se que a sua ferramenta dispõe de múltiplas técnicas e algoritmos para visaulização, classificação, clustering, associação e regressão. A ferramenta também deve ser capaz de combinar diferentes técnicas sempre com o objectivo de produzir os melhores resultados. A ferramenta escolhida utiliza os seus recursos informáticos actuais Escolha uma ferramenta que utiliza os seus dados tal como eles existem na sua organização, qualquer que seja o sistema de base de dados ou de ficheiros. Caso contrário pode ser necessário afectar novos recursos ao seu projecto de data mining. resolução de outros problemas. A ferramenta a escolher deve adaptar-se a qualquer tipo de projecto de data mining em vez de ser desenhada para uma aplicação específica. Quais as capacidades de apresentação e de distribuição dos resultados que a ferramenta dispõe? É crítico dispôr de uma ferramenta que lhe permita integrar os resultados obtidos nos seus sistemas operacionais do dia a dia agora e no futuro. Saiba se essa integração é fácil ou se requer investimentos adicionais. Avalie os potenciais custos de propriedade associados à ferramenta escolhida Para cada ferramenta em análise, analise o seu retorno (ROI): Qual será o seu custo adicional para além da aquisição inclua aqui os serviços de manutenção ou custos de renovação anual de licenças de software. Quando obterá um ROI positivo? Quando tempo demorará a implementar a sua ferramenta de data mining? Está desenhada para especialistas ou pode ser utilizada por técnicos com múltiplas formações? Quais os custos de formação envolvidos agora e no futuro? A ferramenta é customizável para utilizadores ou aplicações em particular? Pode automatizar tarefas rotineiras? Conclusão Este documento tocou de forma muito sucinta num número de temas que deve ter em mente sempre que planeia e realiza um projecto de data mining. Outros tópicos relacionados com este tema estão para além dos objectivos deste documento. Se quiser explorar ou estudar com mais detalhe algum dos tópicos agora abordados, recomendamos a consulta de livros especializados sobre data mining. Outro meio que está ao seu dispôr é frequentar uma acção de formação sobre a utilização dos produtos SPSS para data mining. Consulte-nos e teremos todo o gosto em colaborar consigo. Muito obrigado pela sua atenção. Escolha uma ferramenta que lhe garanta bons resultados Com o sucesso do seu projecto de data mining vai querer replicar a utilização deste processo na 8

A SPSS Inc. A SPSS Inc. é uma empresa lider mundial no fornecimento de soluções analíticas predictivas. A sua tecnologia melhora o processo de tomada de decisão ao dar às organizações um maior controlo sobre a qualidade das decisões diárias. Uma organização torna-se predictiva quando incorpora esta tecnologia analítica nas suas operações diárias está apta a encontrar soluções para os seus problemas de gestão e obter vantagens comparativas mensuráveis. Muitas instituições, em Portugal e no Mundo, utilizam-na para aumentar o rendimento, diminuir os custos, melhorar processos e detectar e prevenir a fraude. A SPSS Inc. foi fundada em 1968 em Chicago (EUA) e é representada em Portugal desde 1994 pela PSE Produtos e Serviços de Estatística, Lda. O que nos torna únicos Há mais de 35 anos que a SPSS lida com tecnologia analítica. Os nossos clientes escolheram-nos por múltiplas razões: Uma visão integral, a 360º O software SPSS permite-lhe desenvolver uma cultura empresarial baseada no conhecimento, porque conjuga todo o tipo de informação dados estruturados e dados não estruturados para obter uma visão de 360º; Integramo-nos facilmente com outros sistemas operacionais As tecnologias analíticas SPSS estão desenhadas para serem autónomas na sua função ou serem integradas com tecnologias de outros construtores; A arquitectura do software é aberta e conforme os padrões da indústria O software SPSS incorpora os padrões da indústria como é o caso do OLE DB para acesso a dados; XMLA para partilha de dados e formatos; PMML para partilha de modelos predictivos; SSL para gestão da segurança na Internet e LDAP/Active Directory Services para autenticação e autorização, só para nomear alguns. O retorno mais rápido no seu investimento em software De acordo com um estudo recente da empresa Nucleus Research, 94 % dos clientes SPSS obtiveram um retorno positivo do seu investimento num período médio de 10,7 meses. Um baixo custo total de propriedade A tecnologia SPSS está desenhada para trabalhar com a sua infraestrutura tecnológica e mantemos os custos de propriedade baixos no curto e longo prazo porque temos opções de licenciamento muito flexíveis. Os produtos SPSS Na SPSS dispomos de uma vasta gama de produtos que lhe permitem construir um sistema flexível para análise da sua informação. Data mining AnswerTree - Software para detecção de segmentos e projecção da sua resposta a impulsos, por utilização de árvores de decisão. Clementine - Software para data mining que incorpora no seu processo todo o seu conhecimento do problema a analisar. A família de produtos Clementine inclui: Clementine Application Templates (CATs) que são streams pré-construidas para resolução de problemas específicos. Podem ser aplicados directamente sobre os seus dados para obter resultados imediatos, ou utilizados como base de customização do seu próprio problema. Text Mining for Clementine para extracção de conceitos e relações em dados não estruturados e sua conversão em formatos estruturados para inclusão no Clementine. Web Mining for Clementine para fácil transformação dos logs web em eventos para análise no Clementine SPSS Predictive Enterprise Services que centraliza e organiza os modelos e os processos que estiveram associados a cada um dos projectos. Cleo que disponibiliza via Web aplicações que permitem aos gestores utilizar os modelos predictivos criados no Clementine. Análise Predictiva Predictive Analytic Applications Aplicações que entregam recomendações em tempo real a sistemas e decisores pela combinação de avançadas técnicas analíticas e de optimização de decisões. A SPSS dispõe das seguintes soluções: PredictiveCallCenter transforma chamadas de clientes inbound em oportunidades de venda. PredictiveClaims aumenta a satisfação dos clientes e reduz a fraude nos pedidos de participação financeira dos seguros. PredictiveMarketing gera mais lucro nas campanhas de marketing outbound. PredictiveWebSite transforma as visitas ao seu sítio na web em oportunidades de venda. 9

Análise estatística SPSS for Windows é o software de análise estatística de dados com maior reconhecimento no mercado. A partir de um módulo principal SPSS Base System pode criar a sua própria solução analítica adicionando-lhe técnicas consoante a sua necessidade. DecisionTime software para criação de modelos previsionais de séries temporais e análise de cenários alternativos de previsão. Amos software para modelização de equações estruturais que completa a oferta SPSS em métodos de análise multivariada. Permite a construção de modelos que reflectem realisticamente as relações complexas entre variáveis. Smartviewer Web Server software para disponibilização de informação na Internet. Com ele é possível garantir o acesso imediato aos resultados obtidos com qualquer ferramenta analítica SPSS de um modo seguro e eficiente. Desenho e recolha de informação por inquéritos Dimensions Realize inquéritos em grande escala ou em projectos de menor dimensão, a SPSS disponibiliza uma plataforma integrada e customizável para apoio em todo o processo de pesquisa por inquérito. Esta solução inclui produtos para todas as etapas do processo de pesquisa por inquérito (Veja o documento SPSS Survey Tips) desde a criação do questionário até à captura dos dados, seja ela efectuada em papel, por telefone, pela internet ou por equipamento portátil (por exemplo, PDA). Consultoria e Formação A PSE, enquanto parceiro SPSS para Portugal, assegura aos seus clientes serviços de formação, consultoria e apoio técnico na utilização dos produtos e soluções SPSS de acordo com as normas internacionais da nossa representada. PSE Produtos e Serviços de Estatística, Lda Rua Mouzinho da Silveira, nº 27 3º C 1250-166 Lisboa Telefone 213170910 Tefefax 213170919 Mail Site spssinfo@pse.pt www.pse.pt 10