Data Mining na Web. jjubran@uol.com.br, flavio@lps.usp.br; jorge.almeida@poli.usp.br



Documentos relacionados
No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

ADM041 / EPR806 Sistemas de Informação

Exemplo de Aplicação do DataMinig

A Grande Importância da Mineração de Dados nas Organizações

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios


Planejamento Estratégico de TI. Prof.: Fernando Ascani

Sistemas de Gerenciamento do Relacionamento com o Cliente (Customer Relationship Management CRM)

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Planejamento Estratégico de TI. Prof.: Fernando Ascani

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO (AULA 04)

Interatividade aliada a Análise de Negócios

CAPÍTULO 1 - CONTABILIDADE E GESTÃO EMPRESARIAL A CONTROLADORIA

CRM. Customer Relationship Management

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Módulo 15 Resumo. Módulo I Cultura da Informação

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

ANEXO 1: Formato Recomendado de Planos de Negócios - Deve ter entre 30 e 50 páginas

Sistemas Integrados de Gestão Empresarial

TRABALHOS TÉCNICOS Coordenação de Documentação e Informação INOVAÇÃO E GERENCIAMENTO DE PROCESSOS: UMA ANÁLISE BASEADA NA GESTÃO DO CONHECIMENTO

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

MASTER IN PROJECT MANAGEMENT

Corporativo. Transformar dados em informações claras e objetivas que. Star Soft.

O que significa esta sigla?

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling

CUSTOMER RELATIONSHIP MANAGEMENT

Profissionais de Alta Performance

Professor: Disciplina:

CRM - Customer Relationship Management

Material de Apoio. Sistema de Informação Gerencial (SIG)

Extração de Requisitos

Banco de Dados - Senado

Tema: Big Data, Analytics...a Tecnologia a Favor do RH Palestrante: Alberto Roitman

Sistemas de Informação I

Roteiro para apresentação do Plano de Negócio. Preparamos este roteiro para ajudá-lo(a) a preparar seu Plano de Negócio.

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

CRM CRM. Marketing. Marketing. Vendas. Vendas. CRM Customer Relationship Management Gerenciamento do Relacionamento com o Cliente

Sinopse das Unidades Curriculares Mestrado em Marketing e Comunicação. 1.º Ano / 1.º Semestre

Disciplina: Suprimentos e Logística II Professor: Roberto Cézar Datrino Atividade 3: Transportes e Armazenagem

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

RECONHECIMENTO DE ALGUNS SISTEMAS DE INFORMAÇÃO


A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA

Fornecendo Inteligência, para todo o mundo, a mais de 20 anos.

Como melhorar a tomada de decisão. slide 1

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios. Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios.

Módulo 4: Gerenciamento de Dados

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA

Introdução à Computação

SISTEMAS DE GESTÃO São Paulo, Janeiro de 2005

Portaria Inep nº 249, de 02 de junho de Publicada no Diário Oficial da União em 04 de junho de 2014.

Unidade I FINANÇAS EM PROJETOS DE TI. Prof. Fernando Rodrigues

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

CHECK - LIST - ISO 9001:2000

PRIAD: GESTÃO DE RELACIONAMENTO COM CLIENTES

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

ü Curso - Bacharelado em Sistemas de Informação

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Análise do Ambiente estudo aprofundado

GESTÃO DE SUPRIMENTO TECNÓLOGO EM LOGÍSTICA

OS 14 PONTOS DA FILOSOFIA DE DEMING

SAM GERENCIAMENTO DE ATIVOS DE SOFTWARE

PRINCÍPIOS DE SISTEMAS DE INFORMAÇÃO MÓDULO 17

Faturamento personalizado (Customer Engaged Billing)

INSTRUÇÃO DE TRABALHO PARA INFORMAÇÕES GERENCIAIS

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES


CENTRO DE CIÊNCIAS TECNOLÓGICAS CCT

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Planejamento e Gerência de Sistemas de Informação sob o Ângulo da Gestão por Processos (*)

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

ERP. Enterprise Resource Planning. Planejamento de recursos empresariais

SGQ 22/10/2010. Sistema de Gestão da Qualidade. Gestão da Qualidade Qualquer atividade coordenada para dirigir e controlar uma organização para:

Introdução: Conceitos de Processamento de Dados. Curso Técnico em Informática Eduardo Amaral

PLANO DE EXPANSÃO COMERCIAL DA ÁREA COMERCIAL EMPRESA XYZS

IDÉIAS SOBRE IMPLANTAÇÃO DE SISTEMAS EMPRESARIAIS INTEGRADOS. Prof. Eduardo H. S. Oliveira

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

UNG CIC Tópicos Especiais de TI. Aula 13

Microsoft Innovation Center

ISO/IEC 12207: Gerência de Configuração

Módulo 4. Construindo uma solução OLAP

Tecnologia da Informação. Prof. Odilon Zappe Jr

FACULDADE KENNEDY BACHARELADO EM SISTEMAS DE INFORMAÇÃO

Transcrição:

Data Mining na Web Aparecido Jorge Jubran 1, Laura Martinson Provasi Jubran 1, Flávio Almeida de Magalhães Cipparrone 1, Jorge Rady de Almeida Júnior 1 1 Escola Politécnica da Universidade de São Paulo (USP) Av. Prof. Almeida Prado, 128 Tr.2 Biênio 2 andar - 05508-900 - São Paulo - SP - Brazil jjubran@uol.com.br, flavio@lps.usp.br; jorge.almeida@poli.usp.br Abstract. This study consists of a four phase outlining for the development of a Data Mining for e-commerce environment. At first it is proposed the modeling and structuring of the database, which will support the project. Then, the forms of incorporation of information to the data base object will be described. In the third phase, it is proposed the creation of a Data Warehouse for the analysis of big quantities of data. Finally, the characteristics of the performance of the Data Mining in WEB environment will be described as well as its adequacy to many methodologies and techniques of Data Mining. Resumo. Este estudo consiste no delineamento em quatro fases para o desenvolvimento de um Data Mining para o ambiente de e-commerce. Inicialmente é proposta a modelagem e estruturação da base de dados que dará sustentação ao projeto. A seguir são descritas as formas de incorporação das informações às bases de dados objeto do Data Mining. Na terceira fase é proposta a realização de um Data Warehouse para a análise de grandes quantidades de dados. Finalmente, são descritas as características da realização do Data Mining em ambiente WEB, e comentada a adequação deste modelo às várias metodologias e técnicas de Data Mining. Palavras Chave: Data Mining, E-commerce, Business Intelligence. Introdução A informação passa cada vez mais a ter um papel fundamental na definição das estratégias empresariais. A sua utilização juntamente com técnicas matemáticas de modelagem permitem a obtenção de um diferencial competitivo. A vanguarda nestes tipos de análises chamadas de Data Mining possibilita um grande passo à frente dos concorrentes, viabilizando a conquista de uma parcela maior do mercado. O modelo de Data Mining na WEB, objeto deste estudo, visa proporcionar um melhor conhecimento dos clientes, do mercado e da concorrência no ambiente de e-commerce, tornando-se assim em uma ferramenta poderosa no suporte a tomada de decisões. Neste estudo são descritos os conceitos de KDD (Knowledge Discovery in Database), Data Warehouse, Data Mining, Data Mining na WEB com proposta de quatro fases para a sua realização, seguidos dos resultados e referências bibliográficas. 1. O Knowledge Discovery in Database (KDD) O esforço em automatizar o processo de análise de grandes quantidades de dados tem incentivado pesquisas em um campo de estudos promissor chamado Extração de

Conhecimento em Bases de Dados (KDD Knowledge Discovery in Database). Os pesquisadores desta área do conhecimento buscam produzir técnicas, metodologias e instrumentos que apóiem a descoberta de conhecimento inédito e acrescentem informações a um domínio de aplicação específica.a extração de conhecimento de bases de dados é uma área multidisciplinar que visa incorporar e relacionar técnicas adotadas em diversas áreas do conhecimento como Banco de Dados, Inteligência Artificial, Business Intelligence e Estatística. Desse modo, as técnicas utilizadas em KDD não devem ser vistas como substitutas de outros métodos de análise, mas sim, como aplicações que buscam melhorar os resultados das explorações feitas com ferramentas convencionais.de acordo com as definições de Frawley & Piatetsky- Shapiro & Matheus (1992), a Extração de Conhecimento de Bases de Dados é um processo não convencional de identificar padrões desconhecidos, potencialmente úteis e compreensíveis, embutidos em bases de dados. Extrair conhecimento dessas bases de dados envolve, entre outras técnicas, a utilização de algoritmos de aprendizado de máquina com a capacidade de generalizar os fatos encontrados em um grande repositório de dados na forma de regras de alto nível, passíveis de compreensão ao ser humano. Essas técnicas incentivam pesquisadores e participam do processo de KDD oferecendo substancialmente maiores contribuições científicas. Ao se tentar realizar descobrimento de conhecimento em aplicações do mundo real, observa-se que elas podem ser extremamente complexas e que a tarefa de descoberta de novas informações representa apenas uma porção de um extenso processo. O processo de extração de conhecimento pode ser aplicado de forma interativa e iterativa, envolvendo diversas fases de preparação que englobam a definição e compreensão do domínio de aplicação, seleção e amostragem dos dados, limpeza, enriquecimento e preparação dos mesmos, extração de padrões, até a etapa em que os resultados são interpretados, avaliados e consolidados pelos especialistas do domínio. As etapas do processo KDD são geralmente realizadas de forma seqüencial, ou seja, é necessário obter compreensão a respeito do domínio de aplicação, selecionar e transformar os dados para somente depois encontrar padrões. Mesmo observando estas recomendações, podem ocorrer iterações entre as tarefas. É por se tratar de um processo interativo que o grupo de pessoas envolvidas na sua realização deve possuir um canal de comunicação que viabilize a máxima troca de informações. Estes usuários possuem diferentes especialidades, necessidades e expectativas, desempenhando o seu papel dentro do processo. Os dados que fornecerão a base para a realização do processo de KDD podem ser diversas origens. Essas origens podem ainda ser consideradas internas ou externas. Os dados de origem interna normalmente são fornecidos por repositórios de dados que já estão incorporados ao sistema de aplicação do domínio em questão e, normalmente são constituídas por Data Warehouse, bases de dados operacionais e dados históricos. Os dados de origem externa são compostos por todos os outros tipos de localidades que habitualmente não estão incorporados ao sistema de aplicação, como por exemplo, documentos e informações do especialista do domínio. Um problema que deve ser resolvido envolve o tamanho do conjunto de dados, pois a grande quantidade de dados reunida pode inviabilizar a realização do processo de KDD, pois alguns algoritmos de Data Mining processam apenas um número limitado de registros. Assim, devem ser utilizadas técnicas de amostragem de dados que reduzam o tamanho do conjunto de dados, obtendo um subconjunto relevante e representativo para toda a base de dados.

Esse processo de amostragem é crítico dentro do processo de KDD, pois, a não utilização de técnicas estatísticas adequadas, pode gerar um subconjunto de dados de características não representativas, comprometendo as análises que não representariam a verdadeira situação dos fatos registrados. 2. O Data Warehouse A capacidade de processamento e armazenamento de dados tem apresentado um significativo crescimento nos últimos anos. Como resultado dessa evolução constata-se que aplicações científicas ou comerciais têm gerado gigabytes e até terabytes de dados em poucas horas, sendo que esse volume excede em muito a capacidade de pesquisadores e analistas de mercado em analisá-los. Para superar estas dificuldades, são adotadas técnicas e ferramentas que possibilitam a realização de análises em grandes quantidades de dados, apoiando o processo decisório. A realização de Data Warehouse é um dos passos iniciais para a viabilização de análises em grandes quantidades de dados em sistemas de apoio à decisão. As ferramentas utilizadas em analises de um Data Warehouse são orientadas às consultas, ou seja, o usuário sabe o que pretende consultar ou comprovar. Esses procedimentos dependem do usuário e pode impedir que padrões escondidos nos dados sejam encontrados de forma inteligente, uma vez que este analista não terá condições de imaginar todas as possíveis relações e associações existentes em um volume muito grande de dados. Desta forma, é necessária a utilização de técnicas de análise dirigidas por computador que possibilitem a extração automática (ou semi-automática) de novos conhecimentos. 3. O Data Mining Segundo Data Distilleries (1999), Data Mining é a descoberta de conhecimento interessante, mas escondido em grandes bases de dados. Bases de dados corporativas freqüentemente contêm tendências desconhecidas, relações entre objetos, como clientes e produtos, que são de importância estratégica para a organização. O Data Mining utiliza técnicas estatísticas e de aprendizado de máquinas para construir modelos capazes de predizer o comportamento de clientes. Hoje em dia, a tecnologia consegue automatizar o processo de mineração, integrá-lo a Data Warehouses comerciais e apresentá-lo de forma relevante aos usuários de Business Intelligence. Um Data Mining busca descobrir padrões e relacionamentos num banco de dados, de modo que a organização possa ter um melhor embasamento para a tomada de decisões. Segundo o MCT ([01/11/2002]), O conhecimento de transações comerciais na era da competição global e das comunicações on-line, passou a ser chamado de Business Intelligence (BI) ou Inteligência de Negócios (IN), sendo que a inteligência é o resultado de um processo que começa com a coleta de dados, que podem ser trabalhados matematicamente por meio de algoritmos de otimização. O armazenamento de enormes volumes de dados em bases de clientes não resulta necessariamente no aumento de conhecimento, pois segundo Taurion ([16/04/2003]), um Data Mining pode ser uma... arma poderosa para extração de informações úteis perdidas em toneladas de dados aparentemente sem relacionamentos entre si. E por outro lado, um uso incorreto desta tecnologia pode gerar muito mais confusão, levando a empresa a tomar decisões erradas. Para a implementação de um projeto de Data Mining são necessárias diversas tecnologias. Uma ferramenta essencial é o Data Warehouse, que integra dados de múltiplas fontes e assegura a qualidade dos dados que serão garimpados. Este aspecto é importante, pois se a base de dados não for válida, não será extraída nenhuma informação útil. Ou seja,

não vale a pena garimpar em um local que não tenha ouro (Taurion, [16/04/2003]). Segundo Taurion, [16/04/2003]), no âmbito internacional existem aplicações de sucesso que incluem uma... aplicação que analisa empréstimos baseados nos padrões de compra, crédito e endividamento dos clientes; [...] supermercado que organiza suas gôndolas de acordo com os padrões de compras associadas entre produtos; [...] laboratório farmacêutico americano que envia material promocional baseado nas prescrições médicas e padrões de vida dos clientes; [...] empresa financeira que analisa fraudes baseada nos padrões de compra de seus clientes; [...] empresa aérea que usa informações sobre padrões e tendências de viagens para maximizar a ocupação de seus vôos; [...] empresa de telefonia celular que, baseada em padrões de uso dos telefones e outros fatores de mercado, faz previsões de quais clientes estão propensos a migrar para os concorrentes. O Data Mining viabiliza a extração das bases de dados do conhecimento focado no cliente, onde descreve suas preferências individuais. A base de dados é automaticamente explorada a partir da análise de milhares de pontos multidimensionais. Isto possibilita que informações escondidas e relacionadas ao comportamento dos clientes sejam mapeadas e enfatizadas. Atualmente, o foco das companhias passou dos produtos para os clientes. Isto quer dizer que as organizações devem realizar esforços para oferecer a seus consumidores os produtos e serviços que eles necessitam, disponibilizando-os em canais apropriados e no momento certo. Para alcançar este objetivo é necessário compreender as preferências dos clientes. Assim, uma empresa que possui marketing orientado ao cliente, em lugar de focar um produto por vez para tentar encontrar o maior número possível de clientes, deverá direcionar seu foco a um cliente por vez e procurar satisfazer o maior número de necessidades individuais. Segundo a Data Distilleries (1999), para competir com sucesso em um mundo interativo, as organizações precisam compreender como os clientes agregam valor ao negócio e, ao mesmo tempo, como obter valor a partir dele. As organizações precisam conhecer como alocar tempo e esforço para os clientes que trarão um maior retorno. Então, seus esforços em relação à retenção dos clientes mais valiosos, precisam ser aumentados, buscando incrementar o valor derivado de outros clientes. Assim, a tecnologia da informação torna possível a diferenciação de cada cliente através de bases de dados que podem ajudar a lembrar e manter um grande número de interações complexas de forma individualizada. Dados sobre os clientes são obtidos de diferentes fontes na organização. Por exemplo, em arquivos do back-office sobre compras de produtos, transações financeiras, etc. O front-office registra interações comercias com os clientes como, por exemplo, em campanhas de marketing, armazenando as respostas dos clientes a cada campanha. Novas técnicas de análise como Data Mining oferecem a oportunidade de descobrir padrões escondidos e tendências em grandes volumes de dados. Com estas informações, é possível melhorar a interação com os clientes e otimizar as ações de marketing. O computador disponibiliza um grande número de ferramentas de comunicação. Com a tecnologia de Internet, pode ser modificada a comunicação com os clientes transformando interações unidirecionais em bidirecionais, possibilitando assim, o atendimento aos clientes de forma individualizada. Com a nova tecnologia da informação, podem ser disponibilizados produtos e serviços direcionados às necessidades de um usuário específico com certa freqüência. Por meio da combinação destas capacidades, cria-se um ciclo de feedback do cliente, no qual o cliente provê informações sobre suas preferências e necessidades. A

organização possui dados a respeito do cliente e pode antecipar suas preferências e necessidades. A organização direcionada ao cliente deve ser capaz de integrar os processos de produção e entrega com base no feedback que recebe através desta interação. A relação de aprendizado entre um cliente e uma organização fica mais e mais inteligente a cada nova interação, definindo, em maior nível de detalhe, as necessidades e gostos de cada um. Uma relação de aprendizado possibilita que a empresa aumente a retenção de clientes, por meio da melhoria de seu relacionamento. Desta maneira, a lealdade se tornará mais conveniente para o cliente do que a deslealdade. Assim, o mecanismo do Data Mining funciona da seguinte forma: O cliente diz o que ele quer, implícita ou explicitamente, através da interação e feedback. A criação de diálogo com o cliente é um pré requisito para solicitação de feedback. Mas o próprio diálogo tem que ser integrado no conhecimento da empresa já existente sobre aquele cliente e sua necessidade de informações adicionais. Todas as informações coletadas através de sucessivos contatos com o cliente, como informações sobre transações, reclamações, preferências, compras, etc., são armazenadas em bases de dados. Através do uso de Data Mining pode analisar a resposta do cliente para aprender sobre seu comportamento como: quais clientes compram determinados produtos? ; que canal é utilizado? ; quem são os clientes mais valiosos?. Os perfis de Data Mining gerados podem ser usados no front-office, como call centers e força de venda, para melhorar ações de marketing. A resposta do cliente a estas ações é armazenada na base de dados e o processo se repete. Isso permite que a empresa se adapte rapidamente e de forma flexível às demandas e necessidades de cada cliente. Dessa forma, a empresa será capaz de melhorar a prospecção, a retenção e a aquisição de clientes, resultando na redução de custos e aumento de lucros. De acordo com Oliveira (1999), a previsão e a descrição podem ser realizadas por meio de tarefas. A Classificação é uma tarefa preditiva que pode ser usada para encontrar um modelo que classifique um item de dados entre várias classes previamente definidas. As regras de associação encontram relações entre os campos de um conjunto de dados. Pode-se aplicar regras de associação, por exemplo, para relacionar itens que são comumente comprados com outros produtos de um supermercado. A caracterização encontra as características relevantes a partir de análises quantitativas, propiciando uma descrição compacta do conjunto. O objetivo da regressão é encontrar uma função que mapeie um item de dado (normalmente numérico), possibilitando a previsão dos valores numéricos deste item. As tarefas de agregação ou segmentação têm o objetivo de procurar identificar um conjunto de categorias finitas ou agrupamentos naturais para descrever dados. Estas categorias podem ser mutuamente exclusivas ou exaustivas, ou podem consistir de uma representação hierárquica. Resumo (Síntese) é a tarefa que visa obter uma descrição compacta de um conjunto de dados. As técnicas de resumo são freqüentemente aplicadas em análises explorativas de dados e geração automática de relatórios. A tarefa de modelagem de dependência visa encontrar um modelo que descreva dependências significantes entre variáveis. Os modelos de dependência existem em dois níveis: a nível estrutural, onde são especificadas quais variáveis são localmente dependentes uma das outras, e a nível quantitativo, onde são especificadas as forças das dependências através de alguma escala numérica. A evolução e o desvio são tarefas focadas em descobrir as mudanças mais significativas nos dados através de medidas anteriores ou de valores normativos. O objetivo é modelar o processo gerando uma seqüência ou relatando tendências do processo ao longo do tempo. Uma vez definida qual tarefa da Data Mining será usada no processo de extração de conhecimento, é preciso escolher

qual algoritmo ou a combinação de algoritmos que deve ser aplicada. Segundo Data Distilleries (1999), diferentes técnicas existem para analisar os dados dos clientes. O valor de Data Mining pode ser melhor compreendido se comparado a técnicas convencionais. As técnicas estatísticas são as mais utilizadas na construção de modelos preditivos. Contudo, técnicas estatísticas têm a desvantagem de necessitar de premissas sobre os modelos. A maior parte das bases de dados contêm muita informação sobre clientes, geralmente armazenada em algumas centenas de variáveis. Se for preciso construir um modelo, terá que selecionar as variáveis a serem incorporadas e indicar como devem ser as relações entre estas variáveis. Por causa desta restrição, relações potencialmente interessantes são facilmente esquecidas. Em outras palavras, o estatístico gera uma série de relações e padrões hipotéticos, e usa técnicas estatísticas para verificá-los ou refutá-los. Quando se está lidando com dezenas ou mesmo centenas de variáveis, torna-se mais difícil e trabalhoso formular uma boa hipótese, e analisar as bases de dados com técnicas estatísticas para comprová-la ou refutá-la. Segundo Data Distilleries (1999), o Data Mining difere de técnicas estatísticas porque, ao invés de verificar padrões hipotéticos, utiliza os próprios dados para descobrir tais padrões. Bases de dados armazenam conhecimento que podem auxiliar na melhoria dos negócios. Técnicas tradicionais permitem a verificação de hipóteses, e aproximadamente 5% de todas as relações podem ser encontradas por estes métodos. Data Mining pode descobrir outras relações anteriormente desconhecidas, os 95% restantes. Em outras palavras, pode-se dizer que técnicas convencionais falam à base de dados, enquanto Data Mining ouve a base de dados. Se não for feita uma pergunta específica, nunca terá a resposta. Data Mining explora as bases de dados através de dezenas de centenas de pontos de vista diferentes. O Data Mining não substitui as técnicas estatísticas tradicionais, sendo uma extensão dos métodos estatísticos, que por sua vez é uma mudança maior na comunidade de estatística. O poder cada vez maior dos computadores com custos mais baixos, aliado à necessidade de análise de enormes conjuntos de dados com milhões de linhas, permitiu o desenvolvimento de técnicas baseadas na exploração de soluções possíveis pela força bruta. Muitas dessas técnicas de Data Mining foram desenvolvidas no passado para extrair informações de dados armazenados. Desta forma, Data Mining é a combinação de diferentes técnicas de sucesso comprovado como inteligência artificial, estatística e banco de dados. Segundo Félix (1998), pode ser observada a delimitação da etapa de Data Mining em três subetapas: redução de instância e/ou atributos (features); descoberta de padröes; e préavaliação do conhecimento obtido por parte do especialista do processo KDD. Segundo Data Distilleries (1999), desde o início dos anos 60, a comunidade de Inteligência Artificial (IA) tem pesquisado sistemas capazes de aprender. Uma classe destes sistemas é chamada de algoritmos de indução. Estes são capazes de induzir um modelo do processo de decisão de um especialista, com base em um conjunto de exemplos. Os algoritmos modelam o processo de decisão do especialista. Então, dado um conjunto de exemplos, os algoritmos podem gerar modelos que o auxiliam a fazer predições e a compreendê-las. Os algoritmos usados em IA são adequados para descobrir regras e modelos em conjuntos de dados artificiais e relativamente pequenos. A premissa feita é a de que todas as informações necessárias estão disponíveis. Toda a informação utilizada pelo especialista para tomar uma decisão é armazenada na base de dados. Nestas condições, o algoritmo de indução gera modelos que fazem predições corretas para cada exemplo no conjunto de dados e modela corretamente o processo de decisão do especialista. Conjuntos de dados reais não contém toda a informação

necessária para a tomada de decisões corretas. Isto não significa que alguns dados têm ruído ou que algumas variáveis são desconhecidas para alguns clientes. Significa que algumas informações relevantes simplesmente não estão disponíveis para a organização. Data Mining é uma tarefa computacionalmente cara. Durante o processo de busca, a qualidade de muitos modelos tem de ser validada. Informações estatísticas sobre os dados são necessárias para avaliar a precisão do modelo gerado. Desta forma, Data Mining tipicamente envolve o envio de milhares de consultas aos bancos de dados da organização, resultando em altos tempos de resposta e carga de trabalho pesada. Técnicas de Data Mining avançadas utilizam métodos de otimização para reduzir a interação com as bases de dados. Por exemplo, o resultado de uma consulta é temporariamente armazenado, de forma que consultas subseqüentes a informações similares podem ser atendidas sem que a base de dados seja acessada. De acordo com a Data Destilleries (1999), o uso de Data Mining para a construção de um modelo traz vantagens a pessoas sem conhecimento estatístico (por exemplo, analistas financeiros ou pessoas que trabalham com database marketing) que podem interpretar o modelo e compará-lo com suas próprias idéias. O usuário ganha mais conhecimento sobre o comportamento do cliente e pode usar esta informação para otimizar os processos dos negócios. Grandes conjuntos de dados, de até vários gigabytes de informação podem ser analisados com Data Mining. Por exemplo, para cada cliente é possível ter centenas de atributos que contenham informações detalhadas em bases de dados que por sua vez podem ser muito extensas também. Assim, é possível minerar uma base de dados contendo milhões de registros sobre informações de clientes. 4. O Data Mining na WEB Concretizando as previsões de Cezar (2000:8), os fabricantes de software e hardware se movimentam para oferecer a hospedagem, o processamento e a manutenção remota dos sistemas de seus clientes corporativos por meio dos ASPs Aplication Service Providers. Esta acirrada competição envolve fornecedores de software de banco de dados, vendedores de ERP (Enterprise Resource Planning), fabricantes de hardware, integradores de sistemas, os Internet Solution Providers (ISPs) e as companhias de telecomunicações que estão implementando estratégias para atrair os ASPs. Os objetivos a serem alcançados por meio dos esforços no desenvolvimento e implantação de Data Minings para o ambiente WEB, são principalmente o aumento da competitividade da empresa promovido pelo desenvolvimento e aprimoramento de ferramentas de análise de sensibilidade da demanda em relação as variáveis do mercado de e-commerce. Entendendo o e-commerce como a disponibilização de meios eletrônicos onde os produtos e serviços são divulgados, demonstrados e comercializados, possuindo a capacidade de realizar transações que envolvem a troca de bens e serviços entre duas ou mais partes. Inúmeros fatores contribuem para o desenvolvimento da aplicação Data Mining na WEB, entre eles observa-se o mercado globalizado, a concorrência na disputa pelo mercado consumidor, o alto nível de competitividade entre as empresas, um mercado consumidor exigente e as conseqüências deste novo cenário. Assim, as empresas de e- commerce têm que se adequarem às novas realidades de mercado, adotando ferramentas como o Data Mining dentro de suas atividades. Obtendo desta forma agilidade na tomada de decisões, maior conhecimento sobre as necessidades e exigências dos

clientes, amplo conhecimento sobre o mercado/concorrentes, características de produtos com qualidade/preços competitivos e realização de campanhas de marketing eficientes. 4.1 As 4 Fases do modelo O modelo Data Mining na WEB é implementado em 4 fases distintas. Na primeira fase ocorre a modelagem e estruturação da base de dados que dará sustentação ao modelo. Nesta fase é decidida a metodologia de obtenção dos dados, as variáveis que comporão a análise, a abrangência do projeto e a estrutura do banco de dados. Na segunda fase ocorre a incorporação das informações às bases de dados com o desenvolvimento de rotinas que garantam a consistência e confiabilidade destas, pois são de vital importância para a validação dos resultados das análises estatísticas. Nesta fase os dados são obtidos pelas transações comerciais rotineiras via WEB, transformando-se na principal fonte de informação e centro de analises. É prevista a obtenção de informações do ambiente corporativo (interno), bem como daquelas relacionadas ao ambiente externo da organização. Por meio do monitoramento eletrônico, também são obtidas informações sobre o comportamento do consumidor, tais como a freqüência com que realiza visitas ao Site, a freqüência com adquire determinado produto, e a sua reação diante de uma ação de marketing pela WEB (campanhas via e-mails, banners, etc.). Na terceira fase, a partir das bases de dados operacionais, é criado um Data Warehouse que servirá de base para a realização do Data Mining, pois a realização de Data Warehouse torna factível a análise em grandes quantidades de dados no apoio ao processo decisório. Nesta fase, são integrados os dados de múltiplas fontes, sendo assegurada a qualidade dos dados que serão garimpados. Esta etapa é se suma importância para a validação dos dados a serem trabalhados pelo Data Mining. Na quarta fase são aplicadas técnicas de Data Mining, como a otimização e estatística, onde objetiva-se obter informações como elasticidade dos produtos e padrões não percebidos de consumo do cliente WEB. Nesta última fase é importante a validação dos resultados obtidos através de análises complementares, pois além da elasticidade, podemos obter resultados da segmentação dos concorrentes por perfil de consumo, share de mercado, impacto das atividades de marketing na WEB, preços e atividades de marketing dos concorrentes na WEB e margem de lucro dos concorrentes. A implementação deste modelo de quatro fases torna possível a aplicação de várias metodologias para a realização de um Data Mining, como as apontadas por Carvalho (2001:17-30). Pode-se adotar a metodologia da descoberta não supervisionada onde o grau de conhecimento sobre a base de dados é pequeno e deseja-se observar novas relações entre os dados. Na metodologia de teste de hipóteses, onde o grau de conhecimento sobre as relações entre os dados é considerado razoável, podem ser testadas as possíveis relações entre os padrões já encontrados. Na metodologia baseada em modelagem de dados onde o grau de conhecimento sobre as relações entre os dados é considerada grande, busca-se criar relações matemáticas entre os dados, permitindo por exemplo a verificação de margens de lucros e previsões de vendas. Assim, observando o trabalho de Carvalho (2001:17-30), várias técnicas de Data Mining se adaptam à este modelo para a WEB, entre elas encontra-se a de classificação, que consiste em verificar com que grupo de entidades já classificadas

anteriormente um determinado objeto mais se assemelha. A técnica de estimativa baseia-se em avaliar uma grandeza, tendo como parâmetro casos semelhantes nos quais estas grandezas são encontradas. A técnica de previsão que baseada no comportamento de um determinado índice, o projeta para o futuro. A análise por afinidade é uma técnica destinada a descobrir qual é a possibilidade de fatos simultâneos ocorrerem novamente. A técnica de análise por agrupamento tem por objetivo definir quantas e quais classes existem em um conjunto de entidades. 5. Resultados O Data Mining na WEB trará inúmeras vantagens aos profissionais de marketing através do acesso às informações sobre o comportamento do cliente no e-commerce. Possibilitará uma ação rápida e direcionada a perfis individualizados de clientes. Entre outras análises, será possível prever o aumento ou redução nas vendas no ambiente WEB de um determinado produto em virtude da variação dos seus preços, determinar o preço ótimo de forma a maximizar o lucro da empresa virtual, determinar a influência nas vendas de uma atividade de marketing, conhecer a influência da variação de preço dos concorrentes nas suas vendas e conhecer a influência da variação do seu preço nas vendas dos concorrentes. Também será possível obter conhecimento das atividades de marketing dos concorrentes e sua influência nas vendas, segmentar o mercado em função do comportamento de seus clientes, de modo a possibilitar campanhas de marketing específicas para cada segmento e extrair conhecimento da estratégia dos concorrentes na formação de preço. 6. Bibliografia Carvalho, Luiz Alfredo Vidal de. (2001) Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração, São Paulo, Érica, 234 págs. Cezar, Genilson. (2000). Os ASPs chegam para tomar conta das aplicações corporativas, Informática Hoje, Nº 492, São Paulo, Plano Editorial, p. 8-9. Data Distilleries. (1999). Introduction to data mining: discover hidden value in your databases, http://fox.rollins.edu/~tlairson/ecom/introdatamining.pdf, Dezembro. Félix, L. C. M. (1998). Data Mining no processo de extração do conhecimento de base de dados, São Carlos - SP, EESC/USP. Dissertação de mestrado. Information Discovery, Inc. (2000), Information Discovery, http://www.datamining.com, Dezembro. Macoratti, J. C. (2000). ASP, ADO e banco de Dados na Internet, Florianópolis SC, Visual Books, 296 págs. MCT- Ministério da Ciência e Tecnologia. (2002). Internet Comercial: Conceitos Estatísticas e Aspectos Legais, Secretaria de Política de Informática, http://www.mct.gov.br, Novembro. Oliveira, R. B. T. (1999). O processo de extração de conhecimento de base de dados apoiado por agentes de software, São Carlos SP, EESC/USP, 1999. Dissertação de mestrado.

Taurion, C. (2003). Qual a definição para data mining?, http://www.mktdireto.com.br/materia6.html, Abril. Frawley, W. & Piatetsky-Shapiro, G. & Matheus, C. (1992) Knowledge Discovery in Databases: An Overview, AI Magazine. Pg. 213-228.