Rodrigo Leite Durães rodrigo_l_d@yahoo.com.br
Processo de mineração de dados e descoberta de informações relevantes em grandes volumes de dados. "... processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis (Fayyad et al. 1996).
O problema dessa abordagem é que além da possibilidade de garimpagem de relacionamento inúteis, o número de correlações possíveis de serem obtidas é muito grande, o que impede a análise de cada uma delas, exigindo, dessa forma, algoritmos inteligentes que possam selecionar os padrões mais relevantes para certas aplicações. É usado quando é necessário análises complexas, tendências escondidas, inferências, detecções de fraude, perfil de comportamento, análise de grau de fidelização, formulações e verificações de hipóteses colocadas pela direção da empresa.
As ferramentas de Mining estão muito relacionadas com o tratamento especial da informação, por isso, um subconjunto de dados extraídos do Data Warehouse e de Data Marts será o alvo dessas análises mais sofisticadas. Dependendo da complexidade do projeto pode ser necessário a presença de um estatístico,, com conhecimento em técnicas e algoritmos estatísticos, por exemplo, árvores de decisão, análises de conglomerados, análise de regressão, métodos preditivos com séries temporais e o recurso matemático/computacional de redes neurais.
O Data Mining ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, o direcionamento da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos, um aspecto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido.
Para uma mineração bem sucedida, é preciso: a partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc.) efetuar uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc). Disto nascem os repositórios organizados (Data Marts e Data Warehouses), que já são úteis para outros fins. Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração.
DW / DM Conjunto total de dados Outros dados Internos Outros dados Externos Dado preparado
De forma interativa e freqüentemente usando visualização gráfica, um analista refina e conduz o processo até que valiosos padrões apareçam. Observe que todo esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso. Encontrar padrões requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se isso porque não é necessário muito conhecimento a extrair de eventos isolados.
Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma única data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento, mas isso provavelmente não indica nenhuma tendência de mercado. Que é o contrário as correlações existentes entre a venda de fraudas junto com cervejas, salsichas junto com catchup, ou até mesmo CD de music com remédio para o fígado.
Não há como explorar uma informação em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa vontade de "não perder dados". Para que o processo dê certo, é necessário sim desprezar os eventos particulares para só manter aquilo que é genérico.
OLAP x Data Mining: OLAP ajuda as organizações a descobrir as medidas, por exemplo, descobrir que as vendas caíram, produtividade melhorou, qual está sendo o tempo de resposta de um serviço, o estoque disponível. Simplesmente OLAP nos diz O que aconteceu. Data Mining ajuda as organizações a descobrir o porque isso aconteceu, além de poder ser usado para prever, ou seja, nos dizer O que vai acontecer no futuro, esses resultados são gerados através da percepção de padrões de dados disponíveis dentro e fora da organização.
Exemplos: Prever resposta a campanhas de marketing; Identificar associações entre clientes por características demográficas; Identificar clientes leais; Prever a aceitação de novos tipos de seguros por perfil de consumidor.