Mestrado Integrado Profissional em Computação Aplicada MPCOMP HELDER DA SILVA ANDRADE

Transcrição

1 Universidade Estadual do Ceará - UECE Centro de Ciências Tecnológicas - CCT Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE Diretoria de Pesquisa e Pós-Graduação - DIPPG Mestrado Integrado Profissional em Computação Aplicada MPCOMP HELDER DA SILVA ANDRADE UM PROCESSO DE MINERAÇÃO DE DADOS APLICADO AO COMBATE À SONEGAÇÃO FISCAL DO ICMS Fortaleza CE, Brasil Dezembro de 2009

2 Universidade Estadual do Ceará - UECE Centro de Ciências Tecnológicas - CCT Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE Diretoria de Pesquisa e Pós-Graduação - DIPPG Mestrado Integrado Profissional em Computação Aplicada MPCOMP HELDER DA SILVA ANDRADE UM PROCESSO DE MINERAÇÃO DE DADOS APLICADO AO COMBATE À SONEGAÇÃO FISCAL DO ICMS Dissertação apresentada ao corpo docente do Mestrado Profissional em Computação na Universidade Estadual do Ceará como pré-requisito para obtenção de título de Mestre em Computação Aplicada na área de Sistemas de Apoio à Decisão. Orientador: Prof. Dr. Jerffeson Teixeira de Souza Co-orientador: Prof. Dr. Gustavo Augusto Lima de Campos Fortaleza CE, Brasil Dezembro de 2009

3 A553p Andrade, Helder da Silva Um processo de mineração de dados aplicado ao combate à sonegação fiscal do ICMS/ Helder da Silva Andrade. Fortaleza, p. ; il. Orientador: Prof. Dr. Jerffeson Teixeira de Souza. Dissertação (Mestrado Profissional em Computação Aplicada) Universidade Estadual do Ceará, Centro de Ciências e Tecnologia. 1. Mineração de Dados. 2. CRISP-DM. 3. Redes Neurais Artificiais. 4. Sonegação. 5. ICMS. I. Universidade Estadual do Ceará, Centro de Ciências e Tecnologia. CDD:001.6

4 AGRADECIMENTOS À minha esposa e filhos (Madeline, Lucas e Thiago) pela compreensão e apoio durante o tempo que me dediquei ao mestrado. Ao Professor Dr. Jerffeson pela orientação, ensinamentos e motivação nesta pesquisa. Ao Professor Dr. Gustavo pela co-orientação e ensinamentos durante o mestrado. Aos professores do MPCOMP que nos incentivaram desde o início e nos passaram os conhecimentos necessários à conclusão do curso. Aos colegas do MPCOMP pela convivência durante as aulas e as idéias discutidas durante o curso. À Secretaria da Fazenda do Estado do Ceará pelo apoio e o acesso aos dados utilizados na pesquisa. E, principalmente, à Deus, por tudo!

5 1 SUMÁRIO SUMÁRIO... 1 RESUMO... 4 ABSTRACT... 5 CAPÍTULO INTRODUÇÃO MOTIVAÇÃO E CONTEXTO DA PESQUISA O PROBLEMA DA SONEGAÇÃO DO ICMS OBJETIVO DA PESQUISA HIPÓTESES LEVANTADAS OS DADOS UTILIZADOS NA PESQUISA CONCLUSÃO CAPÍTULO TRABALHOS RELACIONADOS AO TEMA TRABALHOS BASEADOS EM REDES NEURAIS ARTIFICIAIS TRABALHOS RELACIONADOS A IMPOSTOS CONCLUSÃO CAPITULO FUNDAMENTAÇÃO TEÓRICA INTELIGÊNCIA ARTIFICIAL DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS MINERAÇÃO DE DADOS APRENDIZADO SUPERVISIONADO E NÃO SUPERVISIONADO REDES NEURAIS ARTIFICIAIS (RNAs) CONCLUSÃO... 43

6 2 CAPÍTULO O PROCESSO PROPOSTO UTILIZAÇÃO DO CRISP-DM EXTENSÃO DO CRISP-DM UTILIZAÇÃO DAS RNA s NO PROCESSO PROPOSTO CONCLUSÃO CAPÍTULO PREPARAÇÃO DE DADOS E APLICAÇÃO NO PROCESSO PROPOSTO LIMPEZA E REDUÇÃO NOS DADOS AGRUPAMENTOS E JUNÇÕES DOS DADOS AJUSTES NOS DADOS O CONJUNTO DE DADOS RESULTANTE CLUSTERIZAÇÃO COM REDES DE KOHONEN SELEÇÃO DE ATRIBUTOS CLASSIFICAÇÃO COM REDES MLP CONCLUSÃO CAPÍTULO AVALIAÇÃO E UTILIZAÇÃO DO PROCESSO COMPARAÇÃO COM O MODELO SEM A CLUSTERIZAÇÃO DE KOHONEN COMPARAÇÃO COM UM ALGORITMO DE ÁRVORES DE DECISÃO UTILIZANDO VALIDAÇÃO CRUZADA UTILIZAÇÃO OU DISTRIBUIÇÃO CONCLUSÃO CAPÍTULO

7 3 CONCLUSÃO E TRABALHOS FUTUROS CONCLUSÕES TRABALHOS FUTUROS APÊNDICE METODOLOGIA E FERRAMENTAS UTILIZADAS CRISP-DM IDEA - Interactive Data Extration and Analisys CLEMENTINE APÊNDICE TABELAS Tabela A.2.1: Agrupamento de atividades econômicas Tabela A.2.2: Agrupamento de CFOP (Código Fiscal de Operação e Prestação) 130 Tabela A.2.3: Relação de atributos do conjunto inicial de dados REFERÊNCIAS BIBLIOGRÁFICAS

8 4 RESUMO O objetivo deste trabalho é propor um processo de mineração de dados aplicado ao problema da sonegação do ICMS Imposto sobre operações relativas à Circulação de Mercadorias e sobre prestações de Serviços de transporte interestadual e intermunicipal e de comunicação. O processo proposto consiste em uma extensão do CRISP-DM (CRoss Industry Standard Process for Data Mining) através da utilização de algoritmos de Redes Neurais Artificiais RNA s. A proposta divide a fase de Modelagem do CRISP-DM em três subfases bem determinadas: Clusterização, Seleção de Atributos e Classificação. Dois dos modelos clássicos de RNA s foram utilizados dentro do processo proposto. Uma RNA do tipo mapa auto-organizável com algoritmo de Kohonen foi utilizada na fase de Clusterização para agrupamento dos dados aproveitando as suas próprias características. Outra RNA do tipo Perceptron Multicamadas (MLP) com algoritmo de retro propagação de erros foi utilizada na fase de Classificação. Entre essas fases, uma outra foi inserida para Seleção de Atributos, a qual utiliza o algoritmo C5.0, objetivando descartar dados não significativos para a classificação, otimizar o tempo de treinamento e dar mais qualidade ao processo. Para validar o processo foi utilizada uma base de dados típica de uma administração tributária estadual e, ao final, para validá-lo, os resultados foram avaliados e comparados com resultados de outros modelos. Palavras chaves: Mineração de Dados, CRISP-DM, Redes Neurais Artificiais, Sonegação, ICMS.

9 5 ABSTRACT The objective of this work is to propose a datamining process applied to the problem of evasion in ICMS Tax relative operations to the Circulation of Goods and on services of transport and communication. The proposed process is an extension of the CRISP-DM ("CRoss Industry Standard Process of Data Mining") using Artificial Neural Networks (ANN s) algorithms. The proposal divides the Modelling phase of CRISP-DM in three subfases: Clustering, Feacture Selection and Classification. Two of the classic models of RNA's were used inside of proposed process. A self-organized map with Kohonen s algorithm was used in the clustering phase for grouping data conform their own characteristics. A multilayer perceptron (MLP) with backpropagation algorithm was used in the classification phase. Between these two phases, another phase was included for Feacture Selection using the C5.0 algorithm, to discarding not significant data, optimize the training time and give more quality to the process. To validate the process, a typical database of a tax administration was used and, at the end of the work, to validate it, the results were appraised, compared with results of other models. Keywords: Datamining, CRISP-DM, Artificial Neural Networks, Evasion, ICMS.

10 6 CAPÍTULO 1 INTRODUÇÃO 1.1. MOTIVAÇÃO E CONTEXTO DA PESQUISA Mineração de dados, atualmente, é um processo extremamente importante para todas as organizações que têm grandes bases de dados, pois, a partir destes dados é possível extrair conhecimento, o qual pode ser utilizado para garantir maior mercado, menores custos e, por que não dizer, a própria sobrevivência da organização. De que adianta armazenar grandes volumes de dados e não utilizá-los? Organizações governamentais não fogem desse contexto, onde a informatização crescente, com custos cada vez menores, possibilita a utilização de diversas técnicas e ferramentas de mineração de dados. Há tempos abriu-se a possibilidade do governo também fazer uso de modelos sistematizados para auxiliar em seus processos de planejamento e tomada de decisão. As administrações fazendárias são um bom exemplo. Atualmente as Secretarias de Fazenda dos Estados do Brasil recebem, mensalmente, um grande volume de dados sobre as operações das empresas inscritas em seus cadastros, além de informações de outras fontes, que ficam armazenadas seus bancos de dados. Fazse necessário aproveitar o desenvolvimento tecnológico e, mais precisamente, as técnicas de mineração de dados para extrair conhecimento da grande massa de dados que estas organizações possuem. A motivação da presente pesquisa reside na necessidade das administrações fazendárias estarem munidas de ferramental tecnológico para melhorar a tomada de decisões e fazer frente à sonegação de impostos e o consequente desequilíbrio entre as suas arrecadações tributárias e os recursos necessários para investimentos na sociedade.

11 7 No Brasil, um dos grandes problemas na gestão dos impostos é a sonegação. O correto pagamento dos impostos por parte dos contribuintes 1 garante ao Estado manter os investimentos necessários para a sociedade. Abstendo-se de outros fatores, sem os impostos, o Estado não pode garantir saúde, educação, saneamento, transporte, infra-estrutura, entre outros serviços essenciais à população. Diversas administrações fazendárias estão partindo para montar Data Warehouses (armazéns de dados) ou investindo em sistemas especialistas para auxiliar nas tomadas de decisões. Entre as decisões de uma administração tributária, uma das mais importantes é, sem dúvida, saber quem fiscalizar ou quem precisa de um maior controle fiscal. Trabalhamos nesta pesquisa com dados da Secretaria de Fazenda do Estado do Ceará (SEFAZ-CE). A SEFAZ-CE é uma organização que possui uma grande massa de dados, a qual necessita ser minerada a fim de se extrair o conhecimento necessário para melhorar o controle fiscal e combater o problema da sonegação fiscal, principalmente no que diz respeito ao ICMS Imposto sobre operações relativas à Circulação de Mercadorias e sobre prestações de Serviços de transporte interestadual e intermunicipal e de comunicação, imposto mais importante entre as suas receitas O PROBLEMA DA SONEGAÇÃO DO ICMS Os impostos têm importantes funções dentro do contexto da construção e manutenção do Estado e seus reflexos são relevantes na qualidade de vida de seus habitantes. Atualmente, o principal imposto de competência dos Estados no Brasil é o ICMS. Este imposto representa em média 95% da arrecadação de todos os impostos estaduais. Logo, as Administrações Fazendárias Estaduais não podem perder receitas 1 Corresponde a todas as pessoas, físicas ou jurídicas, que pagam os tributos, seja na aquisição de produtos ou serviços ou em outros fatos tributados. Esse conceito parte do pressuposto que o verdadeiro contribuinte no caso do ICMS é o consumidor final de produtos ou serviços, que, no final das contas, é aquele que realmente paga o imposto exigido, embutidos nos preços. Assim sendo, os estabelecimentos seriam apenas os recolhedores do ICMS para os cofres públicos.

12 8 por conta da sonegação fiscal desse importante imposto. Neste sentido, este trabalho tem sua relevância dentro de uma conjuntura governamental e social. Ele se reveste numa contribuição para fortalecer a capacidade do Estado de manter bons níveis de arrecadação e, consequentemente, os investimentos para a comunidade. A seguir serão discutidos alguns tópicos fundamentais para o entendimento do problema dentro do contexto da administração tributária estadual O ICMS O ICMS é um imposto não cumulativo. Isso significa que o cálculo do valor a ser recolhido pelos estabelecimentos 2, recolhedores do imposto, deve ser calculado como uma conta corrente em que os débitos são o imposto devido nas vendas e os créditos são o imposto recolhido nas operações anteriores [VIANA NETO 1995]. Por exemplo, admitindo-se que a alíquota 3 do ICMS seja 17,00 %, uma empresa adquire mercadoria no valor de R$ 100,00 com R$ 17,00 de ICMS já embutido no valor da compra. Se a empresa vender a mercadoria por R$ 150,00, terá que embutir R$ 25,50 de ICMS. O ICMS a recolher é a diferença entre o valor do imposto incluso na venda (débito) e o valor incluso na compra (crédito), ou seja, R$ 8,50 (R$ 25,50 R$ 17,00). Esse cálculo deve ser processado por meio de uma apuração periódica com a diferença entre o somatório de todos os débitos e o somatório de todos os créditos [RIBEIRO NETO 2006]. O ICMS é um imposto lançado pelo próprio sujeito passivo 4 que tem a obrigação de apurar o que é devido, com base na legislação vigente, e de informar todos os elementos do cálculo para a administração tributária. 2 Unidades da pessoa jurídica que procede à venda de produtos ou serviços tributados e recolhe ICMS. Todos eles devem ter organização administrativa e estar inscritos no CGF Cadastro Geral da Fazenda. 3 É o percentual utilizado para o cálculo do imposto e aplicado sobre o valor da operação. 4 É a pessoa, física ou jurídica, encarregada de recolher os impostos, ou seja, de repassá-los para os cofres públicos.

13 9 De forma simplificada podemos fazer uma classificação geral dos estabelecimentos (sujeitos passivos) inscritos no Cadastro Geral da Fazenda, considerando as atividades econômicas tributadas pelo ICMS: 1. Indústria: abrange as atividades de transformação de insumos em produtos acabados. As empresas enquadradas nessas atividades aproveitam créditos referentes à aquisição dos insumos utilizados diretamente na produção; 2. Comércio: abrange as atividades de compra e revenda de produtos. Os créditos utilizados na apuração do ICMS provêm somente da aquisição dos produtos revendidos. É preciso ressaltar que, para efeito de legislação tributária do ICMS, o fornecimento de energia elétrica é considerado uma atividade comercial, ou seja, energia elétrica é considerada mercadoria; 3. Serviços: abrange as atividades de prestação de serviços tributados pelo ICMS, que são os de comunicação, inclusive telecomunicação, e de transporte, excetuando-se o transporte intramunicipal. Os créditos para apuração do ICMS somente são aproveitados nas aquisições de produtos utilizados diretamente na prestação dos serviços. Respeitando-se algumas regras constitucionais, a legislação do ICMS é de competência de cada Estado. Tal legislação estabelece uma série de obrigações aos seus sujeitos passivos. Diz-se que a obrigação de recolher o imposto aos cofres públicos é a obrigação tributária principal e todas as outras são obrigações tributárias acessórias Sonegação, Fraude e Conluio Sonegação é todo ato que, conscientemente ou inconscientemente, de forma legal ou ilegal, leva ao não pagamento ou pagamento a menor do imposto devido. Ela pode ser praticada na forma de elisão ou evasão fiscal. Ocorre elisão quando o ato é praticado dentro da lei, observando suas lacunas ou fazendo planejamento fiscal, resultando em não recolhimento do imposto. Já a evasão se caracteriza pelo claro

14 10 atentado à lei, ou seja, utilizando-se meios ilícitos para evitar o pagamento do imposto [PELLIZZANI 1990]. Normalmente, é possível colher provas de evasão fiscal, e penalizar os seus praticantes. Em se tratando de elisão, as ações do fisco se limitam a ajustar a lei para não deixar possibilidades para essa prática. No que diz respeito ao não cumprimento das normas tributárias, é importante distinguir duas práticas que frequentemente aparecem nas verificações fiscais. Uma dessas práticas é a fraude, que pode ser definida, em termos tributários, como toda ação ou omissão, praticada com ardil, astúcia, malícia ou má-fé, que impede ou modifica a ocorrência do fato gerador 5, visando reduzir ou não pagar do imposto devido. A segunda prática é o conluio que pode ser entendido como um ajuste entre duas ou mais pessoas visando à sonegação. Seja qual for a forma de sonegação, voluntária ou involuntária, quando ela é comprovada tem como consequência a aplicação de punições pelas administrações tributárias. As penalidades vão desde multas pecuniárias, passando por restrições até a limitação de alguns direitos e vantagens [ANDRADE FILHO 2005]. Diminuir ao máximo a sonegação fiscal é uma busca constante das administrações fazendárias, pois esta redução traz diversos benefícios para a sociedade, como, por exemplo: Mais recursos para os investimentos do Estado em educação, saúde, transporte, entre outros; O pagamento dos impostos devidos por todos possibilita o fim da concorrência desleal. Não é justo que as empresas se beneficiem por não pagar seus impostos em detrimento daquelas que os pagam em dia, pois isso causa um desequilíbrio de mercado; Com o equilíbrio no pagamento dos impostos é possível proceder a uma 5 É o fato (operação ou prestação) no qual incide o imposto, ou seja, no qual é obrigatório lançar um percentual relativo ao ICMS.

15 11 reforma tributária, tão desejada por todos no Brasil, onde todos poderão pagar menos impostos sem que o governo perca arrecadação OBJETIVO DA PESQUISA O CRISP-DM ( CRoss Industry Standard Process for Data Mining ) é um processo para mineração de dados extremamente flexível. As Redes Neurais Artificiais têm a capacidade de modelar problemas não-lineares e cujo tratamento não pode ser feito com técnicas estatísticas convencionais. Considerando essas propriedades e a visão do problema da sonegação do ICMS, estabeleceu-se o objetivo do trabalho da seguinte forma: Objetivo Geral Propor um processo de mineração de dados, tomando por base o CRISP-DM e as Redes Neurais Artificiais, utilizando dados típicos de uma administração fazendária, buscando prever a sonegação ou não do ICMS, contribuindo para melhorar o controle fiscal Objetivos Específicos Preparar os dados de uma Secretaria da Fazenda para o processo de mineração de dados; Especializar a fase de modelagem do CRISP-DM a partir da utilização de Redes Neurais Artificiais para treinamento dos dados pré-processados; Analisar e avaliar o desempenho do processo proposto através de uma aplicação voltada para o problema da sonegação fiscal HIPÓTESES LEVANTADAS Apresentam-se como hipóteses para resolver a questão principal da pesquisa:

16 12 1. Pode-se estabelecer um processo de mineração de dados, baseado na metodologia estabelecida pelo CRIPS-DM e em RNAs, que seja adequado ao problema da sonegação do ICMS. 2. O problema da sonegação de impostos, mais precisamente do ICMS, pode ser modelado e analisado com Redes Neurais Artificiais; 3. É possível construir RNA s para classificar as empresas que recolhem ICMS entre as que apresentam um maior ou menor risco de sonegação; 1.5. OS DADOS UTILIZADOS NA PESQUISA Uma administração fazendária estadual, em geral, armazena um grande volume de dados. A maior parte desses dados refere ao ICMS e aos sujeitos obrigados a recolhê-lo, desde o cadastro geral de estabelecimentos inscritos até as operações declaradas por estes a cada mês. Os dados utilizados neste trabalho são relativos à administração fazendária da Secretaria da Fazenda do Estado do Ceará e respeitaram todo o sigilo fiscal exigido legalmente Tabelas de Dados Os dados foram extraídos de um SGBDR (Sistema Gerenciador de Banco de Dados Relacional) Oracle e disponibilizados em formato texto, distribuídos nas tabelas descritas a seguir: Cadastro Relação de estabelecimentos inscritos no cadastro geral da fazenda estadual (CGF), classificados por CNAE 6, órgão local 7 ou regime de recolhimento 8. Nesta tabela foram retirados os campos que identificam os 6 É o Código Nacional de Atividade Econômica: Codificação estabelecida pela CONCLA Comissão Nacional de Classificação que representa as atividades econômicas exercidas pelos contribuintes. 7 Representa a região fiscal, ou seja, as unidades de circunscrição regional no Estado do Ceará onde se localizam os estabelecimentos. 8 É o regime estabelecido pela administração fazendária para o estabelecimento inscrito em seu cadastro no que diz respeito à forma de recolhimento do ICMS. Em geral, nos Estados do Brasil, os regimes comuns padrões

17 13 estabelecimentos, tais como nome, CNPJ, endereço e outros, ou seja, somente foram utilizados atributos necessários à pesquisa, que são: o Seqüencial do cadastro Número seqüencial que identifica o estabelecimento cadastrado; o Código do Município Código do IBGE (Instituto Brasileiro de Geografia e Estatística) para o município onde se localiza o estabelecimento inscrito no cadastro; o Início da atividade Data de início da atividade do estabelecimento inscrito; o CNAE primário Primeiro Código Nacional de Atividade Econômica do estabelecimento; o CNAE Secundário Segundo Código Nacional de Atividade Econômica do estabelecimento; o Situação Código que identifica a situação dos estabelecimentos diferenciando aqueles que estão ativos, baixados, cassados ou excluídos do cadastro; o Regime de recolhimento Código que identifica o regime de recolhimento do ICMS do estabelecimento podendo ser Normal, Empresa de Pequeno Porte (EPP) ou Micro-empresa (ME). Arrecadação dados mensais provenientes da arrecadação do ICMS por estabelecimentos cadastrados, detalhado com os seguintes atributos: o Seqüencial do cadastro Número seqüencial que identifica o estabelecimento cadastrado; o Código de receita código que identifica o tipo de receita recolhida pelo são os de Empresa Normal, Empresa de Pequeno Porte e Micro Empresa. Os estabelecimentos são classificados nos regimes em função do seu porte, ou seja, do volume de faturamento.

18 14 estabelecimento; o Mês de movimento Mês do recolhimento da receita; o Ano de movimento Ano de recolhimento da receita; o Mês de referência Mês a que se refere o recolhimento, tendo em vista que existem recolhimentos extemporâneos; o Ano de referência Ano a que se refere o recolhimento, tendo em vista que existem recolhimentos extemporâneos; o Valor principal Valor líquido do imposto recolhido; o Valor total Valor total recolhido incluindo o valor do imposto, multas e juros; o Data Data do recolhimento. Dados da DIEF 9 Dados relativos às operações e/ou prestações dos estabelecimentos inscritos no CGF e declarados na DIEF. Estavam dispostos em detalhes da seguinte forma: o Entradas Valor das compras, transferências, devoluções de vendas e outros recebimentos mensais de produtos ou serviços, classificados por CFOP 10 e origem (internas, interestaduais e do exterior), detalhado com: CFOP Código Fiscal de Operação e Prestação; Valor contábil Valor bruto; Base de cálculo Valor da base cálculo para crédito de 9 É a Declaração mensal de Informações Econômico-Fiscais. Declaração do próprio estabelecimento com todas as suas operações e prestações além do cálculo do ICMS devido, com base nos documentos e livros fiscais, apresentada mensalmente ao fisco estadual em meio eletrônico. 10 É o Código Fiscal de Operação e Prestação. Ele representa os tipos de operações ou prestações efetuadas com mercadorias ou serviços pelos estabelecimentos.

19 15 ICMS pelas entradas; Isentas 11 Valor das operações de entrada, isentas de ICMS em função da legislação; Outras 12 Valor de outras operações de entrada não tributadas pelo ICMS. o Saídas Valor das vendas, transferências, devoluções de compras e outras saídas mensais de produtos ou serviços, classificadas por CFOP e destino (internas, interestaduais e do exterior), detalhado com: CFOP Código Fiscal de Operação e Prestação; Valor contábil Valor bruto; Base de cálculo Valor da base cálculo para débito de ICMS pelas saídas; Isentas Valor das operações de saída, isentas de ICMS em função da legislação; Outras Valor de outras operações de saída não tributadas pelo ICMS. o Créditos e Débitos valores dos créditos e débitos utilizados no cálculo do saldo de ICMS de cada mês. o Inventários valores dos estoques dos estabelecimentos ao final de cada exercício fiscal. 11 São operações tributadas, mas que e lei determina que não sejam passíveis de cobrança de imposto. Pode ser por tempo determinado ou indeterminado. Existem isenções não condicionadas, que a legislação dá direito sem impor condições, e, também, isenções condicionadas, em que a legislação determina uma ou mais condições para que se tenha direito à isenção. 12 Entre essas operações se enquadram as imunes, que são aquelas que a própria Constituição Federal impõe imunidade a determinados tributos. Existem, ainda, as que são tributadas por outros impostos que não seja o ICMS.

20 16 Fiscalização dados referentes às ações de fiscalização com a quantidade e valor dos autos de infração 13 expedidos e a situação destes, detalhados de seguinte forma: o Ações fiscais 14 Relação de todas as verificações fiscais sofridas pelos estabelecimentos, sejam elas auditorias completas ou simples diligências específicas, incluindo as solicitações que as originaram; o Autos de infração Relação de todos os autos de infração com os valores lançados relativos às irregularidades constatadas nas ações fiscais, multas aplicadas e a situação relativa ao pagamento ou julgamento desses processos. CFOP dados com codificação e descrição dos tipos de operações ou prestações efetuadas pelos estabelecimentos com mercadorias ou serviços. CNAE dados com codificação e descrição das atividades econômicas dos estabelecimentos. Valores TEF Valores das transferências eletrônicas de fundos procedidas pelos estabelecimentos, informados pelas administradoras de cartão de crédito. Valores Postos Fiscais Valores das entradas e saídas dos estabelecimentos inscritos no Estado do Ceará, registradas nos postos fiscais da Secretaria da Fazenda. 13 Instrumentos utilizados para lançar de oficio os valores devidos pelos contribuintes, decorrentes de infrações cometidas. 14 Diligências e auditorias sofridas por um estabelecimento, podendo ser para uma simples averiguação de um documento fiscal até uma verificação completa das suas operações e escrita fiscal.

21 CONCLUSÃO Neste capítulo introdutório tecemos considerações sobre a motivação e os objetivos deste trabalho. Evidenciamos o entendimento do problema da sonegação do ICMS e os dados utilizados para cumprir seus objetivos. Nos capítulos seguintes discorreremos sobre trabalhos relacionados e fundamentação teórica. Um capítulo exclusivo será dedicado à discussão do processo proposto neste trabalho e em seguida detalharemos a sua aplicação com dados de uma administração fazendária. A metodologia do CRISP-DM e suas fases são detalhadas no Apêndice 1.

22 18 CAPÍTULO 2 TRABALHOS RELACIONADOS AO TEMA Alguns trabalhos relacionados à detecção de fraudes fiscais, previsão de arrecadação ou aplicações de RNAs na área governamental merecem destaque. A seguir discutiremos estes trabalhos, os quais classificamos da seguinte forma: Trabalhos baseados em redes neurais artificiais; Trabalhos relacionados a impostos TRABALHOS BASEADOS EM REDES NEURAIS ARTIFICIAIS Na linha de utilização de Redes Neurais Artificiais para resolver problemas na área governamental encontramos poucos trabalhos no Brasil. Em [LIMA 2005] na tese intitulada Crime Organizado e Lavagem de Dinheiro: Uma Aplicação das Teorias dos Jogos e de Redes Neurais Artificiais, o autor propõe modelar o problema do crime organizado e lavagem de dinheiro, com uma mistura da teoria dos jogos e redes neurais artificiais com a finalidade de reconhecer padrões internacionalmente conhecidos. A pesquisa aborda o problema sob as duas técnicas e, segundo o autor, a capacidade de reconhecer padrões é o ponto de ligação entre essas duas técnicas de mineração de dados. O ponto comum entre este trabalho e a presente pesquisa reside na aplicação das RNA s a um problema de controle governamental. Em [SISNANDO 2006] o autor apresentou um artigo intitulado Previsão e Avaliação de Desempenho dos Contribuintes do ICMS do Estado do Ceará Utilizando Redes Neurais Artificiais. Este trabalho procurou investigar a habilidade de Redes Neurais Artificiais em realizar previsões do desempenho dos contribuintes do ICMS do Estado do Ceará. Foi utilizado apenas treinamento de redes Multilayer Perceptron (MLP). O alvo era identificar padrões de comportamento das empresas. Diferentemente da abordagem do presente trabalho, os resultados obtidos foram

23 19 confrontados com resultados gerados por um modelo estatístico utilizado à época pela própria Secretaria da Fazenda do Estado do Ceará TRABALHOS RELACIONADOS A IMPOSTOS Aqui citaremos trabalhos que utilizaram outras técnicas de mineração de dados para problemas da área tributária. Em [BRAZ 2001] a tese intitulada Um Modelo para Gerenciamento, Avaliação e Planejamento da Arrecadação de Impostos Estaduais propõe um modelo de gerenciamento, avaliação e planejamento da arrecadação de impostos, visando combater a sonegação fiscal e aumentar a receita estadual sem elevação da carga tributária. Neste trabalho o foco principal é a montagem de um datawarehouse, como um estudo de caso em uma Secretaria de Fazenda. Não foi utilizada uma técnica conhecida de mineração de dados. Em [CORVALÃO 2002] a dissertação cujo título é Previsão da Arrecadação do Imposto sobre Circulação de Mercadorias e Serviços em Santa Catarina: Aplicação da Abordagem Geral para Específico em Modelos Dinâmicos tem como objetivo principal, verificar a possibilidade de melhorar as previsões mensais do ICMS arrecadado, o processo de tomada de decisão e o planejamento orçamentário do Estado de Santa Catarina. Esse trabalho se baseou em modelos de regressão dinâmica onde foram selecionadas e analisadas diversas séries de dados. Segundo o autor, os resultados indicaram que o modelo proposto era adequado para o problema. Em [GOMES JÚNIOR] a dissertação intitulada Descoberta de Conhecimento Em Múltiplas Perspectivas: Aplicação em Bases de Dados do ICMS descreve uma metodologia de exploração de bases de dados do ICMS da Secretaria da Fazenda do Estado do Ceará. Esta proposta gira em torno da estruturação das informações contidas nos bancos de dados e a descoberta de conhecimento, utilizando um algoritmo de formação de conceitos. Este trabalho foi focado na preparação dos dados a serem submetidos ao algoritmo FORMVIEW, visualizados em diferentes

24 20 perspectivas, gerando hierarquias de conceitos e descobrindo relacionamentos entre as hierarquias. Nos artigos em [BONCHI et al ] e [YU, QIN e JIA ] os autores utilizaram árvores de decisão. O primeiro, intitulado Using Data Mining Techniques in Fiscal Fraud Detection, é um trabalho direcionado a fraudes fiscais e propõe um modelo de descoberta de conhecimento em base de dados. O segundo, intitulado Data Mining Application Issues in Fraudulent Tax Declaration Detection, também é direcionado a fraudes fiscais e descreve etapas de um processo de mineração de dados. Esses artigos se baseiam em uma técnica de mineração diferente das RNAs, mas propõem resolver problema semelhante ao do presente trabalho CONCLUSÃO Sem dúvida os trabalhos comentados neste capítulo guardam relação com a presente pesquisa. No entanto devemos ressaltar os seguintes pontos: 1. Nesta dissertação descrevemos e propomos um processo de mineração de dados voltado para o combate à sonegação fiscal do ICMS. Este processo tem como base uma metodologia mundialmente conhecida (CRISP-DM) que é adaptada para o problema a ser resolvido; 2. As Redes Neurais Artificiais foram escolhidas para serem aplicadas dentro do processo proposto. Além disso, são aplicados dois algoritmos diferentes; 3. Em função da diferente forma de modelagem, consequentemente os dados utilizados foram trabalhados de forma também diferente, tendo em vista que, após o processamento, eles perpassam por dois algoritmos de RNA s, sofrendo um ajuste (seleção de atributos) entre eles, até chegar ao final do processo de mineração;

25 21 CAPITULO 3 FUNDAMENTAÇÃO TEÓRICA Neste capítulo abordaremos conceitos ligados à mineração de dados e às Redes Neurais Artificiais. Serão discutidos os fundamentos teóricos necessários para o desenvolvimento dos capítulos seguintes INTELIGÊNCIA ARTIFICIAL A inteligência artificial (IA) é uma área da ciência da computação que visa obter métodos, técnicas ou mesmo dispositivos computacionais que simulem a capacidade humana de raciocinar, tomar decisões e resolver problemas, ou seja, ter inteligência [CIRIACO 2009]. Nos anos 50, as pesquisas em inteligência artificial se dividiram em duas abordagens: A abordagem simbólica e a abordagem conexionista. A primeira, como o próprio nome diz, parte de uma representação simbólica do conhecimento, onde este é representado por símbolos e suas combinações, como uma linguagem natural. A segunda, parte da estrutura do cérebro para simular inteligência, estando ligada à neurocomputação DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS Quando se tem grandes volumes de dados muitas relações e padrões úteis podem ser descobertas a partir deles. Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases KDD) é um conjunto de processos que visam a descoberta de padrões válidos e potencialmente úteis em banco de dados. Envolve várias etapas. Entre os seus processos, o mais importante é a mineração de dados.

26 MINERAÇÃO DE DADOS Obviamente, não é fácil descobrir conhecimento em bases de dados de forma manual. Nesse ponto, a junção dos computadores, técnicas de inteligência artificial, métodos estatísticos e o conhecimento de especialistas é a fórmula mais eficiente para solucionar muitos problemas. Minerar dados consiste em utilizar técnicas automáticas de estatística e de inteligência artificial para explorar grandes massas de dados à procura de relações ou padrões úteis para as organizações [CARVALHO 2005]. Apesar dos avanços tecnológicos, é preciso ter em mente que a mineração de dados é um processo interativo entre homem e máquina que tem três características fundamentais na resolução de problemas: Grande quantidade de dados; Especialistas no negócio cujos dados serão minerados; Algoritmo para descoberta de padrões APRENDIZADO SUPERVISIONADO E NÃO SUPERVISIONADO A inteligência Artificial tem uma área específica para pesquisa de regras ou conceitos embutidos em conjuntos de dados que é conhecida como Aprendizado de Máquina. As redes neurais artificiais, por exemplo, contêm algoritmos de aprendizado de máquina. Nelas o aprendizado ocorre em uma fase de treinamento onde um conjunto de dados é passado para a rede objetivando a extração de conceitos e informações, além do ajuste de seus parâmetros [BRAGA, CARVALHO e LUDEMIR 2000]. O aprendizado pode ser classificado pela presença ou ausência de supervisão explícita do mundo exterior. A supervisão significa que em certos intervalos de tempo

27 23 um professor assinala erros e acertos. Portanto, sob esses dois paradigmas, nós temos o aprendizado supervisionado e o não supervisionado Aprendizado Supervisionado Neste tipo de aprendizado um conjunto de dados de entrada é passado para um algoritmo juntamente com um conjunto de saídas desejáveis. O algoritmo deve aprender com as saídas desejáveis de forma que possa dar resposta para um novo conjunto de dados sem os resultados. No caso das RNAs é utilizado um conjunto de entradas e saídas, em que, para cada padrão de entrada, é especificado um padrão de saída desejado (resposta desejada). O aprendizado ocorre no momento em que a saída gerada pela rede, a partir dos cálculos efetuados com o padrão de entrada e determinados parâmetros de ligação entre as unidades da rede, for diferente da saída desejada. Um algoritmo de treinamento, seguindo alguns critérios, ajusta os pesos da rede de forma a reduzir essa diferença, chamada de erro. Essa dinâmica é repetida para todo um conjunto de dados (entradas e saídas) de treinamento várias vezes, até que a taxa de erro atinja uma faixa considerada satisfatória Aprendizado Não Supervisionado É também conhecido como aprendizado auto-supervisionado. Neste tipo de aprendizado ocorre a classificação de padrões similares sem utilizar conjuntos de entradas e saídas. Isto é, na fase de aprendizagem do algoritmo utilizado são usados apenas valores de entrada. As entradas são processadas fazendo-se uma autoorganização de modo a classificá-las mediante algum critério de semelhança. Existem RNAs que utilizam aprendizado não supervisionado para fazer agrupamento de dados com comportamento semelhante. Elas são chamadas de mapas auto-organizáveis.

28 REDES NEURAIS ARTIFICIAIS (RNAs) Uma rede neural artificial é um modelo computacional inspirado na forma de funcionamento do sistema nervoso biológico, mais precisamente dos neurônios que o compõem. As RNAs são sistemas paralelamente distribuídos compostos por elementos que procuram simular os neurônios propensos a armazenar conhecimento em uma fase de treinamento deixando-o disponível para uso em casos não treinados. As RNAs foram propostas para solucionar problemas complexos em que programas convencionais de computadores não são muito eficientes. Elas estão sendo utilizadas em problemas práticos de reconhecimento de imagens e sons, classificação e previsão (bolsa de valores, mercado financeiro, séries temporais, etc.). A capacidade de aprender e generalizar informações através de exemplos é a principal característica das RNAs [BRAGA, CARVALHO e LUDEMIR 2000] Histórico das Redes Neurais O primeiro modelo de RNA foi desenvolvido por Warren McCulloch e Walter Pitts, em O trabalho de McCulloch e Pitts se concentrou muito mais em descrever um modelo artificial de neurônio e apresentar suas capacidades computacionais. Não havia, ainda, a preocupação de implementar técnicas de aprendizado [BRAGA, CARVALHO e LUDEMIR 2000]. Em 1949, Donald Hebb propôs uma teoria para explicar o aprendizado em neurônios biológicos baseada no reforço das ligações sinápticas entre os neurônios excitados. O trabalho de Donald Hebb ficou conhecido com a regra de Hebb, que foi interpretada do ponto de vista matemático, e é utilizada em vários algoritmos de aprendizado. Mais tarde, Widrow e Hoff sugeriram uma regra de aprendizado, conhecida como regra de Widrow-Hoff, ou regra delta, que é ainda hoje bastante utilizada [BRAGA, CARVALHO e LUDEMIR 2000]. Em 1958, Frank Rosenblatt projetou um novo modelo, o perceptron. Ele demonstrou que, se as RNAs com os neurônios desenvolvidos por Pitts e McCulloch

29 25 fossem acrescidas de sinapses, elas poderiam ser treinadas para classificar certos tipos de padrões [BRAGA, CARVALHO e LUDEMIR 2000]. Além da topologia, estrutura de ligação dos neurônios, Rosemblatt propôs um algoritmo de treinamento da rede. Nos anos 70, os estudos sobre as RNAs ficaram adormecidos devido à repercussão do trabalho de Minsky e Papert, o qual dizia que o perceptron era limitado a resolver problemas linearmente separáveis. Sem divulgação, alguns pesquisadores continuaram trabalhando na área. Em 1982, John Hopfield faz ressurgir o interesse pelas RNAs, quando, ao publicar o artigo Neural Networks and Physical Systems with Emergent Collective Computational Abilities, mostrou que as idéias de Minsky e Papert eram a relação entre redes recorrentes auto-associativas e sistemas físicos, o que também abriu espaço para a utilização de teorias correntes da física para estudar tais modelos. John Hopfield mostrou que a visão de Misnky e Papert sobre o perceptron era bastante pessimista. Ficou constatado que as RNAs são capazes de resolver problemas nãolineares, ou difíceis de aprender. Então, a partir de meados da década de 80, houve nova explosão de interesse pelas RNAs na comunidade internacional [HAYKIN- 2001] O Neurônio Biológico As RNAs se baseiam na neurotransmissão ocorrida no sistema nervoso. Tratase de uma analogia entre os neurônios e os sistemas computacionais, cujo objetivo maior é buscar conhecimento utilizando algoritmos de aprendizagem. Os neurônios são as células que compõem o sistema nervoso. São mais complexas do que outras células do organismo, pois sua estrutura e funcionalidade são diferenciadas. Se compararmos com um sistema computacional, os neurônios são como vários processadores que executam operações simples e que operam em conjunto transmitindo impulsos uns aos outros.

30 26 O cérebro humano possui cerca de 10 bilhões de neurônios o que dá uma capacidade de processamento e aprendizado muito grande ao sistema nervoso. Entre os vários tipos de neurônios existentes no corpo humano, muitos ainda não são totalmente conhecidos. A unidade básica de nosso cérebro, o neurônio, apresenta uma região onde informações são processadas (corpo da célula), algumas entradas (os dendritos) e uma saída (o axônio). Impulsos elétricos são recebidos nos dendritos, que, por sua vez, são as portas de entrada das informações. As entradas são processadas, ou seja, somadas de acordo com algum modelo, e o resultado deste processamento é um sinal de ativação ou não ativação que é passado no axônio. Figura 3-1: Neurônio biológico. Os neurônios são conectados entre si em uma região chamada de sinapse, isto é, a sinapse é o ponto de contato entre o axônio de um neurônio e o dentrito de outro [BRAGA, CARVALHO e LUDEMIR 2000]. Um neurônio é capaz de criar até sinapses, ou seja, até conexões com neurônios adjacentes. As terminações nervosas nem sempre se relacionam com células neuronais, podendo,

31 27 inclusive, relacionar-se com outros tipos, por exemplo, células musculares ou secretoras O Neurônio Artificial Warren S. McCulloch, fisiologista e conhecedor das ondas de potencial de membrana do neurônio biológico, é a primeira referência para a teoria das RNAs. Ele interpretou o funcionamento do neurônio como sendo um circuito binário. O neurônio de McCulloch e Pitts é um modelo com i unidades de entradas e um terminal de saída. As entradas do neurônio seriam combinadas por uma soma ponderada considerando pesos para cada uma de suas ligações sinápticas, produzindo uma entrada líquida, que serve como argumento para uma função de ativação que ativa ou não a saída do neurônio. O psicólogo Donald Hebb propôs a base de aprendizado nas redes neurais quando explicou o que ocorre, a nível celular, durante o processo de aprendizagem no cérebro. A lei de aprendizagem de Hebb dizia que se um neurônio A é repetidamente estimulado por outro neurônio B, ao mesmo tempo em que ele está ativo, ele ficará mais sensível aos estímulos de B, e a conexão sináptica de B para A será mais eficiente. Deste modo, B achará mais fácil estimular A para produzir uma saída. O modelo de neurônio no qual se baseiam as redes neurais possui uma estrutura idêntica. A Figura 3-2 mostra a representação de um neurônio artificial, identificando quatro elementos básicos de sua arquitetura: Um conjunto de entradas representadas pelas sinapses, cada uma caracterizada por um peso ou força própria (w ij ); Uma função de soma para somar os sinais de entrada (Ʃ), ponderado pelas respectivas sinapses do neurônio, constituindo um combinado linear; Uma função de ativação (Fa) para restringir o intervalo permissível de amplitude do sinal de saída do neurônio a um valor finito. É uma função de

32 28 ordem interna, cuja atribuição é fazer acontecer um nível de ativação dentro do próprio neurônio, ou seja, é uma decisão tomada pelo neurônio sobre o que fazer com o valor resultante do somatório das entradas ponderadas [TAFNER, XEREZ e RODRIGUES FILHO 1995]; Uma função de transferência (T) que envia para fora do neurônio o valor passado pela função de ativação. Pode ter muitas formas e métodos, podendo ser simples ou complexa. É também é conhecida como limiar lógico [TAFNER, XEREZ e RODRIGUES FILHO 1995]. Entradas Função Soma x 1 w 1j Função de Ativação Saída x 2. w 2j. w ij Fa T Função de Transferência y j x i Figura 3-2: Neurônio artificial com as funções soma, ativação e transferência. Para simplificar, na maioria dos modelos, a função soma está dentro da função de ativação, ou seja, esta última é que faz a soma das entradas ponderadas pelos pesos sinápticos. No presente trabalho utilizaremos essa abordagem e o neurônio artificial ficará conforme a figura 3-3. Entradas Função Soma x 1 w 1j Função de Ativação Saída x 2. w 2j. w ij Fa T Função de Transferência y j x i Figura 3-3: Neurônio artificial com as funções ativação e transferência.

33 29 A função de ativação pode ser representada pela equação 3.1. Fa = i=1...n w ij x i (3.1) Onde: w ij Peso sináptico da entrada i com o neurônio j, que na figura 3-3 é apenas um. A equação 3.1 será utilizada também para cálculo da função de ativação quando tivermos mais de um neurônio; x i Valor da entrada i. É comum se utilizar funções de transferência com características ríspidas ou sigmas. As funções de transferência mais utilizadas estão representadas na figura 3-4: Degrau 1 y Rampa 1 y x < 0, y = -1 x > 0, y = 1-1 (a) x x < 0, y = 0 0 <= x <= 1, y = x X > 0, y = 1 1 (b) x Sigmóide 1 y x y = 1/(1+e -x ) (c) Figura 3-4: Funções transferência mais utilizadas. As funções degrau e rampa (figuras 3-4a e 3-4b) possuem decisões ríspidas para os valores extremos. Se for ultrapassado certo limite a função retorna 1 ou -1, no caso da função degrau, e 0 ou 1, no caso da função rampa. A transição para os valores extremos é abrupta. Já a função sigmóide (figura 3-4c) retorna os valores

34 30 limites quando há grandes valores positivos ou negativos passados para ela. Nessa última função a transição para os extremos é suave. Uma RNA é uma coleção de neurônios, dispostos em uma arquitetura específica, com a finalidade de generalizar as informações que são fornecidas pelos canais de entrada [TAFNER, XEREZ e RODRIGUES FILHO 1995]. É importante compreender que, atualmente, as RNAs estão mais distantes das redes neurais biológicos e freqüentemente as semelhanças são reduzidas. As RNAs são comumente referenciadas como aproximadoras de funções. Existem modelos de RNAs que substituem algumas técnicas estatísticas conhecidas mantendo a mesma eficiência. É comum se utilizar técnicas estatísticas e de inteligência artificial, em conjunto, para construir modelos de sistemas para solucionar problemas complexos. Alguns problemas exigem a integração das Redes Neurais Artificiais com outros algoritmos [LUDWIG JR. e COSTA 2007] Principais Modelos de RNAs O neurônio de McCulloch e Pitts O primeiro modelo de neurônio foi elaborado em 1943, por Warren McCulloch, um médico, filósofo, matemático e poeta, juntamente com Walter Pitts, um estatístico [KOVÁCS 2006]. Este modelo é referenciado na literatura como neurônio de McCulloch e consiste em um sistema binário e muito simples. O neurônio de McCulloch tinha sua saída calculada pela soma ponderada das entradas com fatores chamados de ganhos. Entrada excitatória Axônio (saída) Entrada inibitória Figura 3-5: Neurônio de McCulloch.

35 31 O Perceptron Frank Rosenblatt, nos anos 50, criou uma rede de múltiplos neurônios chamada de perceptron [KOVÁCS 2006]. O perceptron proposto por Rosenblatt tem uma arquitetura simples, composta por uma camada de unidades de entrada que recebem os sinais externos e por um conjunto de neurônios que processam as funções para resultar na saída da rede, não tendo camadas intermediárias. Em função da sua simplicidade, este modelo só pode ser aplicado em problemas de decisão simples. Rosenblatt propôs um método de treinamento da rede perceptron, baseado no princípio de aprendizado do biólogo Donald Hebb, elaborado em A rede recebe exemplos de treinamento e procede ao ajuste dos pesos dos neurônios para que as saídas da rede sejam iguais as saídas dos exemplos. Em suma, o aprendizado do perceptron é supervisionado. Camada de Entrada Camada de Saída x 1 W 11 Fa T W 21 y 1 x 2.. W i1 x i Figura 3-6: Perceptron com uma camada de entrada e uma de saída. Os valores w i1 são os pesos das conexões sinápticas entre as unidades da camada de entrada, identificados por i. A camada de saída pode ter vários neurônios, identificados, por exemplo, por j. Desta forma, os pesos seriam identificados por w ij e a função de ativação para cada neurônio da camada de saída será a mesma especificada na expressão 3.1.

36 32 Apesar de ter uma camada de entrada e uma de saída, o perceptron é referenciado como tendo uma única camada, pois as unidades de entrada são responsáveis apenas por distribuir o sinal recebido, ou seja, os dados de entrada, para aos neurônios da camada de saída que fazem o processamento [TAFNER, XEREZ, e RODRIGUES FILHO 1995]. Também nos anos 50, B. Widrow desenvolveu o ADALINE (Adaptive Linear Element), que era um modelo de neurônio linear, e deixou uma contribuição importante para as redes neurais artificiais ao inventar um princípio de treinamento chamado de regra Delta. Como o próprio nome deixa transparecer, o ADALINE é um neurônio linear cuja saída é uma combinação linear das entradas [KOVÁCS 2006]. O perceptron de uma camada tem um algoritmo de aprendizagem que se baseia na regra Delta para o ajuste dos pesos sinápticos, que pode ser representada pela seguinte expressão: w ij(t+1) = w ij(t) + η * ε j(t) * x i (3.2) Sendo: i índice do sinal de entrada; j índice do neurônio na camada de saída; t iteração; w ij(t+1) valor do peso ajustado (para nova iteração); w ij(t) valor do peso anterior; η taxa de aprendizado; ε j(t) valor do erro para o neurônio j, conforme a expressão 3.3; x i valor do sinal de entrada. O valor do sinal de entrada consiste nos valores de atributos, convertidos ou não, passados para a rede proceder ao treinamento e, após as ponderações e ajustes, determinar os valores de saídas (y j(t) ). Além dos atributos de entrada, pelo menos um

37 33 atributo alvo deve existir para estabelecer as saídas desejadas, caracterizando, assim, o aprendizado supervisionado. Uma iteração é uma época de treinamento começando pela passagem de todos os dados para as unidades de entrada até as saídas da rede. A taxa de aprendizado é utilizada para estabelecer a velocidade do ajuste dos pesos e seu valor deve estar entre 0 e 1. O erro (ε j(t) ) é calculado em cada iteração, ou passagem de dados pela rede, tomando-se a saída desejada menos a saída calculada no respectivo neurônio de saída, após os cálculos procedidos pela rede [LUDWIG JR. e COSTA 2007]. ε j(t) = d j(t) y j(t) (3.3) Sendo: d j(t) saída desejada para o neurônio j; y j(t) saída calculada para o neurônio j. O erro dos neurônios de saída em cada iteração t é dado pela seguinte expressão. ε (t) = j=1...n ε j(t) n (3.4) Sendo: n número de neurônios da camada de saída. j índice do neurônio Pode-se utilizar também o erro médio para determinar o encerramento da fase de treinamento. Este é calculado para todo o conjunto de treinamento, ou seja, para todas as iterações passadas para a rede, conforme a expressão 3.5. ε médio = t=1...m ε (t) m (3.5)

38 34 Sendo: m número de iterações. É comum acrescentar uma entrada a mais que corresponde a um limiar, também chamado de bias, que, normalmente, recebe um valor constante e tem seu peso ajustado, ou seja, faz as vezes de um neurônio mas não recebe um valor de entrada originário da base de dados de treinamento. O seu objetivo é melhorar a capacidade de aproximação da rede. b 1 W 01 x 1 W 11 Fa T x 2 W 21.. W i1 x i Figura 3-7: Perceptron com o bias (b 1 ) de entrada. O algoritmo do perceptron pode ser resumido da seguinte forma: 1. Inicializam-se os pesos das conexões aleatoriamente; 2. Passa-se um exemplo do conjunto de dados de treinamento para as unidades de entrada; 3. Calcula-se a entrada líquida com o somatório conforme a expressão 3.1 (função de ativação); 4. Calcula-se a saída, utilizando-se a função de transferência escolhida (por exemplo, a função degrau); 5. Calcula-se o erro conforme a expressão 3.3;

39 35 6. Faz-se um teste com base em um critério de parada. O critério pode ser um valor de erro satisfatório ou um número máximo de ciclos de treinamento, que significa a quantidade de vezes em que o conjunto de dados inteiro passa pela rede; 7. Caso o critério de parada não seja satisfeito, faz-se o ajuste dos pesos conforme a expressão 3.2 e repetem-se todos os passos a partir do 2º. O perceptron somente resolve problemas linearmente separáveis, ou seja, aqueles cuja solução pode ser representada utilizando uma reta ou hiperplano como fronteira de decisão. Com os problemas não linearmente separáveis isso não é possível. O Perceptron Multicamadas Quando John Hopfield, em 1982, apresentou as redes multicamadas ou MLP (Multilayer Perceptron) o interesse pelas RNAs ressurgiu. O modelo é constituído de neurônios interconectados em duas ou mais camadas e cujo aprendizado também está nos pesos sinápticos, com a diferença óbvia de que existem mais pesos a serem ajustados do que no perceptron de uma só camada. A grande contribuição de Hopfield foi mesmo o algoritmo de aprendizagem back-propagation utilizado no treinamento das redes MLP. O back-propagation é um algoritmo de retropropagação de erros e foi apresentado pela primeira vez por Paul Werbos em 1974 no paper Beyond regression: News tools for prediction and analysis in the behavioral sciences. Basicamente o algoritmo faz com que os erros calculados sejam propagados de volta, da camada de saída para a camada de entrada, passando pelas camadas intermediárias (ocultas) e fazendo o ajuste dos pesos recursivamente [VALENÇA 2005].

40 36 Camada de entrada Camada oculta Camada de saída x 1 Fa T Fa T y 1 x 2 Fa T Fa T y 2... x i Fa T Fa T y j Figura 3-8: Perceptron com uma camada de entrada, uma oculta e uma de saída. Com o algoritmo back-propagation o treinamento ocorre em duas fases [BRAGA, CARVALHO e LUDEMIR 2000]. A primeira é a fase da definição das saídas da rede e ocorre para frente (propagação), onde cada neurônio aciona as suas funções de ativação e de transferência repassando os sinais até chegar à saída calculada. A segunda fase utiliza a saída calculada e a saída desejada para calcular o erro a fazer os ajustes dos pesos de todos os neurônios no sentido inverso, ou seja, para trás. O erro de um neurônio de saída j na iteração t é definido conforme a expressão 3.3, demonstrada acima. No caso do perceptron multicamadas o índice j indica a camada do neurônio. O algoritmo back-propagation também utiliza a regra delta, só que de forma generalizada, resultando na equação a seguir, que, no MLP, é o erro instantâneo da rede para os neurônios de saída na iteração t: ε (t) = 1 2 j=1...n ε 2 j(t) (3.6) n número de neurônios da camada de saída j. j índice do neurônio

41 37 E o erro médio para o conjunto de treinamento, que pode ser usado para determinar o encerramento desta fase, contando todas as iterações, é dado por: ε médio = 1 m t=1...m ε (t) (3.7) Sendo: m número de iterações. O algoritmo, após a primeira iteração, volta fazendo o ajuste dos pesos, incluindo o limiar (bias), ficando a rede mais ajustada. O processo é repetido para todas as iterações. O processo de ajuste dos pesos não é simples e é utilizada uma derivada parcial chamada gradiente local (δj), calculada em uma camada da rede e utilizada para ajuste da camada anterior, dada pela seguinte expressão 3.8. δ j = ε j(t) T j (Fa j(t) ) (3.8) Onde: T j Função de transferência do neurônio j; Fa j(t) Função de ativação do neurônio j na iteração t. Após o cálculo do gradiente e possível fazer o ajuste dos pesos (e do bias) dos neurônios da ultima camada, que, pela aplicação da regra delta, se dá conforme a expressão 3.9. Δw ij = ηδ j(t) y i(t) (3.9) Sendo que η é a taxa de aprendizado. O processo segue com o cálculo do gradiente local da penúltima camada e do ajuste dos pesos desta. Assim vai até chegar à camada de entrada (retropropagação). Depois uma nova iteração e feita e um novo processo de ajustes de pesos e assim sucessivamente ate que se chegue a um critério de parada que pode

42 38 ser o numero máximo de iterações ou um valor limite para o erro médio [LUDWIG JR. e COSTA 2007]. O algoritmo de uma rede MLP com back-propagation pode ser resumido da seguinte forma: 1. Inicializam-se os pesos das conexões aleatoriamente; 2. Passa-se um exemplo do conjunto de dados de treinamento para as unidades de entrada; 3. Realiza-se a propagação dos valores das entradas líquidas das camadas escondidas até a camada de saída; 4. Calcula-se o erro conforme a expressão 3.7; 5. Faz-se um teste com base em um critério de parada. O critério pode ser um valor de erro satisfatório ou um número máximo de ciclos de treinamento; 6. Caso o critério de parada não seja satisfeito, faz-se a retro-propagação com o ajuste dos pesos conforme a expressão 3.9 e repetem-se todos os passos a partir do 2º. As RNAs multicamadas são mais complexas, mas, em compensação, são mais flexíveis, pois é possível configurá-las em função do número de camadas escondidas e do número de neurônios em cada camada. Assim elas podem ser construídas para implementar funções linearmente ou não linearmente separáveis. A rede de Kohonen Teuvo Kohonen apresentou um modelo de rede neural do tipo não supervisionada que usa unidades de entrada para receber sinais e neurônios em uma camada de saída, que se organizam competindo entre si para classificar as entradas recebidas. Este tipo de rede é conhecido como mapa auto-organizável ou SOM (Self- Organized Map) e seu aprendizado é não supervisionado, pois não há a passagem de

43 39 resultados esperados no conjunto de treinamento. A saída da rede é determinada pela competição entre os seus neurônios. O modelo de Kohonen tem a propriedade de modificar a si próprio. Os neurônios, também chamados de neurônios pós-sinápticos, ficam dispostos em uma camada de classificação que pode ser unidimensional ou bidimensional. Assim, alguns neurônios da camada de classificação se ajustam em função da entrada e os neurônios vizinhos aos ajustados respondem similarmente. Os neurônios da camada de classificação competem entre si para serem os vencedores a cada modificação [TAFNER, XEREZ, e RODRIGUES FILHO 1995]. Após a fase de treinamento da rede esta pode ser testada para medir a sua capacidade de agrupamento. Figura 3-9: Representação de uma RNA de Kohonen. Na figura 3-9, temos os seguintes elementos: x i Unidades de entrada; i Quantidade de unidades de entrada; y j Neurônios da camada de saída; j Quantidade de neurônios da camada de saída;

44 40 w ij Peso sináptico da conexão da entrada i com o neurônio j. Uma iteração do algoritmo da rede de Kohonen é composta basicamente por três processos. Existe inicialmente um processo de aprendizagem por competição, que é o fundamento do algoritmo. Depois, se dá um processo de cooperação entre o neurônio vencedor de cada iteração na rede com os neurônios vizinhos. Isso significa que o neurônio vencedor é um centro de uma vizinhança topológica, interagindo com os neurônios vizinhos, de forma que a interação decresce com o aumento da distância entre eles. Por fim, há um processo de adaptação onde ocorre o ajuste dos pesos sinápticos. Para passar pelas etapas acima citadas, é claro que o algoritmo da rede de Kohonen deve começar com a definição dos pesos sinápticos entre as unidades de entrada e os neurônios de rede, preferencialmente com valores pequenos. Ao passar a primeira iteração para a rede, os neurônios devem competir entre si e um deles deve ser o vencedor. Para escolha do vencedor utiliza-se uma métrica para medir a distância entre o vetor dos dados de entrada e os neurônios da rede. O vencedor é aquele que apresenta a menor distância entre as entradas e o seu vetor de pesos [LUDWIG JR. e COSTA 2007]. Neste trabalho consideraremos a distância euclidiana que, em geral, é a mais utilizada. Conforme a Figura 3-9, poderíamos representar os vetores de uma rede de Kohonen, considerando cada iteração, da seguinte forma: x = [ x 1, x 2, x 3,..., x i ] t (3.10) w = [w i1, w i2, w i3,..., w ij ] t (3.11) A distância euclidiana entre w e x, na iteração t, é dada por: d xw(t) = 1...j (x i(t) w ij(t) ) 2 (3.12) Sendo: i índice da unidade de entrada;

45 41 j índice do neurônio; x i(t) sinal de entrada na unidade i na iteração t; w ij(t) valor do peso entre a unidade de entrada i e o neurônio j na iteração t. Na etapa competitiva, é encontrada a distância euclidiana dos neurônios e é possível definir um vencedor. Passa-se para a etapa cooperativa, onde ocorre o processo de interação entre o neurônio vencedor e seus vizinhos. Para isso utiliza-se o parâmetro de vizinhança topológica h jk, que indica o grau de interação entre o neurônio j e seu vizinho k. h jk = e ( l jk 2 2σ 2 ) (3.13) Sendo: l 2 jk distância lateral entre os neurônios j e k; σ largura efetiva da vizinhança topológica. Na fase adaptativa, o ajuste dos pesos sinápticos é calculado pela equação: Δw ij = η (t) h jk(t) (x i w ij ) (3.14) Sendo: w ij peso entre a unidade de entrada i e neurônio j; η (t) taxa de aprendizagem. A vizinhança efetiva e a taxa de aprendizagem decrescem com o tempo, ou seja com o número de iterações. Em geral utiliza-se uma função exponencial para esse cálculo. Para reduzir a vizinhança efetiva pode ser utilizada a expressão Para a taxa de aprendizagem pode ser utilizada a expressão σ (t) = σ 0 e t τ (3.15)

46 42 η (t) = η 0 e t τ (3.16) Sendo: σ 0 valor inicial da vizinhança efetiva; η 0 valor inicial da taxa de aprendizagem; t número da iteração; τ constante de tempo. O algoritmo de Kohonen pode ser resumido da seguinte forma: 1. Inicializam-se os pesos das conexões aleatoriamente e atribui-se o valor da vizinhança efetiva da rede; 2. Passa-se um exemplo do conjunto de dados de treinamento para as unidades de entrada; 3. Calcula-se a resposta dos neurônios da camada de saída com base na expressão O neurônio que apresentar menor distância é o vencedor (competição); 4. Calcula-se a vizinhança topológica com base na expressão 3.13 (cooperação); 5. Faz-se o ajuste dos pesos do neurônio vencedor e de todos os outros dentro da sua vizinhança; 6. Calcula-se um novo valor para a vizinhança efetiva e para a taxa de aprendizagem com base nas expressões 3.15 e 3.16; 7. Faz-se um teste com base em um critério de parada que pode ser uma distância euclidiana aceitável; 8. Caso o critério de parada não seja satisfeito repetem-se todos os passos a partir do 2º.

47 CONCLUSÃO O embasamento teórico dos tópicos acima permite uma compreensão inicial do que será utilizado no desenvolvimento do processo proposto neste trabalho. Daqui em diante discorreremos sobre a proposta propriamente dita e sobre as fases principais do processo desenhado, tendo em mente que as fases de entendimento do problema e dos dados foram discorridas no capítulo 1.

48 44 CAPÍTULO 4 O PROCESSO PROPOSTO Como foi citado no capítulo 1, o objetivo desse trabalho é propor um processo de mineração de dados baseado no CRISP-DM e nos algoritmos de Redes Neurais Artificiais, que seja adequado ao problema da sonegação do ICMS. Essa escolha devese, por um lado, pela lógica e sensatez daquele processo e, por outro, pela utilização de algoritmos capazes de tratar problemas onde não há uma regularidade ou linearidade nos padrões a serem minerados. Neste capítulo iremos descrever essa proposta UTILIZAÇÃO DO CRISP-DM Uma vez que o presente trabalho envolve mineração de dados, a metodologia do CRISP-DM foi escolhida para perpassar por todo o processo de pesquisa, pois se trata de um padrão de processo para mineração de dados mundialmente utilizado. Este processo é dividido em fases bem definidas visando organizar e facilitar todo o trabalho de mineração de dados. Conforme a figura 4-1, as fases do CRISP-DM são as seguintes: 1. Entendimento do problema Esta fase é dedicada à compreensão do problema e seu contexto, incluindo a identificação de necessidades e definição de objetivos. No presente trabalho esta fase foi descrita no capítulo 1, onde discutimos o problema da sonegação do ICMS. 2. Entendimento dos dados Esta fase compreende a compreensão, escolha, a integração e exploração dos dados, identificando-se informação relevante e familiarizando-se com o conteúdo dos atributos a serem utilizados no processo. Os dados utilizados neste trabalho foram apresentados e discutidos, também, no capítulo 1.

49 45 3. Preparação dos dados Esta fase é dedicada ao pré-processamento dos dados, incluindo tarefas de redução, transformação e tudo que for necessário para obter o conjunto de dados a ser utilizado na análise. O capítulo 5 deste trabalho é reservado para discutir os procedimentos utilizados na preparação dos dados. 4. Modelagem Esta é a fase onde são aplicados os algoritmos, as técnicas de aprendizagem e predição mais adequadas ao problema. É nesta fase que se estabelece o modelo de solução do problema. 5. Avaliação Nesta fase os resultados são validados, comparados e interpretados, permitindo verificar se o modelo proposto conseguiu alcançar os objetivos. Esta fase será discutida no capítulo Utilização ou distribuição Esta fase compreende o desenvolvimento final e a disponibilização da solução proposta e avaliada. Alguns detalhes sobre esta fase serão discutidos no capítulo 7, considerando que este é um trabalho acadêmico e não irá gerar um sistema pronto e acabado para o mercado ou uma determinada organização. Isso será sugerido para trabalhos futuros. O CRISP-DM é um processo extremamente fácil de entender e com uma flexibilidade extraordinária, permitindo voltar de uma fase mais avançada para uma fase anterior, caso seja necessário corrigir ou ajustar o processo. O apêndice 1 contém um maior detalhamento das fases do CRISP-DM de acordo com a especificação do consórcio responsável pelo processo.

50 46 Entendimento dos Dados Entendimento do Negócio Preparação dos Dados DADOS Modelagem Utilização Avaliação Figura 4-1: Fases do CRISP-DM EXTENSÃO DO CRISP-DM Neste trabalho foi realizada uma extensão em uma das fases do CRISP-DM sem alterar, contudo, a sua filosofia básica. A extensão foi proposta na forma de uma especialização para o problema da sonegação do ICMS, mais precisamente na fase de modelagem onde fazemos uma explosão desta em três subfases: 1. Clusterização; 2. Seleção de atributos; 3. Classificação.

51 47 Ressaltamos que os experimentos foram feitos de forma modular, com o processamento das subfases propostas, uma por vez, na sequência disposta na figura 4-2. Os detalhes dos experimentos feitos estão dispostos no capítulo 5. Entendimento dos Dados Entendimento do Negócio Preparação dos Dados Clusterização (RNA) DADOS Seleção de Atributos Utilização Classificação (RNA) Avaliação Figura 4-2: Gráfico demonstrativo do processo proposto. Nessa adaptação da modelagem, os dados, após a fase de processamento, fluem pelas três subfases citadas. A proposta é que, antes de chegar à fase de classificação, esses dados passem por dois ajustes importantes e necessários para finalizar o processo de mineração. Daí vem a necessidade de utilizar mais de um algoritmo na solução. O primeiro ajuste foi feito após a clusterização. Esta fase recebe como entrada um conjunto de dados com um atributo alvo o qual armazena informação sobre a sonegação ou não do ICMS de uma empresa (SONEGA = S ou N). Conforme a figura 4-3, a saída desta fase são as coordenadas dos clusters gerados que substituirão o

52 48 atributo alvo inicial. O atributo SONEGA será substituído por dois outros, processados pela própria rede de Kohonen escolhida para esta etapa, contemplando não só informação sobre a sonegação de ICMS mais, também, informações sobre os agrupamentos gerados. Com essa fase o atributo alvo ganha mais qualidade na informação para passar para a fase seguinte. Dados iniciais 1 atributo alvo SONEGA = S/N RNA Kohonen (Clusterização) Saída: Coordenadas (X,Y) dos clusters Figura 4-3: Fase de clusterização. O segundo ajuste ocorreu na fase seguinte onde uma seleção de atributos descarta dados não significativos para a análise, visando dar o máximo de performance e acurácia para a fase de classificação. Conforme a figura 4-4, a entrada desta fase é o conjunto de dados resultante da clusterização. Depois de processada a seleção de atributos, a saída é a relação dos atributos selecionados conforme o algoritmo e os parâmetros escolhidos. Um fato importante a ser observado é que uma seleção de atributos, normalmente, ocorre como parte do pré-processamento de dados. No entanto, neste trabalho, ela vem após a fase de clusterização. Essa escolha se deve porque a clusterização está no meio do processo para substituir o atributo alvo original por outro com mais qualidade baseado nos dados originais. Assim a seleção foi feita utilizando os atributos novos gerados após a clusterização. Dados clusterizados 2 atributos alvo Coordenadas (X,Y) Algoritmo de Seleção de Atributos Saída: Atributos selecionados com base nos atributos alvo Coordenadas (X,Y) Figura 4-4: Fase de seleção de atributos. A figura 4-5 ilustra a fase de classificação que recebe como entrada um conjunto menor com os atributos considerados relevantes. A saída desta fase é uma

53 49 RNA com seus pesos ajustados, pronta para proceder à classificação final das empresas dentro dos agrupamentos gerados na fase de clusterização. Dados selecionados 2 atributos alvo: Coordenadas (X,Y) ε(erro) Saídas desejadas Saídas calculadas RNA MLP Pesos ajustados (Classificação) Figura 4-5: Fase de classificação. Um ponto importante a ser esclarecido é a forma de operacionalização do processo proposto. Existem três formas possíveis de operar o processo proposto. Pode-se fazer a classificação de um novo conjunto de dados sem processar a RNA de Kohonen para gerar novos clusters, apenas filtrando os atributos selecionados na construção e treinamento do modelo, conforme a figura 4-6. Dados processados RNA projetada MLP Filtro dos atributos selecionados Figura 4-6: 1ª forma de operacionalização do processo. Também é possível fazer nova clusterização, depois filtrar os atributos selecionados e proceder a classificação do novo conjunto de dados, conforme a figura 4-7. Nessas duas primeiras alternativas não seria necessário rodar o algoritmo de

54 50 seleção de atributos novamente, já que os atributos relevantes estariam definidos no momento da construção e treinamento. Dados processados RNA Kohonen projetada RNA projetada MLP Filtro dos atributos selecionados Figura 4-7: 2ª forma de operacionalização do processo. A terceira possibilidade é fazer todo o processo completamente para um novo conjunto de dados, com nova clusterização, nova seleção de atributos e a classificação, conforme a figura 4-8. No capítulo 6 discutiremos quando utilizar as opções de operacionalização do processo, considerando o problema da sonegação do ICMS. Dados processados RNA Kohonen projetada Seleção de atributos RNA projetada MLP Filtro dos atributos selecionados Figura 4-8: 3ª forma de operacionalização do processo. A figura 4-9 mostra um diagrama completo de utilização do processo, considerando as três formas de operacionalização e as suas fases especializadas. No capítulo 6, ao discutirmos a utilização do processo como uma das fases da metodologia estabelecida pelo CRISP-DM, reforçaremos essas três formas.

55 51 Dados processados RNA Kohonen projetada 2 3 Seleção de atributos RNA projetada MLP 1 Filtro dos atributos selecionados Figura 4-9: as três formas de operacionalização do processo UTILIZAÇÃO DAS RNA s NO PROCESSO PROPOSTO Dois dos modelos clássicos de RNA s foram utilizados dentro do processo proposto para o problema da sonegação de ICMS. Com uma ferramenta que explora os algoritmos das RNAs e uma base de dados de uma administração fazendária estadual, pré-processada e modelada para servir de treinamento, foram feitos os experimentos e as medições necessárias para determinar as melhores estruturas das redes para o caso em questão. Uma RNA do tipo mapa auto-organizável com algoritmo de Kohonen foi utilizado na fase de clusterização para agrupamento dos dados conforme as próprias características destes. O objetivo da clusterização é agrupar o conjunto inicial de dados em clusters e gerar um novo atributo alvo refletindo o agrupamento. Para o problema da sonegação do ICMS, isso permite a uma administração fazendária decidir não só quem fiscalizar, mas quem e onde serão os primeiros. Imaginemos que uma administração fiscal possa decidir, entre as empresas com indicação de sonegação, fiscalizar as empresas maiores (com valores das operações mais elevados) ou menores (com valores das operações mais baixos), da capital ou do interior do Estado. Outra RNA do tipo perceptron multicamadas (MLP) com algoritmo de retro propagação de erros foi utilizado na fase de classificação. Esta utilizou o agrupamento feito pela rede de Kohonen para generalizar e aprender a classificar os

56 52 estabelecimentos. A separação entre aqueles que sonegam e os que não sonegam ICMS tomou como atributo alvo as coordenadas dos clusters gerados pela rede de Kohonen, que acrescentou um refinamento ao processo CONCLUSÃO Nos capítulos anteriores, mas precisamente no capítulo 1, contextualizamos o problema e o entendimento dos dados, que são os objetivos da primeira e segunda fase do processo. A seguir, no capítulo 5, teceremos detalhes sobre a sua aplicação na preparação de um conjunto de dados de uma administração fazendária, bem como na modelagem com as três fases especializadas do processo proposto.

57 53 CAPÍTULO 5 PREPARAÇÃO DE DADOS E APLICAÇÃO NO PROCESSO PROPOSTO Este capítulo descreve a preparação e a aplicação de um conjunto de dados da Secretaria da Fazenda do Ceará (SEFAZ-CE) no processo. Esse fato nos garante uma dimensão real do potencial da proposta deste trabalho no problema em questão. Veremos como ficou a adaptação do processo de modelagem original do CRISP-DM, que foi explodido nas fases de clusterização, seleção de atributos e classificação, conforme a sequência da abordagem descrita no capítulo 4. Toda a preparação dos dados objetivou a construção de um conjunto que fosse adequado para servir de entrada para uma rede neural. Ao final dessa fase, foi gerado um vetor de dados com todos os atributos passíveis de utilização pelos algoritmos de RNA s escolhidos. Tendo em vista o grande número de atributos envolvidos e as diversas opções de configurações de RNA s, ajustes menores foram feitos na medida em que os experimentos eram executados a fim de refinar as fases de treinamento e testes das RNA s. Para cumprir as fases especializadas na modelagem do processo de mineração, foram aplicadas as técnicas eleitas para a solução do problema. As Redes Neurais Artificiais foram escolhidas tendo em vista a sua aplicabilidade em problemas onde se exige bom senso, reconhecimento de padrões e diagnóstico, cujas soluções não são linearmente desenhadas. No caso da sonegação de tributos pode-se verificar que todos esses elementos estão presentes LIMPEZA E REDUÇÃO NOS DADOS Havia um grande volume de dados a ser trabalhado. Foi necessário que estes passassem por processos de restrição de volume. No caso da presente pesquisa foi necessário descartar registros com dados anormais e que causariam distorções em qualquer análise.

58 54 A primeira tarefa de restrição de volume foi a retirada dos dados referente aos estabelecimentos classificados com regime de recolhimento de Micro-Empresas (ME) ou Empresas de Pequeno Porte (EPP), cuja arrecadação de ICMS não é representativa para os Estados. Em geral, esses estabelecimentos recolhem o ICMS com base em um percentual, aplicado sobre o valor de seu faturamento, menor do que o das empresas de regime de recolhimento Normal. Portanto, foram trabalhados somente os dados dos estabelecimentos cujo regime de recolhimento é classificado como Normal pela SEFAZ-CE e que respondem por mais de 80% da arrecadação de ICMS do Estado. Foi escolhido o exercício fiscal de 2005, uma vez que todas as tabelas originais continham dados completos deste ano. Inicialmente, todos os atributos relevantes dos sistemas Cadastro, Arrecadação, DIEF, Postos Fiscais, Cartão de Crédito e Fiscalização foram considerados para a formação do vetor de entrada nas RNA s projetadas. Em algumas tabelas originais, atributos não relevantes para a análise foram desconsiderados, até mesmo por questões de sigilo fiscal, como, por exemplo, o nome dos estabelecimentos, o número das ordens de fiscalização, a identificação de fiscais, o código de documentos de arrecadação, entre outros. Após essa redução inicial, foi necessário considerar aqueles estabelecimentos que tinham à época pelo menos um mês de atividade, a fim de não contaminar os dados dos estabelecimentos com pelo menos um período de apuração do ICMS completo. O resultado do processo de redução e limpeza dos dados foi um conjunto com registros AGRUPAMENTOS E JUNÇÕES DOS DADOS Para facilitar a utilização dos dados nas fases de treinamento, teste e validação, o pré-processamento dos dados, objetivou a geração de vetor de dados

59 55 em um arquivo em formato texto. Este arquivo foi submetido às RNA s projetadas durante as fases de clusterização e classificação. Para isso, foram realizadas junções entre as várias tabelas descritas no capitulo 1 além de outros procedimentos de ajuste de dados. Por exemplo, os valores da DIEF dos estabelecimentos foram separados conforme o CFOP totalizando os dados de Valor Contábil das operações (VL), Base de Cálculo do ICMS (BC), operações Isentas de ICMS (IS) e Outras operações não sujeitas ao ICMS (OU). Depois foram agrupados por estabelecimento e exercício fiscal, no caso, de A esses dados foram juntados os dados de arrecadação, dos postos fiscais, das operações de cartão de crédito e de fiscalização. Para isso foram necessárias operações de relacionamento entre tabelas, na maioria das vezes utilizando o campo de identificação dos estabelecimentos (sequencial) como campo chave. As junções entre as tabelas visam à geração de um arquivo único com todos os atributos escolhidos, a qual é ilustrada na tabela 5-1. Sequencial VC1100 VC VC5100 VC BC1100 BC Estabelec. 1 x.xxx,xx x.xxx,xx... x.xxx,xx x.xxx,xx... x.xxx,xx x.xxx,xx... 2 x.xxx,xx x.xxx,xx... x.xxx,xx x.xxx,xx... x.xxx,xx x.xxx,xx... 3 x.xxx,xx x.xxx,xx... x.xxx,xx x.xxx,xx... x.xxx,xx x.xxx,xx Tabela 5-1: Exemplo do agrupamento dos valores da DIEF por exercício fiscal. O arquivo único gerado foi o vetor de dados de entrada da RNA de Kohonen para clusterização. Ele contém na última coluna o atributo alvo gerado a partir da base de dados de Fiscalizações sofridas pelos estabelecimentos. Ele representa quais estabelecimentos sofreram denúncias com solicitações para algum tipo de ação de fiscalização, quais foram capturados em malha fina e quais foram autuados por descumprir obrigações tributárias, ou seja, cometeram alguma irregularidade fiscal no período analisado. A base de dados de Fiscalizações contém duas tabelas (Ações Fiscais e Autos de Infração). Da tabela de Ações Fiscais foi levantada a relação de estabelecimentos que sofreram alguma ação fiscal referente ao exercício fiscal analisado. Da tabela de

60 56 Autos de Infração foram identificados os estabelecimentos que, nas ações fiscais sofridas, incorreram em algum tipo de irregularidade fiscal, ou seja, sonegação do ICMS. Ressalte-se que foram consideradas como sonegação de ICMS as infrações relativas às obrigações tributárias em que o estabelecimento deixa de recolher ou reduz o recolhimento do imposto devido por qualquer motivo. O atributo alvo, batizado de SONEGA, é do tipo categórico 15 e preenchido com S ou N, de acordo com os dados das fiscalizações. Os estabelecimentos sonegadores com infrações constatadas foram representados pela letra S. Os estabelecimentos cujos dados das fiscalizações não revelaram infrações foram classificados com a letra N. Existem infrações relativas a obrigações acessórias que não influenciam no recolhimento do imposto, mas beneficiam a empresa de alguma forma. Estas infrações foram incluídas como sonegação do imposto para que o conjunto de dados fosse o mais fiel possível. A tabela 5-2 contém os números das empresas sonegadoras e não sonegadoras referentes ao período analisado. SONEGA DESCRIÇÃO QTDE % ESTABELECIMENTOS N Não sonegou ICMS no período analisado ,71 S Sonegou ICMS no período analisado ,29 Total de estabelecimentos analisados ,00 Tabela 5-2: Quantidade de registros gerados no vetor inicial de dados AJUSTES NOS DADOS Alguns ajustes e formatação nos dados (atributos) foram feitos, sem mudar os seus significados, conforme veremos a seguir Ajuste dos CNAE s Foi aplicado um ajuste para redução dos CNAE s para códigos de grupos e seção, conforme tabela publicada pela Receita Federal do Brasil. Os CNAE s são 15 Atributos categóricos são qualitativos e representam características não quantificáveis, armazenam categorias e podem ser nominais ou ordinais.

61 57 códigos de sete dígitos, montados em uma hierarquia de atividades e divididas em seções e grupos conforme intervalos formados com os dois primeiros. Na tabela 5-3 temos o exemplo do CNAE que é de Fabricação de aguardente de cana-de-açúcar e pertence ao subgrupo 11119, Fabricação de aguardentes e outras bebidas destiladas, que pertence ao subgrupo 111, Fabricação de bebidas alcoólicas, que pertence, por sua vez, ao grupo 11, Fabricação de bebidas, que pertence à seção C. Seção Grupo Subgrupo Subgrupo CNAE Descrição C 11 FABRICAÇÃO DE BEBIDAS 11.1 Fabricação de bebidas alcoólicas Fabricação de aguardentes e outras bebidas destiladas /01 Fabricação de aguardente de cana-de-açúcar /02 Fabricação de outras aguardentes e bebidas destiladas Tabela 5-3: Exemplo de classificação de CNAE s. O Grupo do CNAE foi utilizado na conversão, ou seja, todos os CNAE s foram convertidos para código de Grupo, restando um conjunto conforme ilustrado no exemplo da tabela 5-4. A relação completa está no apêndice 2. Grupo Descrição EXTRAÇÃO DE MINERAIS NÃO-METÁLICOS 09 ATIVIDADES DE APOIO À EXTRAÇÃO DE MINERAIS 10 FABRICAÇÃO DE PRODUTOS ALIMENTÍCIOS 11 FABRICAÇÃO DE BEBIDAS 12 FABRICAÇÃO DE PRODUTOS DO FUMO 13 FABRICAÇÃO DE PRODUTOS TÊXTEIS 14 CONFECÇÃO DE ARTIGOS DO VESTUÁRIO E ACESSÓRIOS Tabela 5-4: Exemplo da tabela de grupos de CNAE Ajuste dos CFOP s Outro ajuste aplicado foi a redução dos CFOP s (Código Fiscal de Operação e Prestação) para códigos de grupos, tendo em vista a grande quantidade de códigos existentes o que levaria a um vetor de dados muito grande para entrada nas RNA s projetadas. Muitos CFOP s são agrupados por similaridade das operações.

62 58 O CFOP foi utilizado para formação das colunas do vetor de dados para as RNA s. Existem mais de 520 CFOP s. Portanto, a redução para grupos de códigos similares permitiu uma redução no número de atributos desse vetor. A tabela 5-5 mostra alguns exemplos, sendo que a relação completa está no apêndice 2. GRUPO CFOP Descrição do Código de CFOP Compra para industrialização Compra para comercialização Compra para industrialização de mercadoria recebida anteriormente em consignação industrial Devolução de venda de produção do estabelecimento Devolução de venda de mercadoria adquirida ou recebida de terceiros Devolução de venda de produção do estabelecimento, destinada à Zona Franca de Manaus ou Áreas de Livre Comércio Tabela 5-5: Exemplo da tabela de grupos de CFOP Normalização numérica Chamamos aqui de normalização alguns ajustes nos dados para viabilizar a entrada de dados e o treinamento eficaz pela RNA s. Um dos ajustes feitos diz respeito à grande variação na escala dos campos numéricos, mais especificamente aqueles que abrangem intervalos esparsos de dados. Por exemplo, relativamente ao conjunto de dados que foi trabalhado na presente pesquisa, o campo com dados sobre o valor contábil das saídas tributadas pode ir de zero a milhões. Já o campo do número de meses de atividade de uma empresa ficará apenas em centenas. Para compensar este efeito é feita uma codificação nos campos numéricos. Todos são transformados para uma mesma escala com valores entre 0 e 1, com base na fórmula abaixo: x i ' = x i x min x max x min (5.1) Sendo:

63 59 x i ' é o valor do campo no registro i após o re-escalonamento, cujo valor original é x i ; X mim é o valor mínimo; x max é o valor máximo deste campo para todo o conjunto de registros O CONJUNTO DE DADOS RESULTANTE Todo o processamento acima resultou num conjunto de dados inicial, elaborado com todos os atributos prontos para perfazer o treinamento e clusterização da RNA de Kohonen. Este conjunto inicial contém 464 atributos, incluindo o atributo alvo original, preenchido nos moldes da tabela 5-1, demonstrada no início deste capítulo. Esse vetor inicial de dados tem grande parte dos atributos definidos em função dos CFOP s. Além disso, para cada grupo de CFOP, os dados foram especificados pelo tipo de valores das operações. Por exemplo, o CFOP do grupo 1100, gerou atributos com o Valor Contábil (VC1100), a Base de Cálculo do ICMS normal (BC1100), o ICMS normal (IC1100), as operações Isentas de ICMS (IS1100), as Outras operações não tributadas (OU1100), a Base de Cálculo da Substituição Tributária (BCST1100) e o ICMS da Substituição Tributária (ICST1100). Isso é extremamente importante, pois garante maior detalhamento e precisão nos valores das operações das empresas. Atributos Descrição dos atributos CFOP 1100 VC1100 Valor contábil referente aos CFOP's do grupo 1100 BC1100 Base de cálculo referente aos CFOP's do grupo 1100 IC1100 Icms referente aos CFOP's do grupo 1100 IS1100 Isentas referente aos CFOP's do grupo 1100 OU1100 Outras referente aos CFOP's do grupo 1100 BCST1100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 1100 ICST1100 ICMS Subst. Tributária referente aos CFOP's do grupo 1100 Tabela 5-6: Atributos gerados para o CFOP do grupo Os gráficos das figuras 5-1 e 5-2 representam distribuições dos dados das empresas sonegadoras (SONEGA=S) e não sonegadoras (SONEGA=N) na capital e no

64 60 interior, respectivamente. No eixo X dos gráficos estão representados os códigos da atividade econômica (CNAE) e no eixo Y, os valores das entradas e saídas de mercadorias nas empresas. Figura 5-1: Distribuição das empresas localizadas no capital Figura 5-2: Distribuição das empresas localizadas no interior

65 CLUSTERIZAÇÃO COM REDES DE KOHONEN Os primeiros experimentos foram realizados com o vetor inicial de dados para modelar a melhor configuração de uma rede de Kohonen visando o agrupamento dos dados, dividindo-os em clusters. Esse agrupamento permitiu acrescentar mais qualidade ao atributo alvo. Ou seja, além de apontarmos se uma determinada empresa sonegou ICMS, poderemos apontar se ela está no agrupamento daquelas que têm maiores ou menores valores das operações de vendas de mercadorias, das operações registradas nos postos fiscais, das operações com cartão de crédito, ou, ainda, se ela está no agrupamento localizado na capital ou no interior do Estado. Não houve divisão do conjunto de dados inicial para o processamento nesta etapa, tendo em vista a necessidade de termos todos os estabelecimentos listados no vetor de dados agrupado por completo com os mesmos parâmetros e considerando as características do conjunto total. Como foi citado na seção 5.4 deste capítulo, este conjunto inicial foi montado com 464 atributos. A tabela 5-7 apresenta um esboço com alguns atributos finais. No apêndice 2 relacionamos todos os atributos desse conjunto. SEQ_CONT LOCAL ATIV_... VLR_PRI... VC BC SONEGA MESES 1 C , , ,00... N 2 C , , ,11... S 3 I , , ,00... N Tabela 5-7: Esboço do vetor inicial de dados com alguns atributos. Alguns critérios foram pré-estabelecidos para escolha do tamanho da camada de saída da rede de Kohonen: 1. Gerar clusters que tivessem características bem distinguíveis no que diz respeito ao atributo SONEGA, ou seja, clusters que tenham somente empresas que sonegaram ou não sonegaram ICMS.

66 62 2. Gerar uma quantidade de clusters não muito grande (em torno de 10) para facilitar a análise de um especialista. Para o agrupamento do vetor inicial de dados várias arquiteturas foram testadas. Com as redes de Kohonen, na medida em que aumentamos o tamanho da camada de saída, o número de clusters gerados também aumentou. Procurou-se variar o tamanho da vizinhança efetiva inicial, para balancear a quantidade de clusters criados. A Tabela 5-8 mostra um comparativo com algumas das arquiteturas testadas. Unidades Entrada Camada de Saída Vizinhança efetiva inicial No. Clusters Gerados Neurônios Comprim(X) Altura(Y) Tabela 5-8: Resumo de clusters gerados e alguns atributos importantes. A arquitetura escolhida para a rede de Kohonen foi a seguinte: Unidades de entrada: 464 Camada de saída: 20 (bidimensional) o Comprimento (X): 5 o Altura (Y): 4 Vizinhança efetiva inicial: 2 Quantidade de clusters gerados: 11 A figura 5-3 nos dá uma visão das entradas e saída da fase de clusterização. 464 atributos incluindo SONEGA = S/N RNA Kohonen 5x4 Saída: 11 clusters Figura 5-3: Fase de clusterização detalhada.

67 63 Um resumo com as medidas dos clusters e os valores de alguns dos principais atributos está demonstrado na tabela 5-9. Em função do grande número de atributos, esse resumo mostra somente os mais importantes, o local do estabelecimento, o número de meses em atividade, o valor arrecadado, o valor das entradas e das saídas nos postos fiscais e o valor das operações com cartão de crédito. Cluster Qtde. ALGUNS DOS PRINCIPAIS ATRIBUTOS X Y Registros SONEGA LOCAL ATIV VLR PRI POSTOS POSTOS SAIDAS VLR TEF MESES ARRECADA ENTRADAS S C S C S I S I S C N C N I N C N I N C N I Totais Tabela 5-9: Resumo dos clusters gerados e alguns atributos importantes. Para os atributos numéricos a tabela 5-9 apresenta os valores médios para cada grupo. Alguns atributos categóricos também tiveram importância na separação dos clusters. Por exemplo, o local do estabelecimento é um atributo relevante, considerando que ele colabora na tomada de decisão, uma vez que as empresas com maior potencial de arrecadação se localizam na capital do Estado ou próximas a esta. Como pode ser observado, os clusters são representados por coordenadas de dois eixos X e Y que representam a camada de saída bidimensional. Cada coordenada passou a ser um atributo acrescentado ao vetor de dados inicial para servirem de saída para o treinamento das redes MLP. A figura 5-4 demonstra o resultado da clusterização com as informações sobre os clusters gerados pela rede de Kohonen e os mesmos atributos acima relacionados, de uma forma gráfica. Na parte de cima são mostrados, em pequenos gráficos de pizza, os números de ocorrências em cada cluster. Cada cluster é demonstrado pelo seu centro em relação aos atributos. Para isso são utilizadas as barras verticais.

68 64 Para os atributos numéricos, os valores médios estão representados nas próprias barras verticais, como, por exemplo, os atributos POSTOS_ENTRADA e VLR_PRI, que representam o valor das operações de entradas registrados nos postos fiscais e valor principal recolhido de ICMS, respectivamente. Para os atributos categóricos, a proporção de cada valor distinto é demonstrada por barras de cor diferente. Um exemplo desse tipo de atributo é o LOCAL, onde temos uma cor para indicar C (Capital) e outra para I (Interior). Figura 5-4: Representação gráfica dos clusters. Nesse modelo a clusterização faz um refinamento no atributo alvo do conjunto de treinamento. Além de indicar se os estabelecimentos relacionados no conjunto de dados inicial sonegam ou não ICMS, esse processo agrega informações importantes para a tomada de decisão sobre quem merece um controle fiscal maior. As empresas com características semelhantes foram agrupadas em um mesmo cluster, considerando, além do próprio fato de terem sonegado ou não ICMS, informações como o local onde se encontram estes estabelecimentos (capital ou interior), o

69 65 volume arrecadação, das aquisições registradas nos postos fiscais, das vendas com cartão de crédito, entre outras que estavam nos atributos do vetor inicial de dados. Voltando à tabela 5.9, podemos citar o exemplo dos clusters (4,2) e (4,3) que agrupam estabelecimentos caracterizados como sonegadores localizados na capital. No entanto, no cluster (4,2) os estabelecimentos têm maior porte, basta ver pelo valor principal de arrecadação (R$ ,00). Já no cluster (4,3) o valor principal de arrecadação (R$ ,00) é bem menor. Esse fato merece atenção especial, pois as empresas do cluster (4,2) devem ser fiscalizadas em primeiro lugar devido ao potencial de recuperação de ICMS sonegado SELEÇÃO DE ATRIBUTOS Antes de aplicar o segundo vetor de dados, gerado a partir da rede de kohonen, para treinamento das Redes MLP, fez-se necessário proceder a uma seleção de atributos. Considerando a grande quantidade de atributos esse procedimento objetivou otimizar o processamento, retirando atributos não significativos para que não fossem processados na fase seguinte. Nesta fase pode-se utilizar qualquer método de seleção de atributos. A ferramenta utilizada nos experimentos deste trabalho contém funções para esse fim. Com o Clementine foi feito inicialmente a retirada de atributos, conforme os seguintes critérios: Atributos que têm mais que 70% de valores ausentes; Atributos categóricos que têm uma única categoria para mais que 70 % de casos; Atributos categóricos que têm categorias diferentes para 95 % ou mais dos casos. Atributos numéricos que têm um coeficiente de variação menor que 0,1;

70 66 Atributos numéricos que têm desvio padrão menor que 0. Figura 5-5: Tela de configuração dos critérios de retirada de atributos. Depois, é feito um ranking dos atributos restantes, com uma medida baseada na combinação de dois métodos, um para avaliar atributos categóricos ou outro para atributos contínuos. Para os atributos contínuos o método de avaliação é o da ANOVA (Análise de Variância) e para os atributos categóricos é o método do Quiquadrado. O item 3 do Apêndice 1 contém e especificação dos métodos utilizados pelo Clementine aplicados nessa fase. Figura 5-6: Tela de configuração dos critérios de ranking dos atributos.

71 67 Os atributos são divididos em três classes (Importante, Marginal e Não importante), conforme as configurações mostradas na figura 5-6, e são estabelecidos os valores de corte para cada classe. A seleção foi configurada para os atributos das classes Importante e Marginal. Após a seleção, o conjunto de dados ficou com 382 atributos, sendo desconsiderados os outros atributos não importantes para determinar o atributo alvo, conforme representado na figura atributos incluindo os novos atributos alvo coordenadas (X,Y) Algoritmo de Seleção de Atributos Saída: 382 atributos selecionados Figura 5-7: Fase de seleção de atributos detalhada CLASSIFICAÇÃO COM REDES MLP A fase de treinamento das RNA s Multilayer Perceptron utilizou um novo conjunto de dados gerado com os atributos selecionados na fase de seleção de atributos e com os novos atributos alvo advindos da fase de clusterização. Os atributos considerados na camada de saída foram as coordenadas X, Y geradas como resultado da aplicação do conjunto inicial de dados à rede de Kohonen, ou seja, a classificação foi procedida visando prever a quais clusters pertencem as empresas presentes no conjunto de dados Divisão do conjunto de dados Feitas a clusterização e seleção de atributos, o conjunto de dados foi separado em dois subconjuntos, antes do processamento das redes MLP: 1. Conjunto de treinamento utilizado para treinar os modelos de RNA s projetados; 2. Conjunto de teste/validação utilizado testar e validar as RNA s treinadas, com seus pesos sinápticos definidos.

72 68 SUBCONJUNTO QTDE REGISTROS Treinamento Teste Tabela 5-10: Divisão do conjunto de dados. Optou-se neste trabalho pela divisão dos dados em treinamento e teste, conforme mostrado na figura 5-8, embora em muitos experimentos exista um terceiro subconjunto para validação em separado dos modelos escolhidos. O conjunto de teste foi utilizado tanto nos testes como também na validação dos modelos escolhidos. Ele é utilizado para determinar o desempenho da rede com dados que não foram apresentados anteriormente [LUDWIG JR.,COSTA 2007]. Figura 5-8: Configurações da divisão dos dados pelo Clementine Treinamento Foi necessário planejar algumas arquiteturas iniciais para treinar, testar as suas qualidades e verificar a validade dos primeiros resultados. Foram projetadas redes com uma e com duas camadas escondidas. Todas as redes treinadas tinham os neurônios na camada de saída representando a combinação dos valores possíveis das coordenadas X e Y dos atributos alvo.

73 69 Identificação da rede com melhor desempenho Inicialmente foram treinadas as redes com uma só camada escondida, variando de 02 (dois) a 300 (trezentos) neurônios. Como podemos ver nas figuras 5-9 e 5-10, o método de treino utilizado no Clementine foi o Múltiplo (Multiple), uma vez que, com ele, é possível criar várias redes de diferentes topologias e treiná-las em processos paralelos, selecionando, ao final, o modelo com menor erro, ou seja, com a maior acurácia. Figura 5-9: Opções de topologias do método Múltiplo com 2 a 50 neurônios em uma camada. Depois, foram treinadas as redes com duas camadas escondidas. A primeira camada variando de 02 (dois) a 300 (trezentos) neurônios e a segunda camada, de 02 (dois) a 100 (cem). Quando se tem um intervalo de muitas redes, o treino em paralelo para a seleção da melhor exige mais tempo de processamento. Na segunda rodada de treino com duas camadas foi necessário rodar a aplicação por horas, utilizando o critério de parada padrão da ferramenta.

74 70 Por padrão o Clementine para de treinar uma rede neural quando esta atinge o seu estado otimizado no treinamento. Quando se estabelece um intervalo muito grande de neurônios nas camadas intermediárias, como foi o caso da presente pesquisa, que na primeira rodada de treinos utilizou uma camada intermediária variando de 2 a 300 neurônios, é necessário consumir bastante tempo nessa etapa. Foi necessário, então, quebrar o treino em etapas menores para que o sistema não ficasse rodando por dias sem parar. Portanto, adotamos uma divisão nos intervalos da quantidade de neurônios, sempre na primeira camada escondida, conforme a tabela Rodada de treinos N o Neurônios Camada 1 N o Neurônios Camada a a a a a a a 50 2 a a a a a a a a a a a 100 Tabela 5-11: Divisão dos intervalos da quantidade de neurônios. Observando a tabela 5-11, podemos observar que a partir da sétima rodada foi introduzida uma segunda camada escondida. A partir daí os tempos de treinamento aumentaram bastante, de forma que foi necessário um período maior de computação para cada rodada. Após testar todas as configurações desenhadas a rede neural que obteve melhor desempenho apresentou uma arquitetura com duas camadas ocultas. A primeira camada com 18 (dezoito) neurônios e a segunda com 10 (dez) neurônios.

75 71 Figura 5-10: Configuração do método Múltiplo com 2 a 50 neurônios na primeira camada e 2 a 100 neurônios na segunda camada. Treinamento da rede com melhor desempenho Após a escolha da rede com o melhor desempenho, passamos para a etapa de treinamento definitivo somente desta. Nesta fase, utilizamos a própria acurácia como critério de parada do treinamento. Foi estabelecida uma acurácia mínima de 90% e, com insistência nos treinos, conseguimos, ainda, um percentual maior de acertos. Ressalte-se que a acurácia é calculada com base no conjunto de dados de treino e depende do tipo do atributo alvo. Para uma arquitetura com múltiplos atributos alvos a acurácia total é a média da acurácias individuais dos atributos. No caso em questão, conforme a figura 5-11, os atributos alvo utilizados (coordenadas X, Y) foram considerados como categóricos e a acurácia é o percentual de registros para os quais a predição da rede neural é igual ao valor observado.

76 72 Figura 5-11: Configuração dos atributos alvo ($KX-Kohonen e $KY-Kohonen) e seus valores possíveis. Após todo o processamento chegamos às configurações finais da rede escolhida: Unidades de entrada: 382 (após a seleção de atributos); 2 Camadas escondidas: 18 neurônios na primeira e 10 na segunda; 9 neurônios na camada de saída; Acurácia: 92,488%; Taxa de aprendizagem inicial (Eta): 0,3; Taxa de aprendizagem alta (High Eta): 0,1; Taxa de aprendizagem baixa (Low Eta): 0,01; Decréscimo da taxa de aprendizagem (Eta Decay): 30; Constante de momento (Alpha): 0,9.

77 73 A constante de momento (Alpha) é usada na atualização dos pesos sinápticos durante o treino, mantendo essa atualização em uma direção constante. Ela amortece o impacto que a taxa de aprendizagem tem sobre a atualização dos pesos [LUDWIG JR., COSTA 2007]. Quando essa constante é alta a rede diminui a tendência da atualização dos pesos mudarem de direção em função das variações nos dados e de uma possível alta taxa de aprendizagem. Figura 5-12: Configuração da rede de melhor desempenho com 44 neurônios na primeira camada e 38 neurônios na segunda camada. A taxa de aprendizagem controla o quanto os pesos são ajustados. Ela muda durante o processo de aprendizagem, ou seja, ela vai decrescendo conforme uma valor de decréscimo (Eta decay) expresso em número de ciclos. O treinamento inicia com um valor inicial de taxa de aprendizagem (Inicial Eta) que decresce até um valor mais baixo especificado (Low Eta). Ao chegar ao valor mínimo ela é reiniciada com um valor mais alto (High Eta), decrescendo novamente até o valor mais baixo novamente. Este ciclo se repete até o final do treinamento.

78 74 Figura 5-13: Sumário da RNA do tipo MLP de melhor desempenho. Com os dados da SEFAZ-CE utilizados e após as fases de clusterização e seleção de atributos o processo de classificação pode ser resumidamente representado pela figura atributos incluindo os 382 selecionados e os novos atributos alvo coordenadas (X,Y) ε(erro) Saídas desejadas Saídas calculadas RNA MLP 382 entradas 2 camadas Saída: Cluster Coordenadas X,Y Figura 5-14: Fase de classificação detalhada.

79 Classificação com o conjunto de teste/validação O conjunto de teste foi utilizado em seguida para validar o processo de classificação com redes MLP e aferir o desempenho com dados que não foram apresentados à rede cuja arquitetura foi escolhida como a melhor para o conjunto de dados de treinamento. O percentual de acerto total no conjunto de testes foi de 81,76%. Isso significa recuperar os créditos sonegados em 81,76% das ações fiscais executadas sobre os estabelecimentos indicados como sonegadores. Dentro da realidade brasileira, é um percentual de acerto considerado ótimo, tendo em vista as várias tentativas de fiscalização que se faz sem resultados efetivos na recuperação de créditos tributários. Um resumo da classificação com o conjunto de teste é mostrado na tabela Sonega Acertou Errou Total N S Total Percentual 81,76% 18,24% Tabela 5-12: Resumo da classificação com o conjunto de teste CONCLUSÃO O grande número de atributos para o arquivo inicial se deve à forma como os dados foram processados. Isso é ideal para o problema da sonegação do ICMS, pois os dados são formatados representando informações em detalhes para uma melhor análise. A classificação com a rede de Kohonen dividiu os dados em clusters (agrupamentos), gerando atributos que identificavam tais agrupamentos e que foram acrescentados ao conjunto inicial de dados criando um segundo e mais representativo conjunto. Foram fundamentais também para o desenho do processo proposto as fases seguintes, não só porque elas foram adaptadas e formaram a modelagem propriamente dita, mas porque, considerando a sequência estabelecida,

80 76 elas apresentaram resultados adequados aos dados submetidos, que são característicos de uma administração fazendária estadual. Obviamente, como está previsto na metodologia original do CRISP-DM, o processo adotado tem flexibilidade suficiente para retornar de qualquer uma das três fases adaptadas para a fase de processamento dos dados, o que ocorreu em alguns momentos das experimentações, tendo em vista a necessidade de fazer ajustes no vetor inicial de dados para um melhor desempenho do modelo. No capítulo seguinte veremos as formas utilizadas para validação do processo, focando na comparação com outras alternativas. Além disso, discutiremos mais sobre a sua utilização, complementando o que foi sugerido no capítulo 4.

81 77 CAPÍTULO 6 AVALIAÇÃO E UTILIZAÇÃO DO PROCESSO Neste capítulo discorreremos sobre os processos utilizados para avaliar e validar o modelo proposto. Foram aplicados três processos de avaliação: Comparação com o modelo sem a clusterização; Comparação com um algoritmo de árvores de decisão; Validação cruzada COMPARAÇÃO COM O MODELO SEM A CLUSTERIZAÇÃO DE KOHONEN Um primeiro ponto a considerar na avaliação do resultado do modelo proposto é compará-lo com resultado do treinamento das redes MLP sem a clusterização anterior com redes de Kohonen. Isso foi feito na presente pesquisa, para verificação do melhor desempenho do sistema com só um tipo de rede neural (MLP) e comparação com o sistema formado pelos dois tipos de redes neurais (Kohonen e MLP). O melhor desempenho conseguido com o mesmo vetor de dados inicial em redes MLP foi de uma arquitetura com duas camadas ocultas. A primeira camada com 16 (dezesseis) neurônios e a segunda com 6 (seis) neurônios, conforme a figura 6-1. A acurácia máxima dessa rede foi de 86,34%, o que nos dá confiança na abordagem com as duas redes em sequência. A seguir temos as configurações da rede escolhida: Unidades de entrada: 382 (já retirados os atributos sem importância); Acurácia: 86,34% Taxa de aprendizagem inicial (Eta): 0,3; Taxa de aprendizagem alta (High Eta): 0,1; Taxa de aprendizagem baixa (Low Eta): 0,01; Decréscimo da taxa de aprendizagem (Eta Decay): 30;

82 78 Constante de momento (Alpha): 0,9. Figura 6-1: Sumário da RNA de melhor desempenho sem a clusterização de Kohonen. A tabela 6-1 contém um resumo da classificação com o conjunto de teste utilizando a rede MLP treinada sem a fase de clusterização proposta neste trabalho. Sonega Acertou Errou Total N S Total Percentual 80,54% 19,46% Tabela 6-1: Previsão com o conjunto de teste da rede MLP sem a clusterização COMPARAÇÃO COM UM ALGORITMO DE ÁRVORES DE DECISÃO A mineração de dados propriamente dita do modelo proposto é baseada em redes neurais artificiais. Aqui foi feita uma comparação dos seus resultados com os resultados obtidos com outro algoritmo. Para essa avaliação, foi utilizado um algoritmo de árvores de decisão. Árvores de decisão é um método muito utilizado para inferência em mineração de dados. Os algoritmos de árvores de decisão são métodos que trabalham recursivamente para aproximar funções de valores discretos, nos quais o

83 79 aprendizado é representado por uma árvore cujos ramos são um conjunto de se/então. Entre seus algoritmos os mais conhecidos são o ID3 e o C4.5 [MITCHELL 1997]. Neste trabalho foi utilizado o algoritmo C5.0 já que é um recurso presente no aplicativo Clementine. Esse algoritmo é uma evolução do C4.5, que, por sua vez, é uma evolução do ID3. Atualmente o C5.0 é licenciado para a empresa RuleQuest Research Ltd. O algoritmo funciona por divisão do conjunto dados de treino pelo atributo que em cada conjunto de dados permitem o máximo ganho de informação (information gain). Cada subconjunto gerado pelo fracionamento anterior é em seguida dividido com base nos mesmos critérios, num processo recursivo, até que não seja possível mais fracionamento. Por último os últimos ramos da árvore são analisados, e aqueles que não contribuem significativamente para o ganho de informação são removidos, ou seja, são podados. A decisão quando ao atributo alvo surge nas folhas da árvore de decisão, com o respectivo nível de confiança calculado com base no número de casos que verificaram o valor escolhido para o atributo alvo nesse ramo terminal da árvore. O algoritmo C5.0 pode manipular atributos categóricos bem como numéricos, permitindo grande flexibilidade e adaptabilidade a variados problemas de Data Mining. Contudo, o atributo alvo deve ser de natureza discreta. O vetor de dados utilizado foi o mesmo conjunto utilizado na classificação com as redes MLP com a diferença apenas no atributo alvo. Este teve que ser o atributo discreto SONEGA, pois após a clusterização as redes MLP utilizaram dois atributos alvos, que eram as coordenadas X, Y dos agrupamentos de Kohonen. O algoritmo de árvores de decisão escolhido não pode utilizar mais de um atributo alvo, o que justifica a reversão para o atributo alvo original do vetor de dados.

84 80 Figura 6-2: Configuração do modelo de árvores de decisão. O conjunto de dados também foi dividido em dois subconjuntos. Um para treinamento e outro para testes. A tabela 6-2 mostra um resumo da classificação feita com o conjunto de teste pela árvore de decisão gerada. Sonega Acertou Errou Total N S Total Percentual 79,89% 20,11% Tabela 6-2: Previsão com o conjunto de teste utilizando o algoritmo C5.0. Tendo em vista o grande número de atributos no vetor de dados de entrada, e, consequentemente, de ramificações, a representação gráfica total da árvore gerada fica quase que inviável. A figura 6-3 mostra uma representação da regras geradas até o quarto nível da árvore.

85 81 Figura 6-3: representação das regras geradas até o nível 4. Percebeu-se que, com o mesmo conjunto de dados, as RNAs obtiveram um melhor resultado no conjunto de teste do que o algoritmo de árvores de decisão utilizado para avaliação.

86 UTILIZANDO VALIDAÇÃO CRUZADA O conjunto de testes é muito útil para medir o desempenho de um modelo de classificador, pois é uma medição que fornece uma avaliação imparcial da generalização e dos erros. Existem vários métodos utilizados para avaliação de um modelo de classificador. Entre eles temos a Validação Cruzada [TAN, STEINBACH e KUMAR 2009]. A validação cruzada é uma forma de treinar e testar um modelo, onde o conjunto de dados é dividido em k amostras. k 1 amostras são utilizadas para treinamento e a amostra restante é utilizada para teste/validação do modelo. Esse processo é feito k vezes, de modo que cada uma das k amostras seja utilizada uma vez para teste e validação. Este é o conceito chamado de folds (grupos). A acurácia final do processo é a média das acurácias verificadas nas k rodadas de treino/teste. Embora a técnica de validação cruzada seja um processo computacionalmente custoso, ela foi utilizada neste trabalho para validação do modelo. Para isso o conjunto de dados utilizado na fase de classificação com redes MLP foi dividido aleatoriamente em dez amostras, sendo procedidas dez iterações e, em cada uma delas, nove décimos (9/10) foi utilizado para treino e um décimo (1/10) para teste. Considerando o conjunto de dados processado, em cada iteração registros foram utilizados para treino e 914 para teste. Treino Teste Amostra Qtde Acurácia Qtde Acertos Amostra , ,04% Amostra , ,53% Amostra , ,53% Amostra , ,63% Amostra , ,63% Amostra , ,53% Amostra , ,20% Amostra , ,51% Amostra , ,26% Amostra , ,15% Médias 89,073 80,70% Tabela 6-3: Média do desempenho da validação cruzada com dez amostras.

87 83 Ao final foi calculada a média dos resultados das iterações com as amostras treinamento e teste e foi obtido o resultado demonstrado na tabela 6-3. A Validação Cruzada mostra um desempenho geral um pouco mais baixo do que o desempenho da classificação das redes MLP do modelo proposto, conforme mostrado na tabela 6-3. A complexidade do problema da sonegação fiscal contribui para isso. No entanto, as médias ficaram bem próximas do classificador MLP utilizado dentro do processo proposto neste trabalho UTILIZAÇÃO OU DISTRIBUIÇÃO Conforme o CRISP-DM, esta fase tem como objetivo o desenvolvimento final e a disponibilização de um sistema com o processo proposto. A presente dissertação se trata de um trabalho acadêmico cujo objetivo é propor um modelo para mineração de dados para o problema da sonegação do ICMS. Não objetivamos neste momento desenvolver algum aplicativo ou uma solução para integrar a outros sistemas corporativos. Obviamente isso poderá ser feito em trabalhos futuros em uma organização que possa aproveitar os experimentos e o conhecimento adquirido no presente trabalho. No entanto, ressaltaremos um ponto importante para a utilização do processo proposto. No capítulo 4, conforme a figura 4-6, propomos três formas possíveis de utilizar o processo: 1. Fazer a classificação de novos dados sem processar a RNA de Kohonen para gerar novos clusters e sem fazer a seleção de atributos. Nesta primeira forma, as fases de clusterização e seleção de atributos devem ser utilizadas na primeira vez em que os dados forem processados e treinados. Depois, basta fazer a classificação de um novo conjunto de dados utilizando os clusters gerados e os atributos selecionados.

88 84 Por exemplo, Este trabalho utilizou dados de uma administração fazendária do exercício fiscal de Caso tivéssemos os dados do exercício de 2006, poderíamos fazer diretamente a classificação utilizando os clusters e os atributos das fases anteriores; 2. Fazer nova clusterização e depois a classificação, sem fazer a seleção de atributos, para um novo conjunto de dados. Desta forma, seriam gerados novos clusters e a classificação utilizaria os atributos já selecionados no primeiro treinamento e filtrados no novo conjunto, consumindo, obviamente, mais tempo de processamento; 3. Fazer nova clusterização, nova seleção de atributos e depois a classificação do novo conjunto dados. Desta forma, o processo se repetiria totalmente com novos clusters gerados e um novo filtro de atributos selecionados. Assim, o tempo de processamento seria maior ainda. Quando utilizar a primeira ou a segunda opção? Quando os novos dados não apresentarem mudanças significativas em relação aos dados processados nas últimas clusterização e seleção de atributos efetuadas é preferível utilizar a primeira forma. Quando os novos dados apresentarem mudanças significativas, será melhor utilizar a segunda ou a terceira forma. Para problema da sonegação do ICMS, mudanças significativas são acarretadas nas seguintes situações: 1. Alterações profundas na legislação tributária, como, por exemplo, uma reforma tributária, uma redução de carga tributária e alíquotas ou concessão de isenções a determinados setores econômicos; 2. Inflação acumulada alta, que ocorre em períodos com altos índices anuais ou quando o acumulado em alguns anos está elevado a ponto de elevar os valores dos atributos em muitas atividades econômicas; 3. Crises econômicas e financeiras que tendem a fechar algumas empresas e abrir outras, alterando ou redimensionando o mercado.

89 CONCLUSÃO Podemos considerar como promissor o processo proposto neste trabalho. A aplicação da extensão do CRISP-DM, da forma exposta, ao problema da sonegação do ICMS, utilizando dados típicos de uma Secretaria de Fazenda Estadual, rende bons resultados e pode ser implementada por qualquer administração fazendária.

90 86 CAPÍTULO 7 CONCLUSÃO E TRABALHOS FUTUROS O ICMS é um tributo de competência estadual que se apresenta atualmente como o de maior complexidade dentre os tributos existentes no Brasil. A legislação desse tributo é frequentemente alterada a atualizada com novos procedimentos tributários. Essa complexidade favorece em muito ao sonegador que se aproveita dela para burlar o fisco e se beneficiar com recursos que deveriam ser repassados ao Estado para investir e suprir as necessidades da comunidade. Este capítulo se presta a fazer as conclusões finais do presente trabalho e consolidar questões como a sua contribuição e o que pode ser feito em termos de trabalhos futuros CONCLUSÕES A contribuição da presente pesquisa, ao projetar um modelo, baseado em Redes Neurais Artificiais, aplicado ao combate da sonegação do ICMS pode ser descrita da seguinte forma: 1. Representa um instrumento moderno de controle fiscal e, consequentemente, de aumento de arrecadação estadual; 2. Representa uma ferramenta flexível diante da complexidade da legislação tributária do ICMS, uma vez que as Redes Neurais Artificiais podem ser treinadas e re-treinadas, a qualquer tempo, aprendendo novas tendências ou padrões de sonegação; 3. Representa uma contribuição à sociedade, pois a sonegação fiscal, principalmente do ICMS, tem como conseqüência direta a concorrência desleal que é um mal que soterra os bons empreendedores que pagam seus tributos corretamente.

91 87 Um dos pontos importantes da presente pesquisa foi a disponibilidade dos dados provenientes da Secretaria da Fazenda do Estado do Ceará. Fator este que apresentou, inicialmente, certa dificuldade no seu tratamento, pois foi verificado que alguns dados estavam incompletos. Foi necessário fazer um segundo levantamento de dados mais consistentes, corretos e com o mínimo de ruído ou sujeira. Sem dúvida o trabalho de entendimento e tratamento dos dados foi de suma importância para viabilizar a construção do modelo proposto. Devemos ressaltar a importância das ferramentas (softwares) utilizadas. Na fase de tratamento dos dados o diferencial ficou por conta do IDEA (Interactive Data Extraction and Analisis) que nos possibilitou a geração do vetor final de dados. Nas fases de modelagem e avaliação o aplicativo Clementine foi fundamental para a finalização do processo proposto. Como em qualquer pesquisa, conhecimentos já adquiridos são ampliados e conhecimentos novos são absorvidos. A consolidação dos conceitos em redes neurais e seus algoritmos, a prática no uso do aplicativo Clementine são exemplos desses fatos. As hipóteses iniciais foram confirmadas considerando os resultados satisfatórios do treinamento e testes do processo com as Redes Neurais Artificiais projetadas. Senão vejamos: 1. Pode-se estabelecer um modelo de mineração de dados, baseado na metodologia estabelecida pelo CRISP-DM e em RNA s, que seja adequado ao problema da sonegação do ICMS? Obviamente, com um bom vetor de dados de entrada e a definição correta dos atributos de saída, tanto é possível classificá-las com Redes Neurais Artificiais, como, também, acrescentar mais qualidade na classificação, como foi feito com o agrupamento processado com as redes de Kohonen no modelo proposto. Não esquecendo que o desempenho equipara-se ou é, ainda,

92 88 melhor do que de outras técnicas, como foi verificado na avaliação procedida no capítulo O problema da sonegação de tributos, mais precisamente do ICMS, pode ser modelado e analisado com Redes Neurais Artificiais? Sem dúvida. As redes neurais artificiais são bem aplicadas a problemas de solução não linear como é a descoberta de padrões de sonegação fiscal. Além do mais, diante das muitas arquiteturas disponíveis para testes, temos muitas opções para modelá-las. 3. É possível construir RNA s para classificar as empresas que recolhem ICMS entre as que apresentam um maior ou menor risco de sonegação? Conforme foi demonstrado neste trabalho, os dados dos estabelecimentos inscritos por uma administração fazendária, relativamente às suas operações, arrecadação e fiscalização podem constituir as entradas e saídas de uma Rede Neural Artificial para previsão de sonegação. A partir daí, com os experimentos corretos, é possível desenhar RNA s para classificação desses estabelecimentos TRABALHOS FUTUROS Baseados nas experimentações efetuadas para chegar ao processo proposto, podemos ancorar nossas sugestões para trabalhos futuros em dois pontos: 1. Aprimoramento das fases com RNA s com a utilização de outros tipos e algoritmos. As primeiras candidatas são as Redes Neurais de Função de Base Radial - RBF (Radial Basis function). Como o próprio nome reflete, estas redes fazem uso de funções de base radiais para ativação dos neurônios em uma camada intermediária, visando transformar o conjunto de entrada em um conjunto de saída linearmente separável [BRAGA, CARVALHO e LUDEMIR 2000].

93 89 2. Construção de um sistema computacional utilizando um banco de dados relacional (SGBDR), com técnicas de datawarehousing, e uma linguagem de programação adequada para que o modelo proposto seja automatizado ao máximo e utilizado em uma administração fazendária. Como é de se esperar, a segunda sugestão lavaria à contribuição efetiva do processo de mineração de dados baseado no CRISP-DM e em redes neurais artificiais no controle fiscal da sonegação do ICMS.

94 90 APÊNDICE 1 METODOLOGIA E FERRAMENTAS UTILIZADAS A presente pesquisa está toda baseada na metodologia estabelecida pelo CRISP-DM, que significa CRoss Industry Standard Process for Data Mining, e é uma das principais e mais utilizadas metodologias de mineração de dados em todo o mundo. Ela nasceu de um consórcio formado pelas empresas Daimler Chrysler, SPSS (Statistical Package for the Social Sciences) Inc. e a NCR (National Cash Register) Company. A ferramenta selecionada para a condução dos experimentos, testes e construção dos modelos de Redes Neurais Artificiais para a solução do problema proposto foi o Clementine, produzida pela SPSS Inc. Em primeiro lugar, porque tratase de um aplicativo que proporciona um ambiente completo de mineração de dados para o usuário. Depois, por conter os modelos de Redes Neurais a serem utilizados na pesquisa e permitir a configuração destes de acordo com as necessidades e demandas que o problema requer. Para o pré-processamento dos dados foi utilizada outra ferramenta que possibilita de forma bastante iterativa a importação ou extração, bem como a manipulação e preparação dos dados para o processo de mineração. Trata-se do IDEA Iteractive Data Extration and Analisis, produzida pela CaseWare IDEA Inc. 1. CRISP-DM O CRISP-DM consiste em um conjunto de fases a serem aplicadas em projetos de Descoberta de Conhecimento em Banco de Dados, mais conhecido como KDD (Knowledge Discovery in Database), independente da solução ou ferramenta aplicada e da área de negócio envolvida, ou seja, não é proprietário. O padrão pode ser encontrado em O processo é dividido em seis fases conforme o que se segue.

95 91 1. ENTENDIMENTO DO PROBLEMA: É compreender o problema e seu contexto, incluindo a identificação de necessidades e definição de objetivos. Esta fase gera conhecimento de domínio que será utilizado durante todo o processo e o analista deve recorrer aos especialistas no negócio para uma boa análise não deixando faltar nenhum dos fatores relevantes para a solução do problema, sob pena de ter que retornar a esta fase quando, mais à frente, for identificada alguma incoerência. 2. ENTENDIMENTO DOS DADOS: Compreende a escolha, a integração, exploração e compreensão dos dados, identificando informação relevante e familiarização com o conteúdo e utilidade. É importante conhecer as fontes e a forma de extração. Nesta fase também é importante identificar os atributos para a análise, principalmente os atributos de saída que serão o resultado das previsões ou predições efetuadas. 3. PREPARAÇÃO DOS DADOS: Compreende o pré-processamento dos dados, incluindo tarefas de redução, transformação, integração e limpeza, ou seja, tudo que for necessário para obter o conjunto final de dados. Nesta fase, as tecnologias de integração em armazéns de dados (data warehouse) são muito úteis. 4. MODELAGEM: É a fase de estimação ou aprendizagem de modelos onde são selecionados e aplicados os algoritmos e as técnicas de aprendizagem mais adequadas ao problema. Essa é uma das principais fases da metodologia, senão a principal, pois é nela que se estabelece o modelo de solução do problema, testando e validando as técnicas utilizadas, não esquecendo as medidas mais importantes para garantir a qualidade do modelo proposto, tais como, taxas de erro, taxas de aprendizagem, limite de iterações em etapas de treinamento, entre outras. 5. AVALIAÇÃO:

96 92 Aqui os resultados são validados, comparados, interpretados e confrontados com conhecimento de domínio, permitindo verificar se o modelo proposto conseguiu alcançar os objetivos. Nesta fase ocorre a decisão de o processo segue para a fase de desenvolvimento e implementação final ou se deverão ser efetuadas correções em fases anteriores. 6. UTILIZAÇÃO OU DISTRIBUIÇÃO: Compreende o desenvolvimento final, a disponibilização e a divulgação do modelo já testado e avaliado. Dependendo do problema e da solução encontrada, pode se revestir na elaboração de um relatório final, a implementação do modelo em uma ferramenta de já pronta ou o desenvolvimento de uma aplicação integrada ao sistema de informação do negócio em questão. Em qualquer dos casos, pretende fazer chegar o conhecimento aos usuários tomadores de decisão. Como se pode observar pelo gráfico do processo, o CRISP-DM, apesar de ter fases bem definidas, não é linear, apresentando ciclos e retornos, o que o torna mais flexível e coerente com as tarefas de modelagem e extração de conhecimento. O CRISP-DM, por si só, não garante resultados. É um processo com uma metodologia disciplinada que, se seguida de forma correta, aumenta em muito a possibilidade de atingir os objetivos propostos. Há que se observar que na presente pesquisa, por se tratar de um trabalho acadêmico, a última fase do CRISP-DM será representada pela formulação das conclusões finais, tendo em vista não termos que desenvolver aplicações para integrar a outros sistemas corporativos. Claro que isso poderá ser feito em trabalhos futuros em uma organização que possa aproveitar os experimentos e o conhecimento adquirido no presente trabalho.

97 93 2. IDEA - Interactive Data Extration and Analisys O IDEA é um aplicativo que possibilita fazer análise de dados de arquivos provenientes de várias fontes de dados, incluindo plataformas que vão dos Computadores Pessoais (PC) aos Computadores de Grande Porte (Mainframes). O programa é utilizado em auditoria de sistemas com ótimo desempenho no tratamento de arquivos com grandes volumes de dados, proporcionando a organização dos dados escolhidos para análise. Tal fato nos permitiu utilizá-lo no entendimento e na preparação dos dados para a fase de treinamento dos modelos de Redes Neurais escolhidos. Figura A1-2: Tela principal do IDEA Entre os recursos do IDEA os principais são: Recursos de importação ou vinculação de dados: Converte para um formato interno ou cria uma vinculação de vários tipos de arquivos de várias fontes de dados, oferecendo um Assistente de Importação

98 94 semelhante aos assistentes utilizados em outros programas mais populares, para ajudar na leitura de arquivos. No caso de arquivos complexos de registros de comprimento variável ou vários tipos de registros, o IDEA tem um módulo complementar chamado RDE (Editor de Definições de Registro), que é usado para criar, modificar layout s ou definições de registros, salvando essas definições para serem utilizadas pelo Assistente de Importação. O aplicativo também permite importação de relatórios impressos em arquivos, facilitando a importação de arquivos em formato de relatórios padronizados ou não. Recursos de manipulação e análise de dados: Campos Virtuais acréscimo de campos adicionais (virtuais), modificáveis ou não, utilizados para cálculos, comentários, marcação de registros ou correção e conversão de dados; Estatísticas de campo geração de estatísticas para os campos tipos numéricos e datas. Para cada campo numérico, são fornecidos estatísticas como valores líquido, máximo, mínimo e médio, desvio padrão, valores negativos e positivos e número de registros zerados, entre outras informações. Para campos data, as estatísticas fornecem informações como datas mais recente e mais antiga e análises diárias e mensais do número de transações; Extração semelhante às funções de seleção de registros, serve para identificar os elementos que satisfazem a uma determinada condição. Os critérios de extração são passados por meio de um Editor de Equações e todos os registros satisfazendo ao critério indicado são exportados para um novo arquivo. É possível efetuar extrações múltiplas em um mesmo arquivo, ao mesmo tempo e utilizando diferentes critérios;

99 95 Funções são usadas para efetuar cálculos complexos e testes de exceção. O IDEA tem muitas funções que podem ser usadas para cálculo, manipulação e conversão de dados; Acréscimo de arquivos usada para anexar ou encadear verticalmente dois ou mais arquivos gerando outro arquivo maior. Por exemplo, é possível anexar 12 arquivos mensais de compras para produzir um arquivo de todas as operações de um ano. Para isso os arquivos devem ter os mesmos campos; Junção de arquivos usada para reunir horizontalmente campos de dois arquivos identificando dados correspondentes ou relacionados entre estes. Só é possível fazer uma correspondência entre dois arquivos se eles tiverem pelos menos um campo comum, chamado chave ; Comparação de arquivos usada para identificar as diferenças num campo numérico de dois arquivos tendo uma chave comum; Chaves duplicadas identifica chaves ou campos com valores duplicados num arquivo; Quebra de seqüência É possível procurar num arquivo quebras de seqüências numéricas, cronológicas ou alfanuméricas usando uma máscara definida pelo usuário. No caso de quebras de seqüências cronológicas, é possível ignorar os fins de semana ou feriados definidos pelo usuário; Índices É possível criar índices nos campos dos arquivos para melhorar o desempenho durante pesquisas, sumarizações, extrações ou outras funções; Estratificação pode ser numérica, de caracteres ou datas e é utilizada para totalizar o número de registros e seus valores dentro de intervalos determinados pelo usuário; Sumarização usada para acumular os valores dos campos numéricos por chave única, ou seja, por um ou mais campos formando uma chave;

100 96 Classificação cronológica usada para classificar cronologicamente um arquivo em função de uma data indicada até um máximo de seis intervalos definidos pelo usuário. A função de classificação cronológica cria um relatório de análise cronológica e dois arquivos opcionais, um com a classificação cronológica detalhada e outro com o sumário por chave; Tabela dinâmica (Pivot) permite ao usuário efetuar uma análise multidimensional de várias variáveis de arquivos de dados. Quando uma tabela dinâmica é criada no IDEA, o usuário tem a possibilidade de arrastar e transferir os campos de dados desejados à posição na tabela dinâmica criada onde ele quer que a informação apareça, definindo como os dados são organizados e combinados; Amostragem oferece quatro métodos de retirar uma amostragem dos dados, bem como a possibilidade de calcular os tamanhos da amostra segundo parâmetros passados pelo usuário. Oferece também uma opção de planejamento e avaliação por atributos que pode ser usada para calcular tamanhos de amostra, níveis de confiança, limites de probabilidade de erro e número de erros na amostragem; Histórico de operações guarda todas as operações efetuadas sobre um arquivo de dados, apresentadas sob a forma de uma lista evolutiva de fácil utilização; Recursos de automação de tarefas: IDEAScript linguagem de programação baseada em objetos compatível com Visual Basic for Applications. Os IDEAScripts, também chamados macros, podem ser gravados como uma série de etapas em seqüência, copiando elementos do histórico ou digitando código diretamente numa janela de programação.

101 97 3. CLEMENTINE Clementine é uma ferramenta da SPSS Inc., feita para proporcionar um ambiente de mineração de dados para que os usuários possam ter varias técnicas em um mesmo ambiente e auxiliar no processo de tomada de decisões, identificando oportunidades de negócios, tendências, riscos, fraudes, entre outros padrões úteis em organizações publicas ou privadas. Clementine tem uma interface gráfica que propicia ao usuário aplicar seu conhecimento do negocio para construir modelos de mineração de dados. Varias técnicas são disponibilizadas, tais como predição, classificação, segmentação, associação e outros algoritmos. Como uma ferramenta de mineração de dados que combina avançadas tecnologia de modelagem com facilidade de uso, o Clementine ajuda a descobrir e predizer padrões interessantes e valiosos dentro de conjuntos de dados. Você pode usar o Clementine para atividades de apoio a decisão, como: Criar perfis de clientes, consumidores ou empresas; Detectar e predizer fraudes em organizações; Predizer tendências futuras de vendas e crescimento de uma empresa; Criar perfis para analise de risco de crédito; Realizar classificação e segmentação e outros. No presente trabalho utilizaremos as técnicas e modelos de Redes Neurais Artificiais presentes no Clementine para classificar dados e descobrir padrões de sonegação de tributos em uma base de dados de uma administração tributária, que se assemelha à detecção de fraudes em organizações. Em cada etapa no processo de mineração de dados, a interface do Clementine possibilita ao usuário aplicar seu conhecimento especialista de negócios

102 98 para modelar soluções, com predição, classificação, segmentação e/ou descoberta de regras de associação, de forma precisa e interativa. Trabalhar com Clementine é trabalhar com dados. Segundo o próprio manual de usuário, de forma resumida, o trabalho com Clementine envolve três fases. Primeiro, a leitura dos dados pela ferramenta. Depois fazer uma série de manipulações com os dados. Finalmente, enviar os dados de resultado a um destino. Esta seqüência de operações é chamada de stream (Fluxo) de dados, pois os dados fluem, registro a registro, da origem, passando por cada uma das manipulações modeladas e, finalmente, para o destino final, como um modelo de produção de dados. Todo o trabalho com o Clementine envolve criação e manipulação de Fluxos de dados. Para compor fluxos de dados é necessário incluir nodes (Nós), que representam cada operação e ser executada com os dados. Por exemplo, existem Nós para origem do dados, que estabelecem a ligação com um arquivo ou uma base de dados; existem Nós para criar modelos de mineração de dados, como os Nós de regressão linear, árvore de decisão, entre outros. Para as Redes Neurais Artificiais o Clementine oferece os Nós de Redes Neurais e de Kohonen, que modelam, respectivamente, redes MLP (multilayer perceptron) e redes auto-organizáveis. Sem restrições aos tipos de dados nas bases de dados esses Nós recebem um ou mais campos de entrada e um ou mais campos de saída para efetuar o seu treinamento. Além dos parâmetros e configurações comuns às Redes Neurais Artificiais o Clementine fornece uma série de recursos Para incrementar a mineração de dados tais como análise sensitiva, poda, validação e redes dinâmicas. Interface do Clementine Todos os recursos de mineração de dados do Clementine estão integrados em uma interface de visual, que aceita, inclusive, programação. Cada operação a ser

103 99 executada é representada por um node (Nó), e esses Nós são ligados formando um stream (Fluxo). Figura A1-3: Interface do Clementine com um stream aberto. A Interface do Clementine é dividida basicamente nas seguintes áreas: Área do Stream: É a área maior da janela de Clementine, onde o usuário constrói e manipula Fluxos de dados. Você pode trabalhar com vários Fluxos, ou seja, ele permite multitarefa. Paletas. As paletas estão situadas na parte de baixo da janela do Clementine. Cada paleta contém um grupo de Nós de operações relacionadas disponíveis para serem acrescentadas ao Fluxo de dados. Gerenciadores. Do lado superior direito da janela do Clementine ficam três gerenciadores, dispostos nas abas Streams (Fluxos), Outputs (Saídas) e

104 100 Models (Modelos). Essa área é utilizada para gerenciar os tipos correspondentes de objetos. A aba Streams é utilizada para abrir, renomear, salvar e apagar os Fluxos criados em uma sessão. Na aba Outputs aparecem os tipos de saídas de um Fluxo de dados (gráficos, tabelas, etc.), sendo possível salvar qualquer saída diretamente desta aba. Na aba de Models ficam os resultados das técnicas de aprendizagem de máquina que rodam no Clementine. Estes modelos podem ser abertos diretamente da aba Models ou acrescentados ao Fluxo de dados para serem lá visualizados. Projetos. A janela de Projetos fica na parte de baixo à direita da janela do Clementine e oferece um modo útil de organizar suas tarefas de mineração de dados. Barra de status. Fica localizado embaixo das paletas e mostra informações sobre o que a aplicação está fazendo no momento bem como indicações de quando o usuário deve dar um feedback (retorno) à ferramenta. Construindo Streams Como vimos acima, o Clementine utiliza uma metodologia em que os dados passam por um Fluxo de Nós, chamado de stream (Fluxo). Os Nós representam operações a serem executadas com os dados, enquanto as ligações entre eles indicam a direção do Fluxo de dados. O usuário deve começar com um Nó para ler os dados, depois fazer estes passarem por outros Nós em série, que farão a manipulação, para, ao final, enviar o resultado a um destino, que pode ser um arquivo texto, tabelas em um banco de dados ou um arquivo do tipo SPSS, que é um formato de dados do próprio Clementine. Com a interface do Clementine o usuário pode modelar a mineração de seus dados visualmente, montando o seu próprio Fluxo de dados. Em um nível mais básico, um Fluxo de dados usa, no mínimo, os passos seguintes, para ter o resultado satisfatório:

105 Adicionar os Nós na janela do Fluxo; 2. Conectar os Nós para formar o Fluxo; 3. Fazer as especificações que os Nós requerem; 4. Executar o Fluxo para verificar o resultado. Fluxos são como scripts que podem ser salvos em um arquivo cuja extensão é.str e podem ser abertos, alterados e executados novamente, mesmo com arquivos de dados diferentes. Trabalhando com Nodes (Nós) A paleta na parte de baixo da janela do Clementine contém todos os possíveis nodos usados na construção dos Fluxos. Cada aba contém uma coleção de Nós relacionados em função do tipo de operação que executam. Estes devem ser usados para cada fase do Fluxo da dados. As abas disponíveis são as seguintes: Favorites (Favoritos): contém os Nós mais usados pelos usuários; Source (Fontes): contém os Nós que você pode usar para importar dados em diversos formatos, desde arquivos texto até bancos de dados com conexão ODBC; Record Ops (Operações com Registros): contém os Nós usados para fazer manipulação ou alterações nos dados; Field Ops (Operações com campos): contém os Nós utilizados para manipulação de dados no nível dos campos ou atributos, ou seja, para criar campos calculados, filtros de dados ou mesmo fazer transposição de colunas para linhas; Graphs (Gráficos): contém os Nós que você pode usar para representar os dados em forma de gráficos;

106 102 Modeling (Modelagem): contém os Nós principais para a modelagem de soluções de mineração de dados. São as técnicas de inteligência artificial, aprendizagem de máquina e estatística; Output (Saída): contém os Nós utilizados para obter informações dos dados em qualquer parte de um stream, bem como Nós usados para exportar ou dar saída aos dados. Há três maneiras de acrescentar Nós a um Fluxo: 1. Duplo clique no ícone do Nó na paleta ao usar este método o Nó será automaticamente conectado a outro Nó do Fluxo atual, dependendo de qual Nó do Fluxo está selecionado; 2. Clicar e arrastar (drag-and-drop) um Nó da paleta para a tela de Fluxo dessa maneira o Nó não será conectado a outro no Fluxo e isso deverá ser feito pelo próprio usuário; 3. Clicar no ícone do Nó na paleta e na tela de Fluxo dessa maneira, também, o Nó não será conectado automaticamente. Uma vez na tela do Fluxo, o Nó pode ser configurado. Basta clicar duas vezes no Nó, dentro do Fluxo, para exibir sua caixa de diálogo. As opções disponíveis dependem do tipo de Nó. Para remover um Nó do Fluxo de dados, clique no Nó e pressione Delete no teclado, ou, ainda, clique no Nó com o botão direito do mouse e selecione Delete entre as opções do menu de contexto. Nós acrescentados à janela do Fluxo não formam um Fluxo de dados até que eles sejam conectados. Conexões entre os Nós indicam a direção em que os dados vão percorrer. Há quatro formas de conectar Nós: 1. Clicando duas vezes na paleta de nós É o modo mais simples para formar um Fluxo, pois automaticamente conecta o Nó ao Nó selecionado na tela de Fluxo. Apesar de ser simples, esse método merece atenção, pois alguns

107 103 Nós, mesmo selecionados no Fluxo, não aceitam conexão para outro, então um Nó anterior é que será conectado ao novo Nó; 2. Usando o botão do meio do mouse Na janela do Fluxo, você pode clicar com o botão do meio do mouse em um Nó e arrastar para outro Nó. Se seu mouse não tiver um botão do meio, você pode simular isto pressionando a tecla Alt enquanto arrasta com botão normal do mouse de um Nó para outro; 3. Usando o menu de contexto Na janela do Fluxo, clique com o botão direito do mouse e escolha no menu de contexto a opção connect (conectar). Um ícone de conexão aparecerá no Nó de origem e no ponteiro do mouse. Escolha e clique sobre o Nó de destino para conectar os dois; 4. Usando a tecla F2 O mesmo efeito do menu de contexto pode ser obtido usando a tecla F2 do teclado. Após escolher e selecionar o Nó de origem pressione F2 e o ícone de conexão aparecerá. Depois escolha e clique sobre o Nó de destino para conectar os dois; Ao conectar Nós, há algumas diretrizes para seguir. Você receberá uma mensagem de erro se você tenta fazer quaisquer dos tipos seguintes de conexões: Conexão para a um Nó de fonte de dados; Conexão de um Nó terminal; Conexão para um Nó que ultrapasse seu número de máximo de conexões de entrada; Conexão entre dois nodos já conectados; Conexão de retorno de dados para um Nó do qual estes já saíram (Circularidade). Um recurso interessante é a possibilidade de salvar um Nó individualmente para poder reutilizá-lo no mesmo ou em outro Fluxo. Para isso clique com o botão

108 104 direito do mouse no Nó selecionado e escolha Save Node (Salvar Nó) no menu de contexto. Os Nós são salvos em arquivos com a extensão.nod. Trabalhando com Streams (Fluxos) Uma vez você conectou Nós de fonte de dados, Nós de processos e Nós terminais na janela de Fluxo, este estará criado. Tudo isso pode ser salvo em um arquivo de Fluxo, cuja extensão é.str. É possível configurar várias opções para Fluxos, tais como otimização, configurações de data e hora, parâmetros e anotações. Com o Clementine, o usuário pode abrir e modificar mais de um fluxo de dados de uma vez. Do lado direito da janela ficam os gerenciadores que ajudam a navegar nos fluxos abertos. Figura A1-4: Gerenciadores no Clementine. Na aba Streams o usuário poderá clicar com o botão direito do mouse, para acesso às seguintes funções: Mostrar qualquer Fluxo aberto; Salvar Fluxos; Adicionar um Fluxo a um projeto;

109 105 Acessar as propriedades de um Fluxo; Fechar Fluxos; Iniciar um novo Fluxo; Abrir Fluxos; No menu File (Arquivo) também teremos as opções acima citadas. Uma vez que você tenha especificado e conectado os Nós, configurado as propriedades de um Fluxo, você pode executá-lo para que os dados sejam processados. As formas de executar um Fluxo são: Selecionar Execute (Executar) do menu Tools (Ferramentas); Clicar no botão executar na barra de ferramentas; Clicar no botão direito do mouse em um Nó terminal e escolher Execute (Executar) no menu de contexto; Clicar no botão direito do mouse em um Nó e escolher Execute From Here (Executar Daqui) no menu de contexto (essa opção executará o Fluxo a partir do Nó selecionado). Para parar a execução de um Fluxo, você pode escolher a opção Stop execution (Para a execução) no menu Tools (Ferramentas) ou, ainda, clicar no botão de parada de cor vermelha na barra de ferramentas. Arquivos gerados pelo Clementine Durante o trabalho de mineração de dados com o Clementine o usuário pode gerar alguns tipos de arquivos, além dos Streams e dos Nodes. Estes podem ser carregados novamente pela ferramenta para serem reutilizados. Vejamos uma lista completa de tipos de arquivos que podem ser gerados: Streams (.str) arquivos de Fluxo; Nodes (.nod) arquivos de Nós;

110 106 States (.cst) arquivos que guardam toda a diagramação (leiaute) de um Fluxo; Models (.gm) arquivos gerados a partir de um Fluxo e que servirão de modelos para outros fluxos; Paleta de Models (.gen) arquivos que gravam a configuração da aba de modelos localizada na janela dos gerenciadores; Output (.cou) arquivo utlizados para gravar somente Nós de saídas com os resultados de um processo; Projects (.cpj) arquivos gerados com um conjunto de Fluxos e outros objetos compondo um projeto de mineração de dados inteiro. Redes Neurais no Clementine Para treinar uma Rede Neural Artificial no Clementine é preciso utilizar o Nó Neural Net (rede neural), que modela um MLP (multilayer perceptron). Este se encontra na paleta Modeling (Modelagem) na parte de baixo da janela da aplicação. Figura A1-5: Localização do Nó Neural Net no Clementine. Não existem restrições para tipos de campos nas bases de dados (treinamento, teste ou validação). Um Nó de Rede Neural espera por um ou mais campos de entrada e um ou mais campos de saída. No Clementine os campos são tipificados quanto a sua direção no Fluxo. Se forem de entrada a direção será In e se forem de saída, Out.

111 107 Para evitar problemas comuns de Redes Neurais Artificiais o Clementine fornece uma série de recursos tais como análise sensitiva, poda, validação e redes dinâmicas. Opções do Nó Rede Neural Para editar um Nó de Rede Neural, após incluí-lo no Fluxo, basta proceder a um duplo clique no seu ícone. Figura A1-6: Tela de opões do nó de redes neurais. Existem cinco abas para configuração dos parâmetros da rede. Na aba Fields (Campos) temos: Use type node settings (Usar configurações de Nós de tipo) Esta opção é padrão e permite que o Nó de Rede Neural utilize dados provenientes de Nós de tipos de dados (normalmente Nós de origem de dados);

112 108 Use custom settings (Usar configurações personalisadas) Esta opção permite que sejam especificadas as informações dos campos a serem utilizados. Após escolher esta opção outras serão habilitadas: o Target (Alvo) Utilizado para selecionar campos alvo, ou seja, campos de saída da rede. É algo similar a especificar a direção de saída dos campos em um Nó de origem de dados. o Inputs (Entradas) Utilizado para selecionar campos de entrada da rede. É algo similar a especificar a direção de entrada dos campos em um Nó de origem de dados. o Partition (Partição) Utilizado para especificar um campo usado para particionar os dados em conjuntos de treinamento, teste e validação. Com poucas exceções todos os Nós de modelagem utilizam dados provenientes de Nós de tipos de dados (normalmente Nós de origem de dados). Quando isso não acontece, o usuário terá que especificar as exceções. Na aba Model (Modelo) temos: Model name (Nome do modelo) Especifica o nome do modelo que será gerado quando o Nó for executado. Pode ser automático (Auto) ou personalizado (Custom). Os modelos são resultado de seu trabalho de mineração de dados. Quando você executa com sucesso um Nó de modelagem (paleta Modeling), como o de Rede Neural, um modelo é gerado na aba Models dos gerenciadores. Eles contêm informações sobre a modelagem, podem ser acrescentados na janela do Fluxo e são utilizados para gerar predições e facilitar a mineração. Use partitioned data (Usar dados particionados) Divide os dados em subconjuntos para treinamento, teste e validação baseado no campo de particionamento. Se nenhum campo de particionamento for especificado esta opção será ignorada.

113 109 Method (Método) Especifica o método de treinamento para construir a Rede Neural, entre os seguintes: o Quick (Rápido) Usa regras de? e as características dos dados para escolher a topologia da rede; o Dynamic (Dinâmico) Cria uma topologia inicial e vai modificando-a com o progresso do treinamento da Rede Neural; o Multiple (Múltiplo) Cria várias Redes de diferentes topologias. Estas são treinadas em um processo paralelo e, ao final, o modelo com menor erro é escolhido como modelo definitivo; o Prune (Poda) Começa com uma grande Rede Neural e vai removendo as unidades mais fracas nas camadas de entradas e escondidas durante o processo de treinamento; o RBFN - Radial Basis Function Network (Redes de Funções de Base Radial) Usa uma tecnologia similar ao algoritmo de clusterização K-means para particionar os dados baseada nos valores do campo alvo; Nota: Funções de base radial (RBFs) são aquelas que apresentam simetria radial, ou seja, dependem basicamente da distância (r) entre o centro da função e um ponto genérico (x), podendo escrever-se genericamente na forma φ(r) = x xj. o Exhaustive prune (Poda exaustiva) Semelhante ao método de poda, no entanto escolhe parâmetros de treinamento para garantir uma melhor pesquisa no espaço de modelos possíveis. Prevent overtraining Esta opção divide os dados aleatoriamente em conjuntos de treinamento e de teste. A rede é treinada com o conjunto de treinamento e a sua precisão é calculada com o conjunto de teste. Especifique a proporção dos dados ser usado para treinamento na caixa de texto Sample %(Amostra) e o resto dos dados será usado para validação.

114 110 Set random seed (semente aleatória) Se nenhuma semente aleatória for fixada, a seqüência de valores aleatórios usada para inicializar os pesos de rede será diferente toda vez que o Nó for executado. Isto pode fazer com que o Nó crie modelos diferentes para cada execução, mesmo que as configurações Nó e os valores dos dados sejam exatamente os mesmos. Selecionando esta opção, você pode fixar uma semente aleatória com um valor específico de forma que o modelo resultante é possa se reproduzido com exatidão. Stop on (Parar em) Você pode selecionar um dos critérios de para abaixo: o Default (Padrão): Com esta opção a rede o treinamento para quando ela tiver alcançado seu estado de treinamento ótimo. Se esta configuração for usada com o método de treinamento Múltiplo, as redes que não fizerem um bom treinamento serão descartadas; o Accuracy (%) (Precisão): Com esta opção, o treinamento termina quando a precisão especificada é atingida. Isto nunca pode acontecer, mas você pode interromper treinamento a qualquer ponto e pode economizar a rede com a melhor precisão alcançada tão longe; o Cycles (Ciclos): Com esta opção, o treinamento para após o número especificado de ciclos. Um ciclo significa uma passagem de dados pela rede; o Time (mins) (Tempo): Com esta opção o treinamento termina após um tempo especificado (em minutos). Note que treinamento pode ir um pouco além do tempo especificado para completar o último ciclo. o Optimize (Otimizar) Aqui as opções selecionadas podem melhorar ou não o desempenho durante a construção do modelo, baseado em necessidades específicas:

115 111 o Speed (Velocidade): faz com que o algoritmo nunca use o disco para melhorar desempenho. o Memory (Memória): faz com que o algoritmo use o disco quando necessário sacrificando a velocidade. Esta é a opção padrão. Na aba Options (Opções) temos: Continue training existing model (continuar treino com o modelo existente) Por padrão, cada vez que o usuário executa um Nó de Rede Neural, uma nova rede é criada. Se esta opção for selecionada o treinamento continua com a última rede produzida com sucesso pelo Nó, exceto quando o método RBFN for selecionado na aba Model. Use binary set encoding (Usar codificação binária) Se esta opção for selecionada, o Clementine usará um esquema de codificação para os campos. Para conjuntos de campos com um grande número de valores de entrada é uma boa opção, mas, certamente, a rede deverá ser mais complexa, ou seja, com mais neurônios ou mesmo camadas escondidas. Show feedback graph (Mostra retorno gráfico) Opção usada para ver um gráfico mostrando a precisão da rede pelo tempo de aprendizagem. Se você selecionar a opção seguinte (gerar um arquivo de log) você verá um segundo gráfico mostrando o conjunto de treinamento e as métricas do teste. Model selection (Seleção do modelo) Aqui você pode selecionar se o Nó retornará para a melhor ou para a última rede gerada, quando o processo for interrompido. Sensitivity analysis (análise sensitiva) Marque essa opção se você quiser uma análise sensitiva dos campos de entrada da rede quando esta for treinada. Serão fornecidas informações sobre quais campos são mais importantes na predição do campos de saída.

116 112 Generate log file (Gerar um arquivo de log) Se esta opção for selecionada, informações sobre o processo de treinamento serão gravadas em um arquivo de log. Você pod especificar o nome e o local do arquivo de log. Na aba Expert (Especialista) as opções dependem do método escolhido na aba Models. É necessário ter conhecimento dos aspectos mais intrínsecos de Redes Neurais Artificiais para que o usuário possa fazer uma sintonia fina. Antes é necessário vermos alguns parâmetros relacionados à taxa de aprendizagem, comuns a todas as opções de métodos, e estarão disponíveis na aba Expert, quando for selecionada a opção Mode (Modo) Expert: Alpha: É o termo de momento usado para atualizar os pesos durante o treinamento. Ele tende a manter a alteração dos pesos em uma direção consistente. Você deve especificar um valor entre 0 e 1. Eta: É a taxa de aprendizagem que controla como os pesos são ajustados em cada atualização. Ela muda com o processo de treinamento, exceto para o método RBFN, quando ela permanece constante. Durante o treinamento a Eta começa com um valor inicial, depois cai para um Eta baixo, então é reiniciado com um Eta alto e depois decresce para um Eta baixo novamente. Isso se repete até o final do treinamento, conforme a figura 28. Figura A1-7: Mudança da taxa de aprendizagem durante os ciclos de treinamento.

117 113 Vejamos agora as opções para cada método. 1. Quick Method (Método Rápido): Hidden layers (Camadas escondidas) Especifica o número de camadas escondidas. Layer 1, 2, 3 (Camada 1, 2, 3) Para cada camada especifica o número de neurônios. Persistence (Persistência) Especifica o número de ciclos para os quais a rede continuará a treinar se nenhuma melhora for observada. Esta opção pode ser usada para escapar dos mínimos locais se for especificado um número alto de ciclos. O preço que se paga é um aumento no tempo de processamento. 2. Dynamic Method (Método Dinâmico): Não existem opções avançadas para este método. 3. Multiple Method (Método Múltiplo): Topologies (Topologia) Especifica a topologia de Rede a ser treinada. Esta é dada pelo número de neurônios em cada camada escondida separado por vírgulas. Podem ser especificadas de uma a três camadas escondidas. Por exemplo, uma Rede com três camadas escondidas de dez, doze e quinze neurônios cada, deve ser especificada como 10, 12, 15. É possível especificar um intervalo de números de neurônios com dois números separados por espaços. Por exemplo a especificação determina uma camada com os neurônios variando de 10 a 16 neurônios. Se for acrescentado um terceiro número na especificação este será usado como incremento. Por exemplo, determina que os neurônios da camada variam de 10 a 16 com incremento de 2, ou seja, de dois em dois. Caso seja especificado mais de uma camada estas serão separadas por vírgula. Por exemplo, 10 14, , determina duas camadas, sendo a

118 114 primeira com neurônios variando de 10 a 14 e a segunda, de 10 a 16, com incremento de 2. Finalmente, você pode especificar múltiplas topologias, separadas por ponto-e-vírgula. Discard non-pyramids (Discartar não-pirâmides) Pirâmides são Redes em que cada camada tem um número de neurônios menor ou igual ao da camada imediatamente anterior. Este tipo de Rede geralmente treina melhor do que as Redes não-pirâmides. Persistence (Persistência) Da mesma forma do método rápido, especifica o número de ciclos para os quais a rede continuará a treinar se nenhuma melhora for observada. 4. Prune Method Hidden layers (Camadas escondidas) Especifica o número de camadas escondidas para a Rede inicial, antes da realização da poda. Mais camadas escondidas contribuem para aprendizagem de padrões mais complexos. Layer 1, 2, 3 (Camada 1, 2, 3) Para cada camada especificar o número de neurônios. Recomenda-se que as camadas iniciais sejam um pouco maiores. Hidden rate (Taxa escondida) Especifica o número de neurônios de camadas escondidas para serem removidos (podados) em uma poda simples. Hidden persistence (Persistência escondida) Especifica o número de operações de poda de neurônios de camadas escondidas se nenhuma melhora for observada. Input rate (Taxa de entrada) Especifica o número de unidades de entrada a ser removida em uma poda simples.

119 115 Input persistence (Persistência de entrada) Especifica o número de operações de poda de unidades de entrada se nenhuma melhora for observada. Persistence (Persistência) Especifica o número de ciclos para os quais a Rede será treinada antes de tentar podar se nenhuma melhora for observada. Overall persistence (Persistência total) Especifica o número de vezes que a Rede passa pela poda das unidades de entrada ou escondidas se nenhuma melhora for observada. Opção aplicada quando estiver usando o modelo de parada padrão. 5. RBFN Method RBF clusters (RBF ou Agrupamentos) Especifica o número de RBF (Radial Basis Functions) ou agrupamentos (clusters) a serem utilizados, dependendo do tamanho da camada escondida. Persistence (Persistência) Especifica o número de ciclos que a Rede terá que executar se nenhuma melhora for observada. Eta (Taxa de aprendizagem) e Compute Eta automatically (Computar Eta automaticamente) Para RBFNs a taxa de aprendizagem permanece constante. Por padrão a taxa de aprendizagem é calculada automaticamente, baseada nos dois primeiros ciclos. Para especificar um valor para a taxa de aprendizagem desmarque a opção Compute Eta automatically e digite o valor desejado. Alpha (Momento) É o termo de momento usado para atualizar os pesos durante o treinamento. RBF overlapping (Sobreposição RBF) Os neurônios escondidos em uma RBFN representam funções de base radial que definem agrupamentos ou regiões de dados. Este parâmetro permite ao usuário controlar quantos

120 116 agrupamentos ou regiões serão sobrepostos. Deve ser especificado um valor real positivo. 6. Exhaustive Prune Method Não existem opções avançadas para este método. Modelos de Redes Neurais Gerados Um modelo de Rede Neural Gerado, contem informações capturadas pelo seu treinamento, bem como informações sobre suas características, tais como arquitetura e precisão. Lembremos que os modelos são resultado da execução com sucesso de um Nó de modelagem (paleta Modeling), como o de Rede Neural. Os modelos são gerados na aba Models dos gerenciadores. Eles podem ser acrescentados (e na maioria das vezes o são) na janela do Fluxo e são utilizados para gerar predições. Quando você executa um Fluxo (Stream) contendo um modelo de Rede Neural gerado, um novo campo é adicionado para cada campo de saída dos dados originais de treinamento. O novo campo contém a predição da Rede para o campo de saída. O nome do novo campo de predição é o nome do campo de saída adicionado de $N- no início. As informações para o Nó de modelo de Rede Neural gerado estão distribuídas basicamente em duas abas e são detalhadas a seguir.

121 117 Figura A1-8: Opções de configuração do Nó de Rede Neural gerado. Sumary (Sumário) mostra informações sobre a precisão, a arquitetura ou topologia ou a importância dos campos, se você tiver determinado a análise sensitiva. Settings (Configurações) especifica como SQL é gerado para aproveitar mineração de dados em bancos de dados. Só é aplicado quando se usa dados de um banco de dados. Redes de Kohonen no Clementine As redes de Kohonen têm um Nó em separado para sua configuração e treinamento que também se encontra na paleta Modeling (Modelagem) na parte de baixo da janela da aplicação.

122 118 Figura A1-9: Opções do Nó de Rede de Kohonen Opções do Nó Rede Kohonem Existem cinco abas para configuração dos parâmetros da rede. Na aba Fields (Campos) temos: Use type node settings (Usar configurações de Nós de tipo) Esta opção é padrão e, como no Nó de Rede Neural, permite que o Nó de Rede Neural utilize dados provenientes de Nós de tipos de dados; Use custom settings (Usar configurações personalisadas) Esta opção permite que sejam especificadas as informações dos campos a serem utilizados e ao ser escolhida ela habilita as seguintes: o Inputs (Entradas) Utilizado para selecionar campos de entrada da rede. o Partition (Partição) Utilizado para especificar um campo usado para particionar os dados em conjuntos de treinamento, teste e validação. Na aba Model (Modelo) temos:

123 119 Model name (Nome do modelo) Especifica o nome do modelo que será gerado quando o Nó for executado. Pode ser automático (Auto) ou personalizado (Custom). Use partitioned data (Usar dados particionados) Divide os dados em subconjuntos para treinamento, teste e validação baseado no campo de particionamento. Se nenhum campo de particionamento for especificado esta opção será ignorada. Continue training existing model (continuar treino com o modelo existente) Por padrão, cada vez que o usuário executa um Nó de Rede de Kohonem, uma nova rede é criada. Se esta opção for selecionada o treinamento continua com a última rede produzida com sucesso pelo Nó. Show feedback graph (Mostra retorno gráfico) Opção usada para ver uma representação gráfica durante o treinamento. A força dos neurônios é representada por cores. O Vermelho representa uma unidade vencedora em muitos registros e o branco representa uma unidade que vence em poucos ou nenhum registro. Stop on (Parar em) Você pode selecionar um dos critérios de para abaixo: o Default (Padrão): Com esta opção a rede o treinamento para quando ela tiver alcançado seu estado de treinamento ótimo baseado em parâmetros internos; o Time (mins) (Tempo): Com esta opção o treinamento termina após um tempo especificado (em minutos). Set random seed (semente aleatória) Se nenhuma semente aleatória for fixada, a seqüência de valores aleatórios usada para inicializar os pesos de rede será diferente toda vez que o Nó for executado. Isto pode fazer com que o Nó crie modelos diferentes para cada execução, mesmo que as configurações Nó e os valores dos dados sejam exatamente os mesmos.

124 120 Selecionando esta opção, você pode fixar uma semente aleatória com um valor específico de forma que o modelo resultante é possa se reproduzido com exatidão. Optimize (Otimizar) Aqui as opções selecionadas podem melhorar ou não o desempenho durante a construção do modelo, baseado em necessidades específicas: o Speed (Velocidade): faz com que o algoritmo nunca use o disco para melhorar desempenho. o Memory (Memória): faz com que o algoritmo use o disco quando necessário sacrificando a velocidade. Esta é a opção padrão. Na aba Model (Modelo) temos: Width and Length (Largura e Comprimento) Especifica o tamanho da rede ou do mapa bidimencional com o número de unidades de saída ao longo de cada dimensão. Learning rate decay (Declínio da taxa de aprendizagem) Seleciona a forma de diminuição da taxa de aprendizagem, entre linear ou exponencial. Lembrando que essa taxa diminui com o passar do tempo de treinamento para que e Rede possa codificar muitas características dos dados e focar nos detalhes de melhor nível. Phase 1 and Phase 2 (Fase 1 e Fase 2) O treinamento da Rede de Kohonen é dividido em duas fases. A primeira fase é uma fase de estimativa rude usada para capturar padrões grosseiros dos dados. A segunda fase é uma fase de refinamento usada para ajustes do mapa e modelando as características melhores dos dados. Para cada fase há três parâmetros: o Neighborhood (Vizinhança) Especifica o tamanho inicial da vizinhança, ou seja, o número de unidades próximas que terão seus pesos atualizados juntamente com o neurônio vencedor;

125 121 o Inicial Eta (Taxa de aprendizagem inicial) Especifica a taxa de aprendizagem inicial. Durante a fase 1 a taxa de aprendizagem decresce para a taxa da fase 2 e, nesta, decresce para zero, portanto, na primeira fase ela deve ser maior do que na segunda fase. o Cycles (Ciclos) Especifica o número de ciclos para cada fase, ou seja, o número de passagens de dados por fase. Modelos de Redes de Kohonen Gerados Figura A1-10: Tela do modelo gerado para e rede de Kohonen. Assim como no Nó de modelo Rede Neural gerado após a sua execução, o Nó modelo de Rede de Kohonen contém todas as informações capturadas pelo treinamento da Rede, bem como informações sobre a sua arquitetura. Quando o usuário executa um fluxo com um modelo gerado de Kohonen o Nó adiciona dois novos campos contendo as coordenadas X e Y da unidade de Kohonen no mapa de saída que respondeu mais fortemente ao registro passado, ou seja, do

126 122 neurônio vencedor. Os nomes dos campos são gerados com os prefixos $KX e $KY mais o nome do modelo. As informações para o Nó de modelo de Kohonen estão dispostas nas seguintes abas: Model (Modelo) Mostra informações sobre os agrupamentos, também chamados de clusters, definidos pelo modelo. Viewer (Visualizador) utilizado para dar uma melhor visão do modelo gerado. Trata-se de uma representação gráfica dos agrupamentos, campos e os níveis de importância. Sumary (Sumário) mostra informações sobre a precisão, arquitetura ou topologia. Seleção de Atributos no Clementine A seleção de atributos no Clementine consiste em três passos: Retirando atributos Este passo remove atributos que não provêem informação útil para predição. As variáveis seguintes são retirados: Atributos que têm valores todo ausentes; Atributos que têm todos os valores constantes; Atributos que representam identificadores (ID). Os casos seguintes são afastados: Casos que têm valores ausentes; Casos que têm valores ausentes em todos seus preditores. Os atributos com as condições seguintes podem ser retirados baseados em configurações de usuário: Atributos que têm mais que um percentual (%) de valores ausentes;

127 123 Atributos categóricos que têm uma única categoria para mais que um percentual (%) de casos; Atributos categóricos que têm categorias diferentes para um percentual (%) dos casos. Atributos contínuos que têm um coeficiente de variação maior que um determinado valor. Atributos contínuos que têm desvio padrão maior que um determinado valor; Figura A1-11: Tela de configuração dos critérios de remoção de atributos. Fazendo ranking dos atributos Este passo considera de um atributo de cada vez e vê se esse atributo influencia na predição do atributo alvo. Os atributos são enfileirados de acordo com um critério especificado pelo usuário. Os critérios disponíveis dependem do tipo do atributo alvo e do atributo preditor.

Exibir mais