DESCOBERTA DO CONHECIMENTO ESTRATÉGICO COM O USO DE FERRAMENTAS DE DATA MINING

Tamanho: px
Começar a partir da página:

Download "DESCOBERTA DO CONHECIMENTO ESTRATÉGICO COM O USO DE FERRAMENTAS DE DATA MINING"

Transcrição

1 FACULDADE CATÓLICA DE ADMINISTRAÇÃO E ECONOMIA CENTRO DE DESENVOLVIMENTO EMPRESARIAL ESPECIALIZAÇÃO EM GESTÃO DA TECNOLOGIA DA INFORMAÇÃO PROJETO DE CURSO DESCOBERTA DO CONHECIMENTO ESTRATÉGICO COM O USO DE FERRAMENTAS DE DATA MINING CURITIBA MARÇO 2002

2 AFRANIO LAMY SPOLADOR JUNIOR LUCILENE PAULA CABRAL DESCOBERTA DO CONHECIMENTO ESTRATÉGICO COM O USO DE FERRAMENTAS DE DATA MINING Trabalho de pós-graduação apresentado à disciplina Projeto de Curso, do Curso de Especialização em Gestão da Tecnologia da Informação da FAE Business School. Prof. Edson Emílio Scalabrin CURITIBA MARÇO 2002

3 SUMÁRIO LISTA DE TABELAS... IV LISTAS DE FIGURAS... IV LISTA DE SIGLAS... V 1 INTRODUÇÃO CONSIDERAÇÕES INICIAIS DESCRIÇÃO DO TEMA/PROBLEMA IMPORTÂNCIA E JUSTIFICATIVA DO PROBLEMA De Interesse da Organização De Interesse dos Autores deste Projeto OBJETIVOS Objetivo Geral Objetivos Específicos FUNDAMENTOS TEÓRICOS CONSIDERAÇÕES INICIAIS O PROCESSO DATA MINING A TECNOLOGIA DA ÁRVORE Retenção de Dados Destilação em Padrões Semelhança Lógica Regras Algoritmos genéticos Regra indutiva ou aprendizagem de máquina Árvores de decisão Construção do algoritmo de árvore de decisão Poda em árvores de decisão Tabulação Cruzada Agentes Redes de confiança Aproximações Equacionais Redes neurais...26 II

4 3 DESENVOLVIMENTO DO TRABALHO COLETA, TRATAMENTO E ANÁLISE DOS DADOS COLETADOS Coleta Tratamento dos Dados (Data Mining) Análise dos Dados PROPOSTA DE UM MODELO PARA RESOLUÇÃO DOS PROBLEMAS LEVANTADOS APLICAÇÃO DO MODELO PROPOSTO AVALIAÇÃO DOS RESULTADOS OBTIDOS CONCLUSÃO, CONSIDERAÇÕES e RECOMENDAÇÕES BIBLIOGRAFIA...42 III

5 LISTA DE TABELAS TABELA EXEMPLO DE REGRA CONDICIONAL...11 TABELA EXEMPLO PARA CONSTRUÇÃO DE UMA ÁRVORE DE DECISÃO...18 TABELA EXEMPLO DE TABULAÇÃO CRUZADA PRODUÇÃO DE PRODUTOS POR REGIÃO...22 TABELA ATRIBUTOS DEFINIDOS APÓS A SELEÇÃO E LIMPEZA DE DADOS...30 TABELA ATRIBUTOS SELECIONADOS PARA A FASE DE TRATAMENTO DOS DADOS...32 TABELA EXEMPLO DO CONJUNTO DE DADOS ORIGINAL...33 TABELA EXEMPLO DO SUBCONJUNTO DE DADOS DE TREINAMENTO...33 TABELA EXEMPLO DO SUBCONJUNTO DE DADOS DE TESTE...33 TABELA ARQUIVOS UTILIZADOS PELO C TABELA CASOS REAIS PARA APLICAÇÃO DO MODELO PROPOSTO...38 LISTAS DE FIGURAS FIGURA REPRESENTAÇÃO GRÁFICA DA TECNOLOGIA DA ÁRVORE...7 FIGURA REPRESENTAÇÃO GRÁFICA DO MÉTODO NEAREST NEIGHBOR 8 FIGURA MUTAÇÃO DE PADRÕES DOS AGS...12 FIGURA EXEMPLO DE GENERALIZAÇÃO...15 FIGURA EXEMPLO DE GENERALIZAÇÃO COM EXEMPLOS INCORRETOS...15 FIGURA EXEMPLO DE ESPECIALIZAÇÃO...15 FIGURA SUBDIVISÃO DO CONJUNTO DA AD...19 FIGURA EXEMPLO DE ÁRVORE DE DECISÃO...19 FIGURA DEMOSTRAÇÃO GRÁFICA DE AGENTES...23 FIGURA REPRESENTAÇÃO GRÁFICA DE UMA REDE DE CONFIANÇA...24 FIGURA REPRESENTAÇÃO GRÁFICA DE UMA APROXIMAÇÃO EQUACIONAL...25 IV

6 FIGURA ESTRUTURA DE UMA REDE NEURAL...26 FIGURA DESCRIÇÃO DO PROCESSO KDD...28 FIGURA ÁRVORE DE DECISÃO QUE CARACTERISA AS RESCISÕES DO CIEE/PR...35 FIGURA MODELO DO CLASSIFICADOR PROPOSTO...36 FIGURA ENTRADA DE DADOS PARA O CENÁRIO A...38 FIGURA RESULTADO DA CONSULTA PARA O CENÁRIO A...39 FIGURA ENTRADA DE DADOS PARA O CENÁRIO B...39 FIGURA RESULTADO DA CONSULTA PARA O CENÁRIO B...39 LISTA DE SIGLAS AD - ÁRVORE DE DECISÃO AM - APRENDIZAGEM DE MÁQUINA CIEE/PR - CENTRO DE INTEGRAÇÃO EMPRESA - ESCOLA, NO PARANÁ DM - DATA MINING OLAP - ON-LINE ANALYTICAL PROCESSING SINAPE - SISTEMA INTELIGENTE DE APOIO AO ESTÁGIO UCE - UNIDADE CONCEDENTE DE ESTÁGIO V

7 1 1 INTRODUÇÃO 1.1 CONSIDERAÇÕES INICIAIS Na última década, as organizações tiveram um explosivo crescimento em suas capacidades de gerar e coletar dados. Avanços científicos que auxiliam a coleta de dados como a introdução de código de barras, a alta disponibilidade de tecnologia e o aumento na capacidade de armazenamento influenciaram para que grandes bases de dados fossem criadas (FAYYAD, 1996, p. 2). Esse aumento da quantidade de dados nas organizações faz com que um grande número de informações, muitas vezes valiosas, tornem-se ocultas ou não perceptíveis por intermédio de métodos convencionais de consultas, provocando a perda do conhecimento organizacional. Este capítulo visa contextualizar o problema, a justificativa e os objetivos deste trabalho que busca a Descoberta do Conhecimento Estratégico com o uso de ferramentas de Data Mining. 1.2 DESCRIÇÃO DO TEMA/PROBLEMA Este trabalho destina-se ao Centro de Integração Empresa-Escola, no Paraná - CIEE/PR, empresa privada de utilidade pública sem fins lucrativos. Sua atividade principal visa a colocação de estudantes de ensino médio e superior no mercado de trabalho por intermédio do estágio. Segundo Basílio 1 : (...) vencer a grande quantidade de rescisões ocorridas antes do término do estágio é um dos maiores desafios que a instituição enfrenta. Precisamos de uma ferramenta que nos ajude e encontrar o motivo da rotatividade (...). Com o intuito de auxiliar o CIEE/PR em suas dificuldades é que o problema a ser tratado no contexto deste trabalho é: Como caracterizar as causas das rescisões antecipadas de estagiários em empresas conveniadas ao CIEE/PR por intermédio de ferramentas de Data Mining? 1 Prof. Basílio é o coordenador do processo de estágio do CIEE/PR, em Curitiba.

8 2 1.3 IMPORTÂNCIA E JUSTIFICATIVA DO PROBLEMA De Interesse da Organização O CIEE/PR, apesar de ser uma instituição sem fins lucrativos, necessita de recursos para poder sustentar sua estrutura física e de pessoal. Sua receita provém de contribuições feitas pelas Unidades Concedentes de Estágio - UCEs 2 e correspondem a um percentual 3 do valor da bolsa auxílio que os estudantes recebem. Para que a instituição tenha condições de continuar suas atividades é extremamente necessário atingir o equilíbrio financeiro. Para isso, é preciso manter sempre o maior número possível de estudantes em estágio. Como descrito na seção 1.1, o grande número de rescisões antecipadas é um dos maiores problemas atuais do CIEE/PR. Esse fato gera esforço extra de trabalho e, conseqüentemente, despesas adicionais com pessoal e outros recursos, uma vez que há a necessidade de recolocar um estagiário o mais rápido possível para cada contrato rescindido, correndo o risco de haver o desinteresse da UCE pelos serviços prestados pela instituição. De acordo com Basílio, muitos estudos já foram feitos na tentativa de resolver o problema, entretanto, até o presente momento, a única solução é trabalhar na tentativa de repor a vaga, o que apenas ameniza o problema. A informação que o departamento de informática da instituição possui é de que o número mensal de rescisões antecipadas corresponde a 10% do total de estudantes em estágio 4. Fernando Santos Dubiella, funcionário do CIEE/PR, salienta que empresas e estudantes ficam descontes com a rescisão automática. Segundo ele: Acredito que se conseguíssemos adequar melhor o perfil da empresa com a o estudante o número de rescisões seria bem menor e teríamos tanto a empresa quanto os estudantes satisfeitos. 2 Empresas conveniadas ao CIEE/PR que ofertam vagas para estagiários. 3 O valor da Contribuição é de 10% sobre o valor da Bolsa Auxílio ou um mínimo de R$ 25,00. 4 No mês de janeiro de 2002 havia, aproximadamente, estudantes realizando estágio pelo CIEE/PR no Estado do Paraná, sendo que 52% deste total só em Curitiba. Fonte: Departamento de Informática do CIEE/PR.

9 3 Portanto, saber como caracterizar as causas das rescisões antecipadas de estagiários em empresas conveniadas ao CIEE/PR é fundamental para a redução de custos e para a satisfação de UCEs e estudantes De Interesse dos Autores deste Projeto A descoberta do conhecimento não é uma área nova na computação. Surgiu da Inteligência Artificial e preocupa-se não somente em descobrir conhecimento, mas sim, em descobrir formas de armazená-lo (MANNILA, 1994, p.85) A importância do conhecimento nas organizações tem se manifestado nos mais diversos meios de comunicação, tais como livros, revistas, palestras e seminários que tratam de gestão. Os temas são os mais variados possíveis: inteligência competitiva, engenharia do conhecimento, capital intelectual, gestão do conhecimento. Muitos desses títulos convergem para a importância de criar, utilizar, medir e reter o conhecimento humano. Em um artigo na revista Decidir da edição de janeiro de 1999, Pedro Serafim Filho escreve: Administrar o conhecimento na organização é um processo complexo que não admite receitas prontas (...). Alguns pontos delineiam a prática da Gestão do Conhecimento: a) Criação do conhecimento: transformar conhecimento tácito (referente à experiência, ao poder de inovação, habilidade) em conhecimento explícito (refere-se aos procedimentos, banco de dados); b) Utilização do conhecimento: cultura de pesquisa voltada para o aproveitamento do conhecimento; c) Retenção do conhecimento: assimilar ou preservar o conhecimento; d) Medição do conhecimento: a quantidade de conhecimento de uma organização é a diferença entre o seu valor de mercado e o seu valor patrimonial. Ao longo dos tempos, os pesquisadores da área de Sistemas de Informação, principalmente de banco de dados, passaram a pesquisar novas aplicações para as informações armazenadas nesses bancos de dados. Pensavam que, além das informações tradicionais retiradas das bases, poderiam descobrir informações implícitas, ou seja, não disponíveis de forma clara, que também fossem úteis para as organizações. A partir daí, começaram a surgir os primeiros sistemas de análise e de mineração de dados relacionais, dando início a pesquisas em áreas como Data Mining.

10 4 Este projeto pretende trabalhar especificamente com a utilização da descoberta do conhecimento estratégico por intermédio de ferramentas de Data Mining. Tal escolha justifica-se pelo fato de que a descoberta, preservação e boa utilização do conhecimento podem fazer a diferença da organização no mercado competitivo. O CIEE/PR foi escolhido por ser um excelente estudo de caso, pois possui uma grande base de dados, um problema complexo a ser resolvido e, as pessoas envolvidas neste processo de pesquisa conhecem os atributos da base dados (FAYYAD, 1996, p.26) o que se encaixa perfeitamente para o uso das técnicas do processo de KDD - Knowledge Discovery and Data Mining OBJETIVOS Objetivo Geral Caracterizar as causas das rescisões antecipadas de estagiários em empresas conveniadas ao CIEE/PR por intermédio de ferramentas de Data Mining Objetivos Específicos Os objetivos específicos almejados são: a) estudar métodos de aquisição do conhecimento para o desenvolvimento do estudo de caso; b) selecionar os atributos disponíveis que são relevantes para a aquisição do conhecimento estratégico desejado; c) implantar técnicas de aquisição do conhecimento para identificar padrões de comportamento dos dados; d) disponibilizar o conhecimento descoberto aos tomadores de decisão do CIEE/PR. 5 Descoberta do Conhecimento e Data Mining.

11 5 2 FUNDAMENTOS TEÓRICOS 2.1 CONSIDERAÇÕES INICIAIS Este capítulo será consagrado a descoberta do conhecimento estratégico utilizando técnicas de Data Mining. A descoberta do conhecimento pode ser definida como: Um processo não trivial de identificação válida, recente e potencialmente útil de padrões compreensíveis embutidos nos dados. (...) O Processo KDD é composto pelas fases de seleção de dados, pré-processamento, transformação, Data Mining [sem grifo no original], interpretação e avaliação dos resultados (FAYYAD, 1996). Logo, pode-se observar que Data Mining é um passo dentro do processo de KDD, o qual envolve a aplicação de uma ferramenta de busca para encontrar padrões nos dados analisados, sendo que alguns pesquisadores, considerando que o Data Mining é a parte central do processo de KDD, têm utilizado, de forma distinta, os termos KDD e Data Mining. (FAYYAD, 1996) 2.2 O PROCESSO DATA MINING A fase de Data Mining é um processo interativo de consultas, análise de tarefas, coleção de bases de dados, padrões de busca e apresentação das decisões. DM pode ser entendido como: Um dos processos centrais na extração de conhecimento de base de dados e visa extrair padrões interessantes embutidos em grandes bases de dados. Esses padrões podem ser descobertos por intermédio de regras que descrevem propriedades dos dados, padrões que ocorram com freqüência, classificação de objetos, etc. (MANNILA, 1997). As tecnologias utilizadas atualmente fazem uma coleta simples de dados, todavia as análises estão ficando cada vez mais difíceis. Pelo fato de trabalhar com uma grande quantidade de dados, o processo de Data Mining necessita de algoritmos eficazes, rápidos e eficientes. O grande diferencial do Data Mining está no fato de que as descobertas de padrões se dão por uma lógica de algoritmos que baseia-se em uma rede neural, ou seja, são ferramentas de descobertas matemáticas realizadas sobre os registros corporativos já processados contra descobertas empíricas (SIMOUDIS, 1995). Há três classes de Data Mining: descobrimento, modelagem de prognóstico e análise prévia.

12 6 Descobrimento é o processo de exame em um banco de dados para encontrar padrões escondidos sem uma idéia ou hipótese pré-determinada sobre o que são esses padrões. Em outras palavras, o programa toma a iniciativa de encontrar aquilo que interessa aos padrões, sem que o usuário verifique se isto realmente o interessa. Em uma grande base de dados, há muitos padrões que o usuário pode praticamente nunca imaginar as perguntas certas para as respostas existentes. O grande mérito desta solução está na riqueza dos padrões que podem ser expressos e descobertos sem contar a qualidade da informação, a força e a utilidade técnica da descoberta (MANNILA, 1997). Na modelagem de prognóstico, os padrões descobertos no banco de dados são utilizados para prognosticar o futuro. Isso permite ao usuário submeter valores desconhecidos de campos nos registros, e o sistema irá supor valores desconhecido baseado em padrões previamente descobertos no banco de dados. Enquanto o processo de descobrimento encontra padrões, o processo de prognóstico aplica estes padrões para supor valores nos novos itens de dados. E, por fim, a análise prévia é o processo de aplicação dos padrões extraídos para encontrar anomalias ou elementos de dados raros. Para descobrir os dados raros, primeiramente encontram-se os dados que seguem uma norma ou os habituais, então se detectam aqueles que se desviam dos habituais dentro de um centro limiar. 2.3 A TECNOLOGIA DA ÁRVORE O processo de Data Mining possui duas abordagens primárias: a Retenção e a Destilação de Dados. Cada uma dessas técnicas possui métodos específicos e que podem ser melhor compreendidos utilizando-se da Tecnologia da Árvore (ver Figura 2.1). Essa tecnologia demonstra diversos padrões utilizados pelo processo de Data Mining. Cada folha da árvore mostrada na Figura 2.1 representa um método distinto de implementar um sistema baseado em uma técnica.

13 7 FIGURA REPRESENTAÇÃO GRÁFICA DA TECNOLOGIA DA ÁRVORE FONTE: (MANNILA, 1997) Nos próximos itens desta seção, cada método será explicado separadamente, sendo que as regras de indução e árvores de decisão serão estudadas com maior profundidade. Recomenda-se a utilização da Figura 2.1 para melhor entendimento da segmentação das seções que detalham a Tecnologia da Árvore Retenção de Dados Enquanto na Destilação de Padrões (ver na seção 2.3.2) analisam-se dados, extraem-se padrões e deixam-se os dados para trás, na Retenção, os dados são mantidos para posterior combinação. Quando novos dados são apresentados, eles são combinados com o conjunto de dados anterior.

14 8 Um método bem conhecido de uma aproximação baseada na Retenção de Dados é o método nearest neighbor 6. Nesse método, o conjunto de dados é mantido, geralmente em memória, para a comparação com novos dados. Quando um novo registro está presente, por prognóstico, à distância entre ele e os registros semelhantes no conjunto de dados é encontrado, e os mais parecidos (vizinhos próximos) são identificados. O termo K-nearest neighbor é usado para indicar que o topo K de vizinhos foi selecionado. Na seqüência, uma comparação aproximada é feita para selecionar qual novo produto, por exemplo, é mais apropriado, baseado nos produtos usados pelo topo K de vizinhos (ver Figura 2.2). FIGURA 2.2 REPRESENTAÇÃO GRÁFICA DO MÉTODO NEAREST NEIGHBOR FONTE: (MANNILA, 1997) Um problema nesta tentativa de assemelhação acontece em bancos de dados com grande número de valores não-numéricos (MANNILA, 1997). Visto que à distância entre esses valores não-numéricos não são computados facilmente, algumas medidas de aproximação precisam ser utilizadas, podendo, muitas vezes, não obter o resultado previsto (FAYYAD, 1996). E, se no banco de dados são muitos os valores não numéricos, muitas circunstâncias deverão ser administradas, constituindo uma das maiores dificuldades da retenção de dados. 6 tradução: vizinho próximo

15 Destilação em Padrões As tecnologias utilizadas pela Destilação extraem padrões a partir de uma série de dados e os usam para vários fins. As duas primeiras dificuldades encontradas nos métodos de Destilação estão em descobrir quais os tipos de padrões que podem ser extraídos e como serão representados. Os padrões obtidos necessitam ser expressos dentro de um formalismo e uma linguagem. Há três formas distintas de abordagem: a) sistema lógico; b) sistema equacional e; c) tabulação cruzada. Cada uma dessas abordagens tem raízes históricas que conduzem a origens matemáticas distintas. Pode-se considerar, por exemplo, a distinção entre um sistema equacional e lógico. Num sistema equacional, operadores como soma e multiplicação podem ser utilizados simultaneamente para referir variáveis: Exemplo: (a *X) + b No sistema lógico os operadores chaves são condicionais. Exemplo: SE 6 < X <7 ENTÃO 1 < Y < 2 No sistema lógico pode-se distribuir igualmente dados numéricos e nãonuméricos, enquanto que o sistema equacional exige que todos os dados sejam numéricos. Já o sistema de classificação cruzada (ou tabulação cruzada) trabalha somente com dados não-numéricos. Importa ressaltar que o sistema equacional estima distâncias a partir de ocorrências, enquanto que o sistema de classificação cruzada se focaliza em coocorrências. No estudo do Data Mining é necessário fazer a distinção entre a análise direcionada e a forma livre de percorrer o banco de dados. Na análise direcionada, também chamada de aprendizado supervisionado é o equivalente a ter um professor que ensina o sistema.

16 10 Um exemplo de análise direcionada é a indicação de uma premissa como correta ou não. Neste caso, o dado terá uma coluna específica que será utilizada na tentativa de descobrir algo coerente ou, ao menos, fazer predições. No aprendizado sem supervisão, o sistema não possui nada para ensiná-lo, sendo que o mesmo deverá encontrar os clusters 7 que lhe interessam dentro do conjunto de dados. A procura não supervisionada pode ser utilizada na segmentação de dados e agrupamento. Um exemplo é encontrar classes de padrões em séries simultâneas Semelhança Lógica A Lógica forma a base da maioria das linguagens escritas e é essencialmente trabalhada pelo lado esquerdo do cérebro (FAYYAD, 1996). Padrões expressos em linguagens lógicas são distinguidos por duas principais características, sendo que os primeiros são legíveis e compreensíveis, enquanto que os outros são excelentes na representação sinuosa de agrupamentos de dados. O operador central numa linguagem lógica é normalmente uma variação do comando SE / ENTÃO. Um exemplo típico é: SE está chovendo, ENTÃO está nublado. Entretanto, deve-se notar que enquanto a forma lógica mais comum é a lógica condicional, muitas vezes utilizam-se outras formas lógicas, como uma associação lógica com a regra QUANDO / TAMBÉM. Exemplo: QUANDO lava-se o cabelo, TAMBÉM utiliza-se xampu. Ainda que essas lógicas sejam melhor conhecidas, outras formas de lógica também são utilizadas em análise dos dados objetos. Sistemas de lógica condicional podem ser separados em dois grupos distintos (MANILLA, 1997): Regras de Indução e Algorítmos Genéticos e Árvores de Decisão. 7 tradução: grupos

17 Regras Os relacionamentos lógicos são normalmente representados como regras. Simples regras podem expressar relações condicionais ou de associação. Uma regra condicional é um comando na forma: SE Condição ENTÃO Hipótese Exemplo: TABELA 2.1 EXEMPLO DE REGRA CONDICIONAL Nome Profissão Idade João Médico 31 Maria Atleta 25 Ricardo Atleta 29 Francisco Dentista 32 José Médico 29 Tiago Atleta 19 No exemplo, conclui-se que: SE Profissão = Atleta ENTÃO Idade < 30 Neste caso comparam-se os valores contidos nos campos de uma determinada tabela, isto é, tem-se uma representação de atributos e valores, sendo que Profissão é o atributo e Atleta é o valor. Regras também podem atuar bem em dados multi-dimensionais ou OLAP 8 porque podem trabalhar com faixas de dados numéricos e seus formatos lógicos, permitindo que seus padrões possam ser mesclados ao longo de múltiplas dimensões. A capacidade do ser humano pode ser limitada para definir regras dentro sistemas complexos, sejam eles a identificação de uma impressão digital ou a procura de padrões dentro de um banco de dados (FAYYAD, 1996). Em função dessa limitação é que o auxílio da tecnologia torna-se fundamental. A seguir, duas abordagens para a geração de regras serão estudadas: regra indutiva, também conhecida como Aprendizagem de Máquina AD e algoritmos genéticos.

18 Algoritmos genéticos Algoritmos genéticos - AG - também geram regras de conjuntos de dados, mas não seguem a indução (item ) como protocolo de regras de exploração orientada. Ao contrário, esses algoritmos utilizam-se da mutação para realizar as trocas nos padrões até que uma forma apropriada de modelo apareça via aprendizagem seletiva, como mostrado na Figura 2.3. FIGURA 2.3 MUTAÇÃO DE PADRÕES DOS AGs FONTE: (MANNILA, 1997) A operação genética cruzada é muito semelhante a pratica da ação de biólogos quando cruzam plantas e animais. Nesse exemplo, a troca de material genético por cromossomos é baseado no mesmo método (FAYYAD, 1996). No caso das regras, o material trocado é uma parte do modelo que a regra descreve. O que difere AG do Método Indutivo (a ser visto) é que em AG o foco principal é a combinação de modelos das regras que tinham sido descobertas, enquanto que na indução de regra o foco principal da atividade pelo o conjunto de dados (MANNILA, 1997) Regra indutiva ou aprendizagem de máquina Um sistema baseado no método Indutivo ou Aprendizagem de Máquina AM é formado por um conjunto de elementos básicos. Diante de todos esses elementos 8 OLAP On-line Analitcal Process: Processo Analítico de Suporte On-line

19 13 encontra-se a base de dados, a qual é formada por um conjunto de exemplos de treinamento, ou observações, E = {e 1,...e n }. Demais elementos são um ou mais algoritmos de AM, que, se aplicados sobre E, são capazes de gerar uma base de conhecimento BC formada por inúmeros conceitos (ENEMBRECK, 1999). Considerando um sistema que possui base de dados E = {e 1,...e n } de observações, onde cada e i, apresenta o seguinte formato: e i = < a 1,..., a m > O conjunto {a 1,...,a m-1 } é formado pelos atributos previsores e a m é o atributo meta ou objetivo. Sempre que houver a existência de um atributo meta a m, pode-se concluir que a estratégia mais adequada é a utilização do aprendizado supervisionado, ou seja, para cada observação presente em E, um supervisor defini a classe correspondente (atributo meta). Quando não se dispõe de um supervisor, ou professor, define-se a estratégia de aprendizado a ser empregada como aprendizado não supervisionado. Dando seqüência na descrição do formato dos exemplos que formam E, podese dizer que o = m 1 e A = {a 1,..., a o } é o conjunto de atributos previsores. Cada atributo a j está associado a um domínio d j que representa o conjunto de valores possíveis para o atributo a j. Portanto, pode-se dizer que há um conjunto D = {d 1,..., d m } que define todos os domínios de E. O conjunto d m representa as hipóteses mutuamente exclusivas que podem estar associadas a um exemplo de E. E, com base nas definições anteriores, pode-se definir o espaço de tuplas T de E como: m T E = i = di 1 onde E T E. Portanto, o algoritmo de AM pode, ao percorrer o espaço de tuplas T, utilizar determinadas operações sobre os conceitos gerados e escolher, segundo algum critério predefinido, quais são os melhores conceitos ou descrições. Entretanto, observa-se que nem sempre o espaço T precisa ser percorrido inteiramente para

20 14 que as descrições sejam descobertas, pois dificilmente E = T, assumindo a não existência de duplicidade em E. Exemplo: E i a 1 a 2 a 3 a 4 a D d 1 d 2 d 3 d 4 d 5 {1,2,3,4,5,6} {7,8,9} {3,5} {1,2,3} {1,2,4} E = 6 T = 6 x 3 x 2 x 3 x 3 = 324 A = { a 1, a 2, a 3, a 4, a 5 } E = { e 1,..., e 6 } T = { d 1 x d 2 x d 3 x d 4 x d 5 } Em geral, um algoritmo de aprendizado inicia com uma descrição inicial. A partir daí, novas descrições são geradas aplicando-se determinadas operações. Duas operações básicas podem ser realizadas (ENEMBRECK, 1999): generalização e/ou especialização. Uma operação de generalização sobre uma descrição D produz uma descrição D que cobre mais exemplos que D. As Figuras 2.4 e 2.5 demonstram o exemplo de duas operações de generalização em relação a um conjunto de dados. Observa-se que nem sempre a generalização cobre mais exemplos corretamente.

21 15 FIGURA 2.4 EXEMPLO DE GENERALIZAÇÃO D D Generalização FONTE: (ENEMBRECK, 1999) FIGURA EXEMPLO DE GENERALIZAÇÃO COM EXEMPLOS INCORRETOS D Generalização D FONTE: (ENEMBRECK, 1999) Pode-se observar que a Figura 2.4 e 2.5 há uma diferença nas operações de generalização. Enquanto que na Figura 2.4, a descrição gerada é melhor que a original, na Figura 2.5 é possível observar a presença de exemplos negativos, ou seja, exemplos que não pertencem à hipótese associada à descrição, classificados como positivos. A especialização, como mostrado na Figura 2.6, ao contrário da generalização, busca produzir uma descrição D a partir de D que cobre menos elementos que a original. FIGURA EXEMPLO DE ESPECIALIZAÇÃO D Especialização D FONTE: (ENEMBRECK, 1999) Segundo Enembreck (ENEMBRECK, 1999), a operação de generalização visa aumentar o intervalo de valores para possíveis testes, enquanto que especialização busca diminuir o intervalo de valores possíveis para esses testes.

22 Como já visto no item , é possível deduzir que a representação ideal para uma descrição é a representação: SE Condição ENTÃO Hipótese Para que a Condição seja formada são realizados testes sobre os valores dos atributos. Para isso, informações adicionais sobre os respectivos domínios são necessárias. Enembreck salienta que os domínios dos atributos podem ser caracterizados como pertencentes aos seguintes tipos: Nominal ou categórico: os valores possíveis são formados por símbolos ou rótulos independentes, ou seja, estão ordenados; Linear: os elementos do domínio estão totalmente ordenados. Os valores pode ser numéricos ({1,...,10}) ou simbólicos ({pequeno, médio, grande}). Atributos lineares podem, ainda, ser discretos (número limitado de valores) ou contínuos (número infinito de valores possíveis); Parcialmente Ordenado: existe uma ordem parcial entre os elementos, o que torna possível a criação de uma hierarquia onde há um valor que representa todo o domínio (pai de todos) e valores filhos que representam subhierarquias (ENEMBRECK, 1999). 16 Utiliza-se como critério de avaliação das operações básicas de generalização formas básicas de avaliação estatísticas citadas por ENEMBRECK (ENEMBRECK, 1999) e FAYADD (FAYYAD, 1996). Neste projeto será utilizada a notação citada por ENEMBRECK: R:C: é uma regra que associa exemplos à Classe C; E: é à base de dados; PPositivos: é o subconjunto de E de exemplos cobertos por R e que possuem a classe C; Positivos: é o subconjunto de E de exemplos cobertos por R. Em geral, as medidas mais comuns para a avaliação de uma regra R:C são as seguintes: a) confidência: mede a precisão de uma regra. Uma regra R:C possui confidência de 100% se todos os exemplos cobertos são Ppositivos. Podese calcular a confidência de R da seguinte forma: PPositivos Conf R : C = x100 Positivos b) suporte: mede a importância de uma regra em relação à base de dados. Geralmente, uma regra representa um subconjunto da base de dados. Uma

23 regra pode ser mais significante em relação a outras se ela representa grande parte da base de dados e pode ser medida da seguinte forma: Sup R : C = PPositivos E c) desvio: é o custo total de erros de classificação. Assumindo que o custo de classificar de forma equivocada o exemplo e como pertencente à classe C é 1, e o custo de classificar erradamente o exemplo e como pertencente à classe C 1 é β, o cálculo do desvio é dado pela seguinte equação: 17 desv B: C Positivo e xppositivo e xpositivo e xppositivo e ( E R: C ( ) (1 + β ) R: C ( ) R: C ( ) + β R: = E C ( e)) onde Positivo R:C (E) é 1 se e Positivos e 0 caso o contrário Árvores de decisão Árvores de Decisão AD expressam uma forma simples de lógica condicional. Um sistema de AD, simplesmente, divide uma tabela em tabelas menores pela seleção de subconjuntos baseados em valores de um atributo dado. Baseado no modo como a árvore é dividida, obtém-se um algoritmo diferente de AD, tais como C4.5 (QUINLAN, 1993), por exemplo. Em casos que o número de observações e a quantidade de atributos é elevada, a construção da AD pode ser fundamental, uma vez que o processo manual para descoberta de padrões em conjuntos grandes pode ser muito difícil ou inviável. Nos próximos itens que compreendem esta seção o processo para aquisição do conhecimento baseado em AD será descrito como citado por Enemberk (ENEMBERK, 1999) Construção do algoritmo de árvore de decisão Para construir um algoritmo de AD considera-se um conjunto E = {e 1,...,e n } de exemplos de treinamento e um conjunto C = {c 1,...,c m } de classes mutuamente exclusivas que podem ser associadas a um exemplo e i E, tem-se o algoritmo básico de AD:

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Cruzeiro SP 2008 FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Projeto de trabalho de formatura como requisito

Leia mais

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Pós-Graduação em Gerenciamento de Projetos práticas do PMI Pós-Graduação em Gerenciamento de Projetos práticas do PMI Planejamento do Gerenciamento das Comunicações (10) e das Partes Interessadas (13) PLANEJAMENTO 2 PLANEJAMENTO Sem 1 Sem 2 Sem 3 Sem 4 Sem 5 ABRIL

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas CMP1132 Processo e qualidade de software II Prof. Me. Elias Ferreira Sala: 402 E Quarta-Feira:

Leia mais

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr. A Chave para o Sucesso Empresarial José Renato Sátiro Santiago Jr. Capítulo 1 O Novo Cenário Corporativo O cenário organizacional, sem dúvida alguma, sofreu muitas alterações nos últimos anos. Estas mudanças

Leia mais

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 3.2 O Espaço Nulo de A: Resolvendo Ax = 0 11 O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 Esta seção trata do espaço de soluções para Ax = 0. A matriz A pode ser quadrada ou retangular. Uma solução imediata

Leia mais

5 Análise dos resultados

5 Análise dos resultados 5 Análise dos resultados Neste capitulo será feita a análise dos resultados coletados pelos questionários que foram apresentados no Capítulo 4. Isso ocorrerá através de análises global e específica. A

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

ENGENHARIA DE SOFTWARE I

ENGENHARIA DE SOFTWARE I ENGENHARIA DE SOFTWARE I Prof. Cássio Huggentobler de Costa [cassio.costa@ulbra.br] Twitter: www.twitter.com/cassiocosta_ Agenda da Aula (002) Metodologias de Desenvolvimento de Softwares Métodos Ágeis

Leia mais

Instalações Máquinas Equipamentos Pessoal de produção

Instalações Máquinas Equipamentos Pessoal de produção Fascículo 6 Arranjo físico e fluxo O arranjo físico (em inglês layout) de uma operação produtiva preocupa-se com o posicionamento dos recursos de transformação. Isto é, definir onde colocar: Instalações

Leia mais

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES 3.1 - IDENTIFICADORES Os objetos que usamos no nosso algoritmo são uma representação simbólica de um valor de dado. Assim, quando executamos a seguinte instrução:

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

Dadas a base e a altura de um triangulo, determinar sua área.

Dadas a base e a altura de um triangulo, determinar sua área. Disciplina Lógica de Programação Visual Ana Rita Dutra dos Santos Especialista em Novas Tecnologias aplicadas a Educação Mestranda em Informática aplicada a Educação ana.santos@qi.edu.br Conceitos Preliminares

Leia mais

Fundamentos em Informática (Sistemas de Numeração e Representação de Dados)

Fundamentos em Informática (Sistemas de Numeração e Representação de Dados) 1 UNIVERSIDADE DO CONTESTADO / UnC CAMPUS CONCÓRDIA/SC CURSO DE SISTEMAS DE INFORMAÇÃO Fundamentos em Informática (Sistemas de Numeração e Representação de Dados) (Apostila da disciplina elaborada pelo

Leia mais

2 Diagrama de Caso de Uso

2 Diagrama de Caso de Uso Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Diagrama de Caso de Uso (Use Case) Autoria:Aristófanes Corrêa

Leia mais

Revisão de Estatística Básica:

Revisão de Estatística Básica: Revisão de Estatística Básica: Estatística: Um número é denominado uma estatística (singular). Ex.: As vendas de uma empresa no mês constituem uma estatística. Estatísticas: Uma coleção de números ou fatos

Leia mais

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior MRP II Introdução A lógica de cálculo das necessidades é conhecida há muito tempo Porém só pode ser utilizada na prática em situações mais complexas a partir dos anos 60 A partir de meados da década de

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

6 Construção de Cenários

6 Construção de Cenários 6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL) PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL) Melhor método para avaliar investimentos 16 perguntas importantes 16 respostas que todos os executivos devem saber Francisco Cavalcante(f_c_a@uol.com.br)

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Introdução Objetivos da Gestão dos Custos Processos da Gerência de Custos Planejamento dos recursos Estimativa dos

Leia mais

TRABALHOS TÉCNICOS Coordenação de Documentação e Informação INOVAÇÃO E GERENCIAMENTO DE PROCESSOS: UMA ANÁLISE BASEADA NA GESTÃO DO CONHECIMENTO

TRABALHOS TÉCNICOS Coordenação de Documentação e Informação INOVAÇÃO E GERENCIAMENTO DE PROCESSOS: UMA ANÁLISE BASEADA NA GESTÃO DO CONHECIMENTO TRABALHOS TÉCNICOS Coordenação de Documentação e Informação INOVAÇÃO E GERENCIAMENTO DE PROCESSOS: UMA ANÁLISE BASEADA NA GESTÃO DO CONHECIMENTO INTRODUÇÃO Os processos empresariais são fluxos de valor

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014.

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014. UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014. Tanto as pessoas físicas quanto as jurídicas têm patrimônio, que nada mais é do que o conjunto

Leia mais

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com PMBoK Organização do Projeto Os projetos e o gerenciamento

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Algoritmos e Estrutura de Dados III. Árvores

Algoritmos e Estrutura de Dados III. Árvores Algoritmos e Estrutura de Dados III Árvores Uma das mais importantes classes de estruturas de dados em computação são as árvores. Aproveitando-se de sua organização hierárquica, muitas aplicações são realizadas

Leia mais

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

CAP. I ERROS EM CÁLCULO NUMÉRICO

CAP. I ERROS EM CÁLCULO NUMÉRICO CAP. I ERROS EM CÁLCULO NUMÉRICO 0. Introdução Por método numérico entende-se um método para calcular a solução de um problema realizando apenas uma sequência finita de operações aritméticas. A obtenção

Leia mais

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2. Pg. 1 Universidade Federal do Espírito Santo - UFES Mestrado em Informática 2004/1 Projetos O Projeto O projeto tem um peso maior na sua nota final pois exigirá de você a utilização de diversas informações

Leia mais

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA CURSO DE ESPECIALIZAÇÃO EM ANÁLISE DE AMBIENTE ELETROMAGNÉTICO CEAAE /2008 DISCIPLINA EE-09: Inteligência

Leia mais

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante Cálculo Numérico Aula : Computação numérica. Tipos de Erros. Aritmética de ponto flutuante Computação Numérica - O que é Cálculo Numérico? Cálculo numérico é uma metodologia para resolver problemas matemáticos

Leia mais

Organização e Arquitetura de Computadores I

Organização e Arquitetura de Computadores I Organização e Arquitetura de Computadores I Aritmética Computacional Slide 1 Sumário Unidade Lógica e Aritmética Representação de Números Inteiros Aritmética de Números Inteiros Representação de Números

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Manual SAGe Versão 1.2 (a partir da versão 12.08.01)

Manual SAGe Versão 1.2 (a partir da versão 12.08.01) Manual SAGe Versão 1.2 (a partir da versão 12.08.01) Submissão de Relatórios Científicos Sumário Introdução... 2 Elaboração do Relatório Científico... 3 Submissão do Relatório Científico... 14 Operação

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

Engenharia de Software III

Engenharia de Software III Engenharia de Software III Casos de uso http://dl.dropbox.com/u/3025380/es3/aula6.pdf (flavio.ceci@unisul.br) 09/09/2010 O que são casos de uso? Um caso de uso procura documentar as ações necessárias,

Leia mais

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem: 1 As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia e não têm a intenção de substituir o livro-texto, nem qualquer outra bibliografia. Introdução O Cálculo Numérico

Leia mais

Modelo Cascata ou Clássico

Modelo Cascata ou Clássico Modelo Cascata ou Clássico INTRODUÇÃO O modelo clássico ou cascata, que também é conhecido por abordagem top-down, foi proposto por Royce em 1970. Até meados da década de 1980 foi o único modelo com aceitação

Leia mais

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 7 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Aprender sobre a modelagem lógica dos dados. Conhecer os

Leia mais

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA RESUMO Ricardo Della Libera Marzochi A introdução ao Service Component Architecture (SCA) diz respeito ao estudo dos principais fundamentos

Leia mais

Construção da Consulta. Para a construção da consulta, siga os passos abaixo:

Construção da Consulta. Para a construção da consulta, siga os passos abaixo: Com a finalidade de esclarecer e auxiliar o usuário sobre a utilização do produto PaepOnline, a Fundação Seade elaborou um manual explicativo sobre a forma de construção das tabelas e sua navegabilidade.

Leia mais

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás

Leia mais

UNG CIC Tópicos Especiais de TI. Aula 13

UNG CIC Tópicos Especiais de TI. Aula 13 Aula 13 1. Data Warehouse Armazém de Dados (Continuação) 1 Erros na implantação de um Data Warehouse Segundo o Data Warehousing Institute existem dez erros mais comuns na implantação de um Data Warehouse

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

PLANEJAMENTO DA MANUFATURA

PLANEJAMENTO DA MANUFATURA 58 FUNDIÇÃO e SERVIÇOS NOV. 2012 PLANEJAMENTO DA MANUFATURA Otimizando o planejamento de fundidos em uma linha de montagem de motores (II) O texto dá continuidade à análise do uso da simulação na otimização

Leia mais

PARANÁ GOVERNO DO ESTADO

PARANÁ GOVERNO DO ESTADO A COMUNICAÇÃO NA INTERNET PROTOCOLO TCP/IP Para tentar facilitar o entendimento de como se dá a comunicação na Internet, vamos começar contando uma história para fazer uma analogia. Era uma vez, um estrangeiro

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

O Plano Financeiro no Plano de Negócios Fabiano Marques

O Plano Financeiro no Plano de Negócios Fabiano Marques O Plano Financeiro no Plano de Negócios Fabiano Marques Seguindo a estrutura proposta em Dornelas (2005), apresentada a seguir, podemos montar um plano de negócios de forma eficaz. É importante frisar

Leia mais

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2 SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2 1.1 Introdução... 2 1.2 Estrutura do IP... 3 1.3 Tipos de IP... 3 1.4 Classes de IP... 4 1.5 Máscara de Sub-Rede... 6 1.6 Atribuindo um IP ao computador... 7 2

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

3 Metodologia 3.1. Tipo de pesquisa

3 Metodologia 3.1. Tipo de pesquisa 3 Metodologia 3.1. Tipo de pesquisa Escolher o tipo de pesquisa a ser utilizado é um passo fundamental para se chegar a conclusões claras e responder os objetivos do trabalho. Como existem vários tipos

Leia mais

ISO/IEC 12207: Gerência de Configuração

ISO/IEC 12207: Gerência de Configuração ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que

Leia mais

Conteúdo. Disciplina: INF 02810 Engenharia de Software. Monalessa Perini Barcellos

Conteúdo. Disciplina: INF 02810 Engenharia de Software. Monalessa Perini Barcellos Universidade Federal do Espírito Santo Centro Tecnológico Departamento de Informática Disciplina: INF 02810 Prof.: (monalessa@inf.ufes.br) Conteúdo 1. Introdução 2. Processo de Software 3. Gerência de

Leia mais

Arquitetura de Rede de Computadores

Arquitetura de Rede de Computadores TCP/IP Roteamento Arquitetura de Rede de Prof. Pedro Neto Aracaju Sergipe - 2011 Ementa da Disciplina 4. Roteamento i. Máscara de Rede ii. Sub-Redes iii. Números Binários e Máscara de Sub-Rede iv. O Roteador

Leia mais

2. Representação Numérica

2. Representação Numérica 2. Representação Numérica 2.1 Introdução A fim se realizarmos de maneira prática qualquer operação com números, nós precisamos representa-los em uma determinada base numérica. O que isso significa? Vamos

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

ATIVIDADES DE LINHA E DE ASSESSORIA

ATIVIDADES DE LINHA E DE ASSESSORIA 1 ATIVIDADES DE LINHA E DE ASSESSORIA SUMÁRIO Introdução... 01 1. Diferenciação das Atividades de Linha e Assessoria... 02 2. Autoridade de Linha... 03 3. Autoridade de Assessoria... 04 4. A Atuação da

Leia mais

Capítulo 7 Medidas de dispersão

Capítulo 7 Medidas de dispersão Capítulo 7 Medidas de dispersão Introdução Para a compreensão deste capítulo, é necessário que você tenha entendido os conceitos apresentados nos capítulos 4 (ponto médio, classes e frequência) e 6 (média).

Leia mais

ENGENHARIA DA COMPUTAÇÃO BANCO DE DADOS I CONTEÚDO 5 ABORDAGEM RELACIONAL

ENGENHARIA DA COMPUTAÇÃO BANCO DE DADOS I CONTEÚDO 5 ABORDAGEM RELACIONAL ENGENHARIA DA COMPUTAÇÃO BANCO DE DADOS I CONTEÚDO 5 ABORDAGEM RELACIONAL PROF. MS C. RICARDO ANTONELLO WWW.ANTONELLO.COM.B R PORQUE SER RELACIONAL? Hoje, há um claro predomínio dos SGBD relacionais, principalmente

Leia mais

Extração de Requisitos

Extração de Requisitos Extração de Requisitos Extração de requisitos é o processo de transformação das idéias que estão na mente dos usuários (a entrada) em um documento formal (saída). Pode se entender também como o processo

Leia mais

INDICADORES FINANCEIROS NA TOMADA DE DECISÕES GERENCIAIS

INDICADORES FINANCEIROS NA TOMADA DE DECISÕES GERENCIAIS INDICADORES FINANCEIROS NA TOMADA DE DECISÕES GERENCIAIS ANA BEATRIZ DALRI BRIOSO¹, DAYANE GRAZIELE FANELLI¹, GRAZIELA BALDASSO¹, LAURIANE CARDOSO DA SILVA¹, JULIANO VARANDAS GROPPO². 1 Alunos do 8º semestre

Leia mais

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para

Leia mais

Gerenciamento de projetos. cynaracarvalho@yahoo.com.br

Gerenciamento de projetos. cynaracarvalho@yahoo.com.br Gerenciamento de projetos cynaracarvalho@yahoo.com.br Projeto 3URMHWR é um empreendimento não repetitivo, caracterizado por uma seqüência clara e lógica de eventos, com início, meio e fim, que se destina

Leia mais

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste Unidade VI Validação e Verificação de Software Teste de Software Profa. Dra. Sandra Fabbri Conteúdo Técnicas de Teste Funcional Estrutural Baseada em Erros Estratégias de Teste Teste de Unidade Teste de

Leia mais

TEORIAS DE CONTÉUDO DA MOTIVAÇÃO:

TEORIAS DE CONTÉUDO DA MOTIVAÇÃO: Fichamento / /2011 MOTIVAÇÃO Carga horária 2 HORAS CONCEITO: É o desejo de exercer um alto nível de esforço direcionado a objetivos organizacionais, condicionados pela habilidade do esforço em satisfazer

Leia mais

Exercícios Teóricos Resolvidos

Exercícios Teóricos Resolvidos Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar

Leia mais

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009 Gestão da Qualidade Políticas Manutenção (corretiva, preventiva, preditiva). Elementos chaves da Qualidade Total satisfação do cliente Priorizar a qualidade Melhoria contínua Participação e comprometimento

Leia mais

SISTEMAS DE GESTÃO São Paulo, Janeiro de 2005

SISTEMAS DE GESTÃO São Paulo, Janeiro de 2005 SISTEMAS DE GESTÃO São Paulo, Janeiro de 2005 ÍNDICE Introdução...3 A Necessidade do Gerenciamento e Controle das Informações...3 Benefícios de um Sistema de Gestão da Albi Informática...4 A Ferramenta...5

Leia mais

Objetivos. Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas e

Objetivos. Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas e MÓDULO 2 - AULA 13 Aula 13 Superfícies regradas e de revolução Objetivos Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas

Leia mais

c. Técnica de Estrutura de Controle Teste do Caminho Básico

c. Técnica de Estrutura de Controle Teste do Caminho Básico 1) Defina: a. Fluxo de controle A análise de fluxo de controle é a técnica estática em que o fluxo de controle através de um programa é analisado, quer com um gráfico, quer com uma ferramenta de fluxo

Leia mais

Quadro de consulta (solicitação do mestre)

Quadro de consulta (solicitação do mestre) Introdução ao protocolo MODBUS padrão RTU O Protocolo MODBUS foi criado no final dos anos 70 para comunicação entre controladores da MODICON. Por ser um dos primeiros protocolos com especificação aberta

Leia mais

Prof. Cleber Oliveira Gestão Financeira

Prof. Cleber Oliveira Gestão Financeira Aula 3 Gestão de capital de giro Introdução Entre as aplicações de fundos por uma empresa, uma parcela ponderável destina-se ao que, alternativamente, podemos chamar de ativos correntes, ativos circulantes,

Leia mais

Do neurônio biológico ao neurônio das redes neurais artificiais

Do neurônio biológico ao neurônio das redes neurais artificiais Do neurônio biológico ao neurônio das redes neurais artificiais O objetivo desta aula é procurar justificar o modelo de neurônio usado pelas redes neurais artificiais em termos das propriedades essenciais

Leia mais

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit

Leia mais

Projeto Você pede, eu registro.

Projeto Você pede, eu registro. Projeto Você pede, eu registro. 1) IDENTIFICAÇÃO 1.1) Título do Projeto: Você pede eu registro. 1.2) Equipe responsável pela coordenação do projeto: Pedro Paulo Braga Bolzani Subsecretario de TI Antonio

Leia mais

Guia de utilização da notação BPMN

Guia de utilização da notação BPMN 1 Guia de utilização da notação BPMN Agosto 2011 2 Sumário de Informações do Documento Documento: Guia_de_utilização_da_notação_BPMN.odt Número de páginas: 31 Versão Data Mudanças Autor 1.0 15/09/11 Criação

Leia mais

TI Aplicada. Aula 02 Áreas e Profissionais de TI. Prof. MSc. Edilberto Silva prof.edilberto.silva@gmail.com http://www.edilms.eti.

TI Aplicada. Aula 02 Áreas e Profissionais de TI. Prof. MSc. Edilberto Silva prof.edilberto.silva@gmail.com http://www.edilms.eti. TI Aplicada Aula 02 Áreas e Profissionais de TI Prof. MSc. Edilberto Silva prof.edilberto.silva@gmail.com http:// Papéis... Um papel é uma definição abstrata de um conjunto de atividades executadas e dos

Leia mais

Filosofia e Conceitos

Filosofia e Conceitos Filosofia e Conceitos Objetivo confiabilidade para o usuário das avaliações. 1. Princípios e definições de aceitação genérica. 2. Comentários explicativos sem incluir orientações em técnicas de avaliação.

Leia mais

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000 ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário Gestão da Qualidade 2005 1 As Normas da família ISO 9000 ISO 9000 descreve os fundamentos de sistemas de gestão da qualidade e especifica

Leia mais

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO BACHARELADO AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS Orientando: Oliver Mário

Leia mais

CURSO ON-LINE PROFESSOR GUILHERME NEVES

CURSO ON-LINE PROFESSOR GUILHERME NEVES Olá pessoal! Neste ponto resolverei a prova de Matemática Financeira e Estatística para APOFP/SEFAZ-SP/FCC/2010 realizada no último final de semana. A prova foi enviada por um aluno e o tipo é 005. Os

Leia mais