DETERMINAÇÃO DE FATORES CRÍTICOS PARA O IDH-M A PARTIR DE TÉCNICAS DE MINERAÇÃO DE DADOS

Tamanho: px
Começar a partir da página:

Download "DETERMINAÇÃO DE FATORES CRÍTICOS PARA O IDH-M A PARTIR DE TÉCNICAS DE MINERAÇÃO DE DADOS"

Transcrição

1 DETERMINAÇÃO DE FATORES CRÍTICOS PARA O IDH-M A PARTIR DE TÉCNICAS DE MINERAÇÃO DE DADOS Ludmila Maria Leite de Carvalho Coradine Faculdades Ibmec RJ Av. Presidente Wilson, 118 Centro Rio de Janeiro RJ Gerson Lachtermacher FCE/UERJ e EBAPE/FGV R. São Francisco Xavier, 524, 8 andar, Bloco B e Praia de Botafogo, 190 / Paulo Sérgio de Souza Coelho Faculdades Ibmec RJ Av. Presidente Wilson, 118 Centro Rio de Janeiro RJ RESUMO O IDH (Índice de Desenvolvimento Humano) e o IDH-M (âmbito municipal) são as alternativas atuais ao PIB. Este último é determinado a partir de indicadores sócio-econômicos. O presente estudo aplicou técnicas de Data Mining para determinar Regras de Classificação, obtidas através de Árvores de Decisão induzidas a partir de uma base formada com dados do Censo 2000 (IBGE) e do IDH-M (PNUD), que expliquem possíveis relações existentes entre alguns indicadores que não estão diretamente envolvidos na formulação do IDH-M. Para tanto, foi utilizado uma ferramenta computacional acadêmica, de código aberto, que possui uma implementação do paradigma para a metodologia de indução de árvores de decisão. Os resultados apontam para uma formulação alternativa do IDH-M, com alguns indicadores além dos originalmente utilizados, que servem para um melhor entendimento das classificações municipais em níveis de desenvolvimento humano. PALAVRAS CHAVE. IDH-M. Data Mining. Indução de Árvores de Decisão. MD Mineração de Dados ABSTRACT The HDI (Human Development Index) and its city-level version are PIB alternatives nowadays. This last is obtained from social and economics indicators. This study applied Data Mining techniques to determine Classification Rules, obtained from Decision Trees inducted from a database constructed using 2000 Census (IBGE) and HDI city-level (PNUD), that explain relations between indicators that are not directly related with HDI city-level formulation. To do this was used an academic computer tool, with opened code, which has a implantation of decision tree induction methodology paradigm. The results point to an alternative formulation of HDI citylevel formulation, with some new indicators, which can be used to better understand municipality s classifications for human development levels. KEYWORDS. City-level HDI. Data Mining. Decision Tree Induction. MD - Data Mining. [821]

2 1. Introdução Este trabalho utiliza o KDD Knowledge Discovery in Databases (Processo de Descoberta de Conhecimento, Han e Kamber, 2001) como ferramenta para descobrir fatores críticos que expliquem o IDH-M (Índice de Desenvolvimento Humano Municipal) e que não são considerados no seu calculo. Foram considerados atributos da base de dados do Censo 2000 sobre todos os municípios brasileiros (5.507 municípios). Como parte do KDD, a atividade de Mineração de Dados (Data Mining) será realizada utilizando a técnica de Árvore de Decisão implementada dentro do software WEKA, uma suíte de KDD desenvolvida dentro da University of Waikato (WEKA, 2004). A partir dos indicadores do IDH-M, o Brasil é considerado um país de desenvolvimento humano de nível médio, pois a maior parte dos municípios brasileiros se encontra nesta categoria. O presente trabalho, ao sinalizar possíveis relacionamentos entre os novos atributos considerados, pode indicar quais deles, e em que intensidade, gerando assim conhecimento na área de gestão municipal. Assim, as regras mais abrangentes encontradas no estudo podem ser fontes de investimento para o desenvolvimento humano e conseqüente melhoria nos níveis do IDH-M. O presente artigo possui mais quatro seções além desta A seção 2 é reservada à revisão bibliográfica, trazendo os conceitos relativos ao IDH-M e ao KDD e Data Mining. A seção 3 relata a metodologia do estudo, fazendo sua fundamentação teórica. A seção 4 apresenta e analisa os o conhecimento obtido. Na última seção estão descritas as conclusões gerais do trabalho e as pesquisas futuras que podem ser desenvolvidas. 2. Revisão Bibliográfica A revisão bibliográfica feita para este estudo tem duas linhas completamente diferentes. Na primeira subseção estão descritos os índices IDH e IDH-M e os indicadores que os compõem e na seguinte estão descritos os conceitos do ambiente de KDD e Data Mining IDH e IDH-M Segundo o PNUD Programa das Nações Unidas para o Desenvolvimento, o IDH surgiu como forma de medir o desenvolvimento humano. Esta medida substitui o PIB, que é um indicador estritamente econômico, por um indicador mais complexo que considera outros aspectos de desenvolvimento social (PNUD, 2005a). Os valores do IDH estão entre 0 e 1, sendo que o valor 1 indica o mais alto nível de desenvolvimento humano de um país ou região. Os trabalhos originais que deram origem ao índice foram descritos em Anand e Sen, A concepção inicial do IDH foi criar uma forma de medir o nível de desenvolvimento humano dos países, utilizando para esta finalidade três dimensões: Longevidade, Educação e Renda (PNUD, 2005b). O IDH do país i, cujos índices (dimensões) de longevidade, educação e renda são, respectivamente, IL i, IE i e IR i é a média aritmética simples destes três índices (PNUD, 2005b): ( IEi + ILi + IRi ) IDH i =, 3 sendo: IE i : combinação da taxa de alfabetização de adultos, com peso 2/3 e da taxa combinada de matrícula nos três níveis de ensino (fundamental, médio e superior), com peso 1/3; IL i : esperança de vida ao nascer; IR i : PIB per capita, expresso em dólares PPC (Paridade do Poder de Compra). Para classificar os países em três grandes categorias o PNUD estabeleceu algumas faixas (PNUD, 2005b). Estas faixas podem ser vistas na Tabela 1. [822]

3 Valor Nível de Desenvolvimento Humano 0 IDH < 0,5 Baixo 0,5 IDH < 0,8 Médio 0,8 IDH 1 Alto Tabela 1: faixas de IDH. Fonte: PNUD (2005b) Para que se pudesse medir o Desenvolvimento Humano a nível municipal foi criado o IDH-M (IDH Municipal). Trata-se de uma adaptação direta do IDH para o nível municipal, utilizando as mesmas dimensões do IDH (educação, longevidade e renda), mas com indicadores diferentes dos que compõem o cálculo do índice original. Esta substituição busca uma melhor adequação para as condições de núcleos sociais menores. Os indicadores usados para o cálculo do IDH-M são: Educação (IDHM-E) esta dimensão utiliza para seu cálculo dois indicadores: taxa de alfabetização de pessoas acima de 15 anos de idade (percentual de pessoas capazes de ler e escrever um bilhete simples) e taxa bruta de freqüência à escola (total de pessoas, de qualquer idade, que freqüentam algum curso formal, dividido pela população na faixa etária de 7 a 22 da localidade. Estão incluídos na conta alunos de cursos supletivos de primeiro e segundo graus, de classes de aceleração e pós-graduação universitária; apenas as classes especiais de alfabetização, alunos com deficiência mental, são descartadas). Esta dimensão é definida usando uma ponderação dos indicadores, o primeiro com peso dois e o segundo com peso um; Longevidade (IDHM-L) utiliza para seu cálculo o mesmo indicador do IDH de países: a esperança de vida ao nascer (idade média de óbito); Renda (IDHM-R) esta dimensão utiliza para seu cálculo o indicador renda média de cada residente no município (renda total, dividido pela quantidade de residentes, inclusive crianças e pessoas sem renda). O IDH-M é obtido através da média aritmética destas dimensões: ( IDHM- E) + ( IDHM- L) + ( IDHM- R) IDH-M = 3 Alguns indicadores são utilizados nos cálculos das dimensões tanto pelo IDH quanto pelo IDH-M enquanto outros são específicos de cada caso. Na Tabela 2 pode-se ver um resumo destes indicadores. Sub-Índices Indicador IDH IDH-M PIB Per Capta X Renda Renda Familiar Per Capta X Longevidade Esperança de Vida ao Nascer X X Taxa de Alfabetização X X Educação Taxa de Matrícula X Taxa Bruta de Freqüência à Escola X Tabela 2 - Resumo Indicadores IDH e IDH-M 2.2. KDD e Mineração de Dados Alguns fatores propiciaram o desenvolvimento da área de Mineração de Dados, dentre eles convém destacar a grande quantidade de dados que vem sendo gerados e armazenados pelas empresas, a grande competitividade entre as elas, a disponibilidade de softwares robustos para atividades de análise de dados e a ampliação da capacidade computacional (BERRY e LINOFF, 1997, p. 6). Existe uma distinção entre os dois conceitos fundamentais de KDD e de Mineração de Dados. O primeiro refere-se ao processo completo de descoberta do conhecimento enquanto o segundo é apenas uma das etapas deste primeiro. Cabe a Mineração de Dados a extração de padrões dos dados, através da aplicação de algoritmos. A representação esquemática do KDD pode ser vista na Figura 1. [823]

4 Mineração de Dados e Avaliação Interpretação Conhecimento Seleção Fonte de Dados Preparação e Transformação Dados Alvo Dados Pré-processados e Transformados Padrões Figura 1: - Processo de KDD. Adaptado de Han e Kamber (2001, p.6). A área de Mineração de Dados compreende uma série de técnicas oriundas das ciências de estatística, computação, e inteligência artificial. Neste estudo utilizamos a técnica de árvore de decisão para modelagem do problema Árvores de Decisão Uma árvore de decisão é um fluxo de uma árvore onde cada nó interno denota um teste em um atributo, cada galho representa uma saída de teste e os nós de folha representam as classes ou as classes de distribuição. O nó mais alto é a raiz da árvore. Uma das vantagens desta técnica, é que ela pode ser interpretada através de regras facilmente compreensíveis pela mente humana (HAN e KAMBER, 2001, p.284). A interpretação destas regras é feita seguindo o caminho desde a raiz até uma das folhas. A Árvore de Decisão que pode ser exemplificada através da Figura 2 foi estimada a partir de uma base de dados sobre características de uma planta chamada íris. Esta é uma base de dados clássica, freqüentemente utilizada como exemplo, chamada Iris Plant Database (Newman et al, 2005). A base é constituída por apenas 150 observações (linhas), descritas por quatro atributos numéricos (petalwidht, petallength, setalwidh e setallenght) mais uma variável de resposta categórica (chamada class), totalizando 5 colunas. Cada nó da árvore ou é um nó de teste sobre um atributo (indicado por uma elipse com o nome do atributo escrito no seu interior) ou é uma folha, com um valor da variável de resposta (indicado por um retângulo com o valor da variável de resposta indicado no seu interior). Nos nós folha podem ser vistos algumas medidas que descrevem detalhes técnicos do processo de estimação e teste. Assim, existem ao todo 5 regras, pois existem 5 folhas. Por exemplo, seguindo o caminho para esquerda a partir da raiz, pode ser lida a seguinte regra: se petalwidht <= 0,6 então class = íris-setosa. Pode-se dizer que as Árvores de Decisão funcionam como filtros de dados (ou registros) que vão separando um grupo de dados (ou registros) com determinadas características de outro (HAN e KAMBER, 2001, p.284). [824]

5 petalwidth <= 0,6 > 0,6 iris-setosa (50.0) petalwidth <= 1,7 > 1,7 petallength iris-virginica (46.0/1.0) <= 4,9 > 4,9 iris-versicolor (48.0/1.0) petalwidth <= 1,5 > 1,5 iris-virginica (3.0) iris-versicolor (3.0/1.0) Figura 2: Árvore de Decisão Algumas regras são melhores que outras. Mede-se a efetividade de uma Árvore de Decisão, aplicando-a a uma coleção de dados desconhecida e observando a porcentagem de dados que foi classificada corretamente. Precisa-se também atentar para a qualidade de cada um dos galhos da árvore. As regras podem ser avaliadas, e algumas serão melhores que outras. A força prevista da árvore, isto é, a acurácia, pode ser melhorada através de um processo chamado de poda dos seus galhos mais fracos. A poda de algum galho é, literalmente, o corte deste, eliminando as folhas que estiverem na seqüência. Esta poda pode ser vantajosa, pois, os galhos mais fracos podem estar associados à grande parte dos erros, o que pode implicar em menor precisão (BERRY e LINOFF, 1997, p. 246). Em cada nó da árvore pode-se medir (BERRY e LINOFF, 1997, p. 246): Número de registros entrando no nó; A maneira como seriam classificados os registros, se este fosse um nó de folha; O percentual de registros classificados corretamente no nó. O algoritmo ID3 foi o primeiro algoritmo da comunidade de computação para estimar Arvores de Decisão para o problema de Classificação. O algoritmo está totalmente descrito em Quinlan (1986), e é base para vários algoritmos que se seguem. A descrição que vamos fazer foi obtida a partir de Han e Kamber (2001). O algoritmo computa a informação ganha em cada atributo e escolhe o atributo com maior ganho de informação para um dado conjunto S. Um nó é criado e rotulado com este atributo, galhos são criados para cada valor de atributo e os registros são divididos de acordo de acordo com estes valores (HAN e KAMBER, 2001, ). A divisão dos registros é interrompida quando uma das seguintes condições é verdadeira: Todos os registros de um dado nó pertencem à mesma classe; Não existem atributos remanescentes em que os registros possam ser divididos. Neste caso o Voto pela Maioria é usado, isto é, este nó é convertido em uma folha e rotulado com a classe de registros majoritária; Não existem registros para o teste de atributo do galho. Neste caso uma folha é criada com o rótulo da classe de registros majoritária. O algoritmo usado neste trabalho foi o J48 (disponível na suíte WEKA), que é uma revisão do algoritmo C4.5, que é um dos mais famosos algoritmos para indução de Árvores de Decisão, descrito em Quinlan (1994), a partir de seus próprios trabalhos iniciais no ID3 [825]

6 (QUINLAN, 1986). As modificações feitas pela equipe de desenvolvimento do WEKA sobre o algoritmo original são de ordem computacional e contém métodos heurísticos para simplificar os modelos obtidos (WITTEN e FRAN, 2005, p. 373 e 406). Quando a árvore de decisão é induzida, muitos galhos vão refletir anomalias dos dados de treinamento assim como também ruídos e outliers. Os métodos de poda de árvore amenizam este problema de superestimação (overfitting) dos dados. Estes tipos de método tipicamente usam medidas estatísticas para remover os galhos menos confiáveis, em geral resultando em classificação mais rápida e numa melhoria da habilidade da árvore em classificar dados de teste independentes (BERRY e LINOFF, 1997, p ). Existem duas abordagens comuns pata a poda: Prepruning (árvore é podada acabando sua construção antes da hora) e o Postpruning (remove os galhos da árvore já crescida completamente). Alternativamente estas duas abordagens podem ser utilizadas de forma combinada (HAN e KAMBER, 2001) Comparação de métodos de classificação e previsão Métodos de Classificação e Previsão podem ser comparados e avaliados de acordo com os critérios que seguem (HAN e KAMBER, 2001, p. 283): Acurácia Prevista: refere-se à habilidade do modelo de prever corretamente o rótulo de classe de um novo dado, ou seja, não conhecido previamente. A acurácia mede a taxa de acerto, precisão e qualidade do modelo como previsor; Interpretabilidade: refere-se ao nível de entendimento e de insight que é provido pelo modelo; Velocidade: refere-se aos custos computacionais envolvidos em gerar e usar o modelo; Robustez: habilidade do modelo em fazer previsões corretas partindo do pressuposto que existem dados com ruído ou missing values Escalabilidade: refere-se à habilidade de se construir um modelo eficientemente partindo do pressuposto que exista grande volume de dados. 3. Metodologia A base de dados representa um corte temporal relativo ao ano Foram utilizadas as seguintes bases de dados: IBGE dados do Censo Demográfico, IPEA, Atlas do Desenvolvimento Humano do Brasil dados de IDH-M atributos utilizados na fórmula de cálculo do IDH-M. Os dados foram emparelhados a partir da identificação dos municípios. A etapa de pré-processamento foi realizada no ambiente Excel. O processo de limpeza pode ser descrito a partir das bases originais: IBGE: em alguns municípios da Bahia foram encontrados erros de emparelhamento dentro da própria base. O emparelhamento pode ser corrigido sem perda de informações. O município Cococi, pertencente a o estado do Ceará, teve que ser desconsiderado, pois, não havia informação para seu IDH-M; IPEA: os códigos identificadores dos municípios apresentavam dígitos verificadores que precisaram ser removidos para fins de realização do emparelhamento; Atlas de Desenvolvimento humano no Brasil: A limpeza não foi necessária. As variáveis numéricas foram normalizadas, ou seja, seus valores foram transformados de maneira que apresentassem escala entre 0 (zero) e 1 (um). Esta normalização foi feita considerando as variáveis que exprimiam uma quantidade que era uma parte de uma outra variável. Nestes casos, substituiu-se o valor da variável pela fração (percentual) que ela representava. A variável PR (Pessoas Residentes) foi utilizada como base para a normalização de mais de 10 outras variáveis que exprimiam quantidades deste total, como por exemplo, PR04 (Quantidade de Pessoas Residentes com 0 a 4 anos de idades). A variável DPP (Quantidade de [826]

7 Domicílios Particulares Permanentes) foi utilizada como base para outras 8 variáveis como, por exemplo, DPPBS (Quantidade de Domicílios Particulares Permanentes com Banheiro ou Sanitário). Cinco variáveis além de PR e DPP foram mantidas com seus valores originais. Utilizou-se a técnica da Amplitude Interquartílica (box-plot) na base já normalizada para Análise de outliers (valores discrepantes). As observações que apresentavam valores de algum atributo na faixa de identificação de outliers foram desconsideradas. Como resultado deste processo, apenas dos municípios brasileiros (observações) foram utilizadas para as modelagens desenvolvidas. Todos os atributos, exceto o atributo de classe IDH-M, foram discretizados, ou seja, sofreram uma substituição de seus valores numéricos por valores categóricos. O procedimento foi feito baseado em histogramas, que permitiram comparar a distribuição dos valores dos atributos antes e depois da discretização. Esta comparação foi utilizada para selecionar as discretizações aceitáveis. As classes nas quais os valores dos atributos foram discretizados apresentavam sempre amplitudes iguais. Foram consideradas três discretizações diferentes, em função da quantidade de classes: 5, 6 e 7 classes. O algoritmo usado foi o J48 (disponível na suíte WEKA), com modificações feitas pela equipe de desenvolvimento do WEKA, sobre o algoritmo original C4.5 são de ordem computacional e contém métodos heurísticos para simplificar os modelos obtidos (WITTEN e FRAN, 2005, p. 373 e 406). O algoritmo gera um classificador na forma de Árvore de Decisão e está disponível em vários pacotes de softwares. O WEKA possui uma interface gráfica com poucos recursos que permitem apenas visualizar o resultado da árvore, sem maiores interações. O sistema admite entrada de dados no formato CSV (Comma Separated Values) ou ARFF, que é o formato nativo do WEKA. O formato CSV é universalmente utilizado como formato de transferência de arquivos, pois os dados são transformados em um arquivo de texto (flat file), com uma linha para cada observação e com vírgulas separando os valores dos atributos/variáveis. A transformação de dados não foi muito trabalhosa, pois o Excel exporta suas planilhas diretamente para este formato. Depois da importação dos dados em formato CSV, estes são transformados automaticamente para o formato nativo do WEKA (ARFF). Foram feitos 32 ensaios,considerando todas as combinações possíveis dos seguintes parâmetros de entrada: Poda (sim/não), Uso de Teste Binários (sim/não), Nível de Confiança (0,5/0,25) e Domínio das Variáveis (Sem Discretização, 5 Classes, 6 Classes e 7 Classes). A Tabela 3 relata os parâmetros utilizados em cada ensaio, onde foram feitas abreviações para os termos com e sem, binário, confiança, classe e discretização. Os critérios de velocidade, robustez e escalabilidade não foram levados em conta no trabalho em questão, pois não se pretendia comparar algoritmos. Na busca pelo melhor modelo obtido, os únicos parâmetros que mudam de uma execução para outra são acurácia e interpretabilidade. A acurácia foi medida através do procedimento de cross-validation. Usou-se como medida da interpretabilidade o tamanho da árvore: quanto menor a árvore mais interpretável é o modelo. As Tabelas 4 e 5 apresentam um resumo destes indicadores para os 32 ensaios. Devemos ressaltar a não existência de registros com ocorrência Baixo na variável dependente IDH-M na base em análise. [827]

8 ENSAIOS S/ PODA C/ PODA BIN CONF 0,5 CONF 0,25 5 CL 6 CL 7 CL S/ DISCRET ENSAIO 1 X X X ENSAIO 2 X X X ENSAIO 3 X X X ENSAIO 4 X X X ENSAIO 5 X X X ENSAIO 6 X X X ENSAIO 7 X X X ENSAIO 8 X X X ENSAIO 9 X X X ENSAIO 10 X X X ENSAIO 11 X X X ENSAIO 12 X X X ENSAIO 13 X X X ENSAIO 14 X X X ENSAIO 15 X X X ENSAIO 16 X X X ENSAIO 17 X X X X ENSAIO 18 X X X X ENSAIO 19 X X X X ENSAIO 20 X X X X ENSAIO 21 X X X X ENSAIO 22 X X X X ENSAIO 23 X X X X ENSAIO 24 X X X X ENSAIO 25 X X X X ENSAIO 26 X X X X ENSAIO 27 X X X X ENSAIO 28 X X X X ENSAIO 29 X X X X ENSAIO 30 X X X X ENSAIO 31 X X X X ENSAIO 32 X X X X Tabela 3 - Trinta e Dois Ensaios (Parâmetros) INTERPRETABILIDADE Tabela 4 - Interpretabilidade ACURÁCIA , , , , , ,323 95, , , , , , , , , , , , , , , , , , , , , , , , , ,6344 Tabela 5 - Acurácia Podemos observar através da Tabela 4 e 5 que o 4º e o 20º ENSAIO deram origem a modelos que são, ao mesmo tempo, mais interpretáveis (árvores mais simples) e mais precisos. [828]

9 Na verdade, estes modelos são identicos. 4. Resultados O modelo obtido pelo 4º ensaio foi escolhido para a análise do conhecimento estabelecido, pois dentre os demais é o que apresentou os melhores níveis de avaliação considerados: precisão (acurácia) e interpretabilidade (o modelo obtido pelo 20º ensaio é identico ao modelo obtido pelo 4º ensaio). Este modelo apresentou 64 regras (cada folha da árvore equivale a uma regra) e taxa de acerto de 97,68%. Avaliou-se cada regra através do Nível de Abrangência, que é dado por: QRCYF NV =, QTRY onde NV = Nível de Abrangência QRCYF = Quantidade de Registros cuja Classificação é Y pela Regra QTRY = Quantidade Total de Registros cuja Classificação é Y. Usou-se essa medida de abrangência como medida de relevância da regra, visto que as opções de classificação são bem limitadas. As quatro regras mais relevantes para o valor de classe IDH-M = Médio apresentaram NV 86,63%, 5,14%, 3,45% e 1,14%, e cobriam 3.116, 185, 124 e 41 registros, respectivamente. Para o valor de classe IDH-M = Alto, foram selecionadas regras com NV 44,86%, 11,99%, 11,30% e 8,56%, que cobriam 131, 35, 33 e 25 registros, respectivamente. A quantidade total de registros classificados como Médio (3597) ou Alto (292) pode ser observada através da matriz de confusão gerada pelo sistema, na Tabela 3. A primeira linha se refere ao número de registros classificados como Médio e a segunda linha os classificados como Alto, de maneira que os valores na diagonal principal indicam classificações bem sucedidas, e os valores na outra diagonal indicam classificações mal sucedidas. Nota-se que a maioria dos municípios brasileiros possui IDH-M médio. Total de Registros REAL MÉDIO REAL ALTO Classificado Como MEDIO ALTO Tabela 6 - Matriz de Confusão do 4º ENSAIO A diagonal Principal da Matriz de Confusão, formada pelos valores 3554 e 245, apresentam os registros classificados corretamente e a Diagonal Secundária, com os valores 43 e 47, refere-se aos registros incorretamente classificados pelo modelo. Assim, tem-se 3554 registros classificados como MÉDIO e 245 classificados como ALTO corretamente. Por outro lado, tem-se 47 registros classificados como MÉDIO e 43 como ALTO incorretamente. A seguir serão interpretadas as regras obtidas e os conhecimentos gerados. O primeiro número que segue a regra indica a quantidade de registros de treinamento que são associados a esta folha durante o processo de estimação do modelo. O segundo número, quando presente, indica a quantidade de registros que são classificados incorretamente por esta folha no momento da avaliação do sistema (WITTEN e FRAN, 2005, p. 376). PR10TA 0, REGRA 1 SE e IDHM = Médio(3116.0/ 3.0) RFPM 260,85 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou igual a 0, E renda familiar per capta média (RFPM) for menor ou igual a 260,85 ENTÃO IDH-M MÉDIO. [829]

10 PR10TA > 0, EVN 0,7335 REGRA 12 SE IDHM = Médio(185. 0) RFPM 280,63 TA 0,9311 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0, E esperança de vida ao nascer menor ou igual a 0,7335 E renda familiar per capta média (EVN) for menor ou igual a 283,63 E taxa de alfabetização (TA) menor ou igual a 0,9311 ENTÃO IDH-M MÉDIO. PR10TA 0, REGRA 2 SE EVN 0,7292 IDHM = Médio(124. 0) RFPM 349,21 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou igual a 0, E renda familiar per capta média (RFPM) maior que 260,85 E menor ou igual a 349,21 E esperança de vida ao nascer menor ou igual a 0,7292 ENTÃO IDH-M MÉDIO. PR10TA 0, ,85 RFPM 327,73 < REGRA 5 SE IDHM = Médio(410. ) 0,7292 < EVN 0,7524 TBFE 0,8013 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou igual a 0, E renda familiar per capta média (RFPM) maior que 260,85 E menor ou igual a 327,73 E esperança de vida ao nascer (EVN) maior que 0,7292 E menor ou igual a 0,7524 E taxa bruta de freqüência à escola (TBFE) menor ou igual a 0,8013 ENTÃO IDH-M MÉDIO. PR10TA > 0, REGRA 34 SE EVN > 0,7335 IDHM = Alto(1310. /1.0) RFPM 282,18 > SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0, E esperança de vida ao nascer (EVN) maior que 0,7335 E renda familiar per capta média (RFPM) maior que 282,18 ENTÃO IDH-M ALTO. PR10TA > 0, ,7146 EVN 0,7335 < REGRA 22 SE IDHM = Alto(35. 0/1.0) RFPM > 283,63 TBFE > 0,7448 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0, E esperança de vida ao nascer (EVN) maior que 0,7146 E menor ou igual a 0,7335 E renda familiar per capta média (RFPM) for maior que 283,63 E taxa bruta de freqüência à escola (TBFE) maior que 0,7448 ENTÃO IDH-M ALTO. PR10TA > 0, EVN 0,7393 > REGRA 32 SE 0,7393 < RFPM 282,18 IDHM = Alto(33. 0) TBFE > 0,7448 TA 0,9382 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0, E esperança de vida ao nascer (EVN) maior que 0,7393 E renda familiar per capta média (RFPM) for maior que 244,33 E menor ou igual a 282,18 E taxa de alfabetização (TA) menor ou igual a 0,9382 E taxa bruta de freqüência à escola maior que 0,7844 ENTÃO IDH-M ALTO. PR10TA > 0, EVN 0,7335 > REGRA 33 SE IDHM = Alto(25. 0) RFPM 282,18 TA > 0,9382 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0, E esperança de vida ao nascer (EVN) maior que 0,7335 E renda familiar per capta média (RFPM) menor ou igual a 282,18 E taxa de alfabetização (TA) maior que 0,9382 ENTÃO IDH-M ALTO. É importante fazer uma comparação entre as regras que classificam o IDH-M como MEDIO (quatro primeiras regras) e aquelas que o classificam como ALTO (quatro últimas). A Taxa de Alfabetização de Pessoas Residentes com 10 anos ou mais de idade [830]

11 (PR10TA) parece ser determinante para a classificação do IDH-M. Se PR10TA > então IDH-M ALTO e se PR10TA <= então IDH-M NÃO ALTO. A única exceção é a regra 12 que, mesmo tendo PR10TA > , classifica IDH-M como MEDIO. Isto pode estar acontecendo, devido neste caso a Renda Familiar Per Capta Média ser baixa (RFPM <= ) indicando a forte influência da renda familiar no IDH-M. Uma outra forma de observar isto é observando a árvore do modelo. Todas as folhas (das regras analisadas) que tiveram origem à esquerda de PR10TA classificam os registros como MEDIO e todas as folhas (dentre as regras analisadas) que tiveram origem à direita de PR10TA classificaram os registros como ALTO, com a exceção da regra 12. Podemos, portanto, sugerir que altos níveis de PR10TA e RFPM são determinantes de um IDH-M alto. Consequentemente um gestor local deveria investir na melhoria da educação básica e em programas de transferência de renda como maneira eficaz de melhoria do IDH-M. Outras variáveis menos relevantes, porém, com influencia relativa sobre o IDH-M, seriam esperança de vida ao nascer (EVN), denotando a importância de saúde pública, taxa de alfabetização (TA) e taxa bruta de freqüência à escola, representando a educação básica. Apesar de outras regras (14 e 15 do 4º ENSAIO) não terem sido consideradas importantes e, portanto analisadas, as mesmas apresentaram o atributo PRAU (quantidade de pessoas em área urbana), indicando que um maior número de pessoas em área urbana contribuiria para o IDH-M ser classificado como ALTO. É importante notar que esta variável não faz parte da fórmula do cálculo do IDH-M. Este é também o caso de outras regras que (24 e 25 4º ENSAIO) que apresentam o atributo DPPOF (quantidade de domicílios particulares permanentes com forma de abastecimento de água outra que não rede pública ou poço ou nascente) em sua composição, as mesmas indicam que uma maior a quantidade de domicílios particulares permanentes cuja forma de abastecimento de água seja outras formas (que não poço ou nascente ou rede geral) contribuiria para que IDH-M fosse ALTO. 5. Conclusões e Pesquisas Futuras O estudo mostrou uma alternativa para o cálculo do IDH-M, e investigou atributos que influenciam no nível do IDH-M que não aqueles que compõem a fórmula de seu cálculo. Este trabalho pode servir de base para os governos federal, estadual, municipal, ou até mesmo organizações não governamentais, melhorarem a qualidade de vida das pessoas e a imagem do Brasil no mundo. Observou-se que todas as discretizações da base de dados geraram árvores muito complexas, isto é, uma grande quantidade de regras pode ser extraída destas árvores. Isto equivale a dizer que são modelos com baixo nível de interpretabilidade. Observando-se as regras do 4º ENSAIO pôde-se notar que todas apresentam os atributos PR10TA e RFPM indicando a grande importância da educação e renda na determinação do IDH-M. Isto sugere que se estes a elevação dos níveis destes fatores pode levar a uma elevação na avaliação municipal pelo IDH-M. Apesar de não se ter previsto os valores para IDH-M, foi possível explicar seu comportamento na medida em que foram identificados atributos e seus pontos de corte que, em conjunto, determinam o nível do IDH-M. De acordo com as regras, o aumento de Pessoas na Área Urbana e da Quantidade Domicílios Particulares Permanentes Forma de Abastecimento de Água Outras Formas influenciam fortemente os níveis de IDH-M. Nesta análise, o nível de IDH- M pode ser influenciado por outros fatores além dos estabelecidos formalmente por este índice. A realização deste estudo no nível Estadual, ou seja, analisar as regras mais abrangentes por estados da federação, também deve trazer conhecimento relevante. A partir disto também pode ser possível encontrar regiões que possam ter as mesmas regras como mais abrangentes. As variáveis analisadas no trabalho são objetivas e podem estar sofrendo a influência de variáveis subjetivas, como é o caso da cultura, ou seja, pode ser que a cultura influencie os atributos do censo, que por sua vez podem influenciar o nível tanto de IDH-M como o do IDH. Assim, pode ser interessante incluir nestes estudos estas questões. Algumas perguntas possíveis são: Qual o papel das Organizações Não Governamentais (ONGs) nos elementos (municípios, [831]

Novo Atlas do Desenvolvimento Humano no Brasil

Novo Atlas do Desenvolvimento Humano no Brasil Entenda o cálculo do IDH Municipal (IDH-M) e saiba quais os indicadores usados O Índice de Desenvolvimento Humano foi criado originalmente para medir o nível de desenvolvimento humano dos países a partir

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

ELABORAÇÃO DE INDICADORES SOCIAIS

ELABORAÇÃO DE INDICADORES SOCIAIS 1 ELABORAÇÃO DE INDICADORES SOCIAIS Ernesto Friedrich de Lima Amaral 28 de setembro de 2011 Universidade Federal de Minas Gerais Faculdade de Ciências Humanas e Filosofia Departamento de Sociologia e Antropologia

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

ELABORAÇÃO DE INDICADORES SOCIAIS

ELABORAÇÃO DE INDICADORES SOCIAIS ELABORAÇÃO DE INDICADORES SOCIAIS Ernesto Friedrich de Lima Amaral 24 de setembro de 2008 Universidade Federal de Minas Gerais Faculdade de Ciências Humanas e Filosofia Departamento de Sociologia e Antropologia

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Resumo Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Autoria: Elizabeth de Oliveira Carpenter, Gerson Lachtermacher O

Leia mais

Entenda o que é IDH Secretaria de Saúde Pública do Pará

Entenda o que é IDH Secretaria de Saúde Pública do Pará Entenda o que é IDH Secretaria de Saúde Pública do Pará O Índice de Desenvolvimento Humano (IDH), divulgado pela ONU, parte do pressuposto de que para aferir o avanço de uma população não se deve considerar

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

Mineração de dados em triagem de risco de saúde

Mineração de dados em triagem de risco de saúde Mineração de dados em triagem de risco de saúde Thales Vaz Maciel 1 ; Vinicius Rosa Seus 2 ; Karina dos Santos Machado 3 ; Eduardo Nunes Borges 4 1234 Centro de Ciências Computacionais, Fundação Universidade

Leia mais

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Alessandro Ferreira Brito 1, Rodrigo Augusto R. S. Baluz 1, Jean Carlo Galvão Mourão 1, Francisco das Chagas Rocha 2

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

OBSERVATÓRIO DO DESENVOLVIMENTO REGIONAL BANCO DE DADOS REGIONAL. Eixo temático: Indicadores Sociais 1. Variável: IDESE

OBSERVATÓRIO DO DESENVOLVIMENTO REGIONAL BANCO DE DADOS REGIONAL. Eixo temático: Indicadores Sociais 1. Variável: IDESE OBSERVATÓRIO DO DESENVOLVIMENTO REGIONAL BANCO DE DADOS REGIONAL Eixo temático: Indicadores Sociais 1 Variável: IDESE O Idese (Índice de Desenvolvimento Sócio-Econômico) é um índice sintético, inspirado

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior barbon@uel.br 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa I Etapa II Inteligência de Negócios Visão

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

ÍNDICE DE DESENVOLVIMENTO HUMANO PLANALTO DE ARAXÁ E MUNICÍPIOS 1991-2000

ÍNDICE DE DESENVOLVIMENTO HUMANO PLANALTO DE ARAXÁ E MUNICÍPIOS 1991-2000 CENTRO UNIVERSITÁRIO DO PLANALTO DE ARAXÁ NÚCLEO DE PESQUISAS ECONÔMICAS E SOCIAIS INFORMATIVO ANO I N II ABRIL 2007 ÍNDICE DE DESENVOLVIMENTO HUMANO PLANALTO DE ARAXÁ E MUNICÍPIOS 1991-2000 Prof Dr. Vitor

Leia mais

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1 Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1 Rafaela Giroto, 10º módulo de Ciência da Computação,

Leia mais

TERESINA ÍNDICE DE DESENVOLVIMENTO HUMANO

TERESINA ÍNDICE DE DESENVOLVIMENTO HUMANO TERESINA ÍNDICE DE DESENVOLVIMENTO HUMANO Teresina (PI), Setembro 2014 1 ÍNDICE DE DESENVOLVIMENTO HUMANO (IDH-m) As informações deste estudo são extraídas do site do Programa das Nações Unidas - PNUD,

Leia mais

INDICADORES DE DESENVOLVIMENTO ECONÔMICO E SOCIAL: SIGNIFICADO E IMPORTÂNCIA PARA A GESTÃO PÚBLICA

INDICADORES DE DESENVOLVIMENTO ECONÔMICO E SOCIAL: SIGNIFICADO E IMPORTÂNCIA PARA A GESTÃO PÚBLICA INDICADORES DE DESENVOLVIMENTO ECONÔMICO E SOCIAL: SIGNIFICADO E IMPORTÂNCIA PARA A GESTÃO PÚBLICA Silvio A. F. Cario Prof. dos Cursos de Graduação e Pós-Graduação em Economia e Administração da Universidade

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1.

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1. APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1. SQUIZANI, Cleonice Schell 2 ; MORALES, Yuri 2 ; VIEIRA, Sylvio André Garcia 2 1 Trabalho de pesquisa - UNIFRA

Leia mais

Padronização de Processos: BI e KDD

Padronização de Processos: BI e KDD 47 Padronização de Processos: BI e KDD Nara Martini Bigolin Departamento da Tecnologia da Informação -Universidade Federal de Santa Maria 98400-000 Frederico Westphalen RS Brazil nara.bigolin@ufsm.br Abstract:

Leia mais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos Theo Silva Lins, Luiz Henrique de Campos Merschmann PPGCC - Programa de Pós-Graduação

Leia mais

Tema: Índice de Desenvolvimento Humano (IDH) Professor: Jonathan Kreutzfeld

Tema: Índice de Desenvolvimento Humano (IDH) Professor: Jonathan Kreutzfeld Tema: Índice de Desenvolvimento Humano (IDH) Professor: Jonathan Kreutzfeld O que é IDH? O Índice de Desenvolvimento Humano (IDH) é uma medida comparativa de renda, escolaridade e longevidade para os diversos

Leia mais

A POSIÇÃO DO MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS (SP) EM RELAÇÃO AO ÍNDICE DE DESENVOLVIMENTO HUMANO (IDH) E AO ÍNDICE DE GINI

A POSIÇÃO DO MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS (SP) EM RELAÇÃO AO ÍNDICE DE DESENVOLVIMENTO HUMANO (IDH) E AO ÍNDICE DE GINI A POSIÇÃO DO MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS (SP) EM RELAÇÃO AO ÍNDICE DE DESENVOLVIMENTO HUMANO (IDH) E AO ÍNDICE DE GINI Roland Anton Zottele 1, Friedhilde M. K. Manulescu 2 1, 2 Faculdade de Ciências

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Anexo 1. Definição das variáveis de análise

Anexo 1. Definição das variáveis de análise Métodos Anexo 1 Definição das variáveis de análise 1. Saúde: a. Taxa de mortalidade infantil (TMI): número de óbitos de menores de um ano de idade, por mil nascidos vivos, na população residente em determinado

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

Paralelização do algoritmo SPRINT usando MyGrid

Paralelização do algoritmo SPRINT usando MyGrid Paralelização do algoritmo SPRINT usando MyGrid Juliana Carvalho, Ricardo Rebouças e Vasco Furtado Universidade de Fortaleza UNIFOR juliana@edu.unifor.br ricardo@sspds.ce.gov.br vasco@unifor.br 1. Introdução

Leia mais

FAQ - Perguntas Frequentes

FAQ - Perguntas Frequentes FAQ - Perguntas Frequentes Desenvolvimento Humano, IDH e IDHM O que é Desenvolvimento Humano? Difundido no primeiro Relatório de Desenvolvimento Humano Global do Programa das Nações Unidas para o Desenvolvimento

Leia mais

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS Hugo Marques Casarini Faculdade de Engenharia de Computação

Leia mais

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina

O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina SEMINC 2001 57 O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina MARIZA FERRO HUEI DIANA LEE UNIOESTE - Universidade Estadual do Oeste do Paraná CECE Centro de Engenharias e

Leia mais

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Thiago Ferauche, Maurício Amaral de Almeida Laboratório de Pesquisa em Ciência de Serviços

Leia mais

MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP

MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP 1 Data de entrega dos originais à redação em 15/03/2013 e recebido

Leia mais

Desenvolvimento e Subdesenvolvimento: O que é preciso saber para começar entender?

Desenvolvimento e Subdesenvolvimento: O que é preciso saber para começar entender? Desenvolvimento e Subdesenvolvimento: O que é preciso saber para começar entender? PIB - Produto Interno Bruto. Ele representa o montante de todas as riquezas do país, quanto maior o PIB, mais alto o nível

Leia mais

PALAVRAS-CHAVE Indicadores sócio-econômicos. Campos Gerais. Paraná.

PALAVRAS-CHAVE Indicadores sócio-econômicos. Campos Gerais. Paraná. 12. CONEX Apresentação Oral Resumo Expandido 1 ÁREA TEMÁTICA: (marque uma das opções) ( ) COMUNICAÇÃO ( ) CULTURA ( ) DIREITOS HUMANOS E JUSTIÇA ( ) EDUCAÇÃO ( ) MEIO AMBIENTE ( ) SAÚDE ( x ) TRABALHO

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES

Leia mais

Ambiente Weka Waikato Environment for Knowledge Analysis

Ambiente Weka Waikato Environment for Knowledge Analysis Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Classificação

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Conteúdo. 1 Introdução. MINUTA Histograma do 1o Sorteio da NF Salvador xxx/2014. 1º Sorteio Eletrônico da Nota Fiscal Salvador

Conteúdo. 1 Introdução. MINUTA Histograma do 1o Sorteio da NF Salvador xxx/2014. 1º Sorteio Eletrônico da Nota Fiscal Salvador 1º Sorteio Eletrônico da Nota Fiscal Salvador Relatório parcial contendo resultados 1 da análise estatística dos bilhetes premiados Conteúdo 1 Introdução O software de Sorteio Eletrônico da Nota Fiscal

Leia mais

MINISTÉRIO DA EDUCAÇÃO. NOTA TÉCNICA Indicador de Nível Socioeconômico (Inse) das escolas do Enem 2013

MINISTÉRIO DA EDUCAÇÃO. NOTA TÉCNICA Indicador de Nível Socioeconômico (Inse) das escolas do Enem 2013 NOTA TÉCNICA Indicador de Nível Socioeconômico (Inse) das escolas do Enem 2013 1. APRESENTAÇÃO O Inep, nessa edição do Enem por Escola 2013, da mesma maneira que fez com as avaliações da educação básica,

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Indução de Árvores de Decisão para a Inferência de Redes Gênicas

Indução de Árvores de Decisão para a Inferência de Redes Gênicas PR UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Ministério da Educação Universidade Tecnológica Federal do Paraná Pró-Reitoria de Pesquisa e Pós-Graduação Relatório Final de Atividades Indução de Árvores

Leia mais

Índice de Gini e IDH. Prof. Antonio Carlos Assumpção

Índice de Gini e IDH. Prof. Antonio Carlos Assumpção Índice de Gini e IDH Prof. Antonio Carlos Assumpção Redução da pobreza e Desigualdade de Renda Redução da pobreza e Desigualdade de Renda A partir da estabilização da economia, em 1994, houve no Brasil

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

RESULTADOS DO ÍNDICE DE VULNERABILIDADE SOCIAL DO PARANÁ - 2010 *

RESULTADOS DO ÍNDICE DE VULNERABILIDADE SOCIAL DO PARANÁ - 2010 * RESULTADOS DO ÍNDICE DE VULNERABILIDADE SOCIAL DO PARANÁ - 2010 * Os resultados aqui apresentados foram extraídos do Atlas da Vulnerabilidade Social nos Municípios Brasileiros, elaborado pelo Instituto

Leia mais

3 INDICADORES SOCIAIS

3 INDICADORES SOCIAIS 3 INDICADORES SOCIAIS Investigar o estágio de desenvolvimento de uma sociedade é uma tarefa extremamente desafiante, visto a inexistência de um indicador absoluto, consensual, inquestionável. Medir qualidade

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012 Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.

Leia mais

MODELO INTEGRADO PARA ANÁLISE DO DESLIGAMENTO DE EMPREGADOS: UM ESTUDO DE CASO

MODELO INTEGRADO PARA ANÁLISE DO DESLIGAMENTO DE EMPREGADOS: UM ESTUDO DE CASO MODELO INTEGRADO PARA ANÁLISE DO DESLIGAMENTO DE EMPREGADOS: UM ESTUDO DE CASO Felipe de Moraes Oliveira Thiago de Melo Rezende PETROBRAS Av. República do Chile 65, Rio de Janeiro RJ. CEP 20031-912 felipe.moraes@petrobras.com.br

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Paralelização de Tarefas de Mineração de Dados Utilizando Workflows Científicos 1

Paralelização de Tarefas de Mineração de Dados Utilizando Workflows Científicos 1 Paralelização de Tarefas de Mineração de Dados Utilizando Workflows Científicos 1 Carlos Eduardo Barbosa, Eduardo Ogasawara, Daniel de Oliveira, Marta Mattoso PESC COPPE Universidade Federal do Rio de

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados

Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados Resumo. Nas últimas décadas, tem aumentado à necessidade de um processo automatizado para a descoberta de informações

Leia mais

Árvores de Decisão. Índice

Árvores de Decisão. Índice Árvores de Decisão Índice 1. Introdução... 2 2. Árvores de decisão e a tarefa de classificação... 6 3. Principais conceitos vinculados à indução de árvores de decisão... 15 3.1 Top-Down Induction of Decision

Leia mais

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais.

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais. 1. Introdução A previsão de vendas é fundamental para as organizações uma vez que permite melhorar o planejamento e a tomada de decisão sobre o futuro da empresa. Contudo toda previsão carrega consigo

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

PLANEJAMENTO - ESCOPO - TEMPO - CUSTO

PLANEJAMENTO - ESCOPO - TEMPO - CUSTO PLANEJAMENTO - ESCOPO - TEMPO - CUSTO PAULO SÉRGIO LORENA Julho/2011 1 Planejamento escopo, tempo e custo PROGRAMA DA DISCIPLINA Apresentação professor Programa da disciplina Avaliação Introdução Processos

Leia mais

A INTEGRAÇÃO ENTRE ESTATÍSTICA E METROLOGIA

A INTEGRAÇÃO ENTRE ESTATÍSTICA E METROLOGIA A INTEGRAÇÃO ENTRE ESTATÍSTICA E METROLOGIA João Cirilo da Silva Neto jcirilo@araxa.cefetmg.br. CEFET-MG-Centro Federal de Educação Tecnológica de Minas Gerais-Campus IV, Araxá Av. Ministro Olavo Drumonnd,

Leia mais

Mineração de dados em triagem de risco de saúde

Mineração de dados em triagem de risco de saúde Mineração de dados em triagem de risco de saúde Thales Vaz Maciel 1 Vinicius Rosa Seus 1 Karina dos Santos Machado 1 Eduardo Nunes Borges 1 Resumo: Com a grande quantidade de dados gerados por sistemas

Leia mais

Estudo Comparativo 1991-2000

Estudo Comparativo 1991-2000 Prefeitura Municipal do Natal Secretaria Municipal de Planejamento e Gestão Estratégica - SEMPLA Departamento de Estudos e Pesquisas Setor de Estatística e Informações DESENVOLVIMENTO HUMANO EM NATAL Estudo

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

Introdução ao Processamento de Imagens

Introdução ao Processamento de Imagens Introdução ao PID Processamento de Imagens Digitais Introdução ao Processamento de Imagens Glaucius Décio Duarte Instituto Federal Sul-rio-grandense Engenharia Elétrica 2013 1 de 7 1. Introdução ao Processamento

Leia mais

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Tiago Mendes Dantas t.mendesdantas@gmail.com Departamento de Engenharia Elétrica,

Leia mais

11.1. INFORMAÇÕES GERAIS

11.1. INFORMAÇÕES GERAIS ASPECTOS 11 SOCIOECONÔMICOS 11.1. INFORMAÇÕES GERAIS O suprimento de energia elétrica tem-se tornado fator indispensável ao bem-estar social e ao crescimento econômico do Brasil. Contudo, é ainda muito

Leia mais

DESENVOLVIMENTO HUMANO NA FRONTEIRA BRASIL/BOLÍVIA E BRASIL/PARAGUAI. Palavras-Chave: Fronteira, Desenvolvimento Humano, Indicadores.

DESENVOLVIMENTO HUMANO NA FRONTEIRA BRASIL/BOLÍVIA E BRASIL/PARAGUAI. Palavras-Chave: Fronteira, Desenvolvimento Humano, Indicadores. DESENVOLVIMENTO HUMANO NA FRONTEIRA BRASIL/BOLÍVIA E BRASIL/PARAGUAI Jeniffer Fonseca da Silva Jean Carlos da Silva Américo Tito Carlos Machado de Oliveira 1 Aluna do curso de ciências econômicas da UFMS,

Leia mais

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Visão Computacional Não existe um consenso entre os autores sobre o correto escopo do processamento de imagens, a

Leia mais

Protótipo de um Sistema Móvel para a Extração de. Características em Fragmentos de Imagem de Tecido. Cólico

Protótipo de um Sistema Móvel para a Extração de. Características em Fragmentos de Imagem de Tecido. Cólico Protótipo de um Sistema Móvel para a Extração de Características em Fragmentos de Imagem de Tecido Cólico Application Prototype for Mobile Devices to Features Extraction in Image Fragments Colic Tissue

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais UNIVERSIDADE ESTADUAL DE PONTA GROSSA PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA CRISTIAN COSMOSKI RANGEL DE ABREU TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR

Leia mais

Oficina Índice de Desenvolvimento Humano IDH

Oficina Índice de Desenvolvimento Humano IDH Oficina Índice de Desenvolvimento Humano IDH Oficina CH/EM Caro Aluno, Esta oficina tem por objetivo analisar as principais características de um dos principais indicadores socioeconômicos utilizados na

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Aplicativo de Mineração de Dados Aplicado em Bases de Dados Acadêmicas

Aplicativo de Mineração de Dados Aplicado em Bases de Dados Acadêmicas 22 - Encontro Anual de Tecnologia da Informação Aplicativo de Mineração de Dados Aplicado em Bases de Dados Acadêmicas Elisa Maria Vissotto1, Adriane Barbosa Camargo2 1 Universidade Regional Integrada

Leia mais

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer II Semana de Tecnologia da Informação IFBA Campus Vitória da Conquista 27 a 30 de maio de 2014 WEKA: The bird Ferramenta Weka Waikato Environment for Knowledge Analysis Prof. MSc Pablo Freire Matos Informática

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Classificação dos candidatos ao vestibular da FECILCAM via técnicas estatísticas multivariadas

Classificação dos candidatos ao vestibular da FECILCAM via técnicas estatísticas multivariadas Anais do CNMAC v. ISSN 1984-80X Classificação dos candidatos ao vestibular da FECILCAM via técnicas estatísticas multivariadas Tatiane C. da Silva Faculdade Estadual de Ciências e Letras de Campo Mourão

Leia mais

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Carlos Eduardo R. de Mello, Geraldo Zimbrão da Silva, Jano M. de Souza Programa de Engenharia de Sistemas e Computação Universidade

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

SISTEMA DE INFORMAÇÃO EXECUTIVA UTILIZANDO DATA MINING BASEADO NA TÉCNICA ÁRVORE DE DECISÃO

SISTEMA DE INFORMAÇÃO EXECUTIVA UTILIZANDO DATA MINING BASEADO NA TÉCNICA ÁRVORE DE DECISÃO SISTEMA DE INFORMAÇÃO EXECUTIVA UTILIZANDO DATA MINING BASEADO NA TÉCNICA ÁRVORE DE DECISÃO OSCAR DALFOVO, M.A. dalfovo@furb.rct-sc.br Professor da Universidade Regional de Blumenau - FURB Professor do

Leia mais

Considerações sobre Conhecimento Incerto e Redes Bayesianas

Considerações sobre Conhecimento Incerto e Redes Bayesianas Considerações sobre Conhecimento Incerto e Redes Bayesianas Felipe S. Gurgel 1, Maiquel de Brito 1 1 Universidade Federal de Santa Catarina - UFSC Departamento de Automação e Sistemas - DAS UFSC/CTC/DAS

Leia mais

Aplicação do algoritmo SimpleKMeans em experimento de milho verde

Aplicação do algoritmo SimpleKMeans em experimento de milho verde Aplicação do algoritmo SimpleKMeans em experimento de milho verde Wesley Viana 1, Prof. MSc. Marcos de Moraes Sousa 1, Prof. MSc. Júnio César de Lima 1 Prof. Dr. Milton Sérgio Dornelles 1 1 Instituto Federal

Leia mais

Fabrício J. Barth. Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com

Fabrício J. Barth. Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com Uma Introdução à Mineração de Informações Fabrício J. Barth Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com Outubro de 2010 Objetivo Apresentar

Leia mais

Data Mining II Modelos Preditivos

Data Mining II Modelos Preditivos Data Mining II Modelos Preditivos Prof. Doutor Victor Lobo Mestre André Melo Mestrado em Estatística e Gestão de Informação Objectivo desta disciplina Fazer previsões a partir de dados. Conhecer os principais

Leia mais

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD RESUMO Thereza P. P. Padilha Fabiano Fagundes Conceição Previero Laboratório de Solos

Leia mais

APLICAÇÃO DA DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS PARA IDENTIFICAÇÃO DE CARACTERÍSTICAS RELACIONADAS À MORTALIDADE INFANTIL.

APLICAÇÃO DA DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS PARA IDENTIFICAÇÃO DE CARACTERÍSTICAS RELACIONADAS À MORTALIDADE INFANTIL. APLICAÇÃO DA DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS PARA IDENTIFICAÇÃO DE CARACTERÍSTICAS RELACIONADAS À MORTALIDADE INFANTIL. Autores: VIANNA, R. C. X. F. 1,2 ; BARRA, C. M. C. M 1. Afiliação: 1.

Leia mais

Universidade do Estado de Santa Catarina UDESC Centro de Ciências Tecnológicas CCT CEP 89223-100 Joinville SC Brasil

Universidade do Estado de Santa Catarina UDESC Centro de Ciências Tecnológicas CCT CEP 89223-100 Joinville SC Brasil SISTEMA DE APOIO À TOMADA DE DECISÃO PARA O MONITORAMENTO DE ALARMES PATRIMONIAIS UTILIZANDO INDUÇÃO DE ÁRVORES DE DECISÃO Alex L Sousa, André B Leal, Claudio C Sá, Ricardo F Martins Programa de Pós-Graduação

Leia mais

2.1.2 Definição Matemática de Imagem

2.1.2 Definição Matemática de Imagem Capítulo 2 Fundamentação Teórica Este capítulo descreve os fundamentos e as etapas do processamento digital de imagens. 2.1 Fundamentos para Processamento Digital de Imagens Esta seção apresenta as propriedades

Leia mais

Expanda suas Capacidades Analíticas

Expanda suas Capacidades Analíticas Módulos IBM SPSS Statistics Expanda suas Capacidades Analíticas Um guia resumido dos módulos para o IBM SPSS Statistics Base Destaques Existem vários produtos IBM SPSS para te ajudar em cada fase do projeto

Leia mais