ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA

Tamanho: px
Começar a partir da página:

Download "ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA"

Transcrição

1 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA LONDRINA PR 2013

2

3 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte Coorientador: Prof(a). Dr(a). Maria Angélica de O. C. Brunetto LONDRINA PR 2013

4 André Augusto Del Grossi Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata/ André Augusto Del Grossi. Londrina PR, p. : il. (algumas color.) ; 30 cm. Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte Universidade Estadual de Londrina, aprendizado de máquina. 2. câncer de próstata. 3. biópsia. I. Helen C. de Mattos Senefonte. II. Universidade Estadual de Londrina. III. Curso de Ciência da Computação. CDU 02:141:005.7

5 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Prof(a). Ms. Helen C. de Mattos Senefonte Universidade Estadual de Londrina Orientador Prof(a). Dr(a). Cinthyan Renata Sachs C. de Barbosa Universidade Estadual de Londrina Prof. Dr. Bruno Bogaz Zarpelão Universidade Estadual de Londrina Londrina PR, 21 de novembro de 2013 LONDRINA PR 2013

6

7 Dedico este trabalho aos meus familiares e ao meu grande amigo Vínicius Quaglio que me acompanhou durante o ano nesta jornada.

8

9 AGRADECIMENTOS Agradeço primeiramente aos meus pais Meire e Osvaldo, pelo apoio, suporte e amor incondicional especialmente durante a execução deste trabalho. À minha irmã Ana Paula, pela energia positiva e confortante que a sua companhia me fornece, em particular neste ano, repleto de conquistas e realizações para ambos. À minha orientadora Helen, pessoa extraordinária que tive o prazer de conhecer e compartilhar o desenvolvimento deste trabalho. Agradeço também aos meus colegas de trabalho, pelo aprendizado e paciência. E por fim a todos os meus amigos, que acompanharam de alguma forma o sucesso e as dificuldades que enfrentei durante o ano.

10

11 Todos os homens sonham, mas não da mesma forma. Aqueles que sonham durante a noite, nos recessos empoeirados da mente, acordam na manhã seguinte e descobrem que foi algo efêmero, passageiro; mas os sonhadores do dia são homens perigosos, porque ao criar seus sonhos com os olhos abertos, podem torná-los reais. (T. E. Lawrence)

12

13 DEL GROSSI, A. A.. Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata. 63 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciência da Computação Universidade Estadual de Londrina, RESUMO Este estudo propõe a investigação de técnicas de aprendizado de máquina aplicadas ao problema de diagnóstico de câncer de próstata, com o intuito de auxiliar na seleção de pacientes a serem encaminhados ao procedimento de biópsia. O trabalho possui como objetivo investigar quais técnicas, dentre as selecionadas, alcançam melhores taxas de classificação para o problema. As variáveis antecedentes ao tratamento de pacientes do Hospital Universitário da Universidade Estadual de Londrina (HU-UEL), no período de 2005 a 2009 foram utilizadas para construção e validação dos classificadores. Por fim, as métricas de desempenho para os modelos construídos a partir das técnicas e algoritmos descritos são comparados e contrastados, juntamente com um resumo dos resultados no geral. Palavras-chave: câncer de próstata. aprendizado de máquina. biópsia. classificação

14

15 DEL GROSSI, A. A.. Comparison and evaluation of machine learning techniques for recommending patients to prostate cancer biopsy. 63 p. Final Project (Undergraduation). Bachelor of Science in Computer Science State University of Londrina, ABSTRACT This study proposes the investigation of machine learning techniques applied to prostate cancer diagnosis with the goal of determining patients that should undergo biopsy for prostate cancer screening. This work intends to investigate which techniques provide best classification rates for the problem. Pre-treatment variables gathered from patients of the Academic Hospital of State University of Londrina (HU-UEL) from 2005 to 2009 are used for construction and validation of classifiers. Lastly, accuracy and performance indicators for the obtained models are compared based on similarities and divergences, along with general observed results. Keywords: prostate cancer. machine learning. biopsy. classification

16

17 LISTA DE ILUSTRAÇÕES Figura 1 Gráfico da função logística Figura 2 Visão simplificada das camadas uma rede neural artificial multi-layer perceptron Figura 3 Função backpropagation simples Figura 4 Árvore de decisão para a avaliação de compra de computador Figura 5 Um exemplo de curva ROC Figura 6 Seletor de interface do Weka Figura 7 Weka Explorer após o carregamento de um conjunto de dados Figura 8 Forma de cálculo para o obtenção do valor do atributo Ajuste Figura 9 Indicadores de desempenho para o modelo de regressão logística Figura 10 Desempenho do modelo construído com o algoritmo MultiLayerPerceptron Figura 11 Desempenho do modelo construído com o algoritmo MLPClassifier (n = 305) Figura 12 Desempenho do modelo construído com o algoritmo MLPClassifier (n = 500) Figura 13 Desempenho do modelo construído com o algoritmo ADTree (n = 500) 52 Figura 14 Estrutura de árvore gerada pelo classificador ADTree Figura 15 Desempenho do modelo construído com o algoritmo PART (n = 305). 54 Figura 16 Regras de decisão geradas pelo classficador PART Figura 17 Comparação de desempenho entre classificadores

18

19 LISTA DE TABELAS Tabela 1 Matriz de confusão para dois valores de classe Tabela 2 Métricas de desempenho derivadas da matriz de confusão Tabela 3 Sumário dos atributos númericos do conjunto de dados (n = 500) Tabela 4 Sumário dos atributos booleanos do conjunto de dados (n = 500) Tabela 5 Parâmetros para o algoritmo de regressão logística Tabela 6 Parâmetros para o algoritmo MultiLayerPerceptron Tabela 7 Parâmetros para o algoritmo MLPClassifier Tabela 8 Parâmetros para o algoritmo ADTree Tabela 9 Parâmetros para o algoritmo PART Tabela 10 Coefiecientes obtidos a partir do modelo de regressão logística Tabela 11 Valores das conexões para o modelo construído com o algoritmo MLP- Classifier

20

21 LISTA DE ABREVIATURAS E SIGLAS ANN ARFF AUC CART CSPC CSV DRE FN FP knn MLE MLP NSPC PSA RBF ROC SCG SQL SVM VN VP WEKA Rede neural artificial (artificial neural network) Formato de arquivo atributo-relação (attribute-relation file format) Área sob a curva (area under curve) Árvore de classificação e regressão (classification and regression tree) Câncer de próstata clinicamente significativo (clinically significative prostate cancer) Valores separados por vírgula (comma separated values) Exame de toque retal (digital rectal examination) Falsos negativos Falsos positivos k vizinhos mais próximos (k-nearest neighbors) Estimativa por máxima verossimilhança (maximum likelihood estimate) Perceptron de múltiplas camadas (multi-layer perceptron) Câncer de próstata não significativo (non-significant prostate cancer) Antígeno específico da próstata (prostate-specific antigen) Função de base radial (radial basis function) Característica de operação do receptor (receiver operating characteristic) Gradiente conjugado ajustado (scaled conjugate gradient) Linguagem estruturada de consultas (structured query language) Máquina de vetores de suporte (support vector machines) Verdadeiros negativos Verdadeiros positivos Ambiente Waikato para análise de informação (Waikato environment for knowledge analysis)

22

23 LISTA DE SÍMBOLOS R Pertence Conjunto dos números reais

24

25 SUMÁRIO 1 Introdução Fundamentação Teórica Câncer de próstata Aprendizado de máquina Regressão logística Redes neurais artificiais Árvores de decisão Avaliação de classificadores Trabalhos relacionados Materiais e métodos O ambiente Weka Conjunto de dados Experimentos e testes Resultados Regressão Logística Redes Neurais Artificiais MultiLayerPerceptron MLPClassifier Árvores de Decisão ADTree PART Comparação de Resultados Conclusão Referências

26

27 25 1 INTRODUÇÃO A confirmação do diagnóstico de câncer de próstata em pacientes é uma tarefa complicada que requer na maioria dos casos a realização de biópsia, procedimento que auxilia na detecção da doença. Este procedimento consiste na coleta de uma amostra das células prostáticas para análise laboratorial, e é um procedimento invasivo e inconveniente 50% dos homens relatam incômodo durante a biópsia [1]. Na tentativa de reduzir a chance que um paciente tem de ser submetido ao procedimento, existem técnicas que se baseam em dados clínicos, obtidos desde a primeira suspeita para a construção de modelos determinadores da necessidade de biópsia. No entanto, mesmo com a utilização de informações obtidas através de exames, o diagnóstico não é livre de incertezas; Djavan et al. [2] afirmam que níveis elevados de PSA não confirmam o câncer de próstata, pois estes também podem occorer em casos de doenças prostáticas benignas. Sendo assim, testes efetuados somente com o marcador de PSA mostraram-se ineficazes pois recomendavam pacientes para a biópsia sem que houvesse necessidade [3]. Pesquisas mais recentes sugerem a incorporação de métodos matemáticos e computacionais para auxiliar na solução do problema, como a construção de nomogramas 1 [6] baseados em atributos como estágio clínico, PSA e pontuação de Gleason 2 para inferir um diagnóstico (nomograma proposto por Kattan et al. [7]). Outra técnica fortemente utilizada é a regressão logística, um tipo de análise de regressão que possui como objetivo prever a saída de uma variável binária ou multinomial a partir de variáveis independentes discretas e/ou contínuas. Por fim, métodos de classificação mais generalizáveis e flexíveis baseados em técnicas de aprendizado de máquina, como por exemplo redes neurais artificiais e máquinas de vetores de suporte surgiram como alternativas, propondo vantagens devido à capacidade de reconhecer padrões e inter-relações não lineares entre variáveis [2]. A proposta deste trabalho consiste no estudo e aplicação de técnicas de aprendizado de máquina para inferir a necessidade de biópsia para câncer de próstata, usando como estudo de caso dados coletados de pacientes do Hospital Universitário da Universidadade Estadual de Londrina, Paraná, acompanhados pelo médico professor de Urologia, Dr. Horácio Alvarenga Moreira. Os indicadores de desempenho e eficácia de classificação das técnicas e algoritmos selecionados são calculados e ao final são estabelecidas comparações entre si. O trabalho segue estruturado da seguinte forma: no capítulo 2, a fundamentação 1 Diagrama que representa as relações entre valores de uma ou mais variáveis [4] de forma que uma linha reta tocando as escalas interceptem nos valores apropriados de cada variável [5]. 2 Classificação que avalia o prognóstico do tumor prostático através do procedimento de biópsia; quanto maior a pontuação, mais acentuada é a agressividade do tumor.

28 26 Capítulo 1. Introdução téorica é apresentada, onde as seções individuais descrevem aspectos do câncer de próstata e motivação do problema, técnicas e métodos de classificação no campo de aprendizado de máquina e trabalhos correlatos à proposta. No capítulo 3 são fornecidas informações a respeito do ambiente configurado para realização de testes, explicação do conjunto de dados e dos atributos relevantes e experimentos efetuados com os algoritmos e técnicas apresentados no capítulo anterior. Em seguida, os resultados de classificação obtidos a partir dos modelos gerados são dispostos no capítulo 4 categorizados pelos algoritmos, e ao fim do capítulo um sumário dos resultados gerais é compilado. Por fim, as considerações finais do trabalho são apresentadas no capítulo 5 juntamente com dificuldades encontradas e sugestões para pesquisas futuras.

29 27 2 FUNDAMENTAÇÃO TEÓRICA Para uma melhor compreensão do campo de estudo, são apresentados nas seções a seguir conceitos pertinentes ao problema proposto. Na seção 2.1, é descrita a fundamentação médica a respeito ao câncer de próstata, incluindo características da doença, dificuldades no diagnóstico e tratamentos mais comuns. Em seguida, a área de aprendizado de máquina é introduzida englobando conceitos básicos e técnicas computacionais pertinentes ao campo de estudo. Por fim, é efetuado um levantamento e breve análise de trabalhos relacionados acerca do tema com ênfase às técnicas descritas na seção Câncer de próstata O câncer de próstata é a sexta principal causa de mortalidade relacionada ao câncer [8], com fatores de risco como idade, histórico familiar e etnia [2]. Devido à grande heterogeneidade biológica da doença [9], o câncer de próstata possui como característica grande dificuldade em sua detecção e diagnóstico. Muito se deve ao fato que grande parte dos portadores de câncer prostático não exibem sintomas e devido a isso, não são submetidos a nenhum tipo de terapia [10]. Outro motivo recorrente é a falta de palpabilidade do tumor, imperceptível muitas vezes por exames de ultrassom ou ressonância magnética [7]. Além disso, dentre os diagnósticos confirmados, somente uma pequena parcela de pacientes correm sérios riscos: apesar de um em cada seis homens desenvolverem câncer de próstata durante sua vida, destes, apenas um em dez casos manifestam tumores agressivos [11]. Pacientes que não apresentam uma combinação de dados clínicos indicando alto risco não são beneficiados pelo procedimento de biópsia, o qual requer anestesia local e pode causar ansiedade, dor, sangramentos e infecções, assim como custos e despesas médicas adicionais. O marcador do antígeno específico da próstata (prostate specific antigen, abreviado como PSA) é o parâmetro mais amplamente utilizado para o diagnóstico precoce de câncer de próstata [12] o antígeno está presente em pequenas quantidades em homens com boa saúde prostática, porém mostra-se elevado com frequência na presença de câncer de próstata e outras doenças prostáticas [13]. Devido ao grande número de falsos positivos obtidos através do uso exclusivo do valor de PSA, este é considerado ineficaz no processo de inferência do diagnóstico [14]. Apesar da existência de valores de referência para o PSA de acordo com a faixa etária, valores superiores a 4ng/mL sugerem alguma anomalia prostática, em sua maioria não relacionadas ao câncer, como por exemplo, retenção urinária, prostatite, ejaculação e hiperplasia prostática benigna (BPH, do inglês benign prostatic hyperplasia) [15], as quais

30 28 Capítulo 2. Fundamentação Teórica causam inflamação da próstata são responsáveis por um aumento na produção de PSA [16] De forma análoga, estima-se que 20% de pacientes diagnosticados com câncer de próstata clinicamente significativo possuem um valor de PSA inferior a 4ng/mL [17]. Outras variáveis indicativas de biópsia incluem o exame de toque, responsável por identificar alteração no volume prostático e taxa de percentual de PSA livre em relação ao PSA total, calculado através da razão dos valores obtidos por meio de hemogramas. Assim como para o PSA, um aumento no volume da próstata não indica necessariamente um tumor cancerígeno a métrica de densidade (razão entre PSA e volume total), introduzida para efetuar um ajuste discriminatório entre os pacientes, possui um valor de corte de aproximadamente 0.15 para distinguir entre uma hipertrofia benigna e um possível tumor [18]. No entanto, a variação diária do valor de PSA assim como uma inexatidão de 10% a 30% no cálculo do volume prostático limitam a utilidade clínica deste parâmetro [15] leituras de PSA que permanecem elevadas por um período de no mínimo três meses são altamente indicativas de suspeita de câncer de próstata, enquanto oscilações constantes sugerem um processo benigno [19]. Para a métrica de PSA livre/total, valores inferiores a 0.15 (15%) sugerem presença de câncer com probabilidade maior que 50%; a faixa de 0.15 a 0.25 é definida como faixa de incerteza e valores acima de 0.25 indicam probabilidade inferior a 10% [20]. Tratamentos possíveis para o diagnóstico de câncer de próstata localizado incluem espera e monitoramento cuidadoso, prostectomia radical 1, braquiterapia 2, radiação externa, entre outros [7]. A seleção do tratamento apropriado para cada paciente depende do diagnóstico fatores como estágio clínico do câncer, outras complicações de saúde (problemas cardiovasculares, diabetes, entre outras doenças), idade e disponibilidade de tratamento são os principais motivos considerados no momento em que o médico determina o tipo de tratamento mais adequado ao paciente [21]. 2.2 Aprendizado de máquina Subcampo da inteligência artificial, o aprendizado de máquina é a área que engloba o estudo e a construção de sistemas inteligentes a partir de dados [22]. Após efetuado o aprendizado, também denominado treinamento, um sistema pode ser utilizado para classificar ou estimar saídas para instâncias desconhecidas. Arthur Samuel, norte-americano pioneiro na área de inteligência artificial aplicada a jogos, definiu o aprendizado de máquina como "o campo de estudos que fornece a computadores a habilidade de aprenderem sem serem explicitamente programados"[23]. 1 Remoção cirúrgica parcial ou total da glándula prostática. 2 Forma de radioterapia onde a fonte de radiação é posicionada internamente ou próxima à região necessitada de tratamento.

31 2.2. Aprendizado de máquina 29 Witten e Frank [24] descreveram quatro conceitos caracterizando os vários algoritmos de aprendizado de máquina: aprendizado por classificação, onde um conjunto de exemplos pertencentes à classes são utilizados para construir modelos; aprendizado por associação, onde deseja-se identificar grupos de um ou mais atributos que determinam o valor de classe de uma instância; aprendizado por agrupamento, no qual exemplos semelhantes de acordo com um critério estabelecido são agrupados; e aprendizado por regressão, que possui como objetivo desenvolver um modelo matemático correlacionando atributos com o valor de classe [23]. Dentre as diversas técnicas desenvolvidas na área de aprendizado de máquina, foram consideradas para este estudo as técnicas mais recorrentes em pesquisas correlatas para tarefas relacionadas ao problema incluindo como por exemplo dedução de diagnóstico da doença, avaliação de prognóstico em pacientes portadores e inferência da necessidade de biópsia para câncer de próstata Regressão logística A regressão logística é um tipo de modelo de classificação probabilístico que possui como objetivo estimar o valor de classe de uma variável dependente a partir de outras variáveis discretas e/ou contínuas [25]. A classe que se deseja estimar é frequentemente binária no caso onde existam mais que duas classes, a regressão logística multinomial deve ser usada. Apesar de compartilhar pequenas semelhanças com técnicas estatísticas, a regressão logística é uma técnica originada no campo de aprendizado de máquina, pois possui como objetivo classificar instâncias de acordo com um conjunto de atributos; desta forma, a análise de regressão tem como tarefa não somente identificar quais variáveis independentes influenciam o resultado da variável dependente mas também como estas o fazem. No entanto, deve-se evitar a inferência de causalidade entre as variáveis no modelo, pois este configura um conceito distinto da correlação entre variáveis [26]. Para uma melhor compreensão da técnica de regressão logística, alguns conceitos matemáticos são necessários; a função logística (eq. 2.1, ilustrada graficamente na figura 1 é a fundamentação elementar deste tipo de análise de regressão. f(t) = et e t + 1 = 1 f : R [0, 1] (2.1) 1 + e t Também denominada de função ou curva sigmóide, é delimitada no intervalo entre 0 e 1 para qualquer t R; esta delimitação garante que o valor de saída estimado pelo modelo permaneça no intervalo, permitindo a interpretação do valor como uma figura probabilística.

32 30 Capítulo 2. Fundamentação Teórica Figura 1: Gráfico da função logística A construção básica de um modelo de regressão logística é similar ao mecanismo desenvolvido para a regressão linear: Definição 1. Suponha um conjunto de dados contendo N pontos observados. Cada ponto consiste em um conjunto de M variáveis explanatórias x 1,i, x 2,i,..., x M,i, 0 i < N (também denominadas variáveis independentes, características ou atributos) e uma variável dependente binária Y i, isto é, limitada aos valores 0 e 1. Como dito anteriormente, as variáveis independentes podem ser do tipo reais, binárias ou categóricas. Estas podem ser classificadas como contínuas, atributos como por exemplo salário, idade e altura, ou discretas, tais como sexo ou tipo sanguíneo. Variáveis discretas expressas de forma textual podem ser codificadas numericamente em categorias ou em atributos binários adicionais. A variável dependente de saída assume a forma de uma distribuição Bernoulli, descrita na equação 2.2. P r (Y i x 1,i, x 2,i,..., x m,i ) = p y i i (1 p i ) 1 y i = p i se y i = 1 1 p i se y i = 0 (2.2) A probabilidade de sucesso Y i = 1 é denotada por p i, e seu complemento 1 - p i indica Y i = 0. O objetivo da regressão logística é encontrar os coeficientes de uma combinação linear das variáveis explicativas que preveja a variável de saída corretamente. Esta função g(i) é escrita da seguinte forma: g(i) = β 0 + β 1 x 1,i + + β M x m,i (2.3) onde β 0, β 1,..., β M R são os coeficientes de regressão e x 1,i, x 2,i,..., x M,i as variáveis independentes. g(i) pode ser reescrita de forma compacta usando a notação de

33 2.2. Aprendizado de máquina 31 produto escalar entre os vetores β e X i. g(i) = β X i (2.4) No entanto, o valor calculado por g(i) pode assumir valores arbitrários no conjunto dos números reais, dadas as entradas x 1,i, x 2,i,..., x M,i fornecidas. Para contornar este problema, a combinação linear de coeficientes e variáveis explanatórias é fornecida à função logística (eq. 2.1) como parâmetro. A probabilidade de sucesso π i é equivalente a composição f g, dada na eq π i = f(g(i)) = e g(i) = e (β X i) (2.5) Ao aplicar g(i) à função logística, é possível observar as mesmas propriedades que caracterizam a eq. 2.1 e que reforçam o comportamento probabilístico [27]: lim π i = 1 g(i) + lim π i = 0 (2.6) g(i) Para estimar os coeficientes, utiliza-se a estimativa por máxima verossimilhança (MLE) (equação 2.7). P (π i X, β) = = N Bernoulli(y i π i (β X i )) i=1 N π y i i (1 π i ) 1 y i i=1 N [ ] 1 yi [ ] 1 1 yi 1 (2.7) 1 + e (β X i) 1 + e (β X i) i=1 No entanto, devido a grande quantidade de expressões exponenciais em 2.7, aplicamos o logaritmo negativo desta forma, o produtório torna-se um somatório e algumas expressões exponenciais são substituídas por logaritmos [25]. A função log-verossimilhança negativa L(β) a ser minimizada é descrita em 2.8. L(β) = log P (π i X, β) N = y i log π i + (1 y i ) log(1 π i ) (2.8) i=1

34 32 Capítulo 2. Fundamentação Teórica Para efetuar a minimização de L(β), utiliza-se um método numérico iterativo. A motivação no uso da técnica se deve não somente à interpretabilidade do modelo, uma vez que a magnitude dos coeficientes em 2.3 influenciam o resultado da probabilidade estimada, mas também o pequeno número de parâmetros desconhecidos: um conjunto de dados de dimensão R m resultará em m + 1 coeficientes. As tabelas de Partin, propostas por [28] originalmente em 1993, são um tipo de nomograma comumente utilizado para prever o estado patológico de um paciente após o procedimento de prostactemia radical. As tabelas foram obtidas através de regressão logística baseado nos atributos PSA, estágio clínico do câncer de próstata e soma de Gleason. Eifler et al. [29] propuseram uma atualização ao nomograma devido à mudança no sistema de pontuação de Gleason e da natureza do diagnóstico da doença dezenove anos após ao nomograma primário Redes neurais artificiais Com o funcionamento análogo à redes ou circuito de neurônios reais [30], uma rede neural artificial consiste em um grupo de neurônios artificiais interconectados, utilizando um modelo matemático para processamento de informações através da modelagem de relações complexas não lineares entre as variáveis de entrada sem outras informações previamente fornecidas [9]. Redes neurais são sistemas adaptáveis, onde o fluxo de informações internas ou externas à rede alteram sua estrutura. Considerada como uma das representações mais comuns de redes neurais artificiais, o multi-layer perceptron é dividido em três partes: neurônios de entrada, neurônios ocultos e neurônios de saída. Um grupo de neurônios é denominado uma camada, onde o número de neurônios na camada de entrada é igual ao número de variáveis da entrada e o número de neurônios na camada de saída é igual ao número de variáveis de saída [31]. O número de neurônios nas camadas ocultas pode ser escolhido arbitrariamente, porém algumas pesquisas [32][33][34] sugerem o uso de uma relação entre a quantidade de neurônios nas camadas de entrada e saída para determinar a quantidade ideal de neurônios para uma camada oculta esta relação é dada em 2.9 como a raiz quadrada entre o produto da quantidade de neurônios das camadas de entrada e saída. N h = N i N o (2.9) A figura 2 ilustra uma rede neural simples feedforward 3 os neurônios são representados através de círculos, cada um conectado aos neurônios da camada subsequente, exceto pela camada final. As arestas representam as conexões entre neurônios e possuem 3 Rede neural artificial onde a direção do fluxo de dados é única, i.e. não existem ciclos.

35 2.2. Aprendizado de máquina 33 um valor arbitrário inicial, o peso da conexão. As setas indicam a direção do fluxo de dados, a partir da camada de entrada até a camada de saída. Oculta Entrada Saída Figura 2: Visão simplificada das camadas uma rede neural artificial multi-layer perceptron O funcionamento de uma rede neural artificial dá-se por meio de dois processos: treinamento e teste. O treinamento é realizado para ensinar a rede, com o intuito de obter os valores de saída corretos de acordo com as variáveis de entrada. A técnica de treinamento mais simples, o backpropagation, emprega o cálculo da variação do erro; este é então propagado na direção oposta da computação dos dados, alterando os pesos das conexões de forma que um novo valor de saída seja ainda mais próximo ao valor real [35]. O treinamento é encerrado assim que a taxa de erro cai abaixo do valor de tolerância especificado. A etapa de teste avalia o desempenho de classificação da rede: utilizando um conjunto de dados distinto, calculam-se os valores de saída sem que o erro obtido ao final seja propagado esta taxa de erro representa o quão próximo os valores reais de saída se situam comparados aos valores calculados pela rede neural [36]. Existem, no entanto, algumas complicações presentes nas fases de treinamento e teste de uma rede neural artificial. O overfitting ocorre quando uma rede é treinada demasiadamente, gerando valores especializados somente no conjunto de dados do treinamento, assim quaisquer outras entradas desconhecidas à rede apresentam taxa de erro maior que a tolerância estabelecida [31]. Outro ponto a ser observado é a interpretação do erro obtido nas saídas da rede; geralmente calcula-se uma estimativa média do erro sobre todas os valores processados. Caso as saídas sejam discretas ou até mesmo binárias, é necessário definir critérios adicionais para avaliação do erro. Em casos onde o conjunto de dados gera mais de uma saída, como por exemplo na Figura 2 em que a rede neural possui duas saídas para três valores de entrada, calcula-se a média do erro sobre todas os valores de saída obtidos e subsequentemente a média sobre todos os registros processados. A forma de retropropagação do erro em uma rede neural é determinado pelo algoritmo utilizado; a função ilustrada na figura 3, descrita por Russell e Norvig [31] efetua

36 34 Capítulo 2. Fundamentação Teórica uma otimização por meio de descida do gradiente, técnica que possui como objetivo minimizar a soma dos quadrados dos erros utilizando a derivada de primeira ordem. A idéia por trás do algoritmo é dividir o erro calculado e distribuí-los de acordo com o peso das conexões aos neurônios das camadas precedentes. A atualização dos pesos é efetuada assim que o gradiente de erro é obtido entre os neurônios que compartilham a conexão. função Backpropagation(exemplos, rede) retorna uma rede neural parâmetros exemplos, conjunto de exemplos com vetores de entrada x e saída y rede, rede neural com L camadas, pesos W i,j, função de ativação g repita para cada e em exemplos faça para cada nó j na camada de entrada faça a j x j [e] para l = 2 até L faça entrada i W j,i a j j a i g(entrada i ) para cada nó i na camada de saída faça Δ i g (entrada i ) (y i [e] a i ) Valor calculado é fornecido à função de ativação Gradiente de erro na camada L para l = L - 1 até 1 faça para cada nó j na camada l faça Δ j g (entrada j ) W j,i Δ i Cálculo do gradiente de erro i para cada nó i na camada l + 1 faça W j,i W j,i + η a j Δ i Atualização de pesos até que algum critério de parada seja satisfeito fim função Figura 3: Função backpropagation simples Existem variações do algoritmo padrão de backpropagation que incluem parâmetros adicionais para controle dos pesos como por exemplo a constante de momento (momentum rate) e a taxa de declínio (decay) [37] com o intuito de reduzir a presença de mínimos locais assim como um ajuste mais refinado dos pesos. Outros algoritmos para treinamento utilizam métodos numéricos alternativos, como por exemplo gradiente conjugado (SCG), o qual efetua buscas em direções conjugadas ao gradiente providenciando uma convergência mais rápida [9]. Adicionalmente, o algoritmo de Levenberg-Marquadt consiste em uma combinação dos métodos de descida de gradiente e o algoritmo de Gauss-Newton; desta forma, é possível determinar diferentes valores de ajuste dadas variações no gradiente [38]. Apesar da alta popularidade de redes do tipo multi-layer perceptron, existem diversos outros modelos de redes com o mesmo princípio básico de interconexão entre neurônios porém com estruturas e propósitos distintos as redes Hopfield são um tipo de rede neural artificial recorrente (conexões entre neurônios assumem mais de uma direção) utilizadas para o reconhecimento de padrões devido a capacidade de agirem como memórias associativas recuperando padrões próximos aos que lhe foram apresentados durante o treinamento

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

AULAS 13, 14 E 15 Correlação e Regressão

AULAS 13, 14 E 15 Correlação e Regressão 1 AULAS 13, 14 E 15 Correlação e Regressão Ernesto F. L. Amaral 23, 28 e 30 de setembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr Análise de Regressão Tópicos Avançados em Avaliação de Desempenho Cleber Moura Edson Samuel Jr Agenda Introdução Passos para Realização da Análise Modelos para Análise de Regressão Regressão Linear Simples

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

1 Tipos de dados em Análise de Clusters

1 Tipos de dados em Análise de Clusters Curso de Data Mining Sandra de Amo Aula 13 - Análise de Clusters - Introdução Análise de Clusters é o processo de agrupar um conjunto de objetos físicos ou abstratos em classes de objetos similares Um

Leia mais

Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial

Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto Laboratório Protem Departamento

Leia mais

Aula 2 RNA Arquiteturas e Treinamento

Aula 2 RNA Arquiteturas e Treinamento 2COP229 Aula 2 RNA Arquiteturas e Treinamento 2COP229 Sumário 1- Arquiteturas de Redes Neurais Artificiais; 2- Processos de Treinamento; 2COP229 1- Arquiteturas de Redes Neurais Artificiais -Arquitetura:

Leia mais

Inteligência Artificial. Redes Neurais Artificiais

Inteligência Artificial. Redes Neurais Artificiais Curso de Especialização em Sistemas Inteligentes Aplicados à Automação Inteligência Artificial Redes Neurais Artificiais Aulas Práticas no Matlab João Marques Salomão Rodrigo Varejão Andreão Matlab Objetivos:

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Indução de Árvores de Decisão para a Inferência de Redes Gênicas

Indução de Árvores de Decisão para a Inferência de Redes Gênicas PR UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Ministério da Educação Universidade Tecnológica Federal do Paraná Pró-Reitoria de Pesquisa e Pós-Graduação Relatório Final de Atividades Indução de Árvores

Leia mais

Redes Neurais. Profa. Flavia Cristina Bernardini

Redes Neurais. Profa. Flavia Cristina Bernardini Redes Neurais Profa. Flavia Cristina Bernardini Introdução Cérebro & Computador Modelos Cognitivos Diferentes Cérebro Computador Seqüência de Comandos Reconhecimento de Padrão Lento Rápido Rápido Lento

Leia mais

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais.

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais. 1. Introdução A previsão de vendas é fundamental para as organizações uma vez que permite melhorar o planejamento e a tomada de decisão sobre o futuro da empresa. Contudo toda previsão carrega consigo

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação Classificação: Definição Mineração de dados Classificação: conceitos básicos e árvores de decisão Apresentação adaptada do material de apoio do livro: Introduction to Data Mining Tan, Steinbach, Kumar

Leia mais

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica João Paulo Teixeira*, José Batista*, Anildio Toca**, João Gonçalves**, e Filipe Pereira** * Departamento de Electrotecnia

Leia mais

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia

Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Técnicas de Mineração de Dados Aplicadas a Reservatórios visando à Gestão Ambiental na Geração de Energia Aluno: Gabriel Leite Mariante Orientador: Marley Maria Bernardes Rebuzzi Vellasco Introdução e

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

INE 7001 - Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

INE 7001 - Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis INE 7001 - Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis O objetivo deste texto é apresentar os principais procedimentos

Leia mais

Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial

Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial André Ricardo Gonçalves 1, Maria Angélica de Oliveira Camargo Brunetto 2 1,2 Laboratório de Pesquisa

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron. 1024 UMA ABORDAGEM BASEADA EM REDES PERCEPTRON MULTICAMADAS PARA A CLASSIFICAÇÃO DE MASSAS NODULARES EM IMAGENS MAMOGRÁFICAS Luan de Oliveira Moreira¹; Matheus Giovanni Pires² 1. Bolsista PROBIC, Graduando

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Relatório Iniciação Científica

Relatório Iniciação Científica Relatório Iniciação Científica Ambientes Para Ensaios Computacionais no Ensino de Neurocomputação e Reconhecimento de Padrões Bolsa: Programa Ensinar com Pesquisa-Pró-Reitoria de Graduação Departamento:

Leia mais

Algoritmos Indutores de Árvores de

Algoritmos Indutores de Árvores de Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Sistemas Inteligentes Análise e Desenvolvimento de Sistemas Faculdades de Tecnologia Bandeirantes Abril de 2013 Problema: Diagnóstico para uso

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS Curso: Informática Disciplina: Redes Neurais Prof. Fernando Osório E-mail: osorio@exatas.unisinos.br EXEMPLO DE QUESTÕES DE PROVAS ANTIGAS 1. Supondo que

Leia mais

Análise de Tendências de Mercado por Redes Neurais Artificiais

Análise de Tendências de Mercado por Redes Neurais Artificiais Análise de Tendências de Mercado por Redes Neurais Artificiais Carlos E. Thomaz 1 e Marley M.B.R. Vellasco 2 1 Departamento de Engenharia Elétrica (IAAA), FEI, São Paulo, Brasil 2 Departamento de Engenharia

Leia mais

AULA 3 Ferramentas de Análise Básicas

AULA 3 Ferramentas de Análise Básicas 3.1 AULA 3 Ferramentas de Análise Básicas Neste capítulo serão apresentadas algumas ferramentas de análise de dados com representação vetorial disponíveis no TerraView. Para isso será usado o banco de

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida 27 de maio de 2014 O que é a Neural Networw Toolbox? A Neural Network Toolbox fornece funções e aplicativos para a modelagem de sistemas não-lineares complexos que não são facilmente modelados com uma

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

Redes neurais aplicadas na identificação de variedades de soja

Redes neurais aplicadas na identificação de variedades de soja Redes neurais aplicadas na identificação de variedades de soja Fábio R. R. Padilha Universidade Regional do Noroeste do Estado do Rio Grande do Sul - UNIJUÍ Rua São Francisco, 5 - Sede Acadêmica, 987-,

Leia mais

UMA ABORDAGEM DE PODA PARA MÁQUINAS DE APRENDIZADO EXTREMO VIA ALGORITMOS GENÉTICOS

UMA ABORDAGEM DE PODA PARA MÁQUINAS DE APRENDIZADO EXTREMO VIA ALGORITMOS GENÉTICOS UMA ABORDAGEM DE PODA PARA MÁQUINAS DE APRENDIZADO EXTREMO VIA ALGORITMOS GENÉTICOS Alisson S. C. Alencar, Ajalmar R. da Rocha Neto Departamento de Computação, Instituto Federal do Ceará (IFCE). Programa

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem: 1 As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia e não têm a intenção de substituir o livro-texto, nem qualquer outra bibliografia. Introdução O Cálculo Numérico

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem: 1 UNIVERSIDADE FEDERAL DE VIÇOSA Departamento de Matemática - CCE Cálculo Numérico - MAT 271 Prof.: Valéria Mattos da Rosa As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

CAPÍTULO 1 INTRODUÇÃO 1.1 INTRODUÇÃO

CAPÍTULO 1 INTRODUÇÃO 1.1 INTRODUÇÃO CAPÍTULO 1 INTRODUÇÃO 1.1 INTRODUÇÃO Em quase todas as nossas atividades diárias precisamos enfrentar filas para atender as nossas necessidades. Aguardamos em fila na padaria, nos bancos, quando trafegamos

Leia mais

[2.000] (IP:281473857278462

[2.000] (IP:281473857278462 1. [2.000] (IP:281473857278462 19:36:32 19:32:41 56:09 4.486) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". A afirmativa é verdadeira,

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais.

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais. UMA ANÁLISE COMPARATIVA DE MODELOS PARA CLASSIFICAÇÃO E PREVISÃO DE SOBREVIVÊNCIA OU ÓBITO DE CRIANÇAS NASCIDAS NO RIO DE JANEIRO EM 2006 NO PRIMEIRO ANO DE VIDA Mariana Pereira Nunes Escola Nacional de

Leia mais

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A. IMES Catanduva Probabilidades e Estatística Estatística no Excel Matemática Bertolo, L.A. Aplicada Versão BETA Maio 2010 Bertolo Estatística Aplicada no Excel Capítulo 3 Dados Bivariados São pares de valores

Leia mais

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior barbon@uel.br 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa I Etapa II Inteligência de Negócios Visão

Leia mais

Redes Neurais. Mapas Auto-Organizáveis. 1. O Mapa Auto-Organizável (SOM) Prof. Paulo Martins Engel. Formação auto-organizada de mapas sensoriais

Redes Neurais. Mapas Auto-Organizáveis. 1. O Mapa Auto-Organizável (SOM) Prof. Paulo Martins Engel. Formação auto-organizada de mapas sensoriais . O Mapa Auto-Organizável (SOM) Redes Neurais Mapas Auto-Organizáveis Sistema auto-organizável inspirado no córtex cerebral. Nos mapas tonotópicos do córtex, p. ex., neurônios vizinhos respondem a freqüências

Leia mais

2.1.2 Definição Matemática de Imagem

2.1.2 Definição Matemática de Imagem Capítulo 2 Fundamentação Teórica Este capítulo descreve os fundamentos e as etapas do processamento digital de imagens. 2.1 Fundamentos para Processamento Digital de Imagens Esta seção apresenta as propriedades

Leia mais

Previsão do Índice da Bolsa de Valores do Estado de São Paulo utilizandoredes Neurais Artificiais

Previsão do Índice da Bolsa de Valores do Estado de São Paulo utilizandoredes Neurais Artificiais Previsão do Índice da Bolsa de Valores do Estado de São Paulo utilizandoredes Neurais Artificiais Redes Neurais Artificiais Prof. Wilian Soares João Vitor Squillace Teixeira Ciência da Computação Universidade

Leia mais

Aplicações Práticas com Redes Neurais Artificiais em Java

Aplicações Práticas com Redes Neurais Artificiais em Java com em Java Luiz D Amore e Mauro Schneider JustJava 2009 17 de Setembro de 2009 Palestrantes Luiz Angelo D Amore luiz.damore@metodista.br Mauro Ulisses Schneider mauro.schneider@metodista.br http://blog.mauros.org

Leia mais

GUILHERME STUTZ TÖWS ANIMAÇÃO DE ALGORITMOS

GUILHERME STUTZ TÖWS ANIMAÇÃO DE ALGORITMOS GUILHERME STUTZ TÖWS ANIMAÇÃO DE ALGORITMOS Trabalho de graduação do Curso de Ciência da Computação do Setor de Ciências Exatas da Universidade Federal do Paraná. Professor: André Luiz Pires Guedes CURITIBA

Leia mais

Modelos Pioneiros de Aprendizado

Modelos Pioneiros de Aprendizado Modelos Pioneiros de Aprendizado Conteúdo 1. Hebb... 2 2. Perceptron... 5 2.1. Perceptron Simples para Classificaçãod e Padrões... 6 2.2. Exemplo de Aplicação e Motivação Geométrica... 9 2.3. Perceptron

Leia mais

Classificação de Imagens Tomográficas de Ciência dos Solos Utilizando Redes Neurais e Combinação de Classificadores

Classificação de Imagens Tomográficas de Ciência dos Solos Utilizando Redes Neurais e Combinação de Classificadores Classificação de Imagens Tomográficas de Ciência dos Solos Utilizando Redes Neurais e Combinação de Classificadores Fabricio Aparecido Breve Prof. Dr. Nelson Delfino d Ávila Mascarenhas Apresentação Objetivos

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

Bioestatística Aula 3

Bioestatística Aula 3 Aula 3 Castro Soares de Oliveira Probabilidade Probabilidade é o ramo da matemática que estuda fenômenos aleatórios. Probabilidade é uma medida que quantifica a sua incerteza frente a um possível acontecimento

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Um modelo de TRI para dados do vestibular 2011.2 da Universidade Federal de Uberlândia

Um modelo de TRI para dados do vestibular 2011.2 da Universidade Federal de Uberlândia Um modelo de TRI para dados do vestibular 20.2 da Universidade Federal de Uberlândia Luana Amâncio Terra 2 José Waldemar da Silva 2 Lúcio Borges de Araújo 2 Maria Imaculada de Sousa Silva 2 Introdução

Leia mais

INSTRUMENTAÇÃO INDUSTRIAL 1. INTRODUÇÃO / DEFINIÇÕES

INSTRUMENTAÇÃO INDUSTRIAL 1. INTRODUÇÃO / DEFINIÇÕES 1 INSTRUMENTAÇÃO INDUSTRIAL 1. INTRODUÇÃO / DEFINIÇÕES 1.1 - Instrumentação Importância Medições experimentais ou de laboratório. Medições em produtos comerciais com outra finalidade principal. 1.2 - Transdutores

Leia mais

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP Thiago Ferauche, Maurício Amaral de Almeida Laboratório de Pesquisa em Ciência de Serviços

Leia mais

Classificação de pacientes com transtorno de dislexia usando Redes Neurais Artificiais

Classificação de pacientes com transtorno de dislexia usando Redes Neurais Artificiais Classificação de pacientes com transtorno de dislexia usando Redes Neurais Artificiais Raimundo José Macário Costa Programa de Engenharia de Sistemas, COPPE/UFRJ E-mail: macario@cos.ufrj.br Telma Silveira

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

Introdução a Química Analítica. Professora Mirian Maya Sakuno

Introdução a Química Analítica. Professora Mirian Maya Sakuno Introdução a Química Analítica Professora Mirian Maya Sakuno Química Analítica ou Química Quantitativa QUÍMICA ANALÍTICA: É a parte da química que estuda os princípios teóricos e práticos das análises

Leia mais

4 Gráficos de controle

4 Gráficos de controle 4 Gráficos de controle O gráfico de controle é uma ferramenta poderosa do Controle Estatístico de Processo (CEP) para examinar a variabilidade em dados orientados no tempo. O CEP é composto por um conjunto

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Revista Hispeci & Lema On Line ano III n.3 nov. 2012 ISSN 1980-2536 unifafibe.com.br/hispecielemaonline Centro Universitário UNIFAFIBE Bebedouro-SP

Revista Hispeci & Lema On Line ano III n.3 nov. 2012 ISSN 1980-2536 unifafibe.com.br/hispecielemaonline Centro Universitário UNIFAFIBE Bebedouro-SP Reconhecimento de face utilizando banco de imagens monocromáticas e coloridas através dos métodos da análise do componente principal (PCA) e da Rede Neural Artificial (RNA) [Recognition to face using the

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendizagem de Máquina Alessandro L. Koerich Introdução Desde que os computadores foram inventados temos nos perguntado: Eles são capazes de aprender? Se pudéssemos programá-los para aprender

Leia mais

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro Tiago Mendes Dantas t.mendesdantas@gmail.com Departamento de Engenharia Elétrica,

Leia mais

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014 PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método

Leia mais

III EGEPUB/COPPE/UFRJ

III EGEPUB/COPPE/UFRJ Luiz Otávio Zahar III EGEPUB/COPPE/UFRJ 27/11/2014 O que é a próstata? A próstata é uma glândula pequena que fica abaixo da bexiga e envolve o tubo (chamado uretra) pelo qual passam a urina e o sêmen.

Leia mais

Relatório de uma Aplicação de Redes Neurais

Relatório de uma Aplicação de Redes Neurais UNIVERSIDADE ESTADUAL DE MONTES CLAROS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS DEPARTAMENTO DE CIÊNCIAS DA COMPUTACAÇÃO ESPECIALIZAÇÃO EM ENGENHARIA DE SISTEMAS DISCIPLINA: REDES NEURAIS PROFESSOR: MARCOS

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

Previsão do Mercado de Ações Brasileiro utilizando Redes Neurais Artificiais

Previsão do Mercado de Ações Brasileiro utilizando Redes Neurais Artificiais Previsão do Mercado de Ações Brasileiro utilizando Redes Neurais Artificiais Elisângela Lopes de Faria (a) Marcelo Portes Albuquerque (a) Jorge Luis González Alfonso (b) Márcio Portes Albuquerque (a) José

Leia mais

Análise de Técnicas Computacionais para Classificação de Emoções

Análise de Técnicas Computacionais para Classificação de Emoções Análise de Técnicas Computacionais para Classificação de Emoções Fabiano Alves, Eduardo Silva e Adilmar Coelho Dantas Faculdade de Computação Universidade Federal de Uberlândia, UFU Uberlândia, Brasil

Leia mais

TRATAMENTO MULTIVARIADO DE DADOS POR ANÁLISE DE CORRESPONDÊNCIA E ANÁLISE DE AGRUPAMENTOS

TRATAMENTO MULTIVARIADO DE DADOS POR ANÁLISE DE CORRESPONDÊNCIA E ANÁLISE DE AGRUPAMENTOS TRATAMENTO MULTIVARIADO DE DADOS POR ANÁLISE DE CORRESPONDÊNCIA E ANÁLISE DE AGRUPAMENTOS Luciene Bianca Alves ITA Instituto Tecnológico de Aeronáutica Praça Marechal Eduardo Gomes, 50 Vila das Acácias

Leia mais

Revisão Inteligência Artificial ENADE. Prof a Fabiana Lorenzi Outubro/2011

Revisão Inteligência Artificial ENADE. Prof a Fabiana Lorenzi Outubro/2011 Revisão Inteligência Artificial ENADE Prof a Fabiana Lorenzi Outubro/2011 Representação conhecimento É uma forma sistemática de estruturar e codificar o que se sabe sobre uma determinada aplicação (Rezende,

Leia mais

Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz

Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz Laboratório de Dependabilidade e Segurança Lades Profs. Luiz Laranjeira, Nilton Silva, e Fabrício Braz RENASIC/CD-CIBER CD Ciber CTC - Comitê Técnico Científico RENASIC CD Comitê Diretor ASTECA VIRTUS

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

CBPF Centro Brasileiro de Pesquisas Físicas. Nota Técnica

CBPF Centro Brasileiro de Pesquisas Físicas. Nota Técnica CBPF Centro Brasileiro de Pesquisas Físicas Nota Técnica Aplicação de Física Médica em imagens de Tomografia de Crânio e Tórax Autores: Dário Oliveira - dario@cbpf.br Marcelo Albuquerque - marcelo@cbpf.br

Leia mais

4 Arquitetura básica de um analisador de elementos de redes

4 Arquitetura básica de um analisador de elementos de redes 4 Arquitetura básica de um analisador de elementos de redes Neste capítulo é apresentado o desenvolvimento de um dispositivo analisador de redes e de elementos de redes, utilizando tecnologia FPGA. Conforme

Leia mais

Câncer de Próstata. Fernando Magioni Enfermeiro do Trabalho

Câncer de Próstata. Fernando Magioni Enfermeiro do Trabalho Câncer de Próstata Fernando Magioni Enfermeiro do Trabalho O que é próstata? A próstata é uma glândula que só o homem possui e que se localiza na parte baixa do abdômen. Ela é um órgão muito pequeno, tem

Leia mais

2 Trabalhos Relacionados

2 Trabalhos Relacionados 2 Trabalhos Relacionados O desenvolvimento de técnicas de aquisição de imagens médicas, em particular a tomografia computadorizada (TC), que fornecem informações mais detalhadas do corpo humano, tem aumentado

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 12 Aprendizado de Máquina Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local

Leia mais