ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA

Tamanho: px
Começar a partir da página:

Download "ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA"

Transcrição

1 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA LONDRINA PR 2013

2

3 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte Coorientador: Prof(a). Dr(a). Maria Angélica de O. C. Brunetto LONDRINA PR 2013

4 André Augusto Del Grossi Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata/ André Augusto Del Grossi. Londrina PR, p. : il. (algumas color.) ; 30 cm. Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte Universidade Estadual de Londrina, aprendizado de máquina. 2. câncer de próstata. 3. biópsia. I. Helen C. de Mattos Senefonte. II. Universidade Estadual de Londrina. III. Curso de Ciência da Computação. CDU 02:141:005.7

5 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Prof(a). Ms. Helen C. de Mattos Senefonte Universidade Estadual de Londrina Orientador Prof(a). Dr(a). Cinthyan Renata Sachs C. de Barbosa Universidade Estadual de Londrina Prof. Dr. Bruno Bogaz Zarpelão Universidade Estadual de Londrina Londrina PR, 21 de novembro de 2013 LONDRINA PR 2013

6

7 Dedico este trabalho aos meus familiares e ao meu grande amigo Vínicius Quaglio que me acompanhou durante o ano nesta jornada.

8

9 AGRADECIMENTOS Agradeço primeiramente aos meus pais Meire e Osvaldo, pelo apoio, suporte e amor incondicional especialmente durante a execução deste trabalho. À minha irmã Ana Paula, pela energia positiva e confortante que a sua companhia me fornece, em particular neste ano, repleto de conquistas e realizações para ambos. À minha orientadora Helen, pessoa extraordinária que tive o prazer de conhecer e compartilhar o desenvolvimento deste trabalho. Agradeço também aos meus colegas de trabalho, pelo aprendizado e paciência. E por fim a todos os meus amigos, que acompanharam de alguma forma o sucesso e as dificuldades que enfrentei durante o ano.

10

11 Todos os homens sonham, mas não da mesma forma. Aqueles que sonham durante a noite, nos recessos empoeirados da mente, acordam na manhã seguinte e descobrem que foi algo efêmero, passageiro; mas os sonhadores do dia são homens perigosos, porque ao criar seus sonhos com os olhos abertos, podem torná-los reais. (T. E. Lawrence)

12

13 DEL GROSSI, A. A.. Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata. 63 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciência da Computação Universidade Estadual de Londrina, RESUMO Este estudo propõe a investigação de técnicas de aprendizado de máquina aplicadas ao problema de diagnóstico de câncer de próstata, com o intuito de auxiliar na seleção de pacientes a serem encaminhados ao procedimento de biópsia. O trabalho possui como objetivo investigar quais técnicas, dentre as selecionadas, alcançam melhores taxas de classificação para o problema. As variáveis antecedentes ao tratamento de pacientes do Hospital Universitário da Universidade Estadual de Londrina (HU-UEL), no período de 2005 a 2009 foram utilizadas para construção e validação dos classificadores. Por fim, as métricas de desempenho para os modelos construídos a partir das técnicas e algoritmos descritos são comparados e contrastados, juntamente com um resumo dos resultados no geral. Palavras-chave: câncer de próstata. aprendizado de máquina. biópsia. classificação

14

15 DEL GROSSI, A. A.. Comparison and evaluation of machine learning techniques for recommending patients to prostate cancer biopsy. 63 p. Final Project (Undergraduation). Bachelor of Science in Computer Science State University of Londrina, ABSTRACT This study proposes the investigation of machine learning techniques applied to prostate cancer diagnosis with the goal of determining patients that should undergo biopsy for prostate cancer screening. This work intends to investigate which techniques provide best classification rates for the problem. Pre-treatment variables gathered from patients of the Academic Hospital of State University of Londrina (HU-UEL) from 2005 to 2009 are used for construction and validation of classifiers. Lastly, accuracy and performance indicators for the obtained models are compared based on similarities and divergences, along with general observed results. Keywords: prostate cancer. machine learning. biopsy. classification

16

17 LISTA DE ILUSTRAÇÕES Figura 1 Gráfico da função logística Figura 2 Visão simplificada das camadas uma rede neural artificial multi-layer perceptron Figura 3 Função backpropagation simples Figura 4 Árvore de decisão para a avaliação de compra de computador Figura 5 Um exemplo de curva ROC Figura 6 Seletor de interface do Weka Figura 7 Weka Explorer após o carregamento de um conjunto de dados Figura 8 Forma de cálculo para o obtenção do valor do atributo Ajuste Figura 9 Indicadores de desempenho para o modelo de regressão logística Figura 10 Desempenho do modelo construído com o algoritmo MultiLayerPerceptron Figura 11 Desempenho do modelo construído com o algoritmo MLPClassifier (n = 305) Figura 12 Desempenho do modelo construído com o algoritmo MLPClassifier (n = 500) Figura 13 Desempenho do modelo construído com o algoritmo ADTree (n = 500) 52 Figura 14 Estrutura de árvore gerada pelo classificador ADTree Figura 15 Desempenho do modelo construído com o algoritmo PART (n = 305). 54 Figura 16 Regras de decisão geradas pelo classficador PART Figura 17 Comparação de desempenho entre classificadores

18

19 LISTA DE TABELAS Tabela 1 Matriz de confusão para dois valores de classe Tabela 2 Métricas de desempenho derivadas da matriz de confusão Tabela 3 Sumário dos atributos númericos do conjunto de dados (n = 500) Tabela 4 Sumário dos atributos booleanos do conjunto de dados (n = 500) Tabela 5 Parâmetros para o algoritmo de regressão logística Tabela 6 Parâmetros para o algoritmo MultiLayerPerceptron Tabela 7 Parâmetros para o algoritmo MLPClassifier Tabela 8 Parâmetros para o algoritmo ADTree Tabela 9 Parâmetros para o algoritmo PART Tabela 10 Coefiecientes obtidos a partir do modelo de regressão logística Tabela 11 Valores das conexões para o modelo construído com o algoritmo MLP- Classifier

20

21 LISTA DE ABREVIATURAS E SIGLAS ANN ARFF AUC CART CSPC CSV DRE FN FP knn MLE MLP NSPC PSA RBF ROC SCG SQL SVM VN VP WEKA Rede neural artificial (artificial neural network) Formato de arquivo atributo-relação (attribute-relation file format) Área sob a curva (area under curve) Árvore de classificação e regressão (classification and regression tree) Câncer de próstata clinicamente significativo (clinically significative prostate cancer) Valores separados por vírgula (comma separated values) Exame de toque retal (digital rectal examination) Falsos negativos Falsos positivos k vizinhos mais próximos (k-nearest neighbors) Estimativa por máxima verossimilhança (maximum likelihood estimate) Perceptron de múltiplas camadas (multi-layer perceptron) Câncer de próstata não significativo (non-significant prostate cancer) Antígeno específico da próstata (prostate-specific antigen) Função de base radial (radial basis function) Característica de operação do receptor (receiver operating characteristic) Gradiente conjugado ajustado (scaled conjugate gradient) Linguagem estruturada de consultas (structured query language) Máquina de vetores de suporte (support vector machines) Verdadeiros negativos Verdadeiros positivos Ambiente Waikato para análise de informação (Waikato environment for knowledge analysis)

22

23 LISTA DE SÍMBOLOS R Pertence Conjunto dos números reais

24

25 SUMÁRIO 1 Introdução Fundamentação Teórica Câncer de próstata Aprendizado de máquina Regressão logística Redes neurais artificiais Árvores de decisão Avaliação de classificadores Trabalhos relacionados Materiais e métodos O ambiente Weka Conjunto de dados Experimentos e testes Resultados Regressão Logística Redes Neurais Artificiais MultiLayerPerceptron MLPClassifier Árvores de Decisão ADTree PART Comparação de Resultados Conclusão Referências

26

27 25 1 INTRODUÇÃO A confirmação do diagnóstico de câncer de próstata em pacientes é uma tarefa complicada que requer na maioria dos casos a realização de biópsia, procedimento que auxilia na detecção da doença. Este procedimento consiste na coleta de uma amostra das células prostáticas para análise laboratorial, e é um procedimento invasivo e inconveniente 50% dos homens relatam incômodo durante a biópsia [1]. Na tentativa de reduzir a chance que um paciente tem de ser submetido ao procedimento, existem técnicas que se baseam em dados clínicos, obtidos desde a primeira suspeita para a construção de modelos determinadores da necessidade de biópsia. No entanto, mesmo com a utilização de informações obtidas através de exames, o diagnóstico não é livre de incertezas; Djavan et al. [2] afirmam que níveis elevados de PSA não confirmam o câncer de próstata, pois estes também podem occorer em casos de doenças prostáticas benignas. Sendo assim, testes efetuados somente com o marcador de PSA mostraram-se ineficazes pois recomendavam pacientes para a biópsia sem que houvesse necessidade [3]. Pesquisas mais recentes sugerem a incorporação de métodos matemáticos e computacionais para auxiliar na solução do problema, como a construção de nomogramas 1 [6] baseados em atributos como estágio clínico, PSA e pontuação de Gleason 2 para inferir um diagnóstico (nomograma proposto por Kattan et al. [7]). Outra técnica fortemente utilizada é a regressão logística, um tipo de análise de regressão que possui como objetivo prever a saída de uma variável binária ou multinomial a partir de variáveis independentes discretas e/ou contínuas. Por fim, métodos de classificação mais generalizáveis e flexíveis baseados em técnicas de aprendizado de máquina, como por exemplo redes neurais artificiais e máquinas de vetores de suporte surgiram como alternativas, propondo vantagens devido à capacidade de reconhecer padrões e inter-relações não lineares entre variáveis [2]. A proposta deste trabalho consiste no estudo e aplicação de técnicas de aprendizado de máquina para inferir a necessidade de biópsia para câncer de próstata, usando como estudo de caso dados coletados de pacientes do Hospital Universitário da Universidadade Estadual de Londrina, Paraná, acompanhados pelo médico professor de Urologia, Dr. Horácio Alvarenga Moreira. Os indicadores de desempenho e eficácia de classificação das técnicas e algoritmos selecionados são calculados e ao final são estabelecidas comparações entre si. O trabalho segue estruturado da seguinte forma: no capítulo 2, a fundamentação 1 Diagrama que representa as relações entre valores de uma ou mais variáveis [4] de forma que uma linha reta tocando as escalas interceptem nos valores apropriados de cada variável [5]. 2 Classificação que avalia o prognóstico do tumor prostático através do procedimento de biópsia; quanto maior a pontuação, mais acentuada é a agressividade do tumor.

28 26 Capítulo 1. Introdução téorica é apresentada, onde as seções individuais descrevem aspectos do câncer de próstata e motivação do problema, técnicas e métodos de classificação no campo de aprendizado de máquina e trabalhos correlatos à proposta. No capítulo 3 são fornecidas informações a respeito do ambiente configurado para realização de testes, explicação do conjunto de dados e dos atributos relevantes e experimentos efetuados com os algoritmos e técnicas apresentados no capítulo anterior. Em seguida, os resultados de classificação obtidos a partir dos modelos gerados são dispostos no capítulo 4 categorizados pelos algoritmos, e ao fim do capítulo um sumário dos resultados gerais é compilado. Por fim, as considerações finais do trabalho são apresentadas no capítulo 5 juntamente com dificuldades encontradas e sugestões para pesquisas futuras.

29 27 2 FUNDAMENTAÇÃO TEÓRICA Para uma melhor compreensão do campo de estudo, são apresentados nas seções a seguir conceitos pertinentes ao problema proposto. Na seção 2.1, é descrita a fundamentação médica a respeito ao câncer de próstata, incluindo características da doença, dificuldades no diagnóstico e tratamentos mais comuns. Em seguida, a área de aprendizado de máquina é introduzida englobando conceitos básicos e técnicas computacionais pertinentes ao campo de estudo. Por fim, é efetuado um levantamento e breve análise de trabalhos relacionados acerca do tema com ênfase às técnicas descritas na seção Câncer de próstata O câncer de próstata é a sexta principal causa de mortalidade relacionada ao câncer [8], com fatores de risco como idade, histórico familiar e etnia [2]. Devido à grande heterogeneidade biológica da doença [9], o câncer de próstata possui como característica grande dificuldade em sua detecção e diagnóstico. Muito se deve ao fato que grande parte dos portadores de câncer prostático não exibem sintomas e devido a isso, não são submetidos a nenhum tipo de terapia [10]. Outro motivo recorrente é a falta de palpabilidade do tumor, imperceptível muitas vezes por exames de ultrassom ou ressonância magnética [7]. Além disso, dentre os diagnósticos confirmados, somente uma pequena parcela de pacientes correm sérios riscos: apesar de um em cada seis homens desenvolverem câncer de próstata durante sua vida, destes, apenas um em dez casos manifestam tumores agressivos [11]. Pacientes que não apresentam uma combinação de dados clínicos indicando alto risco não são beneficiados pelo procedimento de biópsia, o qual requer anestesia local e pode causar ansiedade, dor, sangramentos e infecções, assim como custos e despesas médicas adicionais. O marcador do antígeno específico da próstata (prostate specific antigen, abreviado como PSA) é o parâmetro mais amplamente utilizado para o diagnóstico precoce de câncer de próstata [12] o antígeno está presente em pequenas quantidades em homens com boa saúde prostática, porém mostra-se elevado com frequência na presença de câncer de próstata e outras doenças prostáticas [13]. Devido ao grande número de falsos positivos obtidos através do uso exclusivo do valor de PSA, este é considerado ineficaz no processo de inferência do diagnóstico [14]. Apesar da existência de valores de referência para o PSA de acordo com a faixa etária, valores superiores a 4ng/mL sugerem alguma anomalia prostática, em sua maioria não relacionadas ao câncer, como por exemplo, retenção urinária, prostatite, ejaculação e hiperplasia prostática benigna (BPH, do inglês benign prostatic hyperplasia) [15], as quais

30 28 Capítulo 2. Fundamentação Teórica causam inflamação da próstata são responsáveis por um aumento na produção de PSA [16] De forma análoga, estima-se que 20% de pacientes diagnosticados com câncer de próstata clinicamente significativo possuem um valor de PSA inferior a 4ng/mL [17]. Outras variáveis indicativas de biópsia incluem o exame de toque, responsável por identificar alteração no volume prostático e taxa de percentual de PSA livre em relação ao PSA total, calculado através da razão dos valores obtidos por meio de hemogramas. Assim como para o PSA, um aumento no volume da próstata não indica necessariamente um tumor cancerígeno a métrica de densidade (razão entre PSA e volume total), introduzida para efetuar um ajuste discriminatório entre os pacientes, possui um valor de corte de aproximadamente 0.15 para distinguir entre uma hipertrofia benigna e um possível tumor [18]. No entanto, a variação diária do valor de PSA assim como uma inexatidão de 10% a 30% no cálculo do volume prostático limitam a utilidade clínica deste parâmetro [15] leituras de PSA que permanecem elevadas por um período de no mínimo três meses são altamente indicativas de suspeita de câncer de próstata, enquanto oscilações constantes sugerem um processo benigno [19]. Para a métrica de PSA livre/total, valores inferiores a 0.15 (15%) sugerem presença de câncer com probabilidade maior que 50%; a faixa de 0.15 a 0.25 é definida como faixa de incerteza e valores acima de 0.25 indicam probabilidade inferior a 10% [20]. Tratamentos possíveis para o diagnóstico de câncer de próstata localizado incluem espera e monitoramento cuidadoso, prostectomia radical 1, braquiterapia 2, radiação externa, entre outros [7]. A seleção do tratamento apropriado para cada paciente depende do diagnóstico fatores como estágio clínico do câncer, outras complicações de saúde (problemas cardiovasculares, diabetes, entre outras doenças), idade e disponibilidade de tratamento são os principais motivos considerados no momento em que o médico determina o tipo de tratamento mais adequado ao paciente [21]. 2.2 Aprendizado de máquina Subcampo da inteligência artificial, o aprendizado de máquina é a área que engloba o estudo e a construção de sistemas inteligentes a partir de dados [22]. Após efetuado o aprendizado, também denominado treinamento, um sistema pode ser utilizado para classificar ou estimar saídas para instâncias desconhecidas. Arthur Samuel, norte-americano pioneiro na área de inteligência artificial aplicada a jogos, definiu o aprendizado de máquina como "o campo de estudos que fornece a computadores a habilidade de aprenderem sem serem explicitamente programados"[23]. 1 Remoção cirúrgica parcial ou total da glándula prostática. 2 Forma de radioterapia onde a fonte de radiação é posicionada internamente ou próxima à região necessitada de tratamento.

31 2.2. Aprendizado de máquina 29 Witten e Frank [24] descreveram quatro conceitos caracterizando os vários algoritmos de aprendizado de máquina: aprendizado por classificação, onde um conjunto de exemplos pertencentes à classes são utilizados para construir modelos; aprendizado por associação, onde deseja-se identificar grupos de um ou mais atributos que determinam o valor de classe de uma instância; aprendizado por agrupamento, no qual exemplos semelhantes de acordo com um critério estabelecido são agrupados; e aprendizado por regressão, que possui como objetivo desenvolver um modelo matemático correlacionando atributos com o valor de classe [23]. Dentre as diversas técnicas desenvolvidas na área de aprendizado de máquina, foram consideradas para este estudo as técnicas mais recorrentes em pesquisas correlatas para tarefas relacionadas ao problema incluindo como por exemplo dedução de diagnóstico da doença, avaliação de prognóstico em pacientes portadores e inferência da necessidade de biópsia para câncer de próstata Regressão logística A regressão logística é um tipo de modelo de classificação probabilístico que possui como objetivo estimar o valor de classe de uma variável dependente a partir de outras variáveis discretas e/ou contínuas [25]. A classe que se deseja estimar é frequentemente binária no caso onde existam mais que duas classes, a regressão logística multinomial deve ser usada. Apesar de compartilhar pequenas semelhanças com técnicas estatísticas, a regressão logística é uma técnica originada no campo de aprendizado de máquina, pois possui como objetivo classificar instâncias de acordo com um conjunto de atributos; desta forma, a análise de regressão tem como tarefa não somente identificar quais variáveis independentes influenciam o resultado da variável dependente mas também como estas o fazem. No entanto, deve-se evitar a inferência de causalidade entre as variáveis no modelo, pois este configura um conceito distinto da correlação entre variáveis [26]. Para uma melhor compreensão da técnica de regressão logística, alguns conceitos matemáticos são necessários; a função logística (eq. 2.1, ilustrada graficamente na figura 1 é a fundamentação elementar deste tipo de análise de regressão. f(t) = et e t + 1 = 1 f : R [0, 1] (2.1) 1 + e t Também denominada de função ou curva sigmóide, é delimitada no intervalo entre 0 e 1 para qualquer t R; esta delimitação garante que o valor de saída estimado pelo modelo permaneça no intervalo, permitindo a interpretação do valor como uma figura probabilística.

32 30 Capítulo 2. Fundamentação Teórica Figura 1: Gráfico da função logística A construção básica de um modelo de regressão logística é similar ao mecanismo desenvolvido para a regressão linear: Definição 1. Suponha um conjunto de dados contendo N pontos observados. Cada ponto consiste em um conjunto de M variáveis explanatórias x 1,i, x 2,i,..., x M,i, 0 i < N (também denominadas variáveis independentes, características ou atributos) e uma variável dependente binária Y i, isto é, limitada aos valores 0 e 1. Como dito anteriormente, as variáveis independentes podem ser do tipo reais, binárias ou categóricas. Estas podem ser classificadas como contínuas, atributos como por exemplo salário, idade e altura, ou discretas, tais como sexo ou tipo sanguíneo. Variáveis discretas expressas de forma textual podem ser codificadas numericamente em categorias ou em atributos binários adicionais. A variável dependente de saída assume a forma de uma distribuição Bernoulli, descrita na equação 2.2. P r (Y i x 1,i, x 2,i,..., x m,i ) = p y i i (1 p i ) 1 y i = p i se y i = 1 1 p i se y i = 0 (2.2) A probabilidade de sucesso Y i = 1 é denotada por p i, e seu complemento 1 - p i indica Y i = 0. O objetivo da regressão logística é encontrar os coeficientes de uma combinação linear das variáveis explicativas que preveja a variável de saída corretamente. Esta função g(i) é escrita da seguinte forma: g(i) = β 0 + β 1 x 1,i + + β M x m,i (2.3) onde β 0, β 1,..., β M R são os coeficientes de regressão e x 1,i, x 2,i,..., x M,i as variáveis independentes. g(i) pode ser reescrita de forma compacta usando a notação de

33 2.2. Aprendizado de máquina 31 produto escalar entre os vetores β e X i. g(i) = β X i (2.4) No entanto, o valor calculado por g(i) pode assumir valores arbitrários no conjunto dos números reais, dadas as entradas x 1,i, x 2,i,..., x M,i fornecidas. Para contornar este problema, a combinação linear de coeficientes e variáveis explanatórias é fornecida à função logística (eq. 2.1) como parâmetro. A probabilidade de sucesso π i é equivalente a composição f g, dada na eq π i = f(g(i)) = e g(i) = e (β X i) (2.5) Ao aplicar g(i) à função logística, é possível observar as mesmas propriedades que caracterizam a eq. 2.1 e que reforçam o comportamento probabilístico [27]: lim π i = 1 g(i) + lim π i = 0 (2.6) g(i) Para estimar os coeficientes, utiliza-se a estimativa por máxima verossimilhança (MLE) (equação 2.7). P (π i X, β) = = N Bernoulli(y i π i (β X i )) i=1 N π y i i (1 π i ) 1 y i i=1 N [ ] 1 yi [ ] 1 1 yi 1 (2.7) 1 + e (β X i) 1 + e (β X i) i=1 No entanto, devido a grande quantidade de expressões exponenciais em 2.7, aplicamos o logaritmo negativo desta forma, o produtório torna-se um somatório e algumas expressões exponenciais são substituídas por logaritmos [25]. A função log-verossimilhança negativa L(β) a ser minimizada é descrita em 2.8. L(β) = log P (π i X, β) N = y i log π i + (1 y i ) log(1 π i ) (2.8) i=1

34 32 Capítulo 2. Fundamentação Teórica Para efetuar a minimização de L(β), utiliza-se um método numérico iterativo. A motivação no uso da técnica se deve não somente à interpretabilidade do modelo, uma vez que a magnitude dos coeficientes em 2.3 influenciam o resultado da probabilidade estimada, mas também o pequeno número de parâmetros desconhecidos: um conjunto de dados de dimensão R m resultará em m + 1 coeficientes. As tabelas de Partin, propostas por [28] originalmente em 1993, são um tipo de nomograma comumente utilizado para prever o estado patológico de um paciente após o procedimento de prostactemia radical. As tabelas foram obtidas através de regressão logística baseado nos atributos PSA, estágio clínico do câncer de próstata e soma de Gleason. Eifler et al. [29] propuseram uma atualização ao nomograma devido à mudança no sistema de pontuação de Gleason e da natureza do diagnóstico da doença dezenove anos após ao nomograma primário Redes neurais artificiais Com o funcionamento análogo à redes ou circuito de neurônios reais [30], uma rede neural artificial consiste em um grupo de neurônios artificiais interconectados, utilizando um modelo matemático para processamento de informações através da modelagem de relações complexas não lineares entre as variáveis de entrada sem outras informações previamente fornecidas [9]. Redes neurais são sistemas adaptáveis, onde o fluxo de informações internas ou externas à rede alteram sua estrutura. Considerada como uma das representações mais comuns de redes neurais artificiais, o multi-layer perceptron é dividido em três partes: neurônios de entrada, neurônios ocultos e neurônios de saída. Um grupo de neurônios é denominado uma camada, onde o número de neurônios na camada de entrada é igual ao número de variáveis da entrada e o número de neurônios na camada de saída é igual ao número de variáveis de saída [31]. O número de neurônios nas camadas ocultas pode ser escolhido arbitrariamente, porém algumas pesquisas [32][33][34] sugerem o uso de uma relação entre a quantidade de neurônios nas camadas de entrada e saída para determinar a quantidade ideal de neurônios para uma camada oculta esta relação é dada em 2.9 como a raiz quadrada entre o produto da quantidade de neurônios das camadas de entrada e saída. N h = N i N o (2.9) A figura 2 ilustra uma rede neural simples feedforward 3 os neurônios são representados através de círculos, cada um conectado aos neurônios da camada subsequente, exceto pela camada final. As arestas representam as conexões entre neurônios e possuem 3 Rede neural artificial onde a direção do fluxo de dados é única, i.e. não existem ciclos.

35 2.2. Aprendizado de máquina 33 um valor arbitrário inicial, o peso da conexão. As setas indicam a direção do fluxo de dados, a partir da camada de entrada até a camada de saída. Oculta Entrada Saída Figura 2: Visão simplificada das camadas uma rede neural artificial multi-layer perceptron O funcionamento de uma rede neural artificial dá-se por meio de dois processos: treinamento e teste. O treinamento é realizado para ensinar a rede, com o intuito de obter os valores de saída corretos de acordo com as variáveis de entrada. A técnica de treinamento mais simples, o backpropagation, emprega o cálculo da variação do erro; este é então propagado na direção oposta da computação dos dados, alterando os pesos das conexões de forma que um novo valor de saída seja ainda mais próximo ao valor real [35]. O treinamento é encerrado assim que a taxa de erro cai abaixo do valor de tolerância especificado. A etapa de teste avalia o desempenho de classificação da rede: utilizando um conjunto de dados distinto, calculam-se os valores de saída sem que o erro obtido ao final seja propagado esta taxa de erro representa o quão próximo os valores reais de saída se situam comparados aos valores calculados pela rede neural [36]. Existem, no entanto, algumas complicações presentes nas fases de treinamento e teste de uma rede neural artificial. O overfitting ocorre quando uma rede é treinada demasiadamente, gerando valores especializados somente no conjunto de dados do treinamento, assim quaisquer outras entradas desconhecidas à rede apresentam taxa de erro maior que a tolerância estabelecida [31]. Outro ponto a ser observado é a interpretação do erro obtido nas saídas da rede; geralmente calcula-se uma estimativa média do erro sobre todas os valores processados. Caso as saídas sejam discretas ou até mesmo binárias, é necessário definir critérios adicionais para avaliação do erro. Em casos onde o conjunto de dados gera mais de uma saída, como por exemplo na Figura 2 em que a rede neural possui duas saídas para três valores de entrada, calcula-se a média do erro sobre todas os valores de saída obtidos e subsequentemente a média sobre todos os registros processados. A forma de retropropagação do erro em uma rede neural é determinado pelo algoritmo utilizado; a função ilustrada na figura 3, descrita por Russell e Norvig [31] efetua

36 34 Capítulo 2. Fundamentação Teórica uma otimização por meio de descida do gradiente, técnica que possui como objetivo minimizar a soma dos quadrados dos erros utilizando a derivada de primeira ordem. A idéia por trás do algoritmo é dividir o erro calculado e distribuí-los de acordo com o peso das conexões aos neurônios das camadas precedentes. A atualização dos pesos é efetuada assim que o gradiente de erro é obtido entre os neurônios que compartilham a conexão. função Backpropagation(exemplos, rede) retorna uma rede neural parâmetros exemplos, conjunto de exemplos com vetores de entrada x e saída y rede, rede neural com L camadas, pesos W i,j, função de ativação g repita para cada e em exemplos faça para cada nó j na camada de entrada faça a j x j [e] para l = 2 até L faça entrada i W j,i a j j a i g(entrada i ) para cada nó i na camada de saída faça Δ i g (entrada i ) (y i [e] a i ) Valor calculado é fornecido à função de ativação Gradiente de erro na camada L para l = L - 1 até 1 faça para cada nó j na camada l faça Δ j g (entrada j ) W j,i Δ i Cálculo do gradiente de erro i para cada nó i na camada l + 1 faça W j,i W j,i + η a j Δ i Atualização de pesos até que algum critério de parada seja satisfeito fim função Figura 3: Função backpropagation simples Existem variações do algoritmo padrão de backpropagation que incluem parâmetros adicionais para controle dos pesos como por exemplo a constante de momento (momentum rate) e a taxa de declínio (decay) [37] com o intuito de reduzir a presença de mínimos locais assim como um ajuste mais refinado dos pesos. Outros algoritmos para treinamento utilizam métodos numéricos alternativos, como por exemplo gradiente conjugado (SCG), o qual efetua buscas em direções conjugadas ao gradiente providenciando uma convergência mais rápida [9]. Adicionalmente, o algoritmo de Levenberg-Marquadt consiste em uma combinação dos métodos de descida de gradiente e o algoritmo de Gauss-Newton; desta forma, é possível determinar diferentes valores de ajuste dadas variações no gradiente [38]. Apesar da alta popularidade de redes do tipo multi-layer perceptron, existem diversos outros modelos de redes com o mesmo princípio básico de interconexão entre neurônios porém com estruturas e propósitos distintos as redes Hopfield são um tipo de rede neural artificial recorrente (conexões entre neurônios assumem mais de uma direção) utilizadas para o reconhecimento de padrões devido a capacidade de agirem como memórias associativas recuperando padrões próximos aos que lhe foram apresentados durante o treinamento

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr Análise de Regressão Tópicos Avançados em Avaliação de Desempenho Cleber Moura Edson Samuel Jr Agenda Introdução Passos para Realização da Análise Modelos para Análise de Regressão Regressão Linear Simples

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Redes Neurais. Profa. Flavia Cristina Bernardini

Redes Neurais. Profa. Flavia Cristina Bernardini Redes Neurais Profa. Flavia Cristina Bernardini Introdução Cérebro & Computador Modelos Cognitivos Diferentes Cérebro Computador Seqüência de Comandos Reconhecimento de Padrão Lento Rápido Rápido Lento

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem: 1 As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia e não têm a intenção de substituir o livro-texto, nem qualquer outra bibliografia. Introdução O Cálculo Numérico

Leia mais

Algoritmos Indutores de Árvores de

Algoritmos Indutores de Árvores de Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Sistemas Inteligentes Análise e Desenvolvimento de Sistemas Faculdades de Tecnologia Bandeirantes Abril de 2013 Problema: Diagnóstico para uso

Leia mais

AULAS 13, 14 E 15 Correlação e Regressão

AULAS 13, 14 E 15 Correlação e Regressão 1 AULAS 13, 14 E 15 Correlação e Regressão Ernesto F. L. Amaral 23, 28 e 30 de setembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de

Leia mais

Inteligência Artificial. Redes Neurais Artificiais

Inteligência Artificial. Redes Neurais Artificiais Curso de Especialização em Sistemas Inteligentes Aplicados à Automação Inteligência Artificial Redes Neurais Artificiais Aulas Práticas no Matlab João Marques Salomão Rodrigo Varejão Andreão Matlab Objetivos:

Leia mais

Bioestatística Aula 3

Bioestatística Aula 3 Aula 3 Castro Soares de Oliveira Probabilidade Probabilidade é o ramo da matemática que estuda fenômenos aleatórios. Probabilidade é uma medida que quantifica a sua incerteza frente a um possível acontecimento

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron. 1024 UMA ABORDAGEM BASEADA EM REDES PERCEPTRON MULTICAMADAS PARA A CLASSIFICAÇÃO DE MASSAS NODULARES EM IMAGENS MAMOGRÁFICAS Luan de Oliveira Moreira¹; Matheus Giovanni Pires² 1. Bolsista PROBIC, Graduando

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial

Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto Laboratório Protem Departamento

Leia mais

INE 7001 - Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

INE 7001 - Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis INE 7001 - Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis O objetivo deste texto é apresentar os principais procedimentos

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda

Leia mais

1 Tipos de dados em Análise de Clusters

1 Tipos de dados em Análise de Clusters Curso de Data Mining Sandra de Amo Aula 13 - Análise de Clusters - Introdução Análise de Clusters é o processo de agrupar um conjunto de objetos físicos ou abstratos em classes de objetos similares Um

Leia mais

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem: 1 UNIVERSIDADE FEDERAL DE VIÇOSA Departamento de Matemática - CCE Cálculo Numérico - MAT 271 Prof.: Valéria Mattos da Rosa As notas de aula que se seguem são uma compilação dos textos relacionados na bibliografia

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Software desenvolvido a partir de um Modelo Matemático Fuzzy para predizer o estágio patológico do

Software desenvolvido a partir de um Modelo Matemático Fuzzy para predizer o estágio patológico do Biomatemática 18 (2008), 27 36 ISSN 1679-365X Uma Publicação do Grupo de Biomatemática IMECC UNICAMP Software desenvolvido a partir de um Modelo Matemático Fuzzy para predizer o estágio patológico do Câncer

Leia mais

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A. IMES Catanduva Probabilidades e Estatística Estatística no Excel Matemática Bertolo, L.A. Aplicada Versão BETA Maio 2010 Bertolo Estatística Aplicada no Excel Capítulo 3 Dados Bivariados São pares de valores

Leia mais

Módulo 3 Procedimento e processo de gerenciamento de riscos, PDCA e MASP

Módulo 3 Procedimento e processo de gerenciamento de riscos, PDCA e MASP Módulo 3 Procedimento e processo de gerenciamento de riscos, PDCA e MASP 6. Procedimento de gerenciamento de risco O fabricante ou prestador de serviço deve estabelecer e manter um processo para identificar

Leia mais

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda. UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda. Avaliação do risco de viés de ensaios clínicos randomizados pela ferramentada colaboração Cochrane Alan P. V. de Carvalho,

Leia mais

Capítulo 7 Estudos sobre Causalidade e Etiologia

Capítulo 7 Estudos sobre Causalidade e Etiologia L E I T u R A C R í T I C A D E A R T I G O S C I E N T í F I CO S 105 Capítulo 7 Estudos sobre Causalidade e Etiologia 7.1 Introdução Relembrando o que foi dito no capítulo 1 os estudos randomizados,

Leia mais

Câncer de Próstata. Fernando Magioni Enfermeiro do Trabalho

Câncer de Próstata. Fernando Magioni Enfermeiro do Trabalho Câncer de Próstata Fernando Magioni Enfermeiro do Trabalho O que é próstata? A próstata é uma glândula que só o homem possui e que se localiza na parte baixa do abdômen. Ela é um órgão muito pequeno, tem

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

Modelos Pioneiros de Aprendizado

Modelos Pioneiros de Aprendizado Modelos Pioneiros de Aprendizado Conteúdo 1. Hebb... 2 2. Perceptron... 5 2.1. Perceptron Simples para Classificaçãod e Padrões... 6 2.2. Exemplo de Aplicação e Motivação Geométrica... 9 2.3. Perceptron

Leia mais

Modelagem e Simulação Material 02 Projeto de Simulação

Modelagem e Simulação Material 02 Projeto de Simulação Modelagem e Simulação Material 02 Projeto de Simulação Prof. Simão Sirineo Toscani Projeto de Simulação Revisão de conceitos básicos Processo de simulação Etapas de projeto Cuidados nos projetos de simulação

Leia mais

CAPÍTULO 1 INTRODUÇÃO 1.1 INTRODUÇÃO

CAPÍTULO 1 INTRODUÇÃO 1.1 INTRODUÇÃO CAPÍTULO 1 INTRODUÇÃO 1.1 INTRODUÇÃO Em quase todas as nossas atividades diárias precisamos enfrentar filas para atender as nossas necessidades. Aguardamos em fila na padaria, nos bancos, quando trafegamos

Leia mais

Do neurônio biológico ao neurônio das redes neurais artificiais

Do neurônio biológico ao neurônio das redes neurais artificiais Do neurônio biológico ao neurônio das redes neurais artificiais O objetivo desta aula é procurar justificar o modelo de neurônio usado pelas redes neurais artificiais em termos das propriedades essenciais

Leia mais

Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua

Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua Análise Multi-Critério Classificação continua (Lógica Fuzzy) Técnica AHP (Processo Analítico Hierárquico)

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Noções de Pesquisa e Amostragem. André C. R. Martins

Noções de Pesquisa e Amostragem. André C. R. Martins Noções de Pesquisa e Amostragem André C. R. Martins 1 Bibliografia Silva, N. N., Amostragem probabilística, EDUSP. Freedman, D., Pisani, R. e Purves, R., Statistics, Norton. Tamhane, A. C., Dunlop, D.

Leia mais

Aula 2 RNA Arquiteturas e Treinamento

Aula 2 RNA Arquiteturas e Treinamento 2COP229 Aula 2 RNA Arquiteturas e Treinamento 2COP229 Sumário 1- Arquiteturas de Redes Neurais Artificiais; 2- Processos de Treinamento; 2COP229 1- Arquiteturas de Redes Neurais Artificiais -Arquitetura:

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

AULAS 04 E 05 Estatísticas Descritivas

AULAS 04 E 05 Estatísticas Descritivas 1 AULAS 04 E 05 Estatísticas Descritivas Ernesto F. L. Amaral 19 e 28 de agosto de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de Janeiro:

Leia mais

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida 27 de maio de 2014 O que é a Neural Networw Toolbox? A Neural Network Toolbox fornece funções e aplicativos para a modelagem de sistemas não-lineares complexos que não são facilmente modelados com uma

Leia mais

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE Redes Neurais Construtivas Germano Crispim Vasconcelos Centro de Informática - UFPE Motivações Redes Feedforward têm sido bastante utilizadas em aplicações de Reconhecimento de Padrões Problemas apresentados

Leia mais

Complemento IV Introdução aos Algoritmos Genéticos

Complemento IV Introdução aos Algoritmos Genéticos Complemento IV Introdução aos Algoritmos Genéticos Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações e

Leia mais

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS Curso: Informática Disciplina: Redes Neurais Prof. Fernando Osório E-mail: osorio@exatas.unisinos.br EXEMPLO DE QUESTÕES DE PROVAS ANTIGAS 1. Supondo que

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Métodos Matemáticos para Gestão da Informação

Métodos Matemáticos para Gestão da Informação Métodos Matemáticos para Gestão da Informação Aula 05 Taxas de variação e função lineares III Dalton Martins dmartins@gmail.com Bacharelado em Gestão da Informação Faculdade de Informação e Comunicação

Leia mais

4 Arquitetura básica de um analisador de elementos de redes

4 Arquitetura básica de um analisador de elementos de redes 4 Arquitetura básica de um analisador de elementos de redes Neste capítulo é apresentado o desenvolvimento de um dispositivo analisador de redes e de elementos de redes, utilizando tecnologia FPGA. Conforme

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Revisão Inteligência Artificial ENADE. Prof a Fabiana Lorenzi Outubro/2011

Revisão Inteligência Artificial ENADE. Prof a Fabiana Lorenzi Outubro/2011 Revisão Inteligência Artificial ENADE Prof a Fabiana Lorenzi Outubro/2011 Representação conhecimento É uma forma sistemática de estruturar e codificar o que se sabe sobre uma determinada aplicação (Rezende,

Leia mais

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais.

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais. 1. Introdução A previsão de vendas é fundamental para as organizações uma vez que permite melhorar o planejamento e a tomada de decisão sobre o futuro da empresa. Contudo toda previsão carrega consigo

Leia mais

Correlação e Regressão Linear

Correlação e Regressão Linear Correlação e Regressão Linear A medida de correlação é o tipo de medida que se usa quando se quer saber se duas variáveis possuem algum tipo de relação, de maneira que quando uma varia a outra varia também.

Leia mais

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação Classificação: Definição Mineração de dados Classificação: conceitos básicos e árvores de decisão Apresentação adaptada do material de apoio do livro: Introduction to Data Mining Tan, Steinbach, Kumar

Leia mais

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais.

Palavras-chave: Mortalidade Infantil, Análise Multivariada, Redes Neurais. UMA ANÁLISE COMPARATIVA DE MODELOS PARA CLASSIFICAÇÃO E PREVISÃO DE SOBREVIVÊNCIA OU ÓBITO DE CRIANÇAS NASCIDAS NO RIO DE JANEIRO EM 2006 NO PRIMEIRO ANO DE VIDA Mariana Pereira Nunes Escola Nacional de

Leia mais

Aula 4 Pseudocódigo Tipos de Dados, Expressões e Variáveis

Aula 4 Pseudocódigo Tipos de Dados, Expressões e Variáveis 1. TIPOS DE DADOS Todo o trabalho realizado por um computador é baseado na manipulação das informações contidas em sua memória. Estas informações podem ser classificadas em dois tipos: As instruções, que

Leia mais

CPMG- SGT NADER ALVES DOS SANTOS CÂNCER DE PRÓSTATA PROF.WEBER

CPMG- SGT NADER ALVES DOS SANTOS CÂNCER DE PRÓSTATA PROF.WEBER CPMG- SGT NADER ALVES DOS SANTOS CÂNCER DE PRÓSTATA PROF.WEBER Próstata Sobre o Câncer Sintomas Diagnóstico e exame Tratamento Recomendações O QUE É A PRÓSTATA? A próstata é uma glândula que tem o tamanho

Leia mais

AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO

AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO 1 AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO Amostra aleatória. Também conhecida como amostra probabilística. A melhor maneira de evitar uma amostra enviesada ou não-representativa é selecionar uma amostra

Leia mais

Estratégias de Pesquisa

Estratégias de Pesquisa Estratégias de Pesquisa Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Agenda Survey Design e Criação Estudo de Caso Pesquisa Ação Experimento

Leia mais

Banco de Dados. Prof. Dr. Rogério Galante Negri

Banco de Dados. Prof. Dr. Rogério Galante Negri Banco de Dados Prof Dr Rogério Galante Negri Tradicionalmente O armazenamento dos dados utilizava arquivos individuais, sem nenhum relacionamento Cada programa utilizava seu próprio sistema de arquivo

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 12 Aprendizado de Máquina Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Aprendizagem de Máquina. Ivan Medeiros Monteiro Aprendizagem de Máquina Ivan Medeiros Monteiro Definindo aprendizagem Dizemos que um sistema aprende se o mesmo é capaz de melhorar o seu desempenho a partir de suas experiências anteriores. O aprendizado

Leia mais

Carga dos alimentadores

Carga dos alimentadores 50 Análise de consumo de energia e aplicações Capítulo V Carga dos alimentadores Por Manuel Luís Barreira Martinez* Em continuidade ao capítulo anterior, Locação de cargas métodos para a locação de carga

Leia mais

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA Muitas organizações terceirizam o transporte das chamadas em seus call-centers, dependendo inteiramente

Leia mais

Correlação Canônica. Outubro / 1998. Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) 30642254. MV2 Sistemas de Informação

Correlação Canônica. Outubro / 1998. Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) 30642254. MV2 Sistemas de Informação Correlação Canônica Outubro / 998 Versão preliminar Fabio Vessoni fabio@mv.com.br (0) 306454 MV Sistemas de Informação Introdução Existem várias formas de analisar dois conjuntos de dados. Um dos modelos

Leia mais

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

Pós-Graduação em Engenharia Elétrica Inteligência Artificial Pós-Graduação em Engenharia Elétrica Inteligência Artificial João Marques Salomão Rodrigo Varejão Andreão Inteligência Artificial Definição (Fonte: AAAI ): "the scientific understanding of the mechanisms

Leia mais

ESTATÍSTICA. Professor: Ricardo Vojta

ESTATÍSTICA. Professor: Ricardo Vojta ESTATÍSTICA Ciências Contábeis Professor: Ricardo Vojta RAMOS DA ESTATÍSTICA A estatística dedutiva (também conhecida como Estatística Descritiva) se encarrega de descrever o conjunto de dado desde a elaboração

Leia mais

Considerações Finais. Capítulo 8. 8.1- Principais conclusões

Considerações Finais. Capítulo 8. 8.1- Principais conclusões Considerações Finais Capítulo 8 Capítulo 8 Considerações Finais 8.1- Principais conclusões Durante esta tese foram analisados diversos aspectos relativos à implementação, análise e optimização de sistema

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

Universidade Federal de Santa Catarina CAPÍTULO 6 GRÁFICOS NO EXCEL.

Universidade Federal de Santa Catarina CAPÍTULO 6 GRÁFICOS NO EXCEL. CAPÍTULO 6 GRÁFICOS NO EXCEL. Um gráfico no Excel é uma representação gráfica dos números de sua planilha - números transformados em imagens. O Excel examina um grupo de células que tenham sido selecionadas.

Leia mais

Projeto Supervisionado

Projeto Supervisionado Projeto Supervisionado Caio Almasan de Moura ra: 095620 Indice 1. Introdução 2. Principal Projeto: Modelo de Score 2.1. Objetivo... pg 3 2.2. Agentes Envolvidos... pg 3 2.3. Contextualização... pg 3 2.4.

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

AULA 3 Ferramentas de Análise Básicas

AULA 3 Ferramentas de Análise Básicas 3.1 AULA 3 Ferramentas de Análise Básicas Neste capítulo serão apresentadas algumas ferramentas de análise de dados com representação vetorial disponíveis no TerraView. Para isso será usado o banco de

Leia mais

BCC204 - Teoria dos Grafos

BCC204 - Teoria dos Grafos BCC204 - Teoria dos Grafos Marco Antonio M. Carvalho (baseado nas notas de aula do prof. Haroldo Gambini Santos) Departamento de Computação Instituto de Ciências Exatas e Biológicas Universidade Federal

Leia mais

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica

Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica Identificação de Caracteres com Rede Neuronal Artificial com Interface Gráfica João Paulo Teixeira*, José Batista*, Anildio Toca**, João Gonçalves**, e Filipe Pereira** * Departamento de Electrotecnia

Leia mais

Sistema de Numeração e Conversão entre Sistemas. Prof. Rômulo Calado Pantaleão Camara. Carga Horária: 60h

Sistema de Numeração e Conversão entre Sistemas. Prof. Rômulo Calado Pantaleão Camara. Carga Horária: 60h Sistema de Numeração e Conversão entre Sistemas. Prof. Rômulo Calado Pantaleão Camara Carga Horária: 60h Representação de grandeza com sinal O bit mais significativo representa o sinal: 0 (indica um número

Leia mais

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO FUNDAÇÃO DE APOIO AO ENINO TÉCNICO DO ETADO DO RIO DE JANEIRO PLANO DE CURO 1. Identificação Curso de Extensão: INTRODUÇÃO AO ITEMA INTELIGENTE Professor Regente: José Carlos Tavares da ilva Carga Horária:

Leia mais

6 Construção de Cenários

6 Construção de Cenários 6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.

Leia mais

Redes Neurais. Mapas Auto-Organizáveis. 1. O Mapa Auto-Organizável (SOM) Prof. Paulo Martins Engel. Formação auto-organizada de mapas sensoriais

Redes Neurais. Mapas Auto-Organizáveis. 1. O Mapa Auto-Organizável (SOM) Prof. Paulo Martins Engel. Formação auto-organizada de mapas sensoriais . O Mapa Auto-Organizável (SOM) Redes Neurais Mapas Auto-Organizáveis Sistema auto-organizável inspirado no córtex cerebral. Nos mapas tonotópicos do córtex, p. ex., neurônios vizinhos respondem a freqüências

Leia mais

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014 PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método

Leia mais

Revisão de Estatística Básica:

Revisão de Estatística Básica: Revisão de Estatística Básica: Estatística: Um número é denominado uma estatística (singular). Ex.: As vendas de uma empresa no mês constituem uma estatística. Estatísticas: Uma coleção de números ou fatos

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

Cláudio Tadeu Cristino 1. Julho, 2014

Cláudio Tadeu Cristino 1. Julho, 2014 Inferência Estatística Estimação Cláudio Tadeu Cristino 1 1 Universidade Federal de Pernambuco, Recife, Brasil Mestrado em Nutrição, Atividade Física e Plasticidade Fenotípica Julho, 2014 C.T.Cristino

Leia mais

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR 6LPXODomR GH6LVWHPDV )HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR #5,6. Simulador voltado para análise de risco financeiro 3RQWRV IRUWHV Fácil de usar. Funciona integrado a ferramentas já bastante conhecidas,

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

TÍTULO: PROPOSTA DE METODOLOGIA BASEADA EM REDES NEURAIS ARTIFICIAIS MLP PARA A PROTEÇÃO DIFERENCIAL DE TRANSFORMADORES DE POTÊNCIA

TÍTULO: PROPOSTA DE METODOLOGIA BASEADA EM REDES NEURAIS ARTIFICIAIS MLP PARA A PROTEÇÃO DIFERENCIAL DE TRANSFORMADORES DE POTÊNCIA TÍTULO: PROPOSTA DE METODOLOGIA BASEADA EM REDES NEURAIS ARTIFICIAIS MLP PARA A PROTEÇÃO DIFERENCIAL DE TRANSFORMADORES DE POTÊNCIA CATEGORIA: CONCLUÍDO ÁREA: ENGENHARIAS E ARQUITETURA SUBÁREA: ENGENHARIAS

Leia mais

Guia do professor. Ministério da Ciência e Tecnologia. Ministério da Educação. Secretaria de Educação a Distância.

Guia do professor. Ministério da Ciência e Tecnologia. Ministério da Educação. Secretaria de Educação a Distância. números e funções Guia do professor Objetivos da unidade 1. Analisar representação gráfica de dados estatísticos; 2. Familiarizar o aluno com gráfico de Box Plot e análise estatística bivariada; 3. Utilizar

Leia mais