Aprendizagem de Máquina

Tamanho: px
Começar a partir da página:

Download "Aprendizagem de Máquina"

Transcrição

1 Aprendizagem de Máquina Modelos preditivos A tarefa de classificação Modelos Preditivos A tarefa de geração de um modelo preditivo consiste em aprender um mapeamento de entrada para a saída. Neste caso, os dados contêm os valores de saída desejados, correspondentes para cada amostra. Entradas Mapeamento Saídas Classificação: saídas discretas representam rótulos de classe. Regressão (aproximação de funções): saídas contínuas representam valores de variáveis dependentes. 2

2 Representando incertezas O uso de modelos indutivos é equivalente a fazer inferência a partir de dados originados de um processo que não é totalmente conhecido. A teoria das probabilidades é uma abordagem consistente para tomada de decisão levando em consideração incertezas. Neste caso, a falta de informação é modelada como um processo aleatório. Pode ser que o processo que gerou os dados seja realmente determinístico, mas como não temos acesso à totalidade de seu conhecimento, nós o modelamos como aleatório e o analisamos pela teoria das probabilidades. A porção inacessível do conhecimento é representada por variáveis ditas não observáveis (z = [z 1,..., z m ] T ), enquanto que as variáveis observáveis x = [x 1,..., x n ] T, representam a parte mensurável do conhecimento. Se tivéssemos conhecimento total do processo gerador dos dados, poderíamos modelar as variáveis observáveis como o resultado da aplicação de uma função determinística às variáveis não-observáveis: x = f(z) Como não podemos modelar dessa forma, definimos o resultado X como uma variável aleatória (de valor vetorial) correspondente a uma distribuição de probabilidades P(X = x) que especifica o processo. 3 Natureza estatística do processo de aprendizagem x f( ) x d h( ) y Considere um fenômeno estocástico, modelado matematicamente por uma função f(x). Considere o desvio em termos estatísticos entre a função alvo f(x), correspondente ao modelo matemático, e a função h(x) realizada por um sistema de aprendizado (SA). O arquivo de treinamento para o SA representa um conjunto de realizações {x i, d i } de um vetor aleatório X (conjunto de variáveis independentes) e de um escalar aleatório D, (variável dependente) que descrevem o fenômeno estocástico. A relação funcional (desconhecida) entre X e D é modelada por (modelo regressivo): D = f(x) + onde é um erro de expectativa, aleatório, obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), que representa a nossa ignorância sobre a dependência entre D e X, e f( ) é uma função determinística. D é uma variável aleatória (normal) condicionada à variável observada X, cuja média é dada por f(x). 4

3 Exemplo de regressão Supomos que a tarefa seja aprender uma função desconhecida do espaço das instâncias (X) para o conjunto dos números reais (R), f : X R, considerando um espaço de hipóteses H, consistindo de funções h : X R A tarefa do algoritmo de aprendizagem L é aprender f, dado H. Para tanto, dispõe-se de um conjunto de m exemplos na forma {x i, d i } onde o valor alvo d i de cada exemplo está corrompido por um ruído aleatório, e obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), ou seja: d (x 1, d 1 ) (x 2, d 2 ) (x 3, d 3 ) d i (x 4, d 4 ) f ( x ) e i (x 5, d 5 ) e 1 e 2 e 3 e 5 e 4 i f(x) : função alvo x h(x) H: conjunto de retas Neste exemplo, dado o espaço de retas (H), a tarefa de aprendizado consiste em encontrar os parâmetros da reta que tem maior probabilidade de ter gerado os dados: hipótese da máxima verossimilhança (maximum likelihood), h ML. Exemplo de classificação Considere, por exemplo, que desejamos aprender a classe de clientes com alto risco de inadimplência, numa aplicação de análise de risco. Para isso, de acordo com o histórico de transações passadas, supomos que os valores de renda e a poupança são as variáveis (contínuas) que determinam a credibilidade do cliente, que serão modeladas pelas variáveis aleatórias X 1 e X 2. Com o que podemos observar, assumimos então que a credibilidade de um cliente é representada por uma variável aleatória (discreta) C, condicionada às variáveis observáveis, X = [X 1, X 2 ] T, onde C = 1 indica um cliente de alto risco, e C = 0 indica um cliente de baixo risco. Assumindo que os dados tenham sido gerados a partir distribuições normais para cada classe, o processo de aprendizagem consiste na identificação dos parâmetros destas distribuições, de forma a maximizar a verossimilhança dos dados (h ML ). Esta é a chamada abordagem gerativa para o problema de classificação (ou regressão), baseada no modelo probabilístico gerador dos dados. Uma abordagem alternativa ao problema, é considerar a classificação como uma partição do espaço de entrada. Nesta abordagem discriminativa, o foco está na superfície de decisão entre as classes. 6

4 Classificação por estimação da densidade dos dados x 2 : poupança superfície de separação das classes C 2 : baixo risco C 1 : alto risco x 2 : poupança x 1 : renda x 1 : renda A superfície de separação das classes decorre do conhecimento das distribuições das classes. Antes de resolver o problema da classificação, dever-se estimar as distribuições das classes. 7 Dados para classificação de subespécies da planta Iris amostras rotuladas do domínio Conjunto de medidas rótulo c_sepala l_sepala c_petala l_petala classe 5,1 3,8 1,5 0,3 Iris-setosa 5,4 3,4 1,7 0,2 Iris-setosa ,0 3,2 4,7 1,4 Iris-versicolor 6,4 3,2 4,5 1,5 Iris-versicolor ,3 2,9 6,3 1,8 Iris-virgínica 6,7 2,5 5,8 1,8 Iris-virgínica comprimento-sepala largura-sepala comprimento-petala largura-petala Modelo (classificador) Rótulo de classe de interesse 8

5 Dados para classificação de subespécies da planta Iris Os dados podem ser vistos como pontos (vetores) no espaço multidimensional das entradas. Numa representação gráfica, o rótulo pode ser representado por uma cor. largura-sepala largura-petala setosa versicolor virginica versicolor virginica setosa comprimento-sepala comprimento-petala 9 versicolor Classificação como partição Erro2 virginica Erro1 Erro3 virginica versicolor A representação vetorial dos dados permite ver a tarefa de classificação como um problema de partição do espaço de entrada (abordagem discriminativa). Cada rótulo de classe se aplica a uma região do espaço de entrada. Exemplo: modelo classificação (AD) gerada com os dados da Iris. As superfícies de separação das classes são determinadas sem estimar as distribuições. largura pétala Regras equivalentes: R3 R1 R2 R4 R1: Se lp > 1.7 Então virginica R2: Se 1.5 > lp > 0.6 E cp > 4.9 Então virginica R3: Se 1.7 > lp > 0.6 E cp < 4.9 Então versicolor R4: Se 1.7 > lp > 1.5 E cp > 4.9 Então versicolor R5: Se lp < 0.6 Então setosa setosa R5 comprimento pétala 10

6 Viés da abordagem de representação do modelo A abordagem escolhida para gerar o modelo do domínio tem impacto no seu desempenho preditivo. A abordagem, ou linguagem de representação do conhecimento, pode trazer vantagens para a compressão do modelo (lógica), ou então favorecer a capacidade preditiva do modelo (matemática). O ideal seria ter as duas características: máxima capacidade de compreensão e máxima capacidade preditiva. Classificadores baseados em representação simbólica (árvores de decisão, regras de decisão, etc.) estão limitados a particionar o domínio utilizando retas alinhadas com os eixos do espaço de características, o que, para problemas que não são estritamente lógicos, pode limitar o seu desempenho. Classificadores baseados em funções matemáticas (Redes Neurais), particionam o espaço com linhas de qualquer formato, possibilitando desempenho superior aos classificadores simbólicos. Entretanto, os modelos matemáticos são de difícil compreensão. 11 Avaliação de modelos A avaliação empírica da capacidade preditiva de hipóteses (desempenho preditivo) é fundamental para o aprendizado de máquina. A dificuldade em se estimar este desempenho está no fato de normalmente se dispor de uma amostra limitada de dados que pode não representar corretamente a distribuição geral dos dados. Com isso, a estimativa de desempenho feita sobre uma amostra de dados disponível para este fim, não corresponde exatamente ao desempenho verdadeiro, medido sobre a distribuição geral dos dados. Para contornar esta dificuldade, são aplicados métodos estatísticos e feitas suposições sobre as distribuições dos dados. A taxa de erro de previsão da classe é uma medida natural de desempenho para tarefas de classificação. 12

7 Estimação de acurácia Ao avaliarmos uma hipótese aprendida, estamos interessados em estimar a acurácia com que ela irá classificar instâncias futuras e em saber o erro provável desta estimativa de acurácia. Assumimos que exista um espaço X de instâncias possíveis, sobre o qual várias funções alvo podem ser definidas. As diferentes instâncias ocorrem em X com frequências dadas por uma distribuição de probabilidade desconhecida D. A tarefa consiste em aprender uma função alvo f considerando um espaço de hipóteses H, a partir de exemplos x de treinamento desta função, que são retirados de X segundo a distribuição D, juntamente com o seu valor correspondente f(x). Assim, dada uma hipótese h e uma amostra de dados contendo n exemplos retirados aleatoriamente de acordo com a distribuição D, qual é a melhor estimativa da acurácia de h sobre instâncias futuras retiradas da mesma distribuição? Qual é o erro provável nesta estimativa de acurácia? 13 Erros de previsão de uma hipótese É importante distinguir o erro real de uma hipótese h sobre toda a distribuição desconhecida de exemplos D, erro D (h), do erro da amostra de uma hipótese h, em relação a uma amostra S de n instâncias retiradas de X, erro S (h). O erro da amostra, erro S (h), em relação a uma amostra S (com n exemplos) e a uma função alvo f, é definido como a fração de S que é classificada erroneamente. Considerando que (f(x), h(x)) = 1, se f(x) h(x), e 0 caso contrário, podemos definir: 1 erro S ( h) f ( x), h( x) n xs O erro real de uma hipótese, erro D (h), é a probabilidade com que h classificará erroneamente uma instância aleatória retirada da distribuição D: erro D ( h) Pr f ( x) h( x) Desejamos conhecer erro D (h), pois este é o erro que podemos esperar quando aplicamos a hipótese a um exemplo futuro, mas só podemos medir erro S (h). Quão boa é a estimativa de erro D (h) dada por erro S (h)? xd 14

8 Intervalos de confiança para hipóteses discretas A avaliação da estimativa de erro D (h) dada por erro S (h) pode ser feita através de testes estatísticos apropriados. Se a amostra S contém n 30 exemplos retirados de acordo com D, e h comete r erros, ou seja, erro S (h) = r/n, a teoria estatística nos permite afirmar que: 1. O valor mais provável de erro D (h) é erro S (h) 2. Com 95% de probabilidade, erro D (h) se encontra no intervalo (de confiança): erro ( h) 1,96 S erros ( h) 1 erros n Exemplo: n = 40, r = 12, portanto, erro S (h) =0,30. Com isso, erro D (h) = 0,30 (1,96 0,07) = 0,30 0,14 Esta fórmula pode ser estendida para outros níveis de confiança (N%), através de um parâmetro apropriado z N : erros ( h) 1 erros ( h) erros ( h) zn n ( h) Nível de confiança N% 50% 68% 80% 90% 95% 98% 99% Constante z N 0,67 1,00 1,28 1,64 1,96 2,33 2,58 15 Questões relacionadas com avaliação de modelos Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar o desempenho relativo entre modelos diferentes? 16

9 Métricas para avaliação de desempenho O foco deve estar na capacidade preditiva do modelo E não no tempo que leva para classificar ou criar um modelo, na escalabilidade, etc. Apesar de a taxa de erro, ser uma medida natural de desempenho de classificação, ela não distingue entre erros feitos sobre exemplos positivos daqueles feitos sobre exemplos negativos. A matriz de confusão é uma ferramenta que contabiliza os acertos e os erros feitos pela hipótese avaliada: Classe prevista Positivo Negativo Classe real Positivo Negativo Verdadeiro Positivo (VP) Falso Positivo (FP) Falso Negativo (FN) Verdadeiro Negativo (VN) 17 Métricas para avaliação de desempenho... Classe real Pos Neg Positivo Verdadeiro Positivo (VP) Falso Positivo (FP) Classe prevista Negativo Falso Negativo (FN) Verdadeiro Negativo (VN) Métricas mais usadas: Acurácia (mais usada), Erro Acurácia: Erro: VP VN n FP FN n n VP VN FP FN Modelo M + + Prevista P N + P Real N P : número de exemplos positivos (+, +) N : número de exemplos negativos (,) n = P + N : número total de exemplos (?) Pr(P) = P/n =? : Probabilidade a priori da classe P Pr(N) = N/n =? : Probabilidade a priori da classe N Acurácia(M) = ( + + )/n =? Erro(M) = ( + + )/n =? 18

10 Limitação da acurácia Considere um problema de 2 classes Número de exemplos da classe 0 = 9990 Número de exemplos da classe 1 = 10 Se o modelo prediz que qualquer amostra é da classe 0, a acurácia é 9990/10000 = 99,9 % A acurácia é enganosa porque o modelo não detecta nenhum exemplo da classe 1! Solução: levar em consideração custos por classe para erros de classificação 19 Matriz de custo Classe real C(i j) Classe prevista i = P i = N j = P C(P P) C(N P) j = N C(P N) C(N N) C(i j): custo de classificar exemplos da classe j, como sendo da classe i Custo total do modelo (quanto menor, melhor): VPC(P P)+ VNC(N N)+ FPC(P N) + FNC(N P) 20

11 Cálculo de custos de classificação Matriz de Custo C(i j) Classe real Classe prevista P N P N 1 0 pune muito os FN Modelo M1 Classe real Classe prevista P Acurácia = 72% (360/ 500) Custo = = 3940 Melhor modelo pelo custo N P N Modelo M2 Classe real Classe prevista Acurácia = 90% (450/ 500) Custo = = 4350 Melhor modelo pela acurácia P N P N Métricas sensíveis ao custo Precisão (p) Fração correta do total previsto VP p VP FP Taxa de VP (TVP), sensitivity ou recall (r) Fração dos exemplos positivos prevista corretamente VP TVP r VP FN Classe real Classe prevista + + VP FN FP VN Taxa de VN (TVN), specificity ou fall-out Fração dos exemplos negativos prevista corretamente VN TVN FP VN Taxa de FP (TFP) Fração dos exemplos negativos prevista como positivos FP TFP FP VN Taxa de FN (TFN) Fração dos exemplos positivos prevista como negativos FN TFN VP FN w1vp w4vn w VP w FN w FP w VN 1 Medida-F (F): Acurácia ponderada: 2 3 2rp r p Média harmônica entre precisão e recall Das definições segue: TVP + TFN = 1 TVN + TFP =

12 Métricas de desempenho Modelo M1 Classe prevista P N w i Classe prevista P N Modelo M2 Classe prevista P N Classe real P N Classe real P N 1 0 Classe real P N Acurácia = 72% (360/ 500) Custo = = 3940 Precisão = 160/260 = 0,615 Recall = 160/200 = 0,80 Medida-F = 0,695 Acurácia ponderada = 1600/5700 = 0,28 Acurácia = 90% (450/ 500) Custo = = 4350 Precisão = 155/160 = 0,97 Recall = 155/200 = 0,775 Medida-F = 0,86 Acurácia ponderada = 1550/6550 = 0,24 23 Métodos para avaliação de modelos Como obter uma estimativa confiável sobre o desempenho do modelo? Erro sobre os dados de treinamento não é um bom indicador de desempenho sobre dados futuros (estimativa com viés otimista) Solução simples se existirem muitos dados rotulados: Dividir dados em conjuntos de treinamento e de teste (amostras independentes) Mas: normalmente o número de dados rotulados é limitado São necessárias técnicas mais sofisticadas de avaliação Mesmo que a estimativa seja realizada sobre um arquivo sem viés (amostras independentes de teste), a acurácia medida pode ainda ser diferente da acurácia real, dependendo de como o arquivo de teste foi composto. Quanto menor o arquivo de teste, maior será a variância esperada entre estas acurácias. Desempenho do modelo pode depender de outros fatores, além do algoritmo de aprendizagem: Distribuição de classes, custo para classificação errada, tamanho dos conjuntos de treinamento e teste 24

13 Curva de aprendizado Medindo a dependência da acurácia com o tamanho da amostra Curva de aprendizado mostra como a acurácia varia com o tamanho da amostra Efeito de uma amostra pequena: Viés na estimativa Variância de estimativa 25 Confiança na previsão de desempenho A confiança na previsão da taxa de sucesso (ou erro) cai com a diminuição do número de exemplos utilizados. Existem fórmulas que calculam o intervalo em que a taxa de erro real deve estar, com dada confiança, a partir da taxa de erro estimada com um determinado tamanho de amostra. Exemplo: (f : taxa de sucesso estimada, N: tamanho da amostra, c: confiança na estimativa, p: taxa de erro real) f = 75%, N = 1000, c = 80%: p [0,732, 0,767] f = 75%, N = 100, c = 80%: p [0,691, 0,801] f = 75%, N = 10, c = 80%: p [0,549, 0,881] 26

14 Métodos de Estimação de Desempenho Medida natural de desempenho para problemas de classificação: taxa de erro Erro de substituição: taxa obtida dos dados de treinamento Erro de substituição é demasiadamente otimista! Solução simples se existirem muitos dados rotulados: Dividir dados em conjuntos de treinamento e de teste Conjunto de teste: conjunto de exemplos independentes que não foram usados na geração do modelo Suposição: os dados de treinamento e os dados de teste são amostras representativas do problema 27 Nota sobre ajuste de parâmetros É importante que os dados de teste não sejam usados para criar o modelo Alguns esquemas de aprendizagem operam em dois estágios: Estágio 1: constrói a estrutura básica Estágio 2: otimiza os parâmetros da estrutura Os dados de teste não podem ser usados para ajustar parâmetros! Neste caso são precisos três conjuntos: de treinamento, de validação (ou configuração) e de teste. Conjunto de validação é usado para otimizar parâmetros 28

15 Tirando o máximo dos dados Após a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o arquivo de treinamento melhor o classificador Quanto maior o arquivo de teste mais exata será a estimativa de erro Procedimento holdout (retenção): dividir os dados originais em conjuntos de treinamento e de teste Dilema: queremos tanto um grande arquivo de treinamento quanto um grande arquivo de teste 29 Estimação por retenção (holdout) O que fazer se a quantidade de dados é limitada? Método holdout reserva uma certa quantidade dos dados para teste e usa o resto para o treinamento Usualmente 1/3 para teste, o resto para treinamento Mas: as amostras podem não ser representativas Exemplo: pode não haver amostras de uma classe nos dados de teste Versão avançada usa estratificação Assegura que cada classe esteja representada com proporções aproximadamente iguais em ambos os conjuntos Bootstrap Amostragem com substituição 30

16 Validação cruzada (cross-validation) Validação cruzada evita superposição dos conjuntos de teste Primeiro passo: conjunto de dados é dividido em k subconjuntos de tamanhos iguais Segundo passo: cada subconjunto é usado para teste e os demais para treinamento. O segundo passo é repetido k vezes Esta é a chamada validação cruzada por k vezes Muitas vezes os subconjuntos são estratificados antes de realizar a validação cruzada A estimativa de erro global é calculada como a média das k estimativas de erro de cada iteração 31 four-fold-cross-validation Conjunto de Exemplos subconj 1 subconj 2 subconj 3 subconj 4 Modelo 1 Modelo 2 Modelo 3 Modelo 4 treino subconj 1 treino subconj 1 treino subconj 1 teste subconj 1 treino subconj 2 treino subconj 2 teste subconj 2 treino subconj 2 treino subconj 3 teste subconj 3 treino subconj 3 treino subconj 3 teste subconj 4 treino subconj 4 treino subconj 4 treino subconj 4 32

17 Mais sobre validação cruzada Método padrão de avaliação: validação cruzada por dez vezes estratificada Por que dez? Experimentos demonstraram que esta é a melhor escolha para se obter uma estimativa precisa Estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida P. ex. se repete dez vezes a validação cruzada por dez vezes e se calcula a média (reduz variância) 33 Validação cruzada deixando um fora A validação cruzada deixando um fora (leave-one-out c-v): O número de vezes é escolhido como o número de exemplos de treinamento Isto é, deve-se construir n classificadores, onde n é o número de exemplos de treinamento Aproveita ao máximo os dados Não envolve sub-amostragem aleatória Computacionalmente muito custoso 34

18 Métodos para comparação de modelos Como comparar modelos quanto aos seus desempenhos relativos? Curva ROC (Receiver Operating Characteristic) Teste de significância 35 Curva ROC Método desenvolvido nos anos 1950 para analisar sinais ruidosos, em detecção de sinais. Caracteriza compromisso entre achados positivos e alarmes falsos Curva ROC traça TVP (eixo y) contra TFP (eixo x) Desempenho de cada classificador é representado como um ponto na curva ROC A localização do ponto muda quando variamos o limiar de decisão do algoritmo, a distribuição das amostras ou a matriz de custos. 36

19 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Classificador por limiar: pontos localizados em x > t são classificados como positivos VP t FP Para o limiar t : TVP = 0,5, TFN = 0,5, TFP = 0,12, TVN = 0,88 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 37 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Pontos localizados em x > t são classificados como positivos t 2 VP t FP t 2 Para o limiar t 2 : TVP = 0,88, TFN = 0,12, TFP = 0,5, TVN = 0,5 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 38

20 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Pontos localizados em x > t são classificados como positivos t 2 t 3 VN VP t FP t 2 t 3 Para o limiar t 3 : TVP = TVN, TFP = TFN TVP = 0,72, TFN = 0,28, TFP = 0,28, TVN = 0,72 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 39 Curva ROC Classe prevista TVP VP VP FN TFP FP FP VN Classe real + + VP FN FP VN (TVP, TFP): (0,0): declara tudo como classe negativa (1,1): declara tudo como classe positiva (1,0): ideal Diagonal: Decisão aleatória: TVP = TFP Abaixo da diagonal: predição é oposta à classe verdadeira: TFP > TVP Quanto mais acima da diagonal, melhor: TVP > TFP 40

21 Uso da curva ROC para comparar modelos Nenhum dos modelos é melhor que o outro de forma consistente M 1 é melhor para baixas taxas de FP M 2 é melhor para altas taxas de FP Área abaixo da curva ROC Ideal: Área = 1 Decisão aleatória Área = 0,5 41 Comparação de modelos Freqüentemente necessitamos comparar dois métodos diferentes de aprendizado sobre o mesmo problema, para saber qual o melhor a ser usado. A partir da estimativa do erro para os dois modelos, p. ex. usando CV, pode-se testar se a diferença de desempenho entre eles é significativa, e não devida ao erro de estimativa. O que desejamos determinar, é se um esquema de treinamento é melhor ou pior que outro em média, sobre todos os conjuntos de dados possíveis de treinamento e teste que podem ser retirados do domínio. Para tanto, coletamos as estimativas obtidas de k validações cruzadas (k CV), usando cada um dos esquemas, obtendo x 1, x 2,..., x k e y 1, y 2,..., y k, respectivamente. Cada estimativa por CV é gerada usando um conjunto de dados diferente, mas todos de mesmo tamanho. Desejamos determinar se a média do primeiro conjunto de amostras, e 1 = E(x) é significativamente diferente da média do segundo conjunto de amostras, e 2 = E(y). Pelo teorema do limite central, a média de um conjunto de amostras independentes tem um distribuição normal (gaussiana) independentemente da distribuição das amostras. 42

22 Comparação de modelos Para testar se a diferença de desempenho é estatisticamente significativa, é necessário se fazer teste de significância. Dados dois modelos M 1 e M 2, cujos desempenhos devem ser comparados, sendo: M 1 testado sobre D 1 (tamanho n 1 ), taxa de erro encontrada = e 1 M 2 testado sobre D 2 (tamanho n 2 ), taxa de erro encontrada = e 2 Assumindo que D 1 e D 2 são independentes e n 1 e n 2 são suficientemente grandes, então, os erros podem ser aproximados por gaussianas: e N, ) e N, ) 1 ( ( 2 2 Onde i e i são a média e o desvio padrão da distribuição real relativa a cada amostra. A variância de e i pode ser estimada a partir da variância das amostras pela equação: ˆ i ei 1 ei n i 43 Comparação de modelos A diferença de desempenho também segue uma distribuição normal: d = e 1 e 2 d N ( d t t, ) onde d t é a diferença real entre os desempenhos. Como D 1 e D 2 são independentes, as suas variâncias se somam: 1 e e e e t n1 n2 Com isso, a diferença de desempenho é determinada para um nível de confiança de N% pela expressão: 2 d d t Z n ˆ t 44

23 Exemplo de comparação de modelos Dados dois modelos M 1 e M 2, cujos desempenhos devem ser comparados, sendo : M 1 : n 1 = 30, e 1 = 0,15 M 2 : n 2 = 5000, e 2 = 0,25 Com isso: d = e 1 e 2 = 0,1 2 d 0,15 0,251 0,25 0, ,0043 Para um nível de 95% confiança, Z N = 1,96 Portanto, a diferença real entre os desempenhos desses modelos está no intervalo: d t 0,100 1,96 0,0043 0,100 0,128 [ 0,028, 0,228] Conclusão: como o intervalo de confiança contém o zero, a diferença pode não ser estatisticamente significativa. 45 Comparação de algoritmos Cada algoritmo de aprendizagem (L 1, L 2 ) gerou k modelos (k CV): L 1 : gerou M 11, M 12,..., M 1k, com erros e 11, e 12,..., e 1k, L 2 : gerou M 21, M 22,..., M 2k, com erros e 21, e 22,..., e 2k, Se os modelos foram gerados e testados sobre os mesmos conjuntos D 1, D 2,..., D k, Para cada conjunto deve ser calculada a diferença de erros: d j = e 1j e 2j Se k é suficientemente grande, d j é uma distribuição normal com média d cv t, que é a diferença real entre as taxas de erro, e variância cv2. A variância global das diferenças observadas é estimada a partir da média das diferenças, usando a expressão: ˆ 2 cv d) k( k 1) O intervalo de confiança de d t cv, é calculado usando uma distribuição t: k j1 ( d j 2 d cv d t ( 1 ), k 1 ˆ cv 46

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br

Leia mais

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando

Leia mais

Boas Maneiras em Aprendizado de Máquinas

Boas Maneiras em Aprendizado de Máquinas Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Boas Maneiras em Aprendizado de Máquinas David Menotti www.inf.ufpr.br/menotti/ci171-182 Boas Maneiras Agenda Introdução Métricas

Leia mais

Curso de Data Mining

Curso de Data Mining Curso de Data Mining Sandra de Amo Curvas Roc Uma curva ROC (Receiver Operating Characteristic) é um enfoque gráfico que permite visualizar os trade-offs entre as taxas de positivos verdadeiros e positivos

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se

Leia mais

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre

Leia mais

Aula 9. Prof. Adilson Gonzaga

Aula 9. Prof. Adilson Gonzaga Aula 9 Prof. Adilson Gonzaga Mapeamento Atribuir uma Instância a uma classe. Cada Instância é mapeada para um elemento do conjunto de Rótulos de Classe {p,n} p positivo n negativo Atribui uma Instância

Leia mais

à Análise de Padrões

à Análise de Padrões CC-226 Introdução à Análise de Padrões Prof. Carlos Henrique Q. Forster Visão Geral do Curso e Introdução a Classificadores Padrões São apresentados como tuplas de variáveis aleatórias O conjunto amostra

Leia mais

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem e Avaliação de s José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP AM é uma ferramenta poderosa, mas não existe um único algoritmo que apresente o melhor desempenho para todos os

Leia mais

CLASSIFICADORES ELEMENTARES

CLASSIFICADORES ELEMENTARES CLASSIFICADORES ELEMENTARES Classificação 2 Consiste em tentar discriminar em diferentes classes um conjunto de objetos com características mensuráveis Exemplo: classificação de frutas Forma, cor, sabor,

Leia mais

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..

Leia mais

APRENDIZAGEM DE MÁQUINA

APRENDIZAGEM DE MÁQUINA APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação

Leia mais

Aprendizagem de máquina

Aprendizagem de máquina Aprendizagem de máquina Introdução Objetivos Fornecer o ferramental necessário ao entendimento e ao projeto de sistemas baseados em aprendizagem. A disciplina cobre os principais tópicos da aprendizagem

Leia mais

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Implementação de um sistema de validação estatística configurável de dados

Implementação de um sistema de validação estatística configurável de dados Implementação de um sistema de validação estatística configurável de dados Eduardo Dias Filho Supervisores: João Eduardo Ferreira e Pedro Losco Takecian 16 de novembro de 2014 Introdução Table of Contents

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Kuncheva pg. 8 a 25 (seções 1.3 e 1.4) Roteiro da aula Cálculo do erro de um classificador Técnicas de treinamento, avaliação e teste

Leia mais

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Tipos de Pesquisa Censo: é o levantamento de toda população. Aqui não se faz inferência e sim uma descrição

Leia mais

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos

Leia mais

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional Conceitos de Aprendizagem de Máquina e Experimentos Visão Computacional O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos

Leia mais

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções

Leia mais

Métodos de reamostragem

Métodos de reamostragem Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos de reamostragem Eduardo Vargas Ferreira Função custo 2 Função custo Matriz de confusão: é um layout de tabela que

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Avaliação de Paradigmas Alessandro L. Koerich Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem

Leia mais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy 1. Inteligência Computacional Redes Neurais e Sistemas Fuzzy Apresentação da disciplina Conceitos básicos A chamada Inteligência Computacional (IC) reúne uma série de abordagens e técnicas que tentam modelar

Leia mais

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada

Leia mais

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização

Leia mais

θ depende de um parâmetro desconhecido θ.

θ depende de um parâmetro desconhecido θ. 73 Método de Máxima Verosimilhança (Maximum Likelihood) Seja uma variável aleatória (v. a.) cuja densidade de probabilidade depende de um parâmetro desconhecido. Admite-se conhecida a forma de Exemplo

Leia mais

Tutorial básico de classificação em RapidMiner

Tutorial básico de classificação em RapidMiner Tutorial básico de classificação em RapidMiner Mineração de dados biológicos Ciências físicas e biomoleculares Neste tutorial, aprenderemos a utilizar as funcionalidades básicas para classificação em Rapidminer.

Leia mais

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2018 Avaliação de Classificação Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ Classificação e Incerteza

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

AULA 03 Estimativas e tamanhos amostrais

AULA 03 Estimativas e tamanhos amostrais 1 AULA 03 Estimativas e tamanhos amostrais Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Teoria do aprendizado

Teoria do aprendizado Teoria do aprendizado Marcelo K. Albertini 7 de Agosto de 2014 2/37 Teoria do aprendizado Teoremas não existe almoço grátis Viés e variância Aprendizado PAC Dimensão VC Máquinas de vetores suporte 3/37

Leia mais

3 INTERVALOS DE CONFIANÇA

3 INTERVALOS DE CONFIANÇA 3 INTEVALOS DE CONFIANÇA 3.1 Introdução A estimativa de intervalos de confiança é utilizada para se obter medidas de incerteza dos dados analisados. A análise da incerteza de uma previsão, por exemplo,

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Aprendizado de Máquinas

Aprendizado de Máquinas Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais

Leia mais

Mineração de Dados. Modelos Descritivos. Descoberta de agrupamentos

Mineração de Dados. Modelos Descritivos. Descoberta de agrupamentos Mineração de Dados Descoberta de agrupamentos Modelos Descritivos tarefa de geração de um modelo descritivo consiste (em grande parte) em analisar os dados do domínio (entradas) e sugerir uma partição

Leia mais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis: Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização

Leia mais

Aprendizado por Instâncias Janelas de Parzen & Knn

Aprendizado por Instâncias Janelas de Parzen & Knn Universidade Federal do Paraná (UFPR) Especialização em Engenharia Industrial 4.0 Aprendizado por Instâncias Janelas de Parzen & Knn David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Aprendizado por

Leia mais

2284-ELE/5, 3316-IE/3

2284-ELE/5, 3316-IE/3 INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem

Leia mais

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes. HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Mapeamento do uso do solo para manejo de propriedades rurais

Mapeamento do uso do solo para manejo de propriedades rurais 1/28 Mapeamento do uso do solo para manejo de propriedades rurais Teoria Eng. Allan Saddi Arnesen Eng. Frederico Genofre Eng. Marcelo Pedroso Curtarelli 2/28 Conteúdo programático: Capitulo 1: Conceitos

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina écnicas de Classificação Árvores de Decisão Prof. Paulo Martins Engel UFRGS Árvores de Decisão As árvores de decisão (AD) são ferramentas poderosas para classificação cuja maior

Leia mais

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48) Estimação parâmetros e teste de hipóteses Prof. Dr. Alberto Franke (48) 91471041 Intervalo de confiança para média É um intervalo em que haja probabilidade do verdadeiro valor desconhecido do parâmetro

Leia mais

Inteligência Artificial

Inteligência Artificial Aprendizagem por que? lnteligência Artificial Aprendizagem em IA Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com

Leia mais

Filtro de Kalman. Teoria e Aplicação para Iniciantes. Prof. Dr. Marco Antonio Leonel Caetano. M&V Consultoria e Treinamento

Filtro de Kalman. Teoria e Aplicação para Iniciantes. Prof. Dr. Marco Antonio Leonel Caetano. M&V Consultoria e Treinamento Filtro de Kalman Teoria e Aplicação para Iniciantes Prof. Dr. Marco Antonio Leonel Caetano M&V Consultoria e Treinamento www.mudancasabruptas.com.br A História da Filtragem de Sinais 930 940 960 Filtro

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço

Leia mais

lnteligência Artificial Aprendizagem em IA

lnteligência Artificial Aprendizagem em IA lnteligência Artificial Aprendizagem em IA 1 Aprendizagem por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com

Leia mais

Processamento digital de imagens

Processamento digital de imagens Processamento digital de imagens Agostinho Brito Departamento de Engenharia da Computação e Automação Universidade Federal do Rio Grande do Norte 27 de maio de 2016 Reconhecimento de objetos Padrão: arranjo

Leia mais

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Glossário Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Análise de co-variância: Procedimento estatístico utilizado para análise de dados que

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Aula 8: Árvores. Rafael Izbicki 1 / 33

Aula 8: Árvores. Rafael Izbicki 1 / 33 Mineração de Dados Aula 8: Árvores Rafael Izbicki 1 / 33 Revisão Vimos que a função de risco é dada por R(g) := E[I(Y g(x))] = P (Y g(x)), Nem sempre tal função nos traz toda informação sobre g. É comum

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros ESQUEMA DO CAPÍTULO 7.1 INTRODUÇÃO 7.2 DISTRIBUIÇÕES AMOSTRAIS E TEOREMA DO LIMITE CENTRAL 7.3 CONCEITOS GERAIS DE ESTIMAÇÃO PONTUAL 7.3.1 Estimadores

Leia mais

AULA 05 Teste de Hipótese

AULA 05 Teste de Hipótese 1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução

Leia mais

Rafael Izbicki 1 / 38

Rafael Izbicki 1 / 38 Mineração de Dados Aula 7: Classificação Rafael Izbicki 1 / 38 Revisão Um problema de classificação é um problema de predição em que Y é qualitativo. Em um problema de classificação, é comum se usar R(g)

Leia mais

Algoritmos de Aprendizado

Algoritmos de Aprendizado Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Back Propagation Radial Basis Functions (RBFs) Competitive Learning Hopfield Algoritmos de Aprendizado Regra de Hebb Perceptron

Leia mais

Inferência para CS Modelos univariados contínuos

Inferência para CS Modelos univariados contínuos Inferência para CS Modelos univariados contínuos Renato Martins Assunção DCC - UFMG 2014 Renato Martins Assunção (DCC - UFMG) Inferência para CS Modelos univariados contínuos 2014 1 / 42 V.A. Contínua

Leia mais

lnteligência Artificial Introdução a Aprendizado de Máquina

lnteligência Artificial Introdução a Aprendizado de Máquina lnteligência Artificial Introdução a Aprendizado de Máquina 1 Aprendizado por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado

Leia mais

Métodos Não Paramétricos

Métodos Não Paramétricos Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Métodos não Paramétricos Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Métodos Não Paramétricos Introduzir

Leia mais

5 Avaliação dos estimadores propostos

5 Avaliação dos estimadores propostos 5 valiação dos estimadores propostos Este capítulo apresenta as medidas estatísticas usuais para avaliar a qualidade de estimadores e as expressões utilizadas para a estimação destas medidas, a partir

Leia mais

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017. Professora Ana Hermínia Andrade Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise Período 2017.1 Distribuições Amostrais O intuito de fazer uma amostragem

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Aprendizado não-supervisionado Formação de agrupamentos Aprendizado Não-Supervisionado Classificação supervisionada: discriminar padrões com base num modelo pré-definido de classes.

Leia mais

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

MEEMF-2010 Aula 01. Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana

MEEMF-2010 Aula 01. Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana MEEMF-2010 Aula 01 Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana O que é inferência estatística? Inferência estatística é o importante ramo da Estatística

Leia mais

Métodos Quantitativos para Ciência da Computação Experimental

Métodos Quantitativos para Ciência da Computação Experimental Métodos Quantitativos para Ciência da Computação Experimental Revisão Virgílio A. F. Almeida Maio de 2008 Departamento de Ciência da Computação Universidade Federal de Minas Gerais FOCO do curso Revisão

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

M08. Introdução a Técnicas de Data Mining DM

M08. Introdução a Técnicas de Data Mining DM M08. Introdução a Técnicas de Data Mining DM 3 - CLASSIFICAÇÃO E PREDIÇÃO LNCC/MCT - 15/01/2008 Custódio Gouvêa Lopes da Motta custodio.motta@ufjf.edu.br www.dcc.ufjf.br Agradecimentos: CNPq, LNCC, UFJF,

Leia mais

Intervalos de Confiança

Intervalos de Confiança Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

Prof.: Eduardo Vargas Ferreira

Prof.: Eduardo Vargas Ferreira Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Prof.: Eduardo Vargas Ferreira O que é Machine Learning? Estatística Data Mining 2 O que é Machine Learning? Estatística

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Aprendizagem Baseada em Instâncias Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática

Leia mais

1. Conceitos básicos dos Sistemas Auto-organizáveis. Os sistemas auto-organizáveis estão relacionados com aprendizagem nãosupervisionada.

1. Conceitos básicos dos Sistemas Auto-organizáveis. Os sistemas auto-organizáveis estão relacionados com aprendizagem nãosupervisionada. Redes Neurais Sistemas Auto-Organizáveis. Conceitos básicos dos Sistemas Auto-organizáveis Os sistemas auto-organizáveis estão relacionados com aprendizagem nãosupervisionada. O objetivo de um algoritmo

Leia mais

Classificação. Eduardo Raul Hruschka

Classificação. Eduardo Raul Hruschka Classificação Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada Combinação de Modelos

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade Federal

Leia mais

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM Estimação de Parâmetros O objetivo da Estatística Indutiva é tirar conclusões probabilísticas sobre aspectos da população,

Leia mais

Intervalos de Confiança

Intervalos de Confiança Intervalos de Confiança Carla Henriques e Nuno Bastos Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques e Nuno Bastos (DepMAT) Intervalos de Confiança 2010/2011 1 / 33 Introdução

Leia mais

AULA 04 Teste de hipótese

AULA 04 Teste de hipótese 1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal

Leia mais

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) 5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente

Leia mais

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência REGRESSÃO LOGÍSTICA É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

3. Otimização sob Incerteza

3. Otimização sob Incerteza 3. Otimização sob Incerteza Os problemas de otimização tentam resolver, de forma eficiente, situações do mundo real por meio de modelos matemáticos que utilizam parâmetros incertos. Pode-se encontrar na

Leia mais

Aprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014

Aprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014 Aprendizado indutivo Marcelo K. Albertini 17 de Abril de 2014 2/22 Aprendizado indutivo O que é? Porque é difícil? Como podemos resolver problemas de indução? 3/22 Aprendizado supervisionado Temos: exemplos

Leia mais