Aprendizagem de Máquina

Transcrição

1 Aprendizagem de Máquina Modelos preditivos A tarefa de classificação Modelos Preditivos A tarefa de geração de um modelo preditivo consiste em aprender um mapeamento de entrada para a saída. Neste caso, os dados contêm os valores de saída desejados, correspondentes para cada amostra. Entradas Mapeamento Saídas Classificação: saídas discretas representam rótulos de classe. Regressão (aproximação de funções): saídas contínuas representam valores de variáveis dependentes. 2

2 Representando incertezas O uso de modelos indutivos é equivalente a fazer inferência a partir de dados originados de um processo que não é totalmente conhecido. A teoria das probabilidades é uma abordagem consistente para tomada de decisão levando em consideração incertezas. Neste caso, a falta de informação é modelada como um processo aleatório. Pode ser que o processo que gerou os dados seja realmente determinístico, mas como não temos acesso à totalidade de seu conhecimento, nós o modelamos como aleatório e o analisamos pela teoria das probabilidades. A porção inacessível do conhecimento é representada por variáveis ditas não observáveis (z = [z 1,..., z m ] T ), enquanto que as variáveis observáveis x = [x 1,..., x n ] T, representam a parte mensurável do conhecimento. Se tivéssemos conhecimento total do processo gerador dos dados, poderíamos modelar as variáveis observáveis como o resultado da aplicação de uma função determinística às variáveis não-observáveis: x = f(z) Como não podemos modelar dessa forma, definimos o resultado X como uma variável aleatória (de valor vetorial) correspondente a uma distribuição de probabilidades P(X = x) que especifica o processo. 3 Natureza estatística do processo de aprendizagem x f( ) x d h( ) y Considere um fenômeno estocástico, modelado matematicamente por uma função f(x). Considere o desvio em termos estatísticos entre a função alvo f(x), correspondente ao modelo matemático, e a função h(x) realizada por um sistema de aprendizado (SA). O arquivo de treinamento para o SA representa um conjunto de realizações {x i, d i } de um vetor aleatório X (conjunto de variáveis independentes) e de um escalar aleatório D, (variável dependente) que descrevem o fenômeno estocástico. A relação funcional (desconhecida) entre X e D é modelada por (modelo regressivo): D = f(x) + onde é um erro de expectativa, aleatório, obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), que representa a nossa ignorância sobre a dependência entre D e X, e f( ) é uma função determinística. D é uma variável aleatória (normal) condicionada à variável observada X, cuja média é dada por f(x). 4

3 Exemplo de regressão Supomos que a tarefa seja aprender uma função desconhecida do espaço das instâncias (X) para o conjunto dos números reais (R), f : X R, considerando um espaço de hipóteses H, consistindo de funções h : X R A tarefa do algoritmo de aprendizagem L é aprender f, dado H. Para tanto, dispõe-se de um conjunto de m exemplos na forma {x i, d i } onde o valor alvo d i de cada exemplo está corrompido por um ruído aleatório, e obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), ou seja: d (x 1, d 1 ) (x 2, d 2 ) (x 3, d 3 ) d i (x 4, d 4 ) f ( x ) e i (x 5, d 5 ) e 1 e 2 e 3 e 5 e 4 i f(x) : função alvo x h(x) H: conjunto de retas Neste exemplo, dado o espaço de retas (H), a tarefa de aprendizado consiste em encontrar os parâmetros da reta que tem maior probabilidade de ter gerado os dados: hipótese da máxima verossimilhança (maximum likelihood), h ML. Exemplo de classificação Considere, por exemplo, que desejamos aprender a classe de clientes com alto risco de inadimplência, numa aplicação de análise de risco. Para isso, de acordo com o histórico de transações passadas, supomos que os valores de renda e a poupança são as variáveis (contínuas) que determinam a credibilidade do cliente, que serão modeladas pelas variáveis aleatórias X 1 e X 2. Com o que podemos observar, assumimos então que a credibilidade de um cliente é representada por uma variável aleatória (discreta) C, condicionada às variáveis observáveis, X = [X 1, X 2 ] T, onde C = 1 indica um cliente de alto risco, e C = 0 indica um cliente de baixo risco. Assumindo que os dados tenham sido gerados a partir distribuições normais para cada classe, o processo de aprendizagem consiste na identificação dos parâmetros destas distribuições, de forma a maximizar a verossimilhança dos dados (h ML ). Esta é a chamada abordagem gerativa para o problema de classificação (ou regressão), baseada no modelo probabilístico gerador dos dados. Uma abordagem alternativa ao problema, é considerar a classificação como uma partição do espaço de entrada. Nesta abordagem discriminativa, o foco está na superfície de decisão entre as classes. 6

4 Classificação por estimação da densidade dos dados x 2 : poupança superfície de separação das classes C 2 : baixo risco C 1 : alto risco x 2 : poupança x 1 : renda x 1 : renda A superfície de separação das classes decorre do conhecimento das distribuições das classes. Antes de resolver o problema da classificação, dever-se estimar as distribuições das classes. 7 Dados para classificação de subespécies da planta Iris amostras rotuladas do domínio Conjunto de medidas rótulo c_sepala l_sepala c_petala l_petala classe 5,1 3,8 1,5 0,3 Iris-setosa 5,4 3,4 1,7 0,2 Iris-setosa ,0 3,2 4,7 1,4 Iris-versicolor 6,4 3,2 4,5 1,5 Iris-versicolor ,3 2,9 6,3 1,8 Iris-virgínica 6,7 2,5 5,8 1,8 Iris-virgínica comprimento-sepala largura-sepala comprimento-petala largura-petala Modelo (classificador) Rótulo de classe de interesse 8

5 Dados para classificação de subespécies da planta Iris Os dados podem ser vistos como pontos (vetores) no espaço multidimensional das entradas. Numa representação gráfica, o rótulo pode ser representado por uma cor. largura-sepala largura-petala setosa versicolor virginica versicolor virginica setosa comprimento-sepala comprimento-petala 9 versicolor Classificação como partição Erro2 virginica Erro1 Erro3 virginica versicolor A representação vetorial dos dados permite ver a tarefa de classificação como um problema de partição do espaço de entrada (abordagem discriminativa). Cada rótulo de classe se aplica a uma região do espaço de entrada. Exemplo: modelo classificação (AD) gerada com os dados da Iris. As superfícies de separação das classes são determinadas sem estimar as distribuições. largura pétala Regras equivalentes: R3 R1 R2 R4 R1: Se lp > 1.7 Então virginica R2: Se 1.5 > lp > 0.6 E cp > 4.9 Então virginica R3: Se 1.7 > lp > 0.6 E cp < 4.9 Então versicolor R4: Se 1.7 > lp > 1.5 E cp > 4.9 Então versicolor R5: Se lp < 0.6 Então setosa setosa R5 comprimento pétala 10

6 Viés da abordagem de representação do modelo A abordagem escolhida para gerar o modelo do domínio tem impacto no seu desempenho preditivo. A abordagem, ou linguagem de representação do conhecimento, pode trazer vantagens para a compressão do modelo (lógica), ou então favorecer a capacidade preditiva do modelo (matemática). O ideal seria ter as duas características: máxima capacidade de compreensão e máxima capacidade preditiva. Classificadores baseados em representação simbólica (árvores de decisão, regras de decisão, etc.) estão limitados a particionar o domínio utilizando retas alinhadas com os eixos do espaço de características, o que, para problemas que não são estritamente lógicos, pode limitar o seu desempenho. Classificadores baseados em funções matemáticas (Redes Neurais), particionam o espaço com linhas de qualquer formato, possibilitando desempenho superior aos classificadores simbólicos. Entretanto, os modelos matemáticos são de difícil compreensão. 11 Avaliação de modelos A avaliação empírica da capacidade preditiva de hipóteses (desempenho preditivo) é fundamental para o aprendizado de máquina. A dificuldade em se estimar este desempenho está no fato de normalmente se dispor de uma amostra limitada de dados que pode não representar corretamente a distribuição geral dos dados. Com isso, a estimativa de desempenho feita sobre uma amostra de dados disponível para este fim, não corresponde exatamente ao desempenho verdadeiro, medido sobre a distribuição geral dos dados. Para contornar esta dificuldade, são aplicados métodos estatísticos e feitas suposições sobre as distribuições dos dados. A taxa de erro de previsão da classe é uma medida natural de desempenho para tarefas de classificação. 12

7 Estimação de acurácia Ao avaliarmos uma hipótese aprendida, estamos interessados em estimar a acurácia com que ela irá classificar instâncias futuras e em saber o erro provável desta estimativa de acurácia. Assumimos que exista um espaço X de instâncias possíveis, sobre o qual várias funções alvo podem ser definidas. As diferentes instâncias ocorrem em X com frequências dadas por uma distribuição de probabilidade desconhecida D. A tarefa consiste em aprender uma função alvo f considerando um espaço de hipóteses H, a partir de exemplos x de treinamento desta função, que são retirados de X segundo a distribuição D, juntamente com o seu valor correspondente f(x). Assim, dada uma hipótese h e uma amostra de dados contendo n exemplos retirados aleatoriamente de acordo com a distribuição D, qual é a melhor estimativa da acurácia de h sobre instâncias futuras retiradas da mesma distribuição? Qual é o erro provável nesta estimativa de acurácia? 13 Erros de previsão de uma hipótese É importante distinguir o erro real de uma hipótese h sobre toda a distribuição desconhecida de exemplos D, erro D (h), do erro da amostra de uma hipótese h, em relação a uma amostra S de n instâncias retiradas de X, erro S (h). O erro da amostra, erro S (h), em relação a uma amostra S (com n exemplos) e a uma função alvo f, é definido como a fração de S que é classificada erroneamente. Considerando que (f(x), h(x)) = 1, se f(x) h(x), e 0 caso contrário, podemos definir: 1 erro S ( h) f ( x), h( x) n xs O erro real de uma hipótese, erro D (h), é a probabilidade com que h classificará erroneamente uma instância aleatória retirada da distribuição D: erro D ( h) Pr f ( x) h( x) Desejamos conhecer erro D (h), pois este é o erro que podemos esperar quando aplicamos a hipótese a um exemplo futuro, mas só podemos medir erro S (h). Quão boa é a estimativa de erro D (h) dada por erro S (h)? xd 14

8 Intervalos de confiança para hipóteses discretas A avaliação da estimativa de erro D (h) dada por erro S (h) pode ser feita através de testes estatísticos apropriados. Se a amostra S contém n 30 exemplos retirados de acordo com D, e h comete r erros, ou seja, erro S (h) = r/n, a teoria estatística nos permite afirmar que: 1. O valor mais provável de erro D (h) é erro S (h) 2. Com 95% de probabilidade, erro D (h) se encontra no intervalo (de confiança): erro ( h) 1,96 S erros ( h) 1 erros n Exemplo: n = 40, r = 12, portanto, erro S (h) =0,30. Com isso, erro D (h) = 0,30 (1,96 0,07) = 0,30 0,14 Esta fórmula pode ser estendida para outros níveis de confiança (N%), através de um parâmetro apropriado z N : erros ( h) 1 erros ( h) erros ( h) zn n ( h) Nível de confiança N% 50% 68% 80% 90% 95% 98% 99% Constante z N 0,67 1,00 1,28 1,64 1,96 2,33 2,58 15 Questões relacionadas com avaliação de modelos Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar o desempenho relativo entre modelos diferentes? 16

9 Métricas para avaliação de desempenho O foco deve estar na capacidade preditiva do modelo E não no tempo que leva para classificar ou criar um modelo, na escalabilidade, etc. Apesar de a taxa de erro, ser uma medida natural de desempenho de classificação, ela não distingue entre erros feitos sobre exemplos positivos daqueles feitos sobre exemplos negativos. A matriz de confusão é uma ferramenta que contabiliza os acertos e os erros feitos pela hipótese avaliada: Classe prevista Positivo Negativo Classe real Positivo Negativo Verdadeiro Positivo (VP) Falso Positivo (FP) Falso Negativo (FN) Verdadeiro Negativo (VN) 17 Métricas para avaliação de desempenho... Classe real Pos Neg Positivo Verdadeiro Positivo (VP) Falso Positivo (FP) Classe prevista Negativo Falso Negativo (FN) Verdadeiro Negativo (VN) Métricas mais usadas: Acurácia (mais usada), Erro Acurácia: Erro: VP VN n FP FN n n VP VN FP FN Modelo M + + Prevista P N + P Real N P : número de exemplos positivos (+, +) N : número de exemplos negativos (,) n = P + N : número total de exemplos (?) Pr(P) = P/n =? : Probabilidade a priori da classe P Pr(N) = N/n =? : Probabilidade a priori da classe N Acurácia(M) = ( + + )/n =? Erro(M) = ( + + )/n =? 18

10 Limitação da acurácia Considere um problema de 2 classes Número de exemplos da classe 0 = 9990 Número de exemplos da classe 1 = 10 Se o modelo prediz que qualquer amostra é da classe 0, a acurácia é 9990/10000 = 99,9 % A acurácia é enganosa porque o modelo não detecta nenhum exemplo da classe 1! Solução: levar em consideração custos por classe para erros de classificação 19 Matriz de custo Classe real C(i j) Classe prevista i = P i = N j = P C(P P) C(N P) j = N C(P N) C(N N) C(i j): custo de classificar exemplos da classe j, como sendo da classe i Custo total do modelo (quanto menor, melhor): VPC(P P)+ VNC(N N)+ FPC(P N) + FNC(N P) 20

11 Cálculo de custos de classificação Matriz de Custo C(i j) Classe real Classe prevista P N P N 1 0 pune muito os FN Modelo M1 Classe real Classe prevista P Acurácia = 72% (360/ 500) Custo = = 3940 Melhor modelo pelo custo N P N Modelo M2 Classe real Classe prevista Acurácia = 90% (450/ 500) Custo = = 4350 Melhor modelo pela acurácia P N P N Métricas sensíveis ao custo Precisão (p) Fração correta do total previsto VP p VP FP Taxa de VP (TVP), sensitivity ou recall (r) Fração dos exemplos positivos prevista corretamente VP TVP r VP FN Classe real Classe prevista + + VP FN FP VN Taxa de VN (TVN), specificity ou fall-out Fração dos exemplos negativos prevista corretamente VN TVN FP VN Taxa de FP (TFP) Fração dos exemplos negativos prevista como positivos FP TFP FP VN Taxa de FN (TFN) Fração dos exemplos positivos prevista como negativos FN TFN VP FN w1vp w4vn w VP w FN w FP w VN 1 Medida-F (F): Acurácia ponderada: 2 3 2rp r p Média harmônica entre precisão e recall Das definições segue: TVP + TFN = 1 TVN + TFP =

12 Métricas de desempenho Modelo M1 Classe prevista P N w i Classe prevista P N Modelo M2 Classe prevista P N Classe real P N Classe real P N 1 0 Classe real P N Acurácia = 72% (360/ 500) Custo = = 3940 Precisão = 160/260 = 0,615 Recall = 160/200 = 0,80 Medida-F = 0,695 Acurácia ponderada = 1600/5700 = 0,28 Acurácia = 90% (450/ 500) Custo = = 4350 Precisão = 155/160 = 0,97 Recall = 155/200 = 0,775 Medida-F = 0,86 Acurácia ponderada = 1550/6550 = 0,24 23 Métodos para avaliação de modelos Como obter uma estimativa confiável sobre o desempenho do modelo? Erro sobre os dados de treinamento não é um bom indicador de desempenho sobre dados futuros (estimativa com viés otimista) Solução simples se existirem muitos dados rotulados: Dividir dados em conjuntos de treinamento e de teste (amostras independentes) Mas: normalmente o número de dados rotulados é limitado São necessárias técnicas mais sofisticadas de avaliação Mesmo que a estimativa seja realizada sobre um arquivo sem viés (amostras independentes de teste), a acurácia medida pode ainda ser diferente da acurácia real, dependendo de como o arquivo de teste foi composto. Quanto menor o arquivo de teste, maior será a variância esperada entre estas acurácias. Desempenho do modelo pode depender de outros fatores, além do algoritmo de aprendizagem: Distribuição de classes, custo para classificação errada, tamanho dos conjuntos de treinamento e teste 24

13 Curva de aprendizado Medindo a dependência da acurácia com o tamanho da amostra Curva de aprendizado mostra como a acurácia varia com o tamanho da amostra Efeito de uma amostra pequena: Viés na estimativa Variância de estimativa 25 Confiança na previsão de desempenho A confiança na previsão da taxa de sucesso (ou erro) cai com a diminuição do número de exemplos utilizados. Existem fórmulas que calculam o intervalo em que a taxa de erro real deve estar, com dada confiança, a partir da taxa de erro estimada com um determinado tamanho de amostra. Exemplo: (f : taxa de sucesso estimada, N: tamanho da amostra, c: confiança na estimativa, p: taxa de erro real) f = 75%, N = 1000, c = 80%: p [0,732, 0,767] f = 75%, N = 100, c = 80%: p [0,691, 0,801] f = 75%, N = 10, c = 80%: p [0,549, 0,881] 26

14 Métodos de Estimação de Desempenho Medida natural de desempenho para problemas de classificação: taxa de erro Erro de substituição: taxa obtida dos dados de treinamento Erro de substituição é demasiadamente otimista! Solução simples se existirem muitos dados rotulados: Dividir dados em conjuntos de treinamento e de teste Conjunto de teste: conjunto de exemplos independentes que não foram usados na geração do modelo Suposição: os dados de treinamento e os dados de teste são amostras representativas do problema 27 Nota sobre ajuste de parâmetros É importante que os dados de teste não sejam usados para criar o modelo Alguns esquemas de aprendizagem operam em dois estágios: Estágio 1: constrói a estrutura básica Estágio 2: otimiza os parâmetros da estrutura Os dados de teste não podem ser usados para ajustar parâmetros! Neste caso são precisos três conjuntos: de treinamento, de validação (ou configuração) e de teste. Conjunto de validação é usado para otimizar parâmetros 28

15 Tirando o máximo dos dados Após a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o arquivo de treinamento melhor o classificador Quanto maior o arquivo de teste mais exata será a estimativa de erro Procedimento holdout (retenção): dividir os dados originais em conjuntos de treinamento e de teste Dilema: queremos tanto um grande arquivo de treinamento quanto um grande arquivo de teste 29 Estimação por retenção (holdout) O que fazer se a quantidade de dados é limitada? Método holdout reserva uma certa quantidade dos dados para teste e usa o resto para o treinamento Usualmente 1/3 para teste, o resto para treinamento Mas: as amostras podem não ser representativas Exemplo: pode não haver amostras de uma classe nos dados de teste Versão avançada usa estratificação Assegura que cada classe esteja representada com proporções aproximadamente iguais em ambos os conjuntos Bootstrap Amostragem com substituição 30

16 Validação cruzada (cross-validation) Validação cruzada evita superposição dos conjuntos de teste Primeiro passo: conjunto de dados é dividido em k subconjuntos de tamanhos iguais Segundo passo: cada subconjunto é usado para teste e os demais para treinamento. O segundo passo é repetido k vezes Esta é a chamada validação cruzada por k vezes Muitas vezes os subconjuntos são estratificados antes de realizar a validação cruzada A estimativa de erro global é calculada como a média das k estimativas de erro de cada iteração 31 four-fold-cross-validation Conjunto de Exemplos subconj 1 subconj 2 subconj 3 subconj 4 Modelo 1 Modelo 2 Modelo 3 Modelo 4 treino subconj 1 treino subconj 1 treino subconj 1 teste subconj 1 treino subconj 2 treino subconj 2 teste subconj 2 treino subconj 2 treino subconj 3 teste subconj 3 treino subconj 3 treino subconj 3 teste subconj 4 treino subconj 4 treino subconj 4 treino subconj 4 32

17 Mais sobre validação cruzada Método padrão de avaliação: validação cruzada por dez vezes estratificada Por que dez? Experimentos demonstraram que esta é a melhor escolha para se obter uma estimativa precisa Estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida P. ex. se repete dez vezes a validação cruzada por dez vezes e se calcula a média (reduz variância) 33 Validação cruzada deixando um fora A validação cruzada deixando um fora (leave-one-out c-v): O número de vezes é escolhido como o número de exemplos de treinamento Isto é, deve-se construir n classificadores, onde n é o número de exemplos de treinamento Aproveita ao máximo os dados Não envolve sub-amostragem aleatória Computacionalmente muito custoso 34

18 Métodos para comparação de modelos Como comparar modelos quanto aos seus desempenhos relativos? Curva ROC (Receiver Operating Characteristic) Teste de significância 35 Curva ROC Método desenvolvido nos anos 1950 para analisar sinais ruidosos, em detecção de sinais. Caracteriza compromisso entre achados positivos e alarmes falsos Curva ROC traça TVP (eixo y) contra TFP (eixo x) Desempenho de cada classificador é representado como um ponto na curva ROC A localização do ponto muda quando variamos o limiar de decisão do algoritmo, a distribuição das amostras ou a matriz de custos. 36

19 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Classificador por limiar: pontos localizados em x > t são classificados como positivos VP t FP Para o limiar t : TVP = 0,5, TFN = 0,5, TFP = 0,12, TVN = 0,88 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 37 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Pontos localizados em x > t são classificados como positivos t 2 VP t FP t 2 Para o limiar t 2 : TVP = 0,88, TFN = 0,12, TFP = 0,5, TVN = 0,5 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 38

20 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Pontos localizados em x > t são classificados como positivos t 2 t 3 VN VP t FP t 2 t 3 Para o limiar t 3 : TVP = TVN, TFP = TFN TVP = 0,72, TFN = 0,28, TFP = 0,28, TVN = 0,72 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 39 Curva ROC Classe prevista TVP VP VP FN TFP FP FP VN Classe real + + VP FN FP VN (TVP, TFP): (0,0): declara tudo como classe negativa (1,1): declara tudo como classe positiva (1,0): ideal Diagonal: Decisão aleatória: TVP = TFP Abaixo da diagonal: predição é oposta à classe verdadeira: TFP > TVP Quanto mais acima da diagonal, melhor: TVP > TFP 40

21 Uso da curva ROC para comparar modelos Nenhum dos modelos é melhor que o outro de forma consistente M 1 é melhor para baixas taxas de FP M 2 é melhor para altas taxas de FP Área abaixo da curva ROC Ideal: Área = 1 Decisão aleatória Área = 0,5 41 Comparação de modelos Freqüentemente necessitamos comparar dois métodos diferentes de aprendizado sobre o mesmo problema, para saber qual o melhor a ser usado. A partir da estimativa do erro para os dois modelos, p. ex. usando CV, pode-se testar se a diferença de desempenho entre eles é significativa, e não devida ao erro de estimativa. O que desejamos determinar, é se um esquema de treinamento é melhor ou pior que outro em média, sobre todos os conjuntos de dados possíveis de treinamento e teste que podem ser retirados do domínio. Para tanto, coletamos as estimativas obtidas de k validações cruzadas (k CV), usando cada um dos esquemas, obtendo x 1, x 2,..., x k e y 1, y 2,..., y k, respectivamente. Cada estimativa por CV é gerada usando um conjunto de dados diferente, mas todos de mesmo tamanho. Desejamos determinar se a média do primeiro conjunto de amostras, e 1 = E(x) é significativamente diferente da média do segundo conjunto de amostras, e 2 = E(y). Pelo teorema do limite central, a média de um conjunto de amostras independentes tem um distribuição normal (gaussiana) independentemente da distribuição das amostras. 42

22 Comparação de modelos Para testar se a diferença de desempenho é estatisticamente significativa, é necessário se fazer teste de significância. Dados dois modelos M 1 e M 2, cujos desempenhos devem ser comparados, sendo: M 1 testado sobre D 1 (tamanho n 1 ), taxa de erro encontrada = e 1 M 2 testado sobre D 2 (tamanho n 2 ), taxa de erro encontrada = e 2 Assumindo que D 1 e D 2 são independentes e n 1 e n 2 são suficientemente grandes, então, os erros podem ser aproximados por gaussianas: e N, ) e N, ) 1 ( ( 2 2 Onde i e i são a média e o desvio padrão da distribuição real relativa a cada amostra. A variância de e i pode ser estimada a partir da variância das amostras pela equação: ˆ i ei 1 ei n i 43 Comparação de modelos A diferença de desempenho também segue uma distribuição normal: d = e 1 e 2 d N ( d t t, ) onde d t é a diferença real entre os desempenhos. Como D 1 e D 2 são independentes, as suas variâncias se somam: 1 e e e e t n1 n2 Com isso, a diferença de desempenho é determinada para um nível de confiança de N% pela expressão: 2 d d t Z n ˆ t 44

23 Exemplo de comparação de modelos Dados dois modelos M 1 e M 2, cujos desempenhos devem ser comparados, sendo : M 1 : n 1 = 30, e 1 = 0,15 M 2 : n 2 = 5000, e 2 = 0,25 Com isso: d = e 1 e 2 = 0,1 2 d 0,15 0,251 0,25 0, ,0043 Para um nível de 95% confiança, Z N = 1,96 Portanto, a diferença real entre os desempenhos desses modelos está no intervalo: d t 0,100 1,96 0,0043 0,100 0,128 [ 0,028, 0,228] Conclusão: como o intervalo de confiança contém o zero, a diferença pode não ser estatisticamente significativa. 45 Comparação de algoritmos Cada algoritmo de aprendizagem (L 1, L 2 ) gerou k modelos (k CV): L 1 : gerou M 11, M 12,..., M 1k, com erros e 11, e 12,..., e 1k, L 2 : gerou M 21, M 22,..., M 2k, com erros e 21, e 22,..., e 2k, Se os modelos foram gerados e testados sobre os mesmos conjuntos D 1, D 2,..., D k, Para cada conjunto deve ser calculada a diferença de erros: d j = e 1j e 2j Se k é suficientemente grande, d j é uma distribuição normal com média d cv t, que é a diferença real entre as taxas de erro, e variância cv2. A variância global das diferenças observadas é estimada a partir da média das diferenças, usando a expressão: ˆ 2 cv d) k( k 1) O intervalo de confiança de d t cv, é calculado usando uma distribuição t: k j1 ( d j 2 d cv d t ( 1 ), k 1 ˆ cv 46