Aprendizagem de Máquina
|
|
- Victor Gabriel Cesário Barros
- 5 Há anos
- Visualizações:
Transcrição
1 Aprendizagem de Máquina Modelos preditivos A tarefa de classificação Modelos Preditivos A tarefa de geração de um modelo preditivo consiste em aprender um mapeamento de entrada para a saída. Neste caso, os dados contêm os valores de saída desejados, correspondentes para cada amostra. Entradas Mapeamento Saídas Classificação: saídas discretas representam rótulos de classe. Regressão (aproximação de funções): saídas contínuas representam valores de variáveis dependentes. 2
2 Representando incertezas O uso de modelos indutivos é equivalente a fazer inferência a partir de dados originados de um processo que não é totalmente conhecido. A teoria das probabilidades é uma abordagem consistente para tomada de decisão levando em consideração incertezas. Neste caso, a falta de informação é modelada como um processo aleatório. Pode ser que o processo que gerou os dados seja realmente determinístico, mas como não temos acesso à totalidade de seu conhecimento, nós o modelamos como aleatório e o analisamos pela teoria das probabilidades. A porção inacessível do conhecimento é representada por variáveis ditas não observáveis (z = [z 1,..., z m ] T ), enquanto que as variáveis observáveis x = [x 1,..., x n ] T, representam a parte mensurável do conhecimento. Se tivéssemos conhecimento total do processo gerador dos dados, poderíamos modelar as variáveis observáveis como o resultado da aplicação de uma função determinística às variáveis não-observáveis: x = f(z) Como não podemos modelar dessa forma, definimos o resultado X como uma variável aleatória (de valor vetorial) correspondente a uma distribuição de probabilidades P(X = x) que especifica o processo. 3 Natureza estatística do processo de aprendizagem x f( ) x d h( ) y Considere um fenômeno estocástico, modelado matematicamente por uma função f(x). Considere o desvio em termos estatísticos entre a função alvo f(x), correspondente ao modelo matemático, e a função h(x) realizada por um sistema de aprendizado (SA). O arquivo de treinamento para o SA representa um conjunto de realizações {x i, d i } de um vetor aleatório X (conjunto de variáveis independentes) e de um escalar aleatório D, (variável dependente) que descrevem o fenômeno estocástico. A relação funcional (desconhecida) entre X e D é modelada por (modelo regressivo): D = f(x) + onde é um erro de expectativa, aleatório, obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), que representa a nossa ignorância sobre a dependência entre D e X, e f( ) é uma função determinística. D é uma variável aleatória (normal) condicionada à variável observada X, cuja média é dada por f(x). 4
3 Exemplo de regressão Supomos que a tarefa seja aprender uma função desconhecida do espaço das instâncias (X) para o conjunto dos números reais (R), f : X R, considerando um espaço de hipóteses H, consistindo de funções h : X R A tarefa do algoritmo de aprendizagem L é aprender f, dado H. Para tanto, dispõe-se de um conjunto de m exemplos na forma {x i, d i } onde o valor alvo d i de cada exemplo está corrompido por um ruído aleatório, e obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), ou seja: d (x 1, d 1 ) (x 2, d 2 ) (x 3, d 3 ) d i (x 4, d 4 ) f ( x ) e i (x 5, d 5 ) e 1 e 2 e 3 e 5 e 4 i f(x) : função alvo x h(x) H: conjunto de retas Neste exemplo, dado o espaço de retas (H), a tarefa de aprendizado consiste em encontrar os parâmetros da reta que tem maior probabilidade de ter gerado os dados: hipótese da máxima verossimilhança (maximum likelihood), h ML. Exemplo de classificação Considere, por exemplo, que desejamos aprender a classe de clientes com alto risco de inadimplência, numa aplicação de análise de risco. Para isso, de acordo com o histórico de transações passadas, supomos que os valores de renda e a poupança são as variáveis (contínuas) que determinam a credibilidade do cliente, que serão modeladas pelas variáveis aleatórias X 1 e X 2. Com o que podemos observar, assumimos então que a credibilidade de um cliente é representada por uma variável aleatória (discreta) C, condicionada às variáveis observáveis, X = [X 1, X 2 ] T, onde C = 1 indica um cliente de alto risco, e C = 0 indica um cliente de baixo risco. Assumindo que os dados tenham sido gerados a partir distribuições normais para cada classe, o processo de aprendizagem consiste na identificação dos parâmetros destas distribuições, de forma a maximizar a verossimilhança dos dados (h ML ). Esta é a chamada abordagem gerativa para o problema de classificação (ou regressão), baseada no modelo probabilístico gerador dos dados. Uma abordagem alternativa ao problema, é considerar a classificação como uma partição do espaço de entrada. Nesta abordagem discriminativa, o foco está na superfície de decisão entre as classes. 6
4 Classificação por estimação da densidade dos dados x 2 : poupança superfície de separação das classes C 2 : baixo risco C 1 : alto risco x 2 : poupança x 1 : renda x 1 : renda A superfície de separação das classes decorre do conhecimento das distribuições das classes. Antes de resolver o problema da classificação, dever-se estimar as distribuições das classes. 7 Dados para classificação de subespécies da planta Iris amostras rotuladas do domínio Conjunto de medidas rótulo c_sepala l_sepala c_petala l_petala classe 5,1 3,8 1,5 0,3 Iris-setosa 5,4 3,4 1,7 0,2 Iris-setosa ,0 3,2 4,7 1,4 Iris-versicolor 6,4 3,2 4,5 1,5 Iris-versicolor ,3 2,9 6,3 1,8 Iris-virgínica 6,7 2,5 5,8 1,8 Iris-virgínica comprimento-sepala largura-sepala comprimento-petala largura-petala Modelo (classificador) Rótulo de classe de interesse 8
5 Dados para classificação de subespécies da planta Iris Os dados podem ser vistos como pontos (vetores) no espaço multidimensional das entradas. Numa representação gráfica, o rótulo pode ser representado por uma cor. largura-sepala largura-petala setosa versicolor virginica versicolor virginica setosa comprimento-sepala comprimento-petala 9 versicolor Classificação como partição Erro2 virginica Erro1 Erro3 virginica versicolor A representação vetorial dos dados permite ver a tarefa de classificação como um problema de partição do espaço de entrada (abordagem discriminativa). Cada rótulo de classe se aplica a uma região do espaço de entrada. Exemplo: modelo classificação (AD) gerada com os dados da Iris. As superfícies de separação das classes são determinadas sem estimar as distribuições. largura pétala Regras equivalentes: R3 R1 R2 R4 R1: Se lp > 1.7 Então virginica R2: Se 1.5 > lp > 0.6 E cp > 4.9 Então virginica R3: Se 1.7 > lp > 0.6 E cp < 4.9 Então versicolor R4: Se 1.7 > lp > 1.5 E cp > 4.9 Então versicolor R5: Se lp < 0.6 Então setosa setosa R5 comprimento pétala 10
6 Viés da abordagem de representação do modelo A abordagem escolhida para gerar o modelo do domínio tem impacto no seu desempenho preditivo. A abordagem, ou linguagem de representação do conhecimento, pode trazer vantagens para a compressão do modelo (lógica), ou então favorecer a capacidade preditiva do modelo (matemática). O ideal seria ter as duas características: máxima capacidade de compreensão e máxima capacidade preditiva. Classificadores baseados em representação simbólica (árvores de decisão, regras de decisão, etc.) estão limitados a particionar o domínio utilizando retas alinhadas com os eixos do espaço de características, o que, para problemas que não são estritamente lógicos, pode limitar o seu desempenho. Classificadores baseados em funções matemáticas (Redes Neurais), particionam o espaço com linhas de qualquer formato, possibilitando desempenho superior aos classificadores simbólicos. Entretanto, os modelos matemáticos são de difícil compreensão. 11 Avaliação de modelos A avaliação empírica da capacidade preditiva de hipóteses (desempenho preditivo) é fundamental para o aprendizado de máquina. A dificuldade em se estimar este desempenho está no fato de normalmente se dispor de uma amostra limitada de dados que pode não representar corretamente a distribuição geral dos dados. Com isso, a estimativa de desempenho feita sobre uma amostra de dados disponível para este fim, não corresponde exatamente ao desempenho verdadeiro, medido sobre a distribuição geral dos dados. Para contornar esta dificuldade, são aplicados métodos estatísticos e feitas suposições sobre as distribuições dos dados. A taxa de erro de previsão da classe é uma medida natural de desempenho para tarefas de classificação. 12
7 Estimação de acurácia Ao avaliarmos uma hipótese aprendida, estamos interessados em estimar a acurácia com que ela irá classificar instâncias futuras e em saber o erro provável desta estimativa de acurácia. Assumimos que exista um espaço X de instâncias possíveis, sobre o qual várias funções alvo podem ser definidas. As diferentes instâncias ocorrem em X com frequências dadas por uma distribuição de probabilidade desconhecida D. A tarefa consiste em aprender uma função alvo f considerando um espaço de hipóteses H, a partir de exemplos x de treinamento desta função, que são retirados de X segundo a distribuição D, juntamente com o seu valor correspondente f(x). Assim, dada uma hipótese h e uma amostra de dados contendo n exemplos retirados aleatoriamente de acordo com a distribuição D, qual é a melhor estimativa da acurácia de h sobre instâncias futuras retiradas da mesma distribuição? Qual é o erro provável nesta estimativa de acurácia? 13 Erros de previsão de uma hipótese É importante distinguir o erro real de uma hipótese h sobre toda a distribuição desconhecida de exemplos D, erro D (h), do erro da amostra de uma hipótese h, em relação a uma amostra S de n instâncias retiradas de X, erro S (h). O erro da amostra, erro S (h), em relação a uma amostra S (com n exemplos) e a uma função alvo f, é definido como a fração de S que é classificada erroneamente. Considerando que (f(x), h(x)) = 1, se f(x) h(x), e 0 caso contrário, podemos definir: 1 erro S ( h) f ( x), h( x) n xs O erro real de uma hipótese, erro D (h), é a probabilidade com que h classificará erroneamente uma instância aleatória retirada da distribuição D: erro D ( h) Pr f ( x) h( x) Desejamos conhecer erro D (h), pois este é o erro que podemos esperar quando aplicamos a hipótese a um exemplo futuro, mas só podemos medir erro S (h). Quão boa é a estimativa de erro D (h) dada por erro S (h)? xd 14
8 Intervalos de confiança para hipóteses discretas A avaliação da estimativa de erro D (h) dada por erro S (h) pode ser feita através de testes estatísticos apropriados. Se a amostra S contém n 30 exemplos retirados de acordo com D, e h comete r erros, ou seja, erro S (h) = r/n, a teoria estatística nos permite afirmar que: 1. O valor mais provável de erro D (h) é erro S (h) 2. Com 95% de probabilidade, erro D (h) se encontra no intervalo (de confiança): erro ( h) 1,96 S erros ( h) 1 erros n Exemplo: n = 40, r = 12, portanto, erro S (h) =0,30. Com isso, erro D (h) = 0,30 (1,96 0,07) = 0,30 0,14 Esta fórmula pode ser estendida para outros níveis de confiança (N%), através de um parâmetro apropriado z N : erros ( h) 1 erros ( h) erros ( h) zn n ( h) Nível de confiança N% 50% 68% 80% 90% 95% 98% 99% Constante z N 0,67 1,00 1,28 1,64 1,96 2,33 2,58 15 Questões relacionadas com avaliação de modelos Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar o desempenho relativo entre modelos diferentes? 16
9 Métricas para avaliação de desempenho O foco deve estar na capacidade preditiva do modelo E não no tempo que leva para classificar ou criar um modelo, na escalabilidade, etc. Apesar de a taxa de erro, ser uma medida natural de desempenho de classificação, ela não distingue entre erros feitos sobre exemplos positivos daqueles feitos sobre exemplos negativos. A matriz de confusão é uma ferramenta que contabiliza os acertos e os erros feitos pela hipótese avaliada: Classe prevista Positivo Negativo Classe real Positivo Negativo Verdadeiro Positivo (VP) Falso Positivo (FP) Falso Negativo (FN) Verdadeiro Negativo (VN) 17 Métricas para avaliação de desempenho... Classe real Pos Neg Positivo Verdadeiro Positivo (VP) Falso Positivo (FP) Classe prevista Negativo Falso Negativo (FN) Verdadeiro Negativo (VN) Métricas mais usadas: Acurácia (mais usada), Erro Acurácia: Erro: VP VN n FP FN n n VP VN FP FN Modelo M + + Prevista P N + P Real N P : número de exemplos positivos (+, +) N : número de exemplos negativos (,) n = P + N : número total de exemplos (?) Pr(P) = P/n =? : Probabilidade a priori da classe P Pr(N) = N/n =? : Probabilidade a priori da classe N Acurácia(M) = ( + + )/n =? Erro(M) = ( + + )/n =? 18
10 Limitação da acurácia Considere um problema de 2 classes Número de exemplos da classe 0 = 9990 Número de exemplos da classe 1 = 10 Se o modelo prediz que qualquer amostra é da classe 0, a acurácia é 9990/10000 = 99,9 % A acurácia é enganosa porque o modelo não detecta nenhum exemplo da classe 1! Solução: levar em consideração custos por classe para erros de classificação 19 Matriz de custo Classe real C(i j) Classe prevista i = P i = N j = P C(P P) C(N P) j = N C(P N) C(N N) C(i j): custo de classificar exemplos da classe j, como sendo da classe i Custo total do modelo (quanto menor, melhor): VPC(P P)+ VNC(N N)+ FPC(P N) + FNC(N P) 20
11 Cálculo de custos de classificação Matriz de Custo C(i j) Classe real Classe prevista P N P N 1 0 pune muito os FN Modelo M1 Classe real Classe prevista P Acurácia = 72% (360/ 500) Custo = = 3940 Melhor modelo pelo custo N P N Modelo M2 Classe real Classe prevista Acurácia = 90% (450/ 500) Custo = = 4350 Melhor modelo pela acurácia P N P N Métricas sensíveis ao custo Precisão (p) Fração correta do total previsto VP p VP FP Taxa de VP (TVP), sensitivity ou recall (r) Fração dos exemplos positivos prevista corretamente VP TVP r VP FN Classe real Classe prevista + + VP FN FP VN Taxa de VN (TVN), specificity ou fall-out Fração dos exemplos negativos prevista corretamente VN TVN FP VN Taxa de FP (TFP) Fração dos exemplos negativos prevista como positivos FP TFP FP VN Taxa de FN (TFN) Fração dos exemplos positivos prevista como negativos FN TFN VP FN w1vp w4vn w VP w FN w FP w VN 1 Medida-F (F): Acurácia ponderada: 2 3 2rp r p Média harmônica entre precisão e recall Das definições segue: TVP + TFN = 1 TVN + TFP =
12 Métricas de desempenho Modelo M1 Classe prevista P N w i Classe prevista P N Modelo M2 Classe prevista P N Classe real P N Classe real P N 1 0 Classe real P N Acurácia = 72% (360/ 500) Custo = = 3940 Precisão = 160/260 = 0,615 Recall = 160/200 = 0,80 Medida-F = 0,695 Acurácia ponderada = 1600/5700 = 0,28 Acurácia = 90% (450/ 500) Custo = = 4350 Precisão = 155/160 = 0,97 Recall = 155/200 = 0,775 Medida-F = 0,86 Acurácia ponderada = 1550/6550 = 0,24 23 Métodos para avaliação de modelos Como obter uma estimativa confiável sobre o desempenho do modelo? Erro sobre os dados de treinamento não é um bom indicador de desempenho sobre dados futuros (estimativa com viés otimista) Solução simples se existirem muitos dados rotulados: Dividir dados em conjuntos de treinamento e de teste (amostras independentes) Mas: normalmente o número de dados rotulados é limitado São necessárias técnicas mais sofisticadas de avaliação Mesmo que a estimativa seja realizada sobre um arquivo sem viés (amostras independentes de teste), a acurácia medida pode ainda ser diferente da acurácia real, dependendo de como o arquivo de teste foi composto. Quanto menor o arquivo de teste, maior será a variância esperada entre estas acurácias. Desempenho do modelo pode depender de outros fatores, além do algoritmo de aprendizagem: Distribuição de classes, custo para classificação errada, tamanho dos conjuntos de treinamento e teste 24
13 Curva de aprendizado Medindo a dependência da acurácia com o tamanho da amostra Curva de aprendizado mostra como a acurácia varia com o tamanho da amostra Efeito de uma amostra pequena: Viés na estimativa Variância de estimativa 25 Confiança na previsão de desempenho A confiança na previsão da taxa de sucesso (ou erro) cai com a diminuição do número de exemplos utilizados. Existem fórmulas que calculam o intervalo em que a taxa de erro real deve estar, com dada confiança, a partir da taxa de erro estimada com um determinado tamanho de amostra. Exemplo: (f : taxa de sucesso estimada, N: tamanho da amostra, c: confiança na estimativa, p: taxa de erro real) f = 75%, N = 1000, c = 80%: p [0,732, 0,767] f = 75%, N = 100, c = 80%: p [0,691, 0,801] f = 75%, N = 10, c = 80%: p [0,549, 0,881] 26
14 Métodos de Estimação de Desempenho Medida natural de desempenho para problemas de classificação: taxa de erro Erro de substituição: taxa obtida dos dados de treinamento Erro de substituição é demasiadamente otimista! Solução simples se existirem muitos dados rotulados: Dividir dados em conjuntos de treinamento e de teste Conjunto de teste: conjunto de exemplos independentes que não foram usados na geração do modelo Suposição: os dados de treinamento e os dados de teste são amostras representativas do problema 27 Nota sobre ajuste de parâmetros É importante que os dados de teste não sejam usados para criar o modelo Alguns esquemas de aprendizagem operam em dois estágios: Estágio 1: constrói a estrutura básica Estágio 2: otimiza os parâmetros da estrutura Os dados de teste não podem ser usados para ajustar parâmetros! Neste caso são precisos três conjuntos: de treinamento, de validação (ou configuração) e de teste. Conjunto de validação é usado para otimizar parâmetros 28
15 Tirando o máximo dos dados Após a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o arquivo de treinamento melhor o classificador Quanto maior o arquivo de teste mais exata será a estimativa de erro Procedimento holdout (retenção): dividir os dados originais em conjuntos de treinamento e de teste Dilema: queremos tanto um grande arquivo de treinamento quanto um grande arquivo de teste 29 Estimação por retenção (holdout) O que fazer se a quantidade de dados é limitada? Método holdout reserva uma certa quantidade dos dados para teste e usa o resto para o treinamento Usualmente 1/3 para teste, o resto para treinamento Mas: as amostras podem não ser representativas Exemplo: pode não haver amostras de uma classe nos dados de teste Versão avançada usa estratificação Assegura que cada classe esteja representada com proporções aproximadamente iguais em ambos os conjuntos Bootstrap Amostragem com substituição 30
16 Validação cruzada (cross-validation) Validação cruzada evita superposição dos conjuntos de teste Primeiro passo: conjunto de dados é dividido em k subconjuntos de tamanhos iguais Segundo passo: cada subconjunto é usado para teste e os demais para treinamento. O segundo passo é repetido k vezes Esta é a chamada validação cruzada por k vezes Muitas vezes os subconjuntos são estratificados antes de realizar a validação cruzada A estimativa de erro global é calculada como a média das k estimativas de erro de cada iteração 31 four-fold-cross-validation Conjunto de Exemplos subconj 1 subconj 2 subconj 3 subconj 4 Modelo 1 Modelo 2 Modelo 3 Modelo 4 treino subconj 1 treino subconj 1 treino subconj 1 teste subconj 1 treino subconj 2 treino subconj 2 teste subconj 2 treino subconj 2 treino subconj 3 teste subconj 3 treino subconj 3 treino subconj 3 teste subconj 4 treino subconj 4 treino subconj 4 treino subconj 4 32
17 Mais sobre validação cruzada Método padrão de avaliação: validação cruzada por dez vezes estratificada Por que dez? Experimentos demonstraram que esta é a melhor escolha para se obter uma estimativa precisa Estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida P. ex. se repete dez vezes a validação cruzada por dez vezes e se calcula a média (reduz variância) 33 Validação cruzada deixando um fora A validação cruzada deixando um fora (leave-one-out c-v): O número de vezes é escolhido como o número de exemplos de treinamento Isto é, deve-se construir n classificadores, onde n é o número de exemplos de treinamento Aproveita ao máximo os dados Não envolve sub-amostragem aleatória Computacionalmente muito custoso 34
18 Métodos para comparação de modelos Como comparar modelos quanto aos seus desempenhos relativos? Curva ROC (Receiver Operating Characteristic) Teste de significância 35 Curva ROC Método desenvolvido nos anos 1950 para analisar sinais ruidosos, em detecção de sinais. Caracteriza compromisso entre achados positivos e alarmes falsos Curva ROC traça TVP (eixo y) contra TFP (eixo x) Desempenho de cada classificador é representado como um ponto na curva ROC A localização do ponto muda quando variamos o limiar de decisão do algoritmo, a distribuição das amostras ou a matriz de custos. 36
19 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Classificador por limiar: pontos localizados em x > t são classificados como positivos VP t FP Para o limiar t : TVP = 0,5, TFN = 0,5, TFP = 0,12, TVN = 0,88 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 37 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Pontos localizados em x > t são classificados como positivos t 2 VP t FP t 2 Para o limiar t 2 : TVP = 0,88, TFN = 0,12, TFP = 0,5, TVN = 0,5 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 38
20 Curva ROC Conjunto de dados unidimensionais contendo 2 classes (positiva e negativa) Pontos localizados em x > t são classificados como positivos t 2 t 3 VN VP t FP t 2 t 3 Para o limiar t 3 : TVP = TVN, TFP = TFN TVP = 0,72, TFN = 0,28, TFP = 0,28, TVN = 0,72 TVP + TFN = 1 TVN + TFP = 1 TVP VP VP FN TFP FP FP VN 39 Curva ROC Classe prevista TVP VP VP FN TFP FP FP VN Classe real + + VP FN FP VN (TVP, TFP): (0,0): declara tudo como classe negativa (1,1): declara tudo como classe positiva (1,0): ideal Diagonal: Decisão aleatória: TVP = TFP Abaixo da diagonal: predição é oposta à classe verdadeira: TFP > TVP Quanto mais acima da diagonal, melhor: TVP > TFP 40
21 Uso da curva ROC para comparar modelos Nenhum dos modelos é melhor que o outro de forma consistente M 1 é melhor para baixas taxas de FP M 2 é melhor para altas taxas de FP Área abaixo da curva ROC Ideal: Área = 1 Decisão aleatória Área = 0,5 41 Comparação de modelos Freqüentemente necessitamos comparar dois métodos diferentes de aprendizado sobre o mesmo problema, para saber qual o melhor a ser usado. A partir da estimativa do erro para os dois modelos, p. ex. usando CV, pode-se testar se a diferença de desempenho entre eles é significativa, e não devida ao erro de estimativa. O que desejamos determinar, é se um esquema de treinamento é melhor ou pior que outro em média, sobre todos os conjuntos de dados possíveis de treinamento e teste que podem ser retirados do domínio. Para tanto, coletamos as estimativas obtidas de k validações cruzadas (k CV), usando cada um dos esquemas, obtendo x 1, x 2,..., x k e y 1, y 2,..., y k, respectivamente. Cada estimativa por CV é gerada usando um conjunto de dados diferente, mas todos de mesmo tamanho. Desejamos determinar se a média do primeiro conjunto de amostras, e 1 = E(x) é significativamente diferente da média do segundo conjunto de amostras, e 2 = E(y). Pelo teorema do limite central, a média de um conjunto de amostras independentes tem um distribuição normal (gaussiana) independentemente da distribuição das amostras. 42
22 Comparação de modelos Para testar se a diferença de desempenho é estatisticamente significativa, é necessário se fazer teste de significância. Dados dois modelos M 1 e M 2, cujos desempenhos devem ser comparados, sendo: M 1 testado sobre D 1 (tamanho n 1 ), taxa de erro encontrada = e 1 M 2 testado sobre D 2 (tamanho n 2 ), taxa de erro encontrada = e 2 Assumindo que D 1 e D 2 são independentes e n 1 e n 2 são suficientemente grandes, então, os erros podem ser aproximados por gaussianas: e N, ) e N, ) 1 ( ( 2 2 Onde i e i são a média e o desvio padrão da distribuição real relativa a cada amostra. A variância de e i pode ser estimada a partir da variância das amostras pela equação: ˆ i ei 1 ei n i 43 Comparação de modelos A diferença de desempenho também segue uma distribuição normal: d = e 1 e 2 d N ( d t t, ) onde d t é a diferença real entre os desempenhos. Como D 1 e D 2 são independentes, as suas variâncias se somam: 1 e e e e t n1 n2 Com isso, a diferença de desempenho é determinada para um nível de confiança de N% pela expressão: 2 d d t Z n ˆ t 44
23 Exemplo de comparação de modelos Dados dois modelos M 1 e M 2, cujos desempenhos devem ser comparados, sendo : M 1 : n 1 = 30, e 1 = 0,15 M 2 : n 2 = 5000, e 2 = 0,25 Com isso: d = e 1 e 2 = 0,1 2 d 0,15 0,251 0,25 0, ,0043 Para um nível de 95% confiança, Z N = 1,96 Portanto, a diferença real entre os desempenhos desses modelos está no intervalo: d t 0,100 1,96 0,0043 0,100 0,128 [ 0,028, 0,228] Conclusão: como o intervalo de confiança contém o zero, a diferença pode não ser estatisticamente significativa. 45 Comparação de algoritmos Cada algoritmo de aprendizagem (L 1, L 2 ) gerou k modelos (k CV): L 1 : gerou M 11, M 12,..., M 1k, com erros e 11, e 12,..., e 1k, L 2 : gerou M 21, M 22,..., M 2k, com erros e 21, e 22,..., e 2k, Se os modelos foram gerados e testados sobre os mesmos conjuntos D 1, D 2,..., D k, Para cada conjunto deve ser calculada a diferença de erros: d j = e 1j e 2j Se k é suficientemente grande, d j é uma distribuição normal com média d cv t, que é a diferença real entre as taxas de erro, e variância cv2. A variância global das diferenças observadas é estimada a partir da média das diferenças, usando a expressão: ˆ 2 cv d) k( k 1) O intervalo de confiança de d t cv, é calculado usando uma distribuição t: k j1 ( d j 2 d cv d t ( 1 ), k 1 ˆ cv 46
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Leia maisDescoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem
Leia maisRoteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia
Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br
Leia maisAvaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando
Leia maisBoas Maneiras em Aprendizado de Máquinas
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Boas Maneiras em Aprendizado de Máquinas David Menotti www.inf.ufpr.br/menotti/ci171-182 Boas Maneiras Agenda Introdução Métricas
Leia maisCurso de Data Mining
Curso de Data Mining Sandra de Amo Curvas Roc Uma curva ROC (Receiver Operating Characteristic) é um enfoque gráfico que permite visualizar os trade-offs entre as taxas de positivos verdadeiros e positivos
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se
Leia maisInteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Leia maisAula 9. Prof. Adilson Gonzaga
Aula 9 Prof. Adilson Gonzaga Mapeamento Atribuir uma Instância a uma classe. Cada Instância é mapeada para um elemento do conjunto de Rótulos de Classe {p,n} p positivo n negativo Atribui uma Instância
Leia maisà Análise de Padrões
CC-226 Introdução à Análise de Padrões Prof. Carlos Henrique Q. Forster Visão Geral do Curso e Introdução a Classificadores Padrões São apresentados como tuplas de variáveis aleatórias O conjunto amostra
Leia maisMétodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem
e Avaliação de s José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP AM é uma ferramenta poderosa, mas não existe um único algoritmo que apresente o melhor desempenho para todos os
Leia maisCLASSIFICADORES ELEMENTARES
CLASSIFICADORES ELEMENTARES Classificação 2 Consiste em tentar discriminar em diferentes classes um conjunto de objetos com características mensuráveis Exemplo: classificação de frutas Forma, cor, sabor,
Leia maisSCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos
Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências
Leia maisCréditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores
SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..
Leia maisAPRENDIZAGEM DE MÁQUINA
APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.
Leia maisInteligência Artificial
Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação
Leia maisAprendizagem de máquina
Aprendizagem de máquina Introdução Objetivos Fornecer o ferramental necessário ao entendimento e ao projeto de sistemas baseados em aprendizagem. A disciplina cobre os principais tópicos da aprendizagem
Leia maisRedes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões
Leia maisImplementação de um sistema de validação estatística configurável de dados
Implementação de um sistema de validação estatística configurável de dados Eduardo Dias Filho Supervisores: João Eduardo Ferreira e Pedro Losco Takecian 16 de novembro de 2014 Introdução Table of Contents
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Kuncheva pg. 8 a 25 (seções 1.3 e 1.4) Roteiro da aula Cálculo do erro de um classificador Técnicas de treinamento, avaliação e teste
Leia maisINTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva
INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Tipos de Pesquisa Censo: é o levantamento de toda população. Aqui não se faz inferência e sim uma descrição
Leia maisThiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Leia maisConceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional
Conceitos de Aprendizagem de Máquina e Experimentos Visão Computacional O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos
Leia maisSCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos
Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências
Leia maisAprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR
Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento
Leia maisCap. 8 - Intervalos Estatísticos para uma Única Amostra
Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções
Leia maisMétodos de reamostragem
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos de reamostragem Eduardo Vargas Ferreira Função custo 2 Função custo Matriz de confusão: é um layout de tabela que
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Avaliação de Paradigmas Alessandro L. Koerich Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem
Leia maisRedes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions
Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
Leia maisCap. 4 - Estimação por Intervalo
Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.
Leia maisRedes Neurais e Sistemas Fuzzy
1. Inteligência Computacional Redes Neurais e Sistemas Fuzzy Apresentação da disciplina Conceitos básicos A chamada Inteligência Computacional (IC) reúne uma série de abordagens e técnicas que tentam modelar
Leia maisRegressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC
Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada
Leia maisRedes Neurais e Sistemas Fuzzy
Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização
Leia maisθ depende de um parâmetro desconhecido θ.
73 Método de Máxima Verosimilhança (Maximum Likelihood) Seja uma variável aleatória (v. a.) cuja densidade de probabilidade depende de um parâmetro desconhecido. Admite-se conhecida a forma de Exemplo
Leia maisTutorial básico de classificação em RapidMiner
Tutorial básico de classificação em RapidMiner Mineração de dados biológicos Ciências físicas e biomoleculares Neste tutorial, aprenderemos a utilizar as funcionalidades básicas para classificação em Rapidminer.
Leia maisEstatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação
Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2018 Avaliação de Classificação Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ Classificação e Incerteza
Leia mais3 Filtro de Kalman Discreto
3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,
Leia maisAULA 03 Estimativas e tamanhos amostrais
1 AULA 03 Estimativas e tamanhos amostrais Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisTeoria do aprendizado
Teoria do aprendizado Marcelo K. Albertini 7 de Agosto de 2014 2/37 Teoria do aprendizado Teoremas não existe almoço grátis Viés e variância Aprendizado PAC Dimensão VC Máquinas de vetores suporte 3/37
Leia mais3 INTERVALOS DE CONFIANÇA
3 INTEVALOS DE CONFIANÇA 3.1 Introdução A estimativa de intervalos de confiança é utilizada para se obter medidas de incerteza dos dados analisados. A análise da incerteza de uma previsão, por exemplo,
Leia maisAula 2 Uma breve revisão sobre modelos lineares
Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar
Leia maisAprendizado de Máquinas
Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais
Leia maisMineração de Dados. Modelos Descritivos. Descoberta de agrupamentos
Mineração de Dados Descoberta de agrupamentos Modelos Descritivos tarefa de geração de um modelo descritivo consiste (em grande parte) em analisar os dados do domínio (entradas) e sugerir uma partição
Leia maisModelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Leia maisAprendizado por Instâncias Janelas de Parzen & Knn
Universidade Federal do Paraná (UFPR) Especialização em Engenharia Industrial 4.0 Aprendizado por Instâncias Janelas de Parzen & Knn David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Aprendizado por
Leia mais2284-ELE/5, 3316-IE/3
INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem
Leia maisHP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.
HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)
Leia maisCapítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto
Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisMapeamento do uso do solo para manejo de propriedades rurais
1/28 Mapeamento do uso do solo para manejo de propriedades rurais Teoria Eng. Allan Saddi Arnesen Eng. Frederico Genofre Eng. Marcelo Pedroso Curtarelli 2/28 Conteúdo programático: Capitulo 1: Conceitos
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina écnicas de Classificação Árvores de Decisão Prof. Paulo Martins Engel UFRGS Árvores de Decisão As árvores de decisão (AD) são ferramentas poderosas para classificação cuja maior
Leia maisEstimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)
Estimação parâmetros e teste de hipóteses Prof. Dr. Alberto Franke (48) 91471041 Intervalo de confiança para média É um intervalo em que haja probabilidade do verdadeiro valor desconhecido do parâmetro
Leia maisInteligência Artificial
Aprendizagem por que? lnteligência Artificial Aprendizagem em IA Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com
Leia maisFiltro de Kalman. Teoria e Aplicação para Iniciantes. Prof. Dr. Marco Antonio Leonel Caetano. M&V Consultoria e Treinamento
Filtro de Kalman Teoria e Aplicação para Iniciantes Prof. Dr. Marco Antonio Leonel Caetano M&V Consultoria e Treinamento www.mudancasabruptas.com.br A História da Filtragem de Sinais 930 940 960 Filtro
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço
Leia maislnteligência Artificial Aprendizagem em IA
lnteligência Artificial Aprendizagem em IA 1 Aprendizagem por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com
Leia maisProcessamento digital de imagens
Processamento digital de imagens Agostinho Brito Departamento de Engenharia da Computação e Automação Universidade Federal do Rio Grande do Norte 27 de maio de 2016 Reconhecimento de objetos Padrão: arranjo
Leia maisAjustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.
Glossário Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Análise de co-variância: Procedimento estatístico utilizado para análise de dados que
Leia maisSeleção de Atributos 1
Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas
Leia maisAula 8: Árvores. Rafael Izbicki 1 / 33
Mineração de Dados Aula 8: Árvores Rafael Izbicki 1 / 33 Revisão Vimos que a função de risco é dada por R(g) := E[I(Y g(x))] = P (Y g(x)), Nem sempre tal função nos traz toda informação sobre g. É comum
Leia maisDistribuições Amostrais e Estimação Pontual de Parâmetros
Distribuições Amostrais e Estimação Pontual de Parâmetros ESQUEMA DO CAPÍTULO 7.1 INTRODUÇÃO 7.2 DISTRIBUIÇÕES AMOSTRAIS E TEOREMA DO LIMITE CENTRAL 7.3 CONCEITOS GERAIS DE ESTIMAÇÃO PONTUAL 7.3.1 Estimadores
Leia maisAULA 05 Teste de Hipótese
1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução
Leia maisRafael Izbicki 1 / 38
Mineração de Dados Aula 7: Classificação Rafael Izbicki 1 / 38 Revisão Um problema de classificação é um problema de predição em que Y é qualitativo. Em um problema de classificação, é comum se usar R(g)
Leia maisAlgoritmos de Aprendizado
Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Back Propagation Radial Basis Functions (RBFs) Competitive Learning Hopfield Algoritmos de Aprendizado Regra de Hebb Perceptron
Leia maisInferência para CS Modelos univariados contínuos
Inferência para CS Modelos univariados contínuos Renato Martins Assunção DCC - UFMG 2014 Renato Martins Assunção (DCC - UFMG) Inferência para CS Modelos univariados contínuos 2014 1 / 42 V.A. Contínua
Leia maislnteligência Artificial Introdução a Aprendizado de Máquina
lnteligência Artificial Introdução a Aprendizado de Máquina 1 Aprendizado por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado
Leia maisMétodos Não Paramétricos
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Métodos não Paramétricos Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Métodos Não Paramétricos Introduzir
Leia mais5 Avaliação dos estimadores propostos
5 valiação dos estimadores propostos Este capítulo apresenta as medidas estatísticas usuais para avaliar a qualidade de estimadores e as expressões utilizadas para a estimação destas medidas, a partir
Leia maisProfessora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.
Professora Ana Hermínia Andrade Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise Período 2017.1 Distribuições Amostrais O intuito de fazer uma amostragem
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizado não-supervisionado Formação de agrupamentos Aprendizado Não-Supervisionado Classificação supervisionada: discriminar padrões com base num modelo pré-definido de classes.
Leia maisAprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação
Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais
Leia maisClassificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências
Leia maisPor que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Leia maisMEEMF-2010 Aula 01. Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana
MEEMF-2010 Aula 01 Noções de inferência estatística: Diferença entre máxima verossimilhança e abordagem bayesiana O que é inferência estatística? Inferência estatística é o importante ramo da Estatística
Leia maisMétodos Quantitativos para Ciência da Computação Experimental
Métodos Quantitativos para Ciência da Computação Experimental Revisão Virgílio A. F. Almeida Maio de 2008 Departamento de Ciência da Computação Universidade Federal de Minas Gerais FOCO do curso Revisão
Leia maisCONHECIMENTOS ESPECÍFICOS
fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de
Leia maisM08. Introdução a Técnicas de Data Mining DM
M08. Introdução a Técnicas de Data Mining DM 3 - CLASSIFICAÇÃO E PREDIÇÃO LNCC/MCT - 15/01/2008 Custódio Gouvêa Lopes da Motta custodio.motta@ufjf.edu.br www.dcc.ufjf.br Agradecimentos: CNPq, LNCC, UFJF,
Leia maisIntervalos de Confiança
Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de
Leia maisUniversidade Federal de Lavras
Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes
Leia maisProf.: Eduardo Vargas Ferreira
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Prof.: Eduardo Vargas Ferreira O que é Machine Learning? Estatística Data Mining 2 O que é Machine Learning? Estatística
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizagem Baseada em Instâncias Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática
Leia mais1. Conceitos básicos dos Sistemas Auto-organizáveis. Os sistemas auto-organizáveis estão relacionados com aprendizagem nãosupervisionada.
Redes Neurais Sistemas Auto-Organizáveis. Conceitos básicos dos Sistemas Auto-organizáveis Os sistemas auto-organizáveis estão relacionados com aprendizagem nãosupervisionada. O objetivo de um algoritmo
Leia maisClassificação. Eduardo Raul Hruschka
Classificação Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada Combinação de Modelos
Leia maisDisciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais
Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade Federal
Leia maisProf. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM
Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM Estimação de Parâmetros O objetivo da Estatística Indutiva é tirar conclusões probabilísticas sobre aspectos da população,
Leia maisIntervalos de Confiança
Intervalos de Confiança Carla Henriques e Nuno Bastos Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques e Nuno Bastos (DepMAT) Intervalos de Confiança 2010/2011 1 / 33 Introdução
Leia maisAULA 04 Teste de hipótese
1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal
Leia mais5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)
5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente
Leia maisvariável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência
REGRESSÃO LOGÍSTICA É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
Leia mais1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
Leia mais3. Otimização sob Incerteza
3. Otimização sob Incerteza Os problemas de otimização tentam resolver, de forma eficiente, situações do mundo real por meio de modelos matemáticos que utilizam parâmetros incertos. Pode-se encontrar na
Leia maisAprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014
Aprendizado indutivo Marcelo K. Albertini 17 de Abril de 2014 2/22 Aprendizado indutivo O que é? Porque é difícil? Como podemos resolver problemas de indução? 3/22 Aprendizado supervisionado Temos: exemplos
Leia mais