Avaliando o que foi Aprendido
|
|
|
- Bruna Vidal Fonseca
- 10 Há anos
- Visualizações:
Transcrição
1 Avaliando o que foi Aprendido
2 Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função de perdas Medidas de Custos O principio de descrição minima
3 Confiança no modelo aprendido? Error nos dados de treinamento não é um bom indicador do erro em dados futuros. Exemplo: 1-NN seria um classificador ótimo! Uma solução simples que poderia ser usada se tivéssemos disponível muitos dados: Separe os dados em treinamento e teste Porém: Dados rotulados são usualmente limitados Técnicas mais sofisticadas devem ser usadas
4 Confiança Estatística das diferenças estimadas em performance ( teste de significância) Escolhas das medidas de performance: Numero de exemplos corretamente classificados Acurâcia das probabilidades estimadas Custos de diferentes tipos de erros
5 Medida de Performance Natural para problemas de classificação: Taxa de erro Sucesso: a classe da instância é predita corretamente Erro: a classe da instância é predita incorretamente Taxa de Erro: proporção de erros feitos em todas as instâncias Substituição do Erro: a taxa de erro é obtida do conjunto de treinamento Muito otimista!
6 O conjunto de teste: instâncias que não foram usadas no treinamento Suposição: ambos treinamento e teste são exemplos representativos do problema estudado Os conjuntos podem ser diferentes naturalmente Exemplo: classificadores construídos usando consumidores de dois diferentes cidades A e B Para estimar a performance do classificador aprendido de A testar em B, os consumidores podem ser completamente diferentes
7 É importante que o conjunto de teste não seja usado de nenhuma forma para criar o classificador Alguns algoritmos operam em dois estágios: Estagio 1: construir a estrutura básica Estagio 2: Otimize os parâmetros O conjunto de teste não pode ser usado para ajuste Procedimento usar 3 conjuntos: dados de treinamento, dados de validação, e teste Os dados de validação são usados para ajustar os parametros
8 Uma vez que a avaliação esta completa, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o conjunto de treinamento melhor o classificador Quanto maior o conjunto de teste mais precisa é a estimação do erro Procedimento Holdout : método de dividir os dados originais em treinamento e teste. Dilema: idealmente ambos conjuntos devem ser grandes!
9 Assuma que o erro estimado é 25%. Confiança do erro real? Depende do numero de dados do conjunto de teste Predição é como jogar uma moeda (com bias) Cara é um sucesso, coroa é um erro Em estática, uma sucessão de eventos independentes como estes são chamados de processos de Bernoulli A teoria estatística -> intervalos de confiança
10 p esta dentro de um intervalo especifico com uma confiança Exemplo: S=750 sucessos em N=1000 Taxa de sucesso estimada: 75% Taxa de acerto real? Resposta: com 80% de confiança p em [73.2,76.7] Outro exemplo: S=75 em N=100 Taxa de sucesso estimada: 75% Com 80% de confiança p em [69.1,80.1]
11 Media e Variância, Bernoulli trial: p, p (1 p) Taxa de sucesso esperada f=s/n Media e Variância para f : p, p (1 p)/n Para grandes N, f segue uma distribuição Normal c% Intervalo de confiança [ z X z] para uma variável aleatória com media 0 é dado por: Com uma distribuição simétrica:
12 Limites de Confiança para uma variável com distribuição normal com media 0 e variância 1: Assim: Pr[X z] 0.1% 0.5% 1% 5% 10% 20% 40% z Para usar a tabela devemos ter f com media 0 e variância 1
13 Valores transformados para f: (isto é subtrair a media e dividir pelo desvio padrão) Resultando: Solucionando p:
14 f = 75%, N = 1000, c = 80% ( z = 1.28): f = 75%, N = 100, c = 80% ( z = 1.28): Note que a distribuição norma; é valida somente para valores de N grandes (isto é, N > 100) f = 75%, N = 10, c = 80% ( z = 1.28):
15 O que fazer se os dados são limitados? O método de holdout reserva um conjunto para teste e o demais para treinamento Usualmente: 1/3 teste Problema: os exemplos podem não ser representativos Exemplos: a classe pode não existir nos exemplos de teste Versões mais avanzadas usam estratificação Assegura que cada classe é representada com a mesma distribuição em ambos conjuntos
16 As estimativas podem ser mais confiáveis se o processo de Holdout é repetido com diferentes amostras A cada iteração, uma certa proporção do conjunto é aleatoriamente selecionada para treinamento (possivelmente com estratificação) As taxas de erros dos diferentes conjuntos de teste e é feita a media Isto é chamado o método de holdout Ainda não é ótimo: os conjuntos de teste podem ser sobrepostos Como prevenir?
17 Validação cruzada previne o overlap 1 passo: separe os dados em k subconjuntos de igual tamanho 2 passo: use cada um dos subconjuntos uma vez para teste e os demais para treinamento k-fold cross-validation Primeiro os subconjuntos podem ser estratificados E feita a media com os diferentes erros
18 Método de Avaliação Standard: estratificado 10-fold cross-validation Porque 10? Experimentos extensivos tem mostram que esta é a melhor forma de obter uma estimativa precisa Existem também algumas evidencias teóricas A estratificação reduz a variância estimada Melhor é: cross-validation estratificada repetida Isto é 10-fold cross-validation é repetida 10 vezes e a media dos resultados é usada. Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 18
19 Leave-One-Out: uma forma particular de cross-validation: O numero de folds é o numero de instâncias Isto é, para n instâncias de treinamento, construa n classificadores Faz o melhor uso dos dados Não envolve amostragem aleatória Muito caro computacionalmente (exceção: KNN) Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 19
20 Desvantagens de Leave-One-Out-CV: A estratificação não é possível Garante uma amostra não-estratificada porque só tem uma instância no teste! Exemplo extremo: um conjunto aleatório separado igualmente em 2 classes Melhor indutor prediz a classe majoritária 50% de acuracia em dados novos Leave-One-Out-CV estimativa é 100% de erro! Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 20
21 CV usa amostragem sem reposição A mesma instância, uma vez selecionada, não pode ser selecionada de novo para um conjunto de treinamento ou teste particular Bootstrap usa amostragem com reposição para formar o conjunto de treinamento Amostre um conjunto com n instâncias n vezes com reposição para formar um novo conjunto Use estes dados como treinamento Use as instâncias do conjunto original que não estão no estão treinamento com teste. Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 21
22 0.632 bootstrap Uma instância tem uma probabilidade 1 1/n de não ser escolhida O conjunto de treinamento conterá aproximadamente 63.2% das instâncias Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 22
23 O erro estimado no conjunto de dados de teste será pessimista Treinamento em somente ~63% das instâncias Portanto, combinado com o erro de reposição O erro de reposição tem menos pesos que o erro no conjunto de teste Repita o processo varias vezes com diferentes amostras com reposição e faça a media dos resultados Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 23
24 Provavelmente a melhor maneira de ter uma estimativa para pequenos conjuntos de dados Porém tem alguns problemas Considere os dados aleatórios anteriores Um memorizador perfeito terá 0% de erro de reposição ~50% erro em dados de teste Bootstrap estimado para este classificador : err= % %=31.6% True Erro esperado: 50% Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 24
25 Perguntas Freqüentes: que algoritmo tem melhor performance melhor? Note: Depende do domínio! Compare as estimativas 10-fold CV Geralmente suficiente Porém, em pesquisas de aprendizado de máquina? Precisa-se provar que o algoritmo é realmente melhor Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 25
26 A é melhor que B num domínio particular Para uma quantidade de dados de treinamento Em media, para todos os possíveis conjuntos de treinamento Assuma que temos uma quantidade infinita de dados de um domínio: Amostre infinitamente muitos conjuntos de tamanhos específicos. Obtenha estimadas de cross-validation em cada dos conjuntos para cada algoritmo Verifique se a acuracia do algoritmo A é melhor que a de B Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 26
27 Na pratica os dados e as estimativas são limitados. O teste de Student t é usado para determinar quando duas amostras são significativamente diferentes Em nosso caso as amostras são de estimativas cross-validation para diferentes conjuntos de diferentes domínios Use um teste t pareado porque as amostras individuas são pareadas O mesmo CV é aplicado duas vezes Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 27
28 x 1 x 2 x k e y 1 y 2 y k são 2k amostras para k diferentes conjuntos m x e m y são as medias Com suficientes amostras, as medias são um conjunto independentes normalmente distribuídas As variâncias das medias são s x2 /k e s y2 /k Se m x e m y são as medias reais então estão aproximadamente normalmente distribuídas com media 0 e variância 1 1 Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 28
29 Com pequenas amostras(k < 100) a media segue a distribuição de Student com k 1 graus de liberdade Limites de confiança: 9 graus de liberdade distribuição normal Pr[X z] z Pr[X z] z Supondo 10 estimações 0.1% 0.5% 1% % 0.5% 1% % % % % % % 0.84 Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 29
30 Seja m d = m x m y A diferença das medias(m d ) também tem uma distribuição de Student com k 1 graus de liberdade Seja s d2 as variância das diferenças A versão padrão de m d é chamada de estatística t: Usamos t para realizar o t-test Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 30
31 Fixe o nível de significância Se a diferença é significante no nível a%, isto é (100-a)% de chances que a media real sejam diferentes Divida o nível de significância por 2 porque o teste é de duas caudas Isto é a diferença real pode ser +ve ou ve Veja o valor de z que corresponde a a/2 Se t z ou t z então a diferença é significante Isto é a hipótese nula (que não existe diferença) pode ser rejeitada Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 31
32 A matriz de confusão: Actual class Yes No Predicted class Yes No True positive False negative False positive True negative Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 32
33 Predição do alg. vs. Predição aleatória Numero de sucessos: soma da diagonal(d) Estatística Kappa: mede a melhoria sobre um alg. aleatório Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 33
34 Matrizes de custos: A taxa de sucesso é substituída pelos custos das predições Os custos são dados pelas entradas nas matrizes Data Mining: Practical Machine Learning Tools and Techniques (Chapter 5) 34
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação
Classificação - avaliação de resultados - 1. Mineração de Dados 2013
Classificação - avaliação de resultados - 1 Mineração de Dados 2013 Luís Rato (Capítulo 4 do livro Introduction to Data Mining ) Universidade de Évora, Mineração de dados / Data Mining 1 Desempenho Desempenho
Aula 4 Estatística Conceitos básicos
Aula 4 Estatística Conceitos básicos Plano de Aula Amostra e universo Média Variância / desvio-padrão / erro-padrão Intervalo de confiança Teste de hipótese Amostra e Universo A estatística nos ajuda a
Introdução. Métodos de inferência são usados para tirar conclusões sobre a população usando informações obtidas a partir de uma amostra.
Métodos Monte Carlo Introdução Métodos de inferência são usados para tirar conclusões sobre a população usando informações obtidas a partir de uma amostra. Estimativas pontuais e intervalares para os parâmetros;
7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora
7Testes de hipótese Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno COMENTÁRIOS INICIAIS Uma hipótese estatística é uma afirmativa a respeito de um parâmetro de uma distribuição de probabilidade. Por exemplo,
O que é a estatística?
Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os
MÓDULO 6 INTRODUÇÃO À PROBABILIDADE
MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para
CAP5: Amostragem e Distribuição Amostral
CAP5: Amostragem e Distribuição Amostral O que é uma amostra? É um subconjunto de um universo (população). Ex: Amostra de sangue; amostra de pessoas, amostra de objetos, etc O que se espera de uma amostra?
Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados
Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:
Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade
Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade 1) Explique o termo probabilidade subjetiva no contexto de um agente que raciocina sobre incerteza baseando em probabilidade. 2) Explique
DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE
DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento
Introdução a Química Analítica. Professora Mirian Maya Sakuno
Introdução a Química Analítica Professora Mirian Maya Sakuno Química Analítica ou Química Quantitativa QUÍMICA ANALÍTICA: É a parte da química que estuda os princípios teóricos e práticos das análises
Aprendizagem de Máquina
Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem
O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.
ESTATÍSTICA INDUTIVA 1. CORRELAÇÃO LINEAR 1.1 Diagrama de dispersão O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.
MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas [email protected]
MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas [email protected] Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para
Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Curva ROC George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Introdução ROC (Receiver Operating Characteristics) Curva ROC é uma técnica para a visualização e a seleção de classificadores baseado
3 Metodologia de Previsão de Padrões de Falha
3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar
Cláudio Tadeu Cristino 1. Julho, 2014
Inferência Estatística Estimação Cláudio Tadeu Cristino 1 1 Universidade Federal de Pernambuco, Recife, Brasil Mestrado em Nutrição, Atividade Física e Plasticidade Fenotípica Julho, 2014 C.T.Cristino
Tecido 1 2 3 4 5 6 7 A 36 26 31 38 28 20 37 B 39 27 35 42 31 39 22
Teste para diferença de médias Exemplo Dois tipos diferentes de tecido devem ser comparados. Uma máquina de testes Martindale pode comparar duas amostras ao mesmo tempo. O peso (em miligramas) para sete
INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE
INE 5 LISTA DE EERCÍCIOS DE PROBABILIDADE INE 5 Gabarito da Lista de Exercícios de Probabilidade ) Em um sistema de transmissão de dados existe uma probabilidade igual a 5 de um dado ser transmitido erroneamente.
Exercício de Revisao 1
Exercício de Revisao 1 Considere que seu trabalho é comparar o desempenho de dois algoritmos (A e B) de computação gráfica, que usam métodos diferentes para geração de faces humanas realistas. São sistema
LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES
Monitora Juliana Dubinski LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES EXERCÍCIO 1 (INTERVALO DE CONFIANÇA PARA MÉDIA) Suponha que X represente a duração da vida de uma peça de equipamento. Admita-se
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivos Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário e Objetivos Etapas em estudos preditivos Escolha
Exemplo de Aplicação do DataMinig
Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta
Descoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados
SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento
Monitor Giovani Roveroto
Monitor Giovani Roveroto Intervalo de Confiança 1. Suponha que o gerente de uma loja de comércio de tintas queira calcular a verdadeira quantidade de tinta contida em um galão, comprados de um fabricante
Simulação Transiente
Tópicos Avançados em Avaliação de Desempenho de Sistemas Professores: Paulo Maciel Ricardo Massa Alunos: Jackson Nunes Marco Eugênio Araújo Dezembro de 2014 1 Sumário O que é Simulação? Áreas de Aplicação
Algoritmos Indutores de Árvores de
Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Sistemas Inteligentes Análise e Desenvolvimento de Sistemas Faculdades de Tecnologia Bandeirantes Abril de 2013 Problema: Diagnóstico para uso
4 Avaliação Experimental
4 Avaliação Experimental Este capítulo apresenta uma avaliação experimental dos métodos e técnicas aplicados neste trabalho. Base para esta avaliação foi o protótipo descrito no capítulo anterior. Dentre
ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos
ESTUDO DE VIABILIDADE Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos Objetivos O que é um estudo de viabilidade? O que estudar e concluir? Benefícios e custos Análise de Custo/Benefício
PLANEJAMENTO EXPERIMENTAL
PLANEJAMENTO EXPERIMENTAL Técnicas de Pesquisas Experimentais LUIS HENRIQUE STOCCO MARCIO TENÓRIO SANDRA MARCHI Introdução O Planejamento de Experimentos (Design of Experiments, DoE), técnica utilizada
Distribuições de Probabilidade Distribuição Normal
PROBABILIDADES Distribuições de Probabilidade Distribuição Normal BERTOLO PRELIMINARES Quando aplicamos a Estatística na resolução de situações-problema, verificamos que muitas delas apresentam as mesmas
Bioestatística Aula 3
Aula 3 Castro Soares de Oliveira Probabilidade Probabilidade é o ramo da matemática que estuda fenômenos aleatórios. Probabilidade é uma medida que quantifica a sua incerteza frente a um possível acontecimento
Hipótese Estatística:
1 PUCRS FAMAT DEPTº DE ESTATÍSTICA TESTE DE HIPÓTESE SÉRGIO KATO Trata-se de uma técnica para se fazer inferência estatística. Ou seja, a partir de um teste de hipóteses, realizado com os dados amostrais,
CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES
CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES 3.1 - IDENTIFICADORES Os objetos que usamos no nosso algoritmo são uma representação simbólica de um valor de dado. Assim, quando executamos a seguinte instrução:
MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R
MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R Roberta Bessa Veloso 1, Daniel Furtado Ferreira 2, Eric Batista Ferreira 3 INTRODUÇÃO A inferência estatística
Estatística II Antonio Roque Aula 9. Testes de Hipóteses
Testes de Hipóteses Os problemas de inferência estatística tratados nas aulas anteriores podem ser enfocados de um ponto de vista um pouco diferente: ao invés de se construir intervalos de confiança para
Primeira Lista de Exercícios de Estatística
Primeira Lista de Exercícios de Estatística Professor Marcelo Fernandes Monitor: Márcio Salvato 1. Suponha que o universo seja formado pelos naturais de 1 a 10. Sejam A = {2, 3, 4}, B = {3, 4, 5}, C =
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014
PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método
Estudo de Casos 57. 5.1. Estudo de Caso 1: Velocidade Intervalar e Espessura da Camada
Estudo de Casos 57 5 Estudo de Casos Neste capítulo são relatados três estudos de caso com sismogramas de referência sintéticos que têm como objetivo avaliar o modelo proposto. Na descrição dos estudos
MLP (Multi Layer Perceptron)
MLP (Multi Layer Perceptron) André Tavares da Silva [email protected] Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -
Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística
Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa
Introdução à Simulação
Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos
Fundamentos da Metrologia Científica e Industrial Ambiente Virtual: Balança Digital
Fundamentos da Metrologia Científica e Industrial Ambiente Virtual: Balança Digital 1. Apresentação Quatro elementos estão disponíveis no ambiente virtual: Balança digital a ser calibrada Coleção de massas
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de
TESTES DE HIPÓTESES. Testes de comparação entre grupos
TESTES DE HIPÓTESES Testes de comparação entre grupos 1 Abordagem não paramétrica Não se faz suposição sobre as medidas da variável de interesse Exemplo 1 Com o objetivo de avaliar o efeito de um programa
Algoritmos Randomizados: Introdução
Algoritmos Randomizados: Introdução Celina Figueiredo Guilherme Fonseca Manoel Lemos Vinícius Sá 26º Colóquio Brasileiro de Matemática IMPA Rio de Janeiro Brasil 2007 Resumo Definições Monte Carlo Variáveis
UNIVERSIDADE FEDERAL DO PIAUÍ (UFPI) ENG. DE PRODUÇÃO PROBABILIDADE E ESTATÍSTICA 2
UNIVERSIDADE FEDERAL DO PIAUÍ (UFPI) ENG. DE PRODUÇÃO PROBABILIDADE E ESTATÍSTICA 2 LISTA N O 2 Prof.: William Morán Sem. I - 2011 1) Considere a seguinte função distribuição conjunta: 1 2 Y 0 0,7 0,0
Figura 1.1: Exemplo de links patrocinados no Google
1 Links Patrocinados 1.1 Introdução Links patrocinados são aqueles que aparecem em destaque nos resultados de uma pesquisa na Internet; em geral, no alto ou à direita da página, como na Figura 1.1. Figura
Geração de Números Aleatórios e Simulação
Departamento de Informática Geração de Números Aleatórios e imulação Métodos Quantitativos LEI 26/27 usana Nascimento ([email protected]) Advertência Autores João Moura Pires ([email protected]) usana
Introdução a Algoritmos Parte 04
Universidade Federal do Vale do São Francisco Curso de Engenharia de Computação Introdução a Algoritmos Parte 04 Prof. Jorge Cavalcanti [email protected] www.univasf.edu.br/~jorge.cavalcanti
Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS
Introdução a Analise Química - II sem/2012 Profa Ma Auxiliadora - 1 Introdução à Análise Química QUI 094 1 semestre 2012 Profa. Maria Auxiliadora Costa Matos ERRO E TRATAMENTO DE DADOS ANALÍTICOS Introdução
Aula 5 Distribuição amostral da média
Aula 5 Distribuição amostral da média Nesta aula você irá aprofundar seus conhecimentos sobre a distribuição amostral da média amostral. Na aula anterior analisamos, por meio de alguns exemplos, o comportamento
Aula 5 Metodologias de avaliação de impacto
Aula 5 Metodologias de avaliação de impacto Metodologias de Avaliação de Impacto Objetiva quantificar as mudanças que o projeto causou na vida dos beneficiários. Plano de Aula Método experimental: regressão
BRINCANDO COM GRÁFICOS E MEDINDO A SORTE
BRINCANDO COM GRÁFICOS E MEDINDO A SORTE Elizabeth Pastor Garnier SEE/RJ Pedro Carlos Pereira - FAETEC Projeto Fundão IM/UFRJ Os Parâmetros Curriculares Nacionais propõem a introdução do tópico Tratamento
PROBABILIDADE. Aula 5
Curso: Psicologia Disciplina: Métodos Quantitativos Profa. Valdinéia Data: 28/10/15 PROBABILIDADE Aula 5 Geralmente a cada experimento aparecem vários resultados possíveis. Por exemplo ao jogar uma moeda,
Exercícios Teóricos Resolvidos
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar
UTILIZANDO O SOFTWARE WEKA
UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia
Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi
Metodologias de Desenvolvimento de Sistemas Analise de Sistemas I UNIPAC Rodrigo Videschi Histórico Uso de Metodologias Histórico Uso de Metodologias Era da Pré-Metodologia 1960-1970 Era da Metodologia
UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE ENGENHARIA AMBIENTAL LISTA DE EXERCÍCIOS 3
UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE ENGENHARIA AMBIENTAL Disciplina: Estatística II LISTA DE EXERCÍCIOS 3 1. Testes de resistência à tensão foram feitas em duas estruturas
COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder
Comentário Geral: Prova muito difícil, muito fora dos padrões das provas do TCE administração e Economia, praticamente só caiu teoria. Existem três questões (4, 45 e 47) que devem ser anuladas, por tratarem
Universidade Federal de Alfenas Programa de Pós-graduação em Estatística Aplicada e Biometria Prova de Conhecimentos Específicos
Dados que podem ser necessários a algumas questões de Estatística: P (t > t α ) = α ν 0,05 0,025 15 1,753 2,131 16 1,746 2,120 28 1,791 2,048 30 1,697 2,042 (Valor: 1,4) Questão 1. Considere o seguinte
Probabilidade. Distribuição Normal
Probabilidade Distribuição Normal Distribuição Normal Uma variável aleatória contínua tem uma distribuição normal se sua distribuição é: simétrica apresenta (num gráfico) forma de um sino Função Densidade
Pesquisa em Marketing
Pesquisa em Marketing Aula 4 1. Identificar o tamanho da amostral ideal 2. Saber calcular a amostra O Processo de Amostragem TIPOS DE AMOSTRAGEM Amostra não-probabilística Amostra por Conveniência Amostra
Avaliação de Desempenho de Sistemas
Avaliação de Desempenho de Sistemas Introdução a Avaliação de Desempenho de Sistemas Prof. Othon M. N. Batista [email protected] Roteiro Definição de Sistema Exemplo de Sistema: Agência Bancária Questões
MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS
MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS Definições Variáveis Aleatórias Uma variável aleatória representa um valor numérico possível de um evento incerto. Variáveis aleatórias
Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis.
3. Tabelas de Hash As tabelas de hash são um tipo de estruturação para o armazenamento de informação, de uma forma extremamente simples, fácil de se implementar e intuitiva de se organizar grandes quantidades
Teorema do Limite Central e Intervalo de Confiança
Probabilidade e Estatística Teorema do Limite Central e Intervalo de Confiança Teorema do Limite Central Teorema do Limite Central Um variável aleatória pode ter uma distribuição qualquer (normal, uniforme,...),
Regra do Evento Raro p/ Inferência Estatística:
Probabilidade 3-1 Aspectos Gerais 3-2 Fundamentos 3-3 Regra da Adição 3-4 Regra da Multiplicação: 3-5 Probabilidades por Meio de Simulações 3-6 Contagem 1 3-1 Aspectos Gerais Objetivos firmar um conhecimento
Exemplos de Testes de Hipóteses para Médias Populacionais
Exemplos de Testes de Hipóteses para Médias Populacionais Vamos considerar exemplos de testes de hipóteses para a média de uma população para os dois casos mais importantes na prática: O tamanho da amostra
Aula 11 Esperança e variância de variáveis aleatórias discretas
Aula 11 Esperança e variância de variáveis aleatórias discretas Nesta aula você estudará os conceitos de média e variância de variáveis aleatórias discretas, que são, respectivamente, medidas de posição
6 Construção de Cenários
6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.
Este capítulo é divido em duas seções, a primeira seção descreve a base de
30 3. Metodologia Este capítulo é divido em duas seções, a primeira seção descreve a base de dados utilizada, identificando a origem das fontes de informação, apresentando de forma detalhada as informações
CAPÍTULO 9 Exercícios Resolvidos
CAPÍTULO 9 Exercícios Resolvidos R9.1) Diâmetro de esferas de rolamento Os dados a seguir correspondem ao diâmetro, em mm, de 30 esferas de rolamento produzidas por uma máquina. 137 154 159 155 167 159
Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello
Aula 04 Método de Monte Carlo aplicado a análise de incertezas Aula 04 Prof. Valner Brusamarello Incerteza - GUM O Guia para a Expressão da Incerteza de Medição (GUM) estabelece regras gerais para avaliar
(b) Qual a probabilidade de ter sido transmitido um zero, sabendo que foi recebido um (1.0) zero?
Grupo I 5.0 valores 1. Um sistema de comunicação binária transmite zeros e uns com probabilidade 0.5 em qualquer dos casos. Devido ao ruído existente no canal de comunicação há erros na recepção: transmitido
LISTA DE EXERCÍCIOS VARIÁVEIS ALEATÓRIAS
LISTA DE EXERCÍCIOS VARIÁVEIS ALEATÓRIAS 1. Construir um quadro e o gráfico de uma distribuição de probabilidade para a variável aleatória X: número de coroas obtidas no lançamento de duas moedas. 2. Fazer
Disciplinas: Cálculo das Probabilidades e Estatística I
Introdução a Inferência Disciplinas: Cálculo das Probabilidades e Estatística I Universidade Federal da Paraíba Prof a. Izabel Alcantara Departamento de Estatística (UFPB) Introdução a Inferência Prof
Capítulo 3 Modelos Estatísticos
Capítulo 3 Modelos Estatísticos Slide 1 Resenha Variáveis Aleatórias Distribuição Binomial Distribuição de Poisson Distribuição Normal Distribuição t de Student Distribuição Qui-quadrado Resenha Slide
AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS
UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO BACHARELADO AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS Orientando: Oliver Mário
Bases Matemáticas. Aula 2 Métodos de Demonstração. Rodrigo Hausen. v. 2013-7-31 1/15
Bases Matemáticas Aula 2 Métodos de Demonstração Rodrigo Hausen v. 2013-7-31 1/15 Como o Conhecimento Matemático é Organizado Definições Definição: um enunciado que descreve o significado de um termo.
5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS. 5.1 - Os Programas de Avaliação
36 5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS 5.1 - Os Programas de Avaliação Programas de avaliação convencionais foram utilizados para análise de diversas configurações da arquitetura. Estes programas
MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade
MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade Edson de Faria Departamento de Matemática IME-USP 19 de Agosto, 2013 Probabilidade: uma Introdução / Aula 3 1 Probabilidade Discreta: Exemplos
UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM
1 UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM 1) Um pesquisador está interessado em saber o tempo médio que
Processos Estocásticos
Processos Estocásticos Segunda Lista de Exercícios 01 de julho de 2013 1 Uma indústria fabrica peças, das quais 1 5 são defeituosas. Dois compradores, A e B, classificam os lotes de peças adquiridos em
Avaliação e Desempenho Aula 4
Avaliação e Desempenho Aula 4 Aulas passadas Motivação para avaliação e desempenho Aula de hoje Revisão de probabilidade Eventos e probabilidade Independência Prob. condicional Experimentos Aleatórios
INVESTIGAÇÃO OPERACIONAL MÉTODOS DE PLANEAMENTO. Capítulo II Método PERT
INVESTIGAÇÃO OPERACIONAL MÉTODOS DE PLANEAMENTO Capítulo II Método PERT António Carlos Morais da Silva Professor de I.O. i II. Método PERT...II-. Introdução...II- 2. Duração da Actividade...II- 3. Estimativas
Trabalhando com Pequenas Amostras: Distribuição t de Student
Probabilidade e Estatística Trabalhando com Pequenas Amostras: Distribuição t de Student Pequenas amostras x Grandes amostras Nos exemplos tratados até agora: amostras grandes (n>30) qualquer tipo de distribuição
Apostila de Fundamentos de Programação I. Prof.: André Luiz Montevecchi
Apostila de Fundamentos de Programação I Prof: André Luiz Montevecchi Introdução O mundo atual é dependente da tecnologia O uso intenso de diversos aparatos tecnológicos é parte integrante do nosso dia-a-dia
Aula 10 Testes de hipóteses
Aula 10 Testes de hipóteses Na teoria de estimação, vimos que é possível, por meio de estatísticas amostrais adequadas, estimar parâmetros de uma população, dentro de certo intervalo de confiança. Nos
IV TESTES PARA DUAS AMOSTRAS INDEPENDENTES
IV TESTES PARA DUAS AMOSTRAS INDEPENDENTES Estes testes se aplicam a planos amostrais onde se deseja comparar dois grupos independentes. Esses grupos podem ter sido formados de duas maneiras diferentes:
Teste de Hipótese para uma Amostra Única
Teste de Hipótese para uma Amostra Única OBJETIVOS DE APRENDIZAGEM Depois de um cuidadoso estudo deste capítulo, você deve ser capaz de: 1.Estruturar problemas de engenharia de tomada de decisão, como
Empresa de Pesquisa Energética (EPE) 2014. Analista de Projetos da Geração de Energia
Empresa de Pesquisa Energética (EPE) 2014 Analista de Projetos da Geração de Energia Oi, pessoal! Vou resolver as quatro questões de Estatística (53 a 56) da prova elaborada pela banca Cesgranrio para
Sistema de avaliação da tarefa 47 da fase 5
Sistema de avaliação da tarefa 47 da fase 5 A Fase 5 da nossa Olimpíada mantém a forma de avaliação de 2014. O processo de avaliação será realizado por duas correções concomitantes: a já conhecida e consolidada
EXCEL 2013. Público Alvo: Arquitetos Engenheiros Civis Técnicos em Edificações Projetistas Estudantes das áreas de Arquitetura, Decoração e Engenharia
EXCEL 2013 Este curso traz a vocês o que há de melhor na versão 2013 do Excel, apresentando seu ambiente de trabalho, formas de formatação de planilhas, utilização de fórmulas e funções e a criação e formatação
SAD orientado a MODELO
Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a MODELO DISCIPLINA: Sistemas de Apoio a Decisão SAD Orientado a Modelo De acordo com ALTER
DISTRIBUIÇÃO NORMAL 1
DISTRIBUIÇÃO NORMAL 1 D ensid ade Introdução Exemplo : Observamos o peso, em kg, de 1500 pessoas adultas selecionadas ao acaso em uma população. O histograma por densidade é o seguinte: 0.04 0.03 0.02
Histogramas. 12 de Fevereiro de 2015
Apêndice B Histogramas Uma situação comum no laboratório e na vida real é a de se ter uma grande quantidade de dados e deles termos que extrair uma série de informações. Encontramos essa situação em pesquisas
