Coleta e Modelagem dos Dados de Entrada

Documentos relacionados
Coleta e Modelagem dos Dados de Entrada

Simulação e Modelagem

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Identificação da Distribuição Teórica de Probabilidades

2 CONCEITOS DE ESTATÍSTICA

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 09

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)

Avaliação de Desempenho de Sistemas Discretos

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

ESTATÍSTICA: UMA RÁPIDA ABORDAGEM Prof. David B.

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

AULAS 6 e 7. ESPERANÇA, MOMENTOS E DISTRIBUIÇÕES DE PROBABILIDADES de VARIÁVEIS DISCRETAS 05/05/2017

Tópicos Especiais em Qualidade

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

rio de Guerra Eletrônica EENEM 2008 Estatística stica e Probabilidade Aleatórias nuas

Distribuição de frequências. Prof. Dr. Alberto Franke

Distribuições de Probabilidades

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

PROCESSOS ESTOCÁSTICOS

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

ESTATÍSTICA. x(s) W Domínio. Contradomínio

Análise e Tratamento de Dados para Simulação de Sistemas

Probabilidade e Estatística. stica. Prof. Dr. Narciso Gonçalves da Silva pessoal.utfpr.edu.

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Modelos Probabilísticos Teóricos Discretos e Contínuos. Bernoulli, Binomial, Poisson, Uniforme, Exponencial, Normal

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos

Filho, não é um bicho: chama-se Estatística!

CONHECIMENTOS ESPECÍFICOS

Distribuições de Probabilidade Contínuas 1/19

Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc.

Probabilidade e Estatística

ANÁLISE DE RESULTADOS

Distribuições de Probabilidade

ESTATÍSTICA ECONÔMICA A 6EMA

Estatística Descritiva

Distribuições Contínuas de Probabilidade

PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADES

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE PELOTAS PRÓ-REITORIA DE GRADUAÇÃO

Casos. Índice. Parte I. Caso 1 Vendas da empresa Platox. Caso 2 Importação de matéria-prima. Caso 3 Carteira de acções. Caso 4 Lançamento de produto

CONHECIMENTOS ESPECÍFICOS

Estatística 1. Resumo Teórico

Confiabilidade de sistemas. Uma importante aplicação de probabilidade nas engenharias é no estudo da confiabilidade de sistemas.

Geração de Variáveis Aleatórias Contínuas. Mat02274 Estatística Computacional. A Normal. A Normal. Normal Log-Normal Gama Erlang Beta.

Fernando Nogueira Simulação 1

3 Revisão Bibliográfica - O Papel da Estatística na Simulação

Carga Horária: Total: 60 h/a Semanal: 04 aulas Créditos: 04 Modalidade: Teórica Classificação do Conteúdo pelas DCN: Básica

RESOLUÇÃO CADM 10/11, DE 22 DE JUNHO DE 2011

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

CONHECIMENTOS ESPECÍFICOS

EELT-7035 Processos Estocásticos em Engenharia. Variáveis Aleatórias. EELT-7035 Variáveis Aleatórias Discretas. Evelio M. G.

Súmario APRESENTAÇÃO DA COLEÇÃO...13

Ministério da Educação UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Câmpus Curitiba PLANO DE ENSINO

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

CONHECIMENTOS ESPECÍFICOS

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

CONHECIMENTOS ESPECÍFICOS

CONTEÚDOS PROGRAMÁTICOS

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

7 Teste de Hipóteses

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1

Modelagem em Engenharia C & A Aula 6 - Modelos Estatísticos/Estocásticos Aleatoriedade

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Bioestatística e Computação I

AULA 05 Teste de Hipótese

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

CONHECIMENTOS ESPECÍFICOS

CAPÍTULO 4 CONCEITOS BÁSICOS DE ESTATÍSTICA E PROBABILIDADES

POPULAÇÃO X AMOSTRA INTRODUÇÃO À BIOESTATÍSTICA TIPOS DE VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS 1) TIPOS DE VARIÁVEIS

RESOLUÇÃO DAS QUESTÕES DE ESTATÍSTICA

Probabilidade e Modelos Probabilísticos

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba

Importância da estatística 17. O que é a Estatística? 18

Estatística Básica MEDIDAS RESUMO

1 Introdução aos Métodos Estatísticos para Geografia 1

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2018

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Análise de Aderência e de Associação

Universidade Federal do Ceará

Estatística Não Paramétrica. Como construir testes de aderência

b) 5 6 d) 1 6 e) 7 6

Estimação e Testes de Hipóteses

Métodos Quantitativos para a Gestão Ambiental Probabilidades e Distribuições Estatísticas Parte 1 (4/13) Luiz Carlos Estraviz Rodriguez

Conceito de Estatística

Estatística e Probabilidade Aula 06 Distribuições de Probabilidades. Prof. Gabriel Bádue

Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

ALGUMAS DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE

6EMA Lucas Santana da Cunha 19 de abril de Universidade Estadual de Londrina

1 Distribuições Discretas de Probabilidade

Intervalos de Confiança

Distribuições de probabilidade de variáveis aleatórias contínuas

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Controle Estatístico de Qualidade. Capítulos 1, 2 e 3 (montgomery)

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Transcrição:

Slide 1 Módulo 02 Coleta e Modelagem dos Dados de Entrada Prof. Afonso C. Medina Prof. Leonardo Chwif

Três Etapas Coleta Tratamento Inferência

Coleta dos Dados 1. Escolha adequada da variável de estudo 2. O tamanho da amostra deve estar entre 100 e 200 observações. Amostras com menos de 100 observações podem comprometer a identificação do melhor modelo probabilístico, e amostras com mais de 200 observações não trazem ganhos significativos ao estudo;

Coleta dos Dados 3. Coletar e anotar as observações na mesma ordem em que o fenômeno está ocorrendo, para permitir a análise de correlação ; 4. Se existe alguma suspeita de que os dados mudam em função do horário ou do dia da coleta, a coleta deve ser refeita para outros horários e dias. Na modelagem de dados, vale a regra: toda suspeita deve ser comprovada ou descartada estatisticamente.

Exemplo 2.1: Filas nos Caixas do Supermercado Um gerente de supermercado está preocupado com as filas formadas nos caixas de pagamento durante um dos turnos de operação. Quais seriam as variáveis de estudo para coleta de dados? (S) ou (N). ( N) O número de prateleiras no supermercado ( ) Os tempos de atendimento nos caixas S ( ) O número de clientes em fila N É resultado!! ( ) O tempo de permanência dos clientes no supermercado N ( S) Os tempos entre chegadas sucessivas de clientes nos caixas de pagamento

Exemplo 2.1: Coleta de Dados Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas). Tempos em minutos: 11 5 2 0 9 9 1 5 5 1 1 3 3 3 7 4 12 8 7 5 5 2 6 1 11 1 2 4 4 2 2 1 3 9 0 10 3 3 4 5 1 5 18 4 22 8 3 0 4 4 8 9 2 3 12 1 3 1 11 9 7 5 14 7 7 28 1 3 3 4 2 11 13 2 0 1 6 12 8 12 15 0 6 7 19 1 1 9 12 4 1 5 3 17 10 15 43 2 9 11 6 1 13 13 19 10 9 20 17 24 19 2 27 5 20 5 10 8 728 8 2 3 1 1 4 3 6 13 12 12 10 9 1 1 3 9 9 4 6 3 0 3 6 3 27 3 18 4 4 7 6 0 2 2 8 4 5 1 3 1 4 18 1 0 16 20 2 2 9 3 2 12 28 0 7 3 18 12 2 1 3 2 8 3 19 12 5 4 0 3 6 0 5 0 3 7 0 8 5 8

Exemplo 2.1: Medidas de Posição e Dispersão Média 10,44 Mediana 5 Medidas de posição Moda 3 Mínimo 0 Máximo 728 Amplitude 728 Desvio padrão 51,42 Medidas de dispersão Variância da amostra 2.643,81 Coeficiente de Variação 493% Coeficiente Assimetria 13,80 O 728 é um outlier?

Exemplo 2.1: Outlier Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas). Tempos em minutos: 11 5 2 0 9 9 1 5 5 1 1 3 3 3 7 4 12 8 7 5 5 2 6 1 11 1 2 4 4 2 2 1 3 9 0 10 3 3 4 5 1 5 18 4 22 8 3 0 4 4 8 9 2 3 12 1 3 1 11 9 7 5 14 7 7 28 1 3 3 4 2 11 13 2 0 1 6 12 8 12 15 0 6 7 19 1 1 9 12 4 1 5 3 17 10 15 43 2 9 11 6 1 13 13 19 10 9 20 17 24 19 2 27 5 20 5 10 8 728 8 2 3 1 1 4 3 6 13 12 12 10 9 1 1 3 9 9 4 6 3 0 3 6 3 27 3 18 4 4 7 6 0 2 2 8 4 5 1 3 1 4 18 1 0 16 20 2 2 9 3 2 12 28 0 7 3 18 12 2 1 3 2 8 3 19 12 5 4 0 3 6 0 5 0 3 7 0 8 5 8

Outliers ou Valores Discrepantes Erro na coleta de dados. Este tipo de outlier é o mais comum, principalmente quando o levantamento de dados é feito por meio manual. Eventos Raros. Nada impede que situações totalmente atípicas ocorram na nossa coleta de dados. Alguns exemplos: Um dia de temperatura negativa no verão da cidade do Rio de Janeiro; Um tempo de execução de um operador ser muito curto em relação aos melhores desempenhos obtidos naquela tarefa; Um tempo de viagem de um caminhão de entregas na cidade de São Paulo, durante o horário de rush, ser muito menor do que fora deste horário.

Exemplo 2.1: Outlier (valor discrepante) Dados com o outlier sem o outlier Média 10,44 6,83 Mediana 5 5 Variância da amostra 2.643,81 43,60

Identificação de Outliers: Box-plot Valores 20 Q 3 +1,5( Q 3 - Q 1 ) Q 3 15 mediana 10 Q 1 Q 1-1,5( Q 3 - Q 1 ) 5 outlier 0 A B C Séries

Análise de Correlação 50 Observação k +1 40 30 Diagrama de dispersão dos tempos de atendimento do exemplo de supermercado, mostrando que não há correlação entre as observações da amostra. 20 10 0 0 10 20 30 40 Observação 50 k

Análise de Correlação 20 Observação k +1 18 Diagrama de dispersão de um exemplo hipotético em que existe correlação entre os dados que compõem a amostra. 16 14 12 10 10 12 14 16 18 Observação 20 k

Exemplo 2.1: Construção do Histograma O histograma é utilizado para identificar qual a distribuição a ser ajustada aos dados coletados ou é utilizado diretamente dentro do modelo de simulação. 1. Definir o número de classes: K=1+3,3log 10 n K= n 2. Definir o tamanho do intervalo: h= Amplitude K 3. Construir a tabela de frequências 4. Construir o histograma

Exemplo 2.1: Histograma Freqüência 120 100 80 60 40 20 0 Histograma h=4.8 4.8 14.3 23.9 33.4 43 Bloco

Exemplo 2.1: Inferência Qual o melhor modelo probabilístico ou distribuição estatística que pode representar a amostra coletada? Freqüência 120 Histograma h=4.8 f (x) µ =1 σ=0,5 Lognormal? 100 80 µ =1 σ=1 60 40 20 0 4.8 14.3 23.9 33.4 43 f (x ) Bloco x 1/λ f (x ) x f (x ) Normal? Triangular? Exponencial? a m b x µ x

Testes de Aderência (não paramétricos) Testa a validade ou não da hipótese de aderência (ou hipótese nula) em confronto com a hipótese alternativa: H0: o modelo é adequado para representar a distribuição da população. Ha: o modelo não é adequado para representar a distribuição da população. Se a um dado nível de significância alfa (100)% rejeitarmos H 0, o modelo testado não é adequado para representar a distribuição da população. O nível de significância alfa equivale à probabilidade de rejeitarmos a hipótese nula H 0, dado que ela está correta. Testes usuais: Qui quadrado Kolmogorov-Sminov

Teste do Qui-quadrado Limites Freqüências Inf Sup Exponencial Teórica (T) Observada (O) (O-T)^2/ T 0 4.8 0.5022 100 96 0.16 4.8 9.6 0.2500 50 55 0.55 9.6 14.3 0.1244 25 25 0.00 14.3 19.1 0.0620 12 13 0.04 19.1 1.0E+10 0.0614 12 10 0.40 E 1.15 Confiança 5% Graus de liberdade 3 Valor Teórico 7.81 p-value 0.76 Portanto, não rejeitamos a hipótese de que os dados aderem ao modelo exponencial

P-value Parâmetro usual nos softwares de estatística. Para o teste do quiquadrado no Excel, utilizar: =DIST.QUI (valor de E; graus de liberdade) Valor p-value < 0,01 0,01<= p-value < 0,05 0,05< = p-value < 0,10 0,10<= p-value Critério Evidência forte contra a hipótese de aderência Evidência moderada contra a hipótese de aderência Evidência potencial contra a hipótese de aderência Evidência fraca ou inexistente contra a hipótese de aderência

Distribuições discretas: Binomial Exemplo: Suponha que numa linha de produção a probabilidade de se obter uma peça defeituosa (sucesso) é p=0,1. Toma-se uma amostra de 4 peças para serem inspecionadas. Qual a probabilidade de se obter uma peça defeituosa, nenhuma peça defeituosa, 2 peças defeituosas, 3 e 4 peças defeituosas? Pela tabela, vemos que as probabilidades de se obter uma peça defeituosa é de 29,16%, nenhuma peça defeituosa é de 65,61%, e de se obter duas peças defeituosas é 4,86% e para mais que mias que três é menos que 1%.

Distribuições discretas: Binomial

Distribuições discretas: Poisson Distribuição discreta de probabilidade aplicável a ocorrências de um evento em um intervalo especificado Exemplos TAXA usuários de computador ligados à Internet; clientes chegando ao caixa de um supermercado; acidentes com automóveis em uma determinada estrada; Número de carros que chegam a um posto de gasolina ; Número de falhas em componentes por unidade de tempo; Número de requisições para um servidor em um intervalo de tempo t; Número de peças defeituosas substituídas num veículo durante o primeiro ano de vida;

Distribuições discretas: Poisson

Distribuições contínuas: Beta Na teoria da probabilidade e estatística, a distribuição beta é uma família de distrições contínuas de probabilidade definidas sobre o intervalo [0, 1] parametrizado por dois parâmetros positivos, chamados a e b, que aparecem como expoentes da variável aleatória e controlam o formato da distribuição. f (x ) α =1,5 β =5 α =6 β =2 α =2 β =1 α =4 β =4 α =3 β =2 α =2 β =1 α =2 β =3 0 0,5 1 x

Distribuições contínuas: Erlang f (x ) λ =0,5 A distribuição Erlang é uma distribuição de probabilidade contínua com uma ampla aplicabilidade, principalmente devido à sua relação com a distribuição exponencial e a distribuição gama. A distribuição Erlang foi desenvolvida por Agner Krarup Erlang para analisar o número de chamadas telefônicas que poderiam ser feitas simultaneamente aos operadores das estações de comutação. Atualmente esta distribuição é utilizada em várias áreas que aplicam processos estocásticos. λ =0,5 k= 3 λ =0,2 k= 10 x

Distribuições contínuas: Exponencial f (x ) 1/λ Esta é uma distribuição que se caracteriza por ter uma função de taxa de falha constante. A distribuição exponencial é a única com esta propriedade. Ela é considerada uma das mais simples em termos matemáticos. Esta distribuição tem sido usada extensivamente como um modelo para o tempo de vida de certos produtos e materiais. Ela descreve adequadamente o tempo de vida de óleos isolantes e dielétricos, entre outros. x

Distribuições contínuas: Gama f (x ) α =0, α =1 α =2 x

Distribuições contínuas: Lognormal f (x ) µ =1 σ =0,5 µ =1 σ =1 x

Distribuições contínuas: Normal f (x ) µ

Distribuições contínuas: Uniforme f (x ) 1/(b-a ) a b x

Distribuições contínuas: Triangular f (x ) a m b x

Distribuições contínuas: Weibull f (x ) α =0,5 β =1 α =3 β =1 α =1 β =1 α =2 β =1 α =3 β =2 x

Modelagem de dados... Sem dados! Distribuição Parâmetros Características Aplicabilidade Exponencial Média Variância alta Cauda para direita Grande variabilidade dos valores Independência entre um valor e outro Muitos valores baixos e poucos valores altos Utilizada para representar o tempo entre chegadas sucessivas e o tempo entre falhas sucessivas Triangular Menor valor, moda e maior valor Simétrica ou não Quando se conhece ou se tem um bom chute sobre a moda (valor que mais ocorre), o menor valor e o maior valor que podem ocorrer Normal Média e desvio-padrão Simétrica Forma de sino Variabilidade controlada pelo desvio-padrão Quando a probabilidade de ocorrência de valores acima da média é a mesma que valores abaixo da média Quando o tempo de um processo pode ser considerado a soma de diversos tempos de sub-processos Processos manuais Uniforme Maior valor e menor valor Todos os valores no intervalo são igualmente prováveis de ocorrer Quando não se tem nenhuma informação sobre o processo ou apenas os valores limites (simulação do pior caso) Discreta Valores e probabilidade de ocorrência destes valores Apenas assume os valores fornecidos pelo analista Utilizada para a escolha de parâmetros das entidades (por exemplo: em uma certa loja, 30% dos clientes realizam suas compras no balcão e 70% nas prateleiras) Quando se conhecem apenas valores intermediários da distribuição ou a porcentagem de ocorrência de alguns valores discretos