Análise de Dados. Introdução às técnicas de Amostragem Introdução à Estimação Introdução aos testes Métodos não paramétricos

Tamanho: px
Começar a partir da página:

Download "Análise de Dados. Introdução às técnicas de Amostragem Introdução à Estimação Introdução aos testes Métodos não paramétricos"

Transcrição

1 Aálise de Dados Itrodução às técicas de Amostragem Itrodução à Estimação Itrodução aos testes Métodos ão paramétricos Maria Eugéia Graça Martis Faculdade de Ciêcias da Uiversidade de Lisboa Março 009

2

3 ÍNDICE Capítulo Itrodução às técicas de Amostragem. Itrodução A Estatística estuda a variabilidade apresetada pelos dados.... Probabilidade e Estatística....3 Aquisição de Dados Itrodução Técicas de amostragem aleatória Amostra aleatória simples Amostra aleatória sistemática Amostra estratificada Amostragem por clusters ou grupos Amostragem ão aleatória Outros tipos de erros um processo de aquisição de dados Estimador cetrado e ão cetrado. Precisão Qual a dimesão que se deve cosiderar para a amostra Estimação do valor médio utilizado amostras aleatórias simples Distribuição de amostragem da média Distribuição de amostragem exacta Distribuição de amostragem aproximada Distribuição aproximada da média, como estimador do valor médio de uma população fiita, mas de dimesão suficietemete grade Distribuição de amostragem da média em amostragem com reposição Forma da distribuição de amostragem da média em populações ifiitas ou amostragem com reposição Valor médio e desvio padrão da média Distribuição da média, para populações ormais Desvio padrão σ cohecido Desvio padrão σ descohecido Distribuição da média para populações ão ormais. Teorema Limite Cetral Distribuição de amostragem da proporção Distribuição de amostragem da proporção para populações fiitas Distribuição de amostragem da proporção para populações ifiitas ou com reposição...40 Capítulo Itrodução à estimação. Itrodução...4. Estimação da proporção. Itervalo de cofiaça para a proporção Estimação do valor médio. Itervalo de cofiaça para o valor médio Itervalo de cofiaça para o valor médio σ cohecido Itervalo de cofiaça para o valor médio σ descohecido...53

4 Capítulo 3 Itrodução aos testes de hipóteses 3. Itrodução Outros exemplos Hipótese ula e Hipótese alterativa; erros de tipo e tipo ; estatística de teste; região de rejeição Testes de hipóteses para a proporção p Determiação dos potos críticos P-Value Vamos coversar acerca de testes Testes de hipóteses sobre o valor médio P-value...78 Capítulo 4 Testes à igualdade de duas populações 4. Iferêcia sobre a difereça etre as proporções de duas populações Testes de hipóteses sobre a difereça de proporções Itervalo de cofiaça para a difereça de proporções Iferêcia sobre a difereça etre os valores médios de duas populações Iferêcia sobre a difereça etre valores médios de populações idepedetes As populações são ormais e as variâcias cohecidas As populações são ormais e as variâcias são iguais e descohecidas teste t para amostras idepedetes As populações são ormais e as variâcias são diferetes e descohecidas As populações ão são ormais e as amostras são de grade dimesão Amostras emparelhadas Populações ormais, pequeas amostras teste t emparelhado Grades amostras Que tipo de plaeameto fazer Teste para a igualdade de variâcias em populações ormais...94 Capítulo 5 Métodos ão paramétricos 5. Itrodução Testes de ajustameto Itrodução Geeralização do modelo Biomial o modelo Multiomial Teste de ajustameto do Qui-quadrado Aálise de dados qualitativos Aálise de dados discretos Aálise de dados cotíuos Teste de Kolmogorov-Smirov Comparação etre os testes do Qui-quadrado e o de Kolmogorov-Smirov Problema da localização e da localização e simetria teste dos siais e teste de Wilcoxo Itrodução...

5 5.3. Teste dos Siais Teste dos Siais para amostras emparelhadas Teste de Wilcoxo Distribuição de amostragem de T Teste de Wilcoxo para amostras emparelhadas O teste de Wilcoxo e o teste-t Testes de hipóteses em modelos ão paramétricos para testar a homogeeidade de várias populações idepedetes Comparação de duas populações idepedetes Teste de Ma-Whitey-Wilcoxo Distribuição de amostragem de W m, O teste de Ma-Whitey-Wilcoxo e o teste-t para duas amostras Forma alterativa para a estatística de Ma-Whitey- Wilcoxo Teste de Kolmogorov-Smirov para duas amostras Comparação de mais de duas populações idepedetes Teste de Kruskal-Wallis Comparações múltiplas Teste do Qui-quadrado em tabelas de cotigêcia para testar a homogeeidade Testes de hipóteses em modelos ão paramétricos para testar a idepedêcia Teste do Qui-quadrado em tabelas de cotigêcia para testar a idepedêcia de duas populações Coeficiete de correlação ordial de Spearma Ídice de Friedma...6 Bibliografia Coover, W.J. (980) Practical Noparametric Statistics, Joh Wiley & Sos De Veaux, R. Et al. (004) Itro Stats, Pearso, Addiso Wesley Graça Martis, M. E. (005) Itrodução à Probabilidade e à Estatística Com complemetos de Excel, SPE Graça Martis, M. E. et al. (999) Probabilidades e Combiatória, Miistério da Educação, Departameto do Esio SEcudário Medehall, W., et al. (987) Statistics: a Tool for the Social Scieces, PWSKet Motgomery, D. et al. (999) Applied Statistics ad Probability for Egieers, Joh Wiley & Sos, Ic. New York Murteira, B. et al. (00) Itrodução à Estatística, McGraw-Hill de Portugal Spret, P. (989) Applied Noparametric Statistical Methods, Chapma ad Hal Taebaum. P. et al. (998) Excursios i Moder Mathematics, Pretice Hall

6

7 Aálise de Dados Itrodução às técicas de amostragem Itrodução às técicas de amostragem. Distribuição de amostragem de algumas estatísticas baseadas em amostras aleatórias simples e em amostragem com reposição. Estudo dos estimadores Média e Proporção amostral.. Itrodução A Estatística estuda a variabilidade apresetada pelos dados Da experiêcia que temos o dia a dia com os dados já cocluímos, com certeza, que estes apresetam variabilidade. Por exemplo é comum que um pacote de açúcar que a embalagem teha escrito um quilograma, ão pese exactamete um quilograma. Por outro lado ao pesar duas vezes o mesmo pacote possivelmete ão obteremos o mesmo valor. Assim, ao dizermos que o peso do pacote é um determiado valor, ão podemos ter a certeza que esse valor seja correcto. Esta variabilidade está presete em todas as situações do mudo que os rodeia, pelo que as coclusões que tiramos a partir dos dados que se os apresetam, têm ierete um certo grau de icerteza. A Estatística trata e estuda esta variabilidade apresetada pelos dados. Permite-os a partir dos dados retirar coclusões, mas também exprimir o grau de cofiaça que devemos ter essas coclusões. É precisamete esta particularidade que se maifesta toda a potecialidade da Estatística. Podemos etão, e tal como refere David Moore em Perspectives o Cotemporary Statistics, cosiderar três grades áreas esta ciêcia dos dados: Aquisição de dados Aálise dos dados Iferêcia a partir dos dados Maria Eugéia Graça Martis

8 Aálise de Dados Vamos, uma das secções seguites, abordar o primeiro tema cosiderado, ou seja o que diz respeito à Aquisição de Dados, uma perspectiva de que pretedemos obter dados, para respodermos a determiadas questões, isto é, para posteriormete retirarmos coclusões para as Populações a partir das quais esses dados são adquiridos cotexto em que tem setido fazer iferêcia estatística. Vamos assim, preocupar-os em obter amostras represetativas de Populações que se pretedem estudar.. Probabilidade e Estatística A Probabilidade é o istrumeto que permite ao estatístico utilizar a iformação recolhida da amostra para descrever ou fazer iferêcias sobre a População de ode a amostra foi recolhida. Podemos aida dizer que os objectivos da Probabilidade e da Estatística são, de certo modo, iversos. Algus exemplos ajudar-os-ão a compreeder melhor esta ideia. EXEMPLO. (Graça Martis, M.E. et al, 999) Supoha que tem uma moeda equilibrada e que laça a moeda uma série de vezes, registado em cada laçameto a face que fica voltada para cima. O resultado dos registos é uma sucessão de F e de C, ode utilizamos a letra F para desigar cara (face) e a letra C para desigar coroa. Como admitimos que a moeda é equilibrada, isto é, estamos a adoptar um determiado modelo probabilístico, esperamos que o úmero de F s seja aproximadamete metade do úmero de laçametos efectuados. Se, por outro lado, cosiderarmos uma amostra de dimesão, isto é, fizermos uicamete um laçameto, dizemos que a probabilidade de obter F é /, já que existe igual possibilidade de obter F ou C (ao dizer que a moeda é equilibrada estamos a atribuir igual probabilidade à saída de cara ou de coroa um laçameto). Supoha agora que a sua moeda ão era equilibrada. Neste caso quado procedemos a vários laçametos já ão sabemos qual a proporção de caras que esperamos obter, uma vez que a População ão é perfeitamete cohecida cohecemos os resultados possíveis em cada laçameto cara ou coroa, mas o modelo ão está completamete especificado, uma vez que as probabilidades associadas a esses resultados ão são cohecidas (estamos a assumir que a moeda ão é equilibrada). Etão um modo possível de obter mais alguma iformação sobre o modelo probabilístico é proceder a um certo úmero de laçametos e calcular a frequêcia relativa da saída de cara, os laçametos efectuados. Este valor vai-os servir para estimar a probabilidade da saída de cara. Por exemplo, se em 000 laçametos se obtiveram 34 caras, dizemos que um valor aproximado para a probabilidade de se Maria Eugéia Graça Martis

9 Aálise de Dados 3 verificar cara é 0.34 (ao fim de 000 laçametos verificou-se uma certa estabilidade à volta deste valor) e o valor aproximado para a probabilidade de sair coroa será Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da Estatística: Equato que ao assumirmos um determiado modelo de probabilidade População cohecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a raciociar do geral para o particular, isto é, da População para a Amostra, quado a População ão é cohecida utilizamos a Estatística para fazer raciocíios o setido iverso, isto é, iferir para a População resultados observados a Amostra. Para esclarecer melhor esta ideia, cosideremos aida os seguites exemplos: EXEMPLO. (Adaptado de Murteira, B. et al., 00) Cosideremos um cojuto umeroso de pessoas, por exemplo os aluos matriculados a FCUL o ao lectivo de 005/006. Relativamete a esta população, existe uma percetagem p, de aluos que praticam desporto. Escolhem-se (sem reposição) ao acaso 0 aluos. Se p fosse cohecido, por exemplo 0.3, podíamos calcular a probabilidade de ecotrar x praticates de desporto, com 0 x 0, esse grupo de 0 aluos, probabilidade que se sabe ser determiada pela expressão x x x Como a população era umerosa, podemos admitir que o úmero de estudates que praticam desporto, em 0 estudates retirados aleatoriamete da população, é bem modelado pelo modelo Biomial, de parâmetros 0 e 0.3 (a composição da população praticamete ão se altera, quado retiramos algus elemetos, pelo que podemos admitir que temos provas de Beroulli). Trata-se de um problema de probabilidade. Pode, o etato, suceder, que p seja descohecido, sedo esta, aliás, a situação mais correte. Etão, este caso, vamos utilizar a iformação sobre o úmero de praticates de desporto a amostra de 0, omeadamete a proporção x/, para tirar coclusões sobre a proporção de praticates de desporto da população. Trata-se de um problema de iferêcia estatística. EXEMPLO.3 Sabe-se que determiado tipo de compoetes electróicas tem um tempo de vida que ão depede da idade, isto é, a falha pode ocorrer em qualquer istate e ão depede de há quato tempo as compoetes já estão em fucioameto. Sabe-se aida que estas compoetes podem falhar em qualquer altura, ão tedo, portato, um tempo de garatia. Se se souber que o tempo médio θ até à falha é 00 horas, etão o tempo de vida T, deste tipo de compoetes, pode ser bem Maria Eugéia Graça Martis

10 Aálise de Dados 4 modelado por uma expoecial, com fução desidade de probabilidade e fução distribuição, respectivamete t t f (t) = exp(- ), t>0 e F(t) = exp(- ) Etão, assumido o modelo aterior, podemos calcular, por exemplo, a probabilidade de uma destas compoetes ão falhar ates de 00 horas: P(T>00) = F(00) = exp(-) = 0.35 Na realidade, a situação correte é que aquele valor médio θ é descohecido e o modelo probabilístico para o tempo de vida das compoetes é cohecido a meos de um parâmetro, sedo a sua fução desidade t f(t) = exp(- ), θ>0, t>0 θ θ Como estimar θ? Um estimador atural é cosiderar uma amostra de compoetes que se colocam em teste, observar os tempos até à falha e tomar a média desses tempos, como estimativa do tempo médio até à falha, já que, o modelo expoecial tal como foi apresetado ateriormete, o parâmetro θ é o valor médio de T. EXEMPLO.4 Numa Uiversidade os iquéritos pedagógicos são lidos através de leitura óptica. Sabe-se que estes leitores, embora raramete, podem cometer algus erros. Um processo de cotrolar a qualidade da leitura é seleccioar aleatoriamete us tatos iquéritos e verificar quatos erros foram cometidos pela leitura óptica, em cada um dos iquéritos. Admitido que o úmero de erros, Z, por iquérito, pode ser bem modelado por uma Poisso, temos para fução massa de probabilidade da v.a. Z k P(Z=k) = exp -λ λ, k=0,,,... k! Se soubermos que, em média, se detectam 0, erros por págia, podemos calcular, por exemplo, a probabilidade de ão ecotrarmos ehum erro um iquérito escolhido aleatoriamete. Efectivamete, este caso, λ=0., pelo que a probabilidade pretedida será P(Z=0) = exp(-0.) (0.) 0 /0!= 0,8. No etato, uma situação em que, à partida, ão se coheça o desempeho dos leitores ópticos, terá de se estimar o parâmetro λ. Uma estimativa para este parâmetro obtém-se seleccioado algus iquéritos já lidos, e depois de cotar o úmero de erros cometidos em cada um, calcular a média dos valores obtidos. EXEMPLO.5 Uma equipa móvel de colheita de sague, estacioada o Saldaha, iterpela as pessoas que passam, o setido de as sesibilizar a darem sague, ivestigado omeadamete o seu Maria Eugéia Graça Martis

11 Aálise de Dados 5 grupo saguíeo. Qual a probabilidade de, em certo dia, só ecotrarem um idivíduo de grupo O RH-, ao 0 idivíduo que abordam? Estamos uma situação em que temos uma população costituída por idivíduos pertecetes a uma de categorias ter sague O RH-, ou ão ter este tipo de sague. Pretedemos fazer um raciocíio probabilístico sobre a variável aleatória X, que represeta o úmero de idivíduos iquiridos (isucessos) até se ecotrar um com sague O RH- (sucesso). Para obter um modelo probabilístico para esta variável aleatória, vamos começar por admitir que desta experiêcia aleatória, que cosiste em pergutar a cada idivíduo o seu grupo saguíeo, resultam provas de Beroulli: efectivamete em cada prova podemos ter sucesso ou isucesso e podemos cosiderar as provas idepedetes, com probabilidade de sucesso costate, uma vez que, embora a população seja fiita, as provas aida podem ser cosideradas idepedetes, pois a dimesão da amostra seleccioada é muito pequea, quado comparada com a dimesão da população. Etão, se represetarmos por p a proporção de idivíduos da população com sague O RH-, um modelo para X (modelo geométrico) será P(X=k) = (-p) k- p, k=,,... Se cohecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretedida: P(X=0) = (-0.06) = E se a probabilidade p for descohecida? Neste caso temos de a estimar. Tedo em cosideração que o valor médio de X é /p, uma estimativa atural para p pode ser obtida recolhedo uma amostra, em que cada elemeto é o úmero de idivíduos abordados até se obter sucesso, calcular a média dessa amostra e cosiderar como estimativa de p, o iverso da média obtida. EXEMPLO.6 O sr. Silva, idustrial têxtil, decidiu começar a fabricar camisas de homem, destiadas a serem vedidas em Portugal. Precisava de ter alguma iformação sobre os moldes que devia utilizar, omeadamete sobre o comprimeto R, adequado para as magas. Um estatístico, a quem pediu ajuda, passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espatado, pois tiha algus estudos, embora poucos, de Estatística e uma das coisas que se lembrava era de que o suporte do modelo Normal era R. Ora ós sabemos que o comprimeto do braço é ecessariamete positivo! Na verdade, o que acotece é que se tetassemos ecotar um modelo com suporte positivo, teríamos grades dificuldades e a realidade, adoptado um modelo ormal, com valores coveietes para os parâmetros valor médio (μ) e desvio padrão (σ), podemos verificar, que a probabilidade de obtermos valores para R iferiores a determiado valor é praticamete ula. Estes valores coveietes são estimados a partir de uma amostra de comprimetos de braços de homem, para a qual se calculam a média e o desvio padrão, que são utilizados como estimativas dos parâmetros descohecidos. Maria Eugéia Graça Martis

12 Aálise de Dados 6 Os exemplos apresetados ateriormete mostram a importâcia de ecotrarmos modelos probabilísticos para as situações reais descritas. Em algumas das situações tivémos de propor modelos que ão descrevem perfeitamete a situação real, mas que cosideramos úteis, pois os permitem tomar decisões. Nesta reflexão sobre qual o modelo a adoptar para traduzir um feómeo aleatório, vem a propósito lembrar o que diz Box: Todos os modelos são maus, algus são úteis Na secção seguite abordamos o problema da aquisição de dados e a sua importâcia e cuidados ecessários para, uma fase seguite, procedermos a iferêcias sobre as populações de ode os dados foram retirados..3 Aquisição de dados.3. Itrodução Abordaremos de seguida (Graça Martis, M. E., 005) algumas das técicas de aquisição de dados, em que se distiguem as Sodages e Experimetações (aleatoriezadas) Gostaríamos desde já de realçar que o objectivo desta secção é o de explorar, de uma forma simples, algumas das técicas de amostragem, com vista à realização de sodages, situações que se ecotram de um modo geral as Ciêcias Sociais, ao cotrário das Ciêcias experimetais, tais como Física ou Química, em que a recolha de dados se faz fudametalmete recorredo a experiêcias. Por exemplo, a população costituída pelos eleitores, a população costituída pela cotas sedeadas um baco, etc, só cotêm um úmero fiito de elemetos, ao cotrário da População coceptual de respostas geradas por um processo químico. Não é demais realçar a importâcia desta fase, a que chamamos de Produção ou Aquisição de Dados. Como é referido em Taebaum (998), págia 46: Behid every statistical statemet there is a story, ad like a story it has a begiig, a middle, a ed, ad a moral. I this first statistics chapter we begi with the begiig, which i statistics typically meas the process of gatherig or collectig data. Data are the raw Maria Eugéia Graça Martis

13 Aálise de Dados 7 material of which statistical iformatio is made, ad i order to get good statistical iformatio oe eeds good data. Sodagem, População, Amostra População, uidade, amostra População é o cojuto de objectos, idivíduos ou resultados experimetais acerca do qual se pretede estudar alguma característica comum. As Populações podem ser fiitas ou ifiitas, existetes ou coceptuais. Aos elemetos da população chamamos uidades estatísticas. Amostra é uma parte da população que é observada com o objectivo de obter iformação para estudar a característica pretedida. O objectivo de uma sodagem é o de recolher iformação acerca de uma população, seleccioado e observado um cojuto de elemetos dessa população. Sodagem Estudo estatístico de uma população, feito através de uma amostra, destiado a estudar uma ou mais características tais como elas se apresetam essa população. Se se observarem todos os elemetos da população tem-se um receseameto Geralmete, há algumas quatidades uméricas acerca da população que se pretedem cohecer. A essas quatidades chamamos parâmetros. Os parâmetros são estimados por estatísticas, que são úmeros calculados a partir da amostra. Estas quatidades são coceptualmete distitas, pois equato a característica populacioal pode ser cosiderada um valor exacto, embora descohecido, a característica amostral é cohecida, embora cotedo um certo erro, ierete à amostra seleccioada, mas que todavia pode ser cosiderada uma estimativa útil da característica populacioal respectiva. Maria Eugéia Graça Martis

14 Aálise de Dados 8 População Amostra Parâmetro Estatística No etato, para se poder utilizar as estatísticas estimadores, para estimar parâmetros é ecessário que as amostras sejam represetativas das populações de ode foram retiradas. Amostra eviesada. Amostra aleatória e amostra ão aleatória. Uma amostra que ão seja represetativa da População diz-se eviesada e a sua utilização pode dar origem a iterpretações erradas Um processo de amostragem diz-se eviesado quado tede sistematicamete a seleccioar elemetos de algus segmetos da População, e a ão seleccioar sistematicamete elemetos de outros segmetos da População. Surge assim, a ecessidade de fazer um plaeameto da amostragem, ode se decide quais e como devem ser seleccioados os elemetos da População, com o fim de serem observados, relativamete à característica de iteresse. Amostra aleatória e amostra ão aleatória Dada uma população, uma amostra aleatória é uma amostra tal que qualquer elemeto da população tem alguma probabilidade de ser seleccioado para a amostra. Numa amostra ão aleatória, algus elemetos da população podem ão poder ser seleccioados para a amostra. Normalmete obtêm-se amostras eviesadas quado existe a iterveção do factor humao. Com o objectivo de miimizar o eviesameto, o plaeameto da escolha da amostra deve ter-se presete o pricípio da aleatoriedade de forma a obter uma amostra aleatória. Maria Eugéia Graça Martis

15 Aálise de Dados 9 Quado se pretede recolher uma amostra de dimesão, de uma População de dimesão N, podemos recorrer a vários processos de amostragem. Como o osso objectivo é, a partir das propriedades estudadas a amostra, iferir propriedades para a População, gostaríamos de obter processos de amostragem que dêem origem a bos estimadores e cosequetemete boas estimativas. Acotece que as propriedades dos estimadores, como veremos a seguir, só podem ser estudadas se coseguirmos estabelecer um plao de amostragem que atribua a cada amostra seleccioada uma determiada probabilidade, e esta atribuição só pode ser feita com plaos de amostragem aleatórios. Assim, é importate termos sempre presete o pricípio da aleatoriedade, quado vamos proceder a um estudo em que procuramos alargar para a População as propriedades estudadas a amostra..3. Técicas de amostragem aleatória Seguidamete apresetaremos algumas dos plaeametos mais utilizados para seleccioar amostras aleatórias. Dos vários tipos de plaeameto utilizados, destacamse os que coduzem a amostras aleatórias simples, amostras sistemáticas e amostras estratificadas..3.. Amostra aleatória simples O plao de amostragem aleatória mais básico é o que permite obter a amostra aleatória simples: Amostra aleatória simples - Dada uma população, uma amostra aleatória simples de dimesão é um cojuto de uidades da população, tal que qualquer outro cojuto de uidades teria igual probabilidade de ser seleccioado. Se uma população tem dimesão N e se pretede uma amostra aleatória simples de dimesão, esta amostra é recolhida aleatoriamete de etre todas as N amostras distitas que se podem recolher da população. Isto implica que cada amostra teha a Maria Eugéia Graça Martis

16 Aálise de Dados 0 N mesma probabilidade de ser seleccioada. Uma amostra destas pode ser escolhida sequecialmete da população, escolhedo um elemeto de cada vez, sem reposição, pelo que em cada selecção cada elemeto tem a mesma probabilidade de ser seleccioado. Um esquema de amostragem aleatória simples, coduz a que cada elemeto da População teha a mesma probabilidade de ser seleccioado para a amostra, podedo-se demostrar que é igual a N. No etato existem outros esquemas de amostragem em que cada elemeto tem igual probabilidade de ser seleccioado, sem que cada cojuto de elemetos teha a mesma probabilidade de ser seleccioado. É o que se passa com a amostragem aleatória sistemática, em determiadas situações particulares. Como seleccioar uma amostra aleatória simples?. Para seleccioar uma amostra aleatória simples, teoricamete o processo mais simples cosiste em colocar objectos idetificadores (bolas, bocados de papel de igual dimesão, etc) de todos os elemetos da população uma caixa, e retirar um a um, sequecialmete, sem reposição. Os elemetos seleccioados serão observados relativamete à característica de iteresse.. O processo aterior é pouco prático, pelo que é ormalmete substituído por uma selecção feita utilizado uma tabela de dígitos aleatórios: Dígitos aleatórios (ou úmeros aleatórios) - Uma tabela de dígitos aleatórios é uma listagem dos dígitos 0,,, 3, 4, 5, 6, 7, 8 ou 9 tal que: - qualquer um dos dígitos cosiderados tem igual possibilidade de figurar em qualquer posição da lista; - a posição em que figura cada dígito é idepedete das posições dos outros dígitos. N O º de amostras de elemetos que ão cotêm um dado elemeto é. A probabilidade de qualquer elemeto ão ser N N icluído é portato igual a /, ou seja (N-)/N. Assim, a probabilidade de um determiado elemeto ser seleccioado é -(N-)/N, ou seja /N. Maria Eugéia Graça Martis

17 Aálise de Dados Apreseta-se a seguir um extracto de uma tabela de úmeros aleatórios (Moore, 997). O facto de os dígitos se apresetarem agrupados 5 a 5 é só para facilidade de leitura. Liha A partir da tabela de dígitos aleatórios podem-se obter úmeros aleatórios de dígitos - qualquer par dos 00 pares possíveis 00, 0, 98, 99, tem igual probabilidade de ser seleccioado, de 3 dígitos - qualquer triplo dos 000 triplos possíveis 000, 00, 998, 999, tem igual probabilidade de ser seleccioado, etc, tomado os dígitos da tabela a, 3 a 3, etc, a partir de uma liha qualquer e percorredo-a da esquerda para a direita. Para seleccioar uma amostra de uma população utilizado a tabela procede-se em duas etapas:. atribui-se um úmero a cada elemeto da população. Esta atribuição terá de ser feita com as devidas precauções, de forma a que cada úmero teha o mesmo úmero de dígitos, para ter igual probabilidade de ser seleccioado;. a partir da tabela escolhe-se uma liha ao acaso e começa-se a percorrê-la da esquerda para a direita, tomado de cada vez os dígitos ecessários. EXEMPLO.7 Cosiderado a população costituída por 8 aluos de uma turma, vamos umerálos com os úmeros 0, 0, 03,, 7, 8 (podia ser utilizado qualquer outro cojuto de 8 úmeros de dígitos). Para seleccioar uma amostra de dimesão 4 fixamo-os uma liha qualquer da tabela, por exemplo a liha 07 e começamos a seleccioar os úmeros de dois dígitos, tedo-se obtido: Maria Eugéia Graça Martis

18 Aálise de Dados Tivemos de ler 33 úmeros, dos quais só aproveitámos 4, pois os outros ão correspodiam a elemetos da população. Como obter uma tabela de úmeros aleatórios? Um processo poderá cosistir em meter uma caixa 0 bolas umeradas de 0 a 9 e fazer várias extracções de uma bola, tatas quatas os dígitos que se pretedem para costituir a tabela. De cada vez que se faz uma extracção, lê-se o úmero da bola, apota-se e repõe-se a bola a caixa - extracção com reposição. Com este processo qualquer dígito tem igual probabilidade de ser seleccioado. Além disso a saída de qualquer um dos dígitos em qualquer mometo, é idepedete dos dígitos que já saíram ateriormete. Além das tabelas de úmeros aleatórios também existe a possibilidade de utilizar o computador para os gerar ou uma simples máquia de calcular. Este é o processo mais utilizado hoje em dia, mas covém ter presete que os úmeros que se obtêm são pseudo-aleatórios, já que é um mecaismo determiista que lhes dá origem, embora se comportem como úmeros aleatórios (passam uma bateria de testes destiados a cofirmar a sua aleatoriedade). Sugere-se a utilização do Excel para seleccioar amostras aleatórias simples..3.. Amostra aleatória sistemática Na prática o processo de seleccioar uma amostra aleatória simples de uma população com grade dimesão, ão é tão simples como o descrito ateriormete. Se a dimesão da população for grade o processo tora-se muito trabalhoso. Etão uma alterativa é cosiderar uma amostra aleatória sistemática. Por exemplo, se pretedermos seleccioar uma amostra de 50 aluos de uma Uiversidade com 6000 aluos, cosidera-se um ficheiro com o ome dos 6000 aluos ordeados por ordem alfabética. Cosidera-se o quociete 6000/50=40 e dos primeiros 40 elemetos da lista, seleccioa-se um aleatoriamete. A partir deste elemeto seleccioamos sistematicamete todos os elemetos distaciados de 40 uidades. Assim, se o elemeto seleccioado aleatoriamete de etre os primeiros 40, foi o 7, os outros Cosultar, por exemplo, Graça Martis, M. E. Itrodução à Probabilidade e à Estatística, Com complemetos de Excel, 005 Maria Eugéia Graça Martis

19 Aálise de Dados 3 elemetos a serem seleccioados são 67, 07, 47, etc. Obviamete que o quociete etre a dimesão da população e a da amostra ão é ecessariamete iteiro, como ateriormete, mas ão há problema pois cosidera-se a parte iteira desse quociete. Amostra aleatória sistemática Dada uma população de dimesão N, ordeada por algum critério, se se pretede uma amostra de dimesão, escolhe-se aleatoriamete um elemeto de etre os k primeiros, ode k é a parte iteira do quociete N/. A partir desse elemeto escolhido, escolhem-se todos os k-ésimos elemetos da população para pertecerem à amostra. A amostra aleatória sistemática ão é uma amostra aleatória simples, já que em todas as amostras possíveis de dimesão, têm a mesma probabilidade de serem seleccioadas. No etato, se o quociete N/ for iteiro, mostra-se que a probabilidade de qualquer elemeto ser seleccioado é igual a /N Amostra estratificada Pode acotecer que a população possa ser subdividida em várias subpopulações, mais ou meos homogéeas relativamete à característica a estudar. Por exemplo, se se pretede estudar o salário médio auferido pelas famílias lisboetas, é possível dividir a região de Lisboa segudo zoas mais ou meos homogéeas, estratos, quato à característica em estudo salário médio, e posteriormete extrair de cada um destes estratos uma percetagem de elemetos que irão costituir a amostra, sedo esta percetagem, de um modo geral, proporcioal à dimesão dos estratos. Amostra estratificada Divide-se a população em várias subpopulações estratos, e de cada uma destes estratos extrai-se aleatoriamete uma amostra. O cojuto de todas estas amostras costitui a amostra pretedida. EXEMPLO.8 - Supohamos que se pretedia estudar o volume das vedas de prestação de serviços, das empresas de costrução civil. Podemos à partida cosiderar a População das empresas 3 Pesemos os N elemetos colocados em circulo e seja N=k. Comecemos por fixar uma posição iicial j. A probabilidade de um N N elemeto A ser seleccioado é igual a P( A ε amostra/ posição iicial é j) P(posição iicial ser j) = =. N N N j= j= Maria Eugéia Graça Martis

20 Aálise de Dados 4 divididas em 3 estratos, quato ao úmero de trabalhadores que emprega: pequeas - 0 ou meos trabalhadores, médias - etre e 40 e grades - mais de 4 trabalhadores. Uma vez idetificados os estratos, procede-se uma seguda etapa à recolha de uma amostra aleatória simples detro de cada estrato. Admitido que a População em estudo é costituída por 500 empresas, das quais 55% são pequeas, 35% são médias e 0% são grades e que a dimesão da amostra pretedida é de 85, seleccioaríamos amostras de dimesão 47 (85x0.55=46.75), 30 (85x0.35=9.75) e 8 (85x0.0=8.5), respectivamete do cojuto das pequeas, das médias ou das grades empresas. Existe um tipo de amostragem ão aleatória, muito semelhate à amostragem estratificada, que é a amostragem por quotas. Neste tipo de amostragem, cosideram-se os estratos, mas depois em vez de se recolher uma amostra aleatória de detro de cada estrato, extrai-se uma amostra ão aleatória, de dimesão proporcioal à do estrato a população Amostragem por clusters ou grupos Por exemplo, supoha que se pretede estudar o ível de satisfação dos trabalhadores têxteis, das empresas do Norte do País. Não dispodo de uma lista com todos os trabalhadores, cosidera-se uma lista de todas as empresas têxteis clusters, admitido-se que o cojuto de trabalhadores de cada empresa caracteriza coveietemete a população que se pretede estudar. A partir dessa lista seleccioam-se aleatoriamete algumas empresas e cosidera-se a amostra costituída por todos os trabalhadores das empresas seleccioadas. Amostra por clusters A população é dividida em clusters, ode cada cluster é represetativo da população. Seleccioa-se aleatoriamete um cojuto de clusters e a amostra é costituída por todos os elemetos dos clusters seleccioados..3.3 Amostragem ão aleatória Amostragem por coveiêcia e amostragem por resposta volutária são exemplos de amostragem ão aleatória. Maria Eugéia Graça Martis

21 Aálise de Dados Outros tipos de erro um processo de aquisição de dados, sem serem erros de amostragem - A população iquirida diferete da população alvo ou população objectivo Iformação recolhida ão é verdadeira 3 Problema da ão resposta 4 Erros de processameto.4 Estimador cetrado e ão cetrado. Precisão Uma vez escolhido um plao de amostragem aleatório, ao pretedermos estimar um parâmetro, pode ser possível utilizar várias estatísticas (estimadores) diferetes. Por exemplo, quado pretedemos estudar a variabilidade presete uma População, que pode ser medida pela variâcia populacioal σ, sabemos que podemos a partir de uma amostra, obter duas estimativas diferetes para essa variâcia, a partir das expressões (x s i x ) (x i x ) i = = ou s i = = Quais as razões que os podem levar a preferir uma das estatísticas relativamete à outra? Um critério que costuma ser aplicado é o de escolher um bom estimador como sedo aquele que é cetrado e que tem uma boa precisão. Escolhido um plao de amostragem, defie-se: Estimador cetrado Um estimador diz-se cetrado quado a média das estimativas obtidas para todas as amostras possíveis que se podem extrair da População, segudo o esquema cosiderado, coicide com o parâmetro a estimar. Quado se tem um estimador cetrado, também se diz que é ão eviesado. No capítulo seguite abordaremos com mais detalhe este assuto do ão eviesameto dos estimadores. Veremos assim, que uma das razões que os levam a preferir o estimador S para a variâcia, relativamete a S, é o facto de praticamete ão apresetar eviesameto (Mostra-se mais à frete que E(S )= N σ ). N Maria Eugéia Graça Martis

22 Aálise de Dados 6 Para se evitar o eviesameto, é ecessário estarmos atetos, primeiro a escolha do plao de amostragem e depois a escolha do estimador utilizado para estimar o parâmetro descohecido. O facto de utilizarmos um estimador cetrado, ão os previe cotra a obteção de más estimativas, se o plao de amostragem utilizado, sistematicamete favorecer uma parte da População (isto é, forecer amostras eviesadas). Precisão - Ao utilizar o valor de uma estatística para estimar um parâmetro, vimos que cada amostra forece um valor para a estatística que se utiliza como estimativa desse parâmetro. Estas estimativas ão são iguais devido à variabilidade presete a amostra. Se, o etato, os diferetes valores obtidos para a estatística forem próximos, e o estimador for cetrado, podemos ter cofiaça de que o valor calculado a partir da amostra recolhida (a prática recolhe-se uma úica amostra) está próximo do valor do parâmetro (descohecido). A falta de precisão jutamete com o problema do eviesameto da amostra são dois tipos de erros com que os defrotamos um processo de amostragem (mesmo que tehamos escolhido um bom estimador). Não se devem, cotudo, cofudir. Equato o eviesameto se maifesta por um desvio os valores da estatística, relativamete ao valor do parâmetro a estimar, sempre o mesmo setido, a falta de precisão maifesta-se por uma grade variabilidade os valores da estatística, us relativamete aos outros. Por outro lado, equato o eviesameto se reduz com o recurso a amostras aleatórias, a precisão aumeta-se aumetado a dimesão da amostra. Como veremos a seguir o estudo de um estimador é feito através da sua distribuição de amostragem, ou seja, da distribuição dos valores obtidos pelo estimador, quado se cosideram todas as amostras possíveis. Distribuição de amostragem Distribuição de amostragem de uma estatística é a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimesão, da população. Maria Eugéia Graça Martis

23 Aálise de Dados 7 A maior parte das vezes ão se cosegue obter a distribuição de amostragem exacta, mas tem-se uma distribuição aproximada, cosiderado um úmero suficietemete grade de amostras da mesma dimesão e calculado para cada uma delas uma estimativa do parâmetro em estudo (problema a estudar posteriormete)..5 Qual a dimesão que se deve cosiderar para a amostra? Outro problema que se levata com a recolha da amostra é o de saber qual a dimesão desejada para a amostra a recolher. Este é um problema para o qual, esta fase, ão é possível avaçar ehuma teoria, mas sobre o qual se podem tecer algumas cosiderações gerais. Pode-se começar por dizer que, para se obter uma amostra que permita calcular estimativas suficietemete precisas dos parâmetros a estudar, a sua dimesão depede muito da variabilidade da população subjacete. Por exemplo, se relativamete à população costituída pelos aluos do 0º ao de uma escola secudária, estivermos iteressados em estudar a sua idade média, a dimesão da amostra a recolher ão ecessita de ser muito grade já que a variável idade apreseta valores muito semelhates, uma classe etária muito restrita. No etato se a característica a estudar for o tempo médio que os aluos levam a chegar de casa à escola, já a amostra terá de ter uma dimesão maior, uma vez que a variabilidade da população é muito maior. Cada aluo pode apresetar um valor diferete para esse tempo. Num caso extremo, se uma população a variável a estudar tiver o mesmo valor para todos os elemetos, etão bastaria recolher uma amostra de dimesão para se ter iformação completa sobre a população; se, o etato, a variável assumir valores diferetes para todos os elemetos, para se ter o mesmo tipo de iformação seria ecessário ivestigar todos os elemetos. Chama-se a ateção para a existêcia de técicas que permitem obter valores míimos para as dimesões das amostras a recolher e que garatem estimativas com uma determiada precisão exigida à partida. Uma vez garatida essa precisão, a opção por escolher uma amostra de maior dimesão, é uma questão a poderar etre os custos evolvidos e o gaho com o acréscimo de precisão. Vem a propósito a seguite frase (Statistics: a Tool for the Social Scieces, Medehall et al., 987, pag. 6): Maria Eugéia Graça Martis

24 Aálise de Dados 8 "Se a dimesão da amostra é demasiado grade, desperdiça-se tempo e taleto; se a dimesão da amostra é demasiado pequea, desperdiça-se tempo e taleto". Covém aida observar que a dimesão da amostra a recolher ão é directamete proporcioal à dimesão da população a estudar, isto é, se por exemplo para uma população de dimesão 000 uma amostra de dimesão 00 for suficiete para o estudo de determiada característica, ão se exige ecessariamete uma amostra de dimesão 00 para estudar a mesma característica de uma população aáloga, mas de dimesão 000, quado se pretede obter a mesma precisão. Como explicava George Gallup, um dos pais da cosulta da opiião pública (Taebaum, 998),: Whether you poll the Uited States or New York State or Bato Rouge (Louisiaa) you eed the same umber of iterviews or samples. It s o mystery really if a cook has two pots of soup o the stove, oe far larger tha the other, ad thoroughly stirs them both, he does t have to take more spoofuls from oe tha the other to sample the taste accurately. Fialmete chama-se a ateção para o facto de que se o processo de amostragem origiar uma amostra eviesada, aumetar a dimesão ão resolve ada, ates pelo cotrário!.6 Estimação do valor médio utilizado amostras aleatórias simples Quado se pretede estimar um parâmetro, uma vez defiido o esquema de amostragem, cosidera-se uma estatística coveiete, isto é, uma fução adequada das observações, fução esta que para cada amostra observada dará uma estimativa do parâmetro que se pretede estimar. Quado o parâmetro a estimar é o valor médio ou média populacioal, etão é atural cosiderar como estimador a fução média, que para cada amostra observada dará uma estimativa do parâmetro. Maria Eugéia Graça Martis

25 Aálise de Dados 9 Como é que podemos saber se a média é um bom estimador para o valor médio? Será que para as diferetes amostras que podemos obter da população, as diferetes estimativas são próximas umas das outras e do parâmetro valor médio? É que se isso acotecer, temos uma certa garatia que a amostra que seleccioámos, já que a prática só se seleccioa uma amostra, os forece uma estimativa razoável. A resposta à questão aterior á dada costruido a distribuição de amostragem da média, em que, como vimos ateriormete, se defie distribuição de amostragem de uma estatística como sedo a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimesão, da população. São as distribuições de amostragem das estatísticas que os vão permitir fazer iferêcias sobre os parâmetros populacioais correspodetes. A aleatoriedade presete o processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportameto dessa estatística, quado se utiliza para estimar um determiado parâmetro. Podemos dizer que é através da distribuição de amostragem que itroduzimos a probabilidade um procedimeto estatístico, em que a partir das propriedades estudadas a amostra, procuramos tirar coclusões para a população..6. Distribuição de amostragem da média, como estimador do valor médio de uma População fiita.6.. Distribuição de amostragem exacta Seguidamete vamos exemplificar o processo de obteção da distribuição de amostragem da Média, e cosequete estudo das suas propriedades como estimador do valor médio de uma População fiita. Vamos cosiderar uma População de dimesão suficietemete pequea, para que o problema possa ser tratado detro dos limites do razoável. Cosideremos a seguite população costituída pelos 9 aluos de uma classe ifatil Maria Eugéia Graça Martis

26 Aálise de Dados 0 Nº Aluo Peso (kg) Altura (cm) Nº irmãos Maria Teresa Tiago David Rita Aa Joaa Berardo Leoor Algumas características desta população são: Val. médio Desvio padrão Mí. Máx. Mediaa Peso Altura Nº irmãos Esta população é tão pequea, que para a estudar ão tivemos ecessidade de recorrer a amostras para estimar algus parâmetros descohecidos, tais como altura média, peso médio, etc. Vamos, o etato utilizá-la para exemplificar como se pode estimar a altura média a partir da média de amostras de dimesão 3. Como a ossa População tem dimesão 9, vamos utilizar a porção de tabela de dígitos aleatórios cosiderada a págia 7, seleccioado úmeros de dígito. Cosiderado ao acaso uma das lihas, por exemplo a liha 04, os elemetos seleccioados são o 5, o e o 7, sobre os quais vamos recolher a iformação relevate ou seja a altura: Nº Nome Altura 5 Rita 59 Teresa 68 7 Joaa 58 A média das alturas observadas é 6.7, que é uma estimativa da altura média da População. Como este caso cohecemos o valor do parâmetro, podemos dizer que a estimativa está razoavelmete próxima do parâmetro a estimar. Obviamete que se recolhermos outras amostras, obteremos outras estimativas. Etão vamos seleccioar mais 9 amostras de dimesão 3, com o auxílio da tabela: Maria Eugéia Graça Martis

27 Aálise de Dados Amostra Na obteção das amostras ateriores tivemos o cuidado de fazer a selecção sem reposição, o que sigifica que ao obter cada amostra, um elemeto seleccioado ão poderia voltar a ser seleccioado. Também tivemos o cuidado de verificar se as amostras eram todas distitas (costituídas por elemetos diferetes). Os valores obtidos para as médias das 0 amostras foram: Amostra Obtivemos vários valores diferetes como estimativas, sedo esta variabilidade resultado da variabilidade presete a amostra. Os valores apresetados pelas médias das 0 amostras, ão diferem muito etre si, em do valor do parâmetro. Mas como é que podemos ter a garatia que se recolhermos outra amostra, ão vamos obter como estimativa do valor médio da altura, um valor muito diferete do verdadeiro valor do parâmetro? Por outras palavras, gostaríamos de poder respoder à seguite questão: Para este processo de amostragem, como é que podemos cocluir que a média (amostral) é um bom estimador do valor médio (média populacioal)? Teremos de estudar a distribuição de amostragem da média, que este caso cosiste em estudar como se comporta a distribuição das médias obtidas para as 9 = 84 3 amostras diferetes, de dimesão 3, que se podem extrair da População. Cosiderado etão todas as amostras aleatórias simples, diferetes, de dimesão 3, obtemos Am média Maria Eugéia Graça Martis

28 Aálise de Dados Am média Am média Am média Uma vez que o plao de amostragem cosiderado, foi a amostragem aleatória simples, cada amostra tem igual probabilidade (=/84) de ser seleccioada, pelo que podemos cosiderar os diferetes valores obtidos para a variável Média, assim como as respectivas probabilidades ou seja, estamos em codições de cosiderar a seguite fução massa de probabilidade para a variável Média, que vamos desigar por Média3, para realçar o facto de as amostras a partir das quais se obtiveram os seus valores, terem dimesão 3: Média Prob. /84 /84 /84 3/84 4/84 4/84 5/84 4/84 5/84 7/84 5/84 6/84 Média Prob. 5/84 6/84 5/84 4/84 4/84 3/84 /84 3/84 /84 /84 /84 Maria Eugéia Graça Martis

29 Aálise de Dados 3 Algumas características da variável Média3 são: Valor médio Desvio padrão Míimo Máximo Mediaa Média Repare-se que: o valor médio da variável Média3 coicide com o valor médio da População Altura, de ode se recolheram as amostras; o desvio padrão da variável Média3 é bastate meor que o da variável Altura. As observações ateriores permitem-os cocluir que a Média3, como estimador do parâmetro - valor médio da Altura, é um estimador cetrado, já que o seu valor médio coicide com parâmetro a estimar. A partir da distribuição de probabilidade da Média3, podemos aida cocluir que a probabilidade de obtermos estimativas o itervalo [6.3, 65.3] é de 0.75, assim como a probabilidade de obtermos essas estimativas o itervalo [59.5, 66.7] é superior a 95%. Este resultado sigifica que, ao recolhermos uma amostra de dimesão 3 e ao calcularmos a partir dela uma estimativa para o valor médio, estamos cofiates, com uma cofiaça superior a 95%, de que essa estimativa ão se afasta do parâmetro a estimar de uma distâcia superior a 3.6, aproximadamete ( =3.6; =3.6). Chamamos a ateção para que a cofiaça aterior, ão os dá a garatia de que a estimativa que ós calculamos, para a amostra seleccioada, esteja aquele itervalo. Temos fé que sim! E se as amostras tiverem maior dimesão? O que é que gahamos com isso? Repetido o processo aterior, mas agora para amostras de dimesão 5, será que a variabilidade apresetada pelo estimador dimiui? Já que temos mais iformação, é de esperar algum gaho a precisão do estimador! Vamos etão cosiderar a distribuição de amostragem da média para amostras de dimesão 5. O processo é em tudo idêtico ao cosiderado ateriormete, mas agora será um pouco mais trabalhoso já que o úmero de amostras distitas, de dimesão 5, que podemos extrair da População de dimesão 9 é 9 = 6. 5 Maria Eugéia Graça Martis

30 Aálise de Dados 4 Os resultados obtidos para a distribuição de amostragem da média, para amostras de dimesão 5, foi: Média Probab Média Probab Algumas características da variável Média5 são: Valor médio Desvio padrão Míimo Máximo Mediaa Média Repare-se que: o valor médio da variável Média5 coicide com o valor médio da População variável Altura, de ode se recolheram as amostras; o desvio padrão da variável Média3 é bastate meor que o da População variável Altura e é aida iferior ao da variável Média3. Na figura seguite apresetamos as distribuições de amostragem da Média3 e da Média5: Maria Eugéia Graça Martis

31 Aálise de Dados 5 Coclusão: a precisão do estimador aumeta, à medida que se aumeta a dimesão da amostra. Recordamos que quato meor for a variabilidade apresetada pelo estimador, maior é a precisão. Resultado teórico: Dada uma População de dimesão N, de valor médio μ e variâcia σ, quado se cosidera um plao de amostragem aleatória simples, e como estimador de μ a Média, calculada a partir de amostras de dimesão, etão: O valor médio da Média é μ, isto é, a Média como estimador do valor médio é um estimador cetrado; A variâcia da Média é igual a σ N- S ( ) N (N- N- ) é um estimador ão eviesado da variâcia da Média Nota: A demostração destes resultados é apresetada a seguir, depois de algumas cosiderações sobre as expressões apresetadas. A expressão obtida para a variâcia é muito iteressate pela iformação que cotém. Nomeadamete: Cofirma o que já havíamos esperado, o setido de que ao aumetar a dimesão da amostra, aumetamos a precisão do estimador (a medida em que dimiui a sua variabilidade). Maria Eugéia Graça Martis

32 Aálise de Dados 6 Maria Eugéia Graça Martis Permite-os aida cocluir que, para obter a mesma precisão, quado estimamos o valor médio de Populações da mesma dimesão, a dimesão da amostra terá de ser tato maior, quato maior for a variabilidade presete a População. Mas mais iteressate, embora meos ituitivo, permite-os cocluir que se a dimesão da População for substacialmete maior que a da amostra, etão a precisão do estimador ão depede da dimesão dessa População, mas uicamete da variabilidade aí presete (pois (N-)/(N-) ). Demostração: Seja Y, Y,...,Y uma amostra aleatória simples de uma população de valores {u, u,..., u N }. Cosiderado um Y i, tem-se E(Y i )= μ = = N N i i u e V(Y i )= u i ( σ = μ = N ) - N i. Represetado a média dos Y i por Y, tem-se E( Y )= = i ) E(Y i =μ. Por outro lado, Cov(Y i, Y j ) = E[(Y i -μ)(y j -μ)]= E(Y i Y j ) μ = N i i N j i j i ) u ( ) N(N u u = N - = N i i N j i j i ) u ( N ) N(N u u = = = N i i N j i j i ) u ( N ) (N u u N = = = = N i i N i i N i i ) u ( N N u ) u ( N = - = = N i N i i i u ) N(N u N N = - N i (u i ) ) N(N μ = = - N σ. Como Var( Y ) = Var = i Y i = + σ = < i j i j i Cov(Y,Y ) etão Var( Y ) = σ + σ = < i j i N = σ σ ) ( N pois há (-)/ pares (i,j) seleccioados de etre os iteiros,,..., tais que i<j. Portato Var( Y )= N - N - σ Pode-se aida mostrar que S N N, com S = ( ) = i Y i N Y, é um estimador ão eviesado de Var( Y ). Efectivamete E(S ) = N- N σ, dode E( S N N ) = Var( Y ).

33 Aálise de Dados Distribuição de amostragem aproximada Quado a população é fiita, e a amostragem se faz sem reposição, existem algumas codições ecessárias e suficietes para que se possa cosiderar a distribuição da média aproximada pela distribuição Normal. Não vamos apresetar essas codições, embora admitamos que elas estão satisfeitas e euciamos o seguite resultado: Supohamos que uma amostra aleatória simples é seleccioada de uma População de dimesão N, em que a variável em estudo tem valor médio μ e variâcia σ. Etão, se a dimesão da amostra for suficietemete grade (um valor que é usual cosiderar como suficietemete grade é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variâcia σ (N- N- ). A aproximação verifica-se para amostras de dimesão suficietemete grade, idepedetemete da forma da distribuição da População. O resultado aterior permite cocluir que quato maior for a dimesão da amostra, meor é a variabilidade apresetada pelo estimador..6. Distribuição de amostragem aproximada da média, como estimador do valor médio de uma População fiita, mas de dimesão suficietemete grade Na maior parte dos casos em que é ecessário recolher uma amostra para estudar uma característica de uma População, ão se cohece a dimesão desta. Etão costuma-se assumir que é suficietemete grade de modo que se diz que se tem uma População de dimesão ifiita. Em termos práticos costuma-se cosiderar que se tem uma população de dimesão ifiita quado N/0. Nestas codições o factor (N-)/(N-) que aparece a expressão da variâcia da Média toma um valor aproximadamete igual a, pelo que temos o seguite resultado, cohecido como Teorema Limite Cetral (TLC), de que o resultado aterior é uma versão para Populações fiitas: Maria Eugéia Graça Martis

34 Aálise de Dados 8 Supohamos que uma amostra aleatória simples é seleccioada de uma População de dimesão grade, em que a variável em estudo tem valor médio μ e variâcia σ. Etão, se a dimesão da amostra for suficietemete grade (um valor que é usual cosiderar como suficietemete grade é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variâcia σ. A aproximação verifica-se para amostras de dimesão suficietemete grade, idepedetemete da forma da distribuição da População subjacete às amostras. Mais uma vez chamamos a ateção para a seguite propriedade, já ateriormete referida: quato maior for a dimesão da amostra, meor é a variabilidade apresetada pelo estimador. Além disso, também cocluímos que, para Populações de dimesão suficietemete grade, esta ão tem ifluêcia sobre a variabilidade do estimador. Em coclusão, a precisão de um estimador, para Populações de grade dimesão, ão depede do tamaho da População, mas sim da variabilidade aí presete. Quado pretedemos estimar um parâmetro da População, para obter uma determiada precisão, a dimesão da amostra terá de ser tato maior, quato maior for a variabilidade existete a População. No etato, se a dimesão da População já ão for suficietemete grade, essa dimesão terá iterferêcia a precisão do estimador..7 Distribuição de amostragem da média, em amostragem com reposição Será iteressate estudarmos a distribuição de amostragem da Média, quado se faz amostragem com reposição, de uma População com dimesão N e comparar com o que se obtém em amostragem sem reposição. Agora, cada elemeto da População tem uma probabilidade costate e igual a /N de ser seleccioado para pertecer à amostra, já que quado um elemeto é seleccioado, uma vez a iformação recolhida, ele é ovamete reposto a População. Maria Eugéia Graça Martis

35 Aálise de Dados 9 Este processo é equivalete a seleccioarmos uma amostra aleatória de dimesão de uma população uiforme discreta o cojuto dos valores da característica a estudar da População, que podemos represetar por y, y,, y N. Etão cada vez que se seleccioa um elemeto da População é como se obtivéssemos um valor da variável Y que assume os valores y i cosiderados ateriormete, com probabilidade /N. Seleccioar uma amostra de dimesão sigifica seleccioar variáveis Y, Y,, Y, idepedetes e com distribuição idêtica à de Y. Etão a Média será uma variável cujo valor médio é o valor médio μ da População (ou da distribuição uiforme) e cuja variâcia é σ /, ode σ é a variâcia da População (ou da distribuição uiforme subjacete). A amostragem sem reposição é mais eficiete do que a amostragem com reposição σ Comparado o resultado, para a variâcia da Média, com o resultado apresetado quado se faz amostragem sem reposição, omeadamete σ (N- ), coclui-se que N- a amostragem sem reposição é mais eficiete, quado se pretede estimar o valor médio da População, uma vez que produz um estimador com uma variâcia mais pequea, isto é, que apreseta meor variabilidade. EXEMPLO.9 Cosidere uma população costituída pelos elemetos,, 3, 4 e 5. Pretede estimar o valor médio desta população, pelo que decide recolher uma amostra de dimesão, com reposição. e calcular a sua média. Obteha a distribuição de amostragem do estimador utilizado para estimar o valor médio da população. Resolução: A População aterior é costituída pelos elemetos,, 3, 4 e 5, tedo cada um uma probabilidade costate e igual a /5 de ser seleccioado para pertecer a uma amostra: População X Probabilidade /5 /5 /5 /5 /5 Propriedades da População: Valor médio = 3 Desvio padrão =. Maria Eugéia Graça Martis

36 Aálise de Dados 30 A metodologia seguida para obter a distribuição de amostragem cosiste em obter todas as amostras de dimesão, com reposição, calcular o valor da estatística média para cada uma delas e depois represetar a distribuição dos valores obtidos: Amostras (,) (,) (,3) (,4) (,5) (,5) (3,5) (4,5) (5,5) (,) (,) (,3) (,4) (3,4) (4,4) (5,4) (3,) (3,) (3,3) (4,3) (5,3) (4,) (4,) (5,) (5,) média De acordo com a tabela aterior obtemos a seguite distribuição de amostragem para o estimador Média (assim represetado por se obter a partir de amostras de dimesão ) Média Probabilidade /5 /5 3/5 4/5 5/5 4/5 3/5 /5 / Características da distribuição de amostragem da Média para amostras de dimesão : Valor médio = 3 Desvio padrão = Algumas observações: O cetro da distribuição de amostragem do estimador Média utilizado para estimar o valor médio da população (igual a 3), coicide com o parâmetro a estimar. O desvio padrão da população iicial é igual a, equato que o desvio padrão da média, calculada a partir de amostras de dimesão é ( / = resultado cosiderado ateriormete). Se repetirmos a metodologia seguida o processo do exemplo aterior, cosiderado agora amostras de dimesão 3, o problema tora-se mais trabalhoso, já que o úmero de amostras possíveis é 5 3 =5. Assim, abstemo-os de apresetar todas essas amostras, limitado-os a apresetar a distribuição de amostragem da Média3: Maria Eugéia Graça Martis

37 Aálise de Dados 3 Média Proba Características da distribuição de amostragem: Valor médio = 3 Desvio padrão = 0.86 Algumas observações: O cetro da distribuição de amostragem do estimador Média3 utilizado para estimar o valor médio da população (igual a 3), coicide com o parâmetro a estimar. O desvio padrão da população iicial é igual a, equato que o desvio padrão da Média3, calculada a partir de amostras de dimesão 3 é 0.86 ( / 3 =0.86 o que codiz com o resultado apresetado ateriormete, de que a variâcia da Média é σ /). A variabilidade apresetada pela distribuição de amostragem é iferior à obtida quado se cosideram amostras de dimesão. Este resultado idicia que quato maior for a dimesão da amostra, meor é a variabilidade apresetada pela distribuição de amostragem. Se a dimesão da População for muito grade, a probabilidade de extrairmos o mesmo elemeto duas vezes é extremamete pequea. Assim, os dois processos de amostragem, com reposição e sem reposição, são praticamete equivaletes, quado estamos a estimar a média populacioal. A coclusão aterior vai de ecotro com a que se pode obter também se tomarmos ateção às variâcias das Médias de amostras de dimesão, quado se faz extracção com e sem reposição. Efectivamete o factor N N = N N- ( N ) que aparece a expressão da variâcia um processo de amostragem aleatória simples (sem reposição) assume um valor próximo de, quado N é razoavelmete grade e Maria Eugéia Graça Martis

38 Aálise de Dados 3 é razoavelmete pequeo, quado comparado com N. Ao quociete N costuma-se chamar fracção de amostragem. Já apotamos ateriormete que se cosidera uma População grade se a sua dimesão for cerca de 0 vezes superior à dimesão da amostra, ou seja, quado a fracção de amostragem for meor que A forma da distribuição de amostragem da Média em populações ifiitas ou amostragem com reposição Vimos ateriormete que o estimador Média é um estimador cetrado do valor médio da população, quer a população seja fiita ou ifiita e a amostragem com reposição ou sem reposição. Vimos também a expressão para a variâcia, em qualquer das situações cosideradas. Vamos agora admitir que estamos a realizar uma amostragem com reposição, ou que a população a estudar, X, é ifiita, situação em que a selecção de um elemeto para a amostra, pode ser cosiderada idepedete da selecção dos outros elemetos. Assim, cosideremos a amostra aleatória (X, X,..., X ) ode as variáveis aleatórias X, X,..., X são idepetetes e ideticamete distribuídas a X, como se apreseta o seguite esquema: Se tivermos k amostras de dimesão, recolhidas da População X: População X ª amostra ª amostra k-ésima amostra x x x... x x x x... x x x x... x x x x Relativamete às amostras ateriores, podemos cosiderar o seguite: Maria Eugéia Graça Martis

39 Aálise de Dados 33 x, x,...,x k são os valores observados de uma v.a. com distribuição idêtica à de X, mas que represetamos por X, para sigificar que foi o º elemeto recolhido as diferetes amostras; x, x,...,x k são os valores observados de uma v.a. com distribuição idêtica à de X, idepedete de X (uma amostra aleatória, os valores ão podem depeder us dos outros), mas que represetamos por X, para sigificar que correspode ao º elemeto recolhido; x, x,...,x k são os valores observados de uma v.a. com distribuição idêtica à de X, idepedete de X, X,... que represetamos por X, para sigificar que foi o eésimo elemeto a ser recolhido. Com esta otação, as amostras (x, x, x 3,..., x ), ( x, x, x 3,..., x )..., ( x k, x k, x k3,..., x k ) são amostras observadas da amostra aleatória (X, X,, X ) Admitido que a população X, que estávamos a estudar, era costituída pelas alturas (em cm) dos aluos iscritos a FCUL, o ao lectivo de 005/006, era tal que X N(65,0), podemos obter várias amostras observadas, de dimesão 0: (58, 63, 7, 50, 49, 67, 58, 7, 49, 50) (67, 49, 68, 53, 6, 60, 70, 6, 60, 49) (70, 60, 58, 68, 65, 59, 63, 59, 7, 50) da amostra aleatória (X, X,, X 0 ), em que todas as v.a. X i, i=,,0, são idepedetes e têm distribuição Normal de valor médio 65 e desvio padrão 0. Tedo em cosideração o que foi dito ateriormete, podemos afirmar que x, x,, x k, são valores observados da variável aleatória i = X = ode X, X,, X são variáveis aleatórias idepedetes e com a mesma distribuição que uma variável aleatória X ( população em estudo). Sedo a estatística uma variável aleatória tem uma distribuição de probabilidades, a que damos o ome de distribuição de amostragem, como já vimos as secções cosideradas ateriormete. X i Maria Eugéia Graça Martis

40 Aálise de Dados 34 São as distribuições de amostragem das estatísticas que os vão permitir fazer iferêcias sobre os parâmetros populacioais correspodetes. Ao aleatoriezarmos o processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportameto dessa estatística, quado se utiliza para estimar um determiado parâmetro. Por outro lado, para podermos utilizar os resultados da Teoria das Probabilidades, o processo de amostragem que se cosidera é o de amostragem com reposição. Esta observação é relevate, sobretudo para populações de dimesão pequea, em que a composição da população, relativamete à característica de iteresse, se altera quado se retiram algus elemetos; esta situação ão se verifica com populações de grade dimesão, que é ormalmete a situação de iteresse em Estatística. Assim, se uma população tiver N elemetos, para obter as distribuições de amostragem de estatísticas, a partir de amostras de dimesão, teríamos de seleccioar N amostras distitas. Etão, para calcular a distribuição de amostragem da média, será ecessário cosiderar todas as amostras possíveis e calcular as respectivas médias? Felizmete ão é ecessário estar com tato trabalho, graças a um dos resultados mais importates da Teoria das Probabilidades, cohecido como Teorema Limite Cetral, que os forece um modelo matemático para a distribuição de amostragem da média, como veremos a seguir. Algumas questões que se podem levatar acerca da distribuição de amostragem da estatística média, são as seguites: A distribuição da média, depede da distribuição da população X, subjacete às amostras? Será sempre possível cohecer essa distribuição? No que se segue procuraremos respoder a estas questões, adiatado desde já que, a verdade, a distribuição de amostragem da média depede da distribuição da população subjacete às amostras. Veremos também, que em sempre é possível obter a distribuição exacta da média, mas sim uma distribuição aproximada. Maria Eugéia Graça Martis

41 Aálise de Dados Valor médio e desvio padrão da média Dada uma população X de valor médio μ e desvio padrão σ, etão, tedo em cosideração as propriedades do valor médio e da variâcia, pode-se mostrar facilmete que E( X ) = μ e Var( X ) = σ Obs: Não esquecer que X é uma combiação liear de variáveis aleatórias idepedetes e com a mesma distribuição. Chamamos a ateção para o facto do valor médio da v.a estimador X, coicidir com o parâmetro que estamos a estimar, o valor médio, µ, da população. Dizemos que o estimador é cetrado ou ão eviesado. Além disso, a variâcia do estimador decresce com a dimesão da amostra, o que permite cocluir que, à medida que aumetamos a dimesão da amostra a variabilidade do estimador, em toro do parâmetro, dimiui. Diz-se etão que o estimador é cosistete. Estas propriedades de ão eviesameto e de cosistêcia fazem com que a média seja um bom estimador do valor médio..8. Distribuição da média, para populações Normais Para obter a distribuição de X, vamos distiguir o caso de a população X ser Normal e ão Normal, distiguido aida se o desvio padrão σ é cohecido ou ão..8.. Desvio padrão σ cohecido Já dissemos quado estudamos a distribuição Normal, que qualquer combiação liear de variáveis aleatórias idepedetes, com distribuição Normal, aida tem distribuição Normal. Como a média é uma combiação liear de variáveis aleatórias X i, idepedetes, com distribuição idêtica à de X, que por hipótese é Normal(μ,σ), vem imediatamete que X tem distribuição Normal, com valor médio μ e desvio padrão σ, pelo que procededo à stadardização, se obtém o seguite resultado Maria Eugéia Graça Martis

42 Aálise de Dados 36 Populações Normais, σ cohecido Z = X - μ σ/ N(0,).8.. Desvio padrão σ descohecido Quado o parâmetro σ é descohecido, situação que ocorre com frequêcia, já o resultado aterior ão é válido. Assim, estima-se o desvio padrão descohecido pelo desvio padrão empírico, S, em que e tem-se o seguite resultado S = i = (X i X ) Populações Normais, σ descohecido T = X μ S t( -) o que sigifica que se cohece a distribuição exacta da variável aleatória T, que é a chamada distribuição t-studet (t de Studet), com (-) graus de liberdade e que se represeta por t(-). Este modelo tem uma fução desidade semelhate à da Normal, mas com as caudas mais altas, isto é, ão é tão cocetrada. No etato, à medida que o úmero de graus de liberdade aumeta (isto é, à medida que aumeta), a t-studet cofude-se com a Normal. Do mesmo modo que a Normal, também a distribuição t-studet se ecotra tabelada. Maria Eugéia Graça Martis

43 Aálise de Dados Distribuição da média, para populações ão ormais. Teorema Limite Cetral Quado a distribuição da população X já ão é Normal, a distribuição de amostragem da média depederá da distribuição de X, ão sedo em geral cohecida. No etato, um dos teoremas fudametais das probabilidades, dá-os uma idicação do comportameto da distribuição da média de um úmero suficietemete grade de variáveis aleatórias idepedetes e ideticamete distribuídas: Teorema limite cetral Se X, X,, X são variáveis aleatórias idepedetes e ideticamete distribuídas a uma variável aleatória X com valor médio µ e variâcia σ, fiita, etão a distribuição da soma S = X + X + + X, ou da média X = S Normal, para suficietemete grade P( S μ σ z ) Φ(z) e P( X μ σ tede a aproximar-se da distribuição z ) Φ(z) O teorema limite cetral dá-os uma justificação teórica para a grade utilização da distribuição Normal, como modelo de feómeos aleatórios. Quatidades tais como alturas e pesos de uma população relativamete homogéea, podem ser cosideradas como somas de um grade úmero de causas geéticas e efeitos devido ao meio ambiete, mais ou meos idepedetes etre si, cada um cotribuido com uma pequea quatidade para a soma. O que é que se etede por um valor de suficietemete grade? Uma questão que se pode pôr é a seguite: quado queremos aplicar o teorema do limite cetral: qual o valor de, para que se possa cosiderar que temos uma boa aproximação para a distribuição Normal? Este valor de depede da distribuição subjacete à amostra e será tato maior quato mais eviesada for a distribuição da população (o termo eviesado aplica-se como cotrário a simétrico). Maria Eugéia Graça Martis

44 Aálise de Dados 38.9 Distribuição de amostragem da proporção Ateriormete estudámos a estimação do valor médio e vamos, este capítulo, ver como os resultados que se obtiveram podem ser traduzidos para o estudo da estimação do parâmetro proporção de elemetos da População que satisfazem determiada propriedade ou verificam determiada característica..9. Distribuição de amostragem da proporção para populações fiitas Cosideremos etão uma população de dimesão N e seja p a proporção (descohecida) de elemetos de uma população que verificam determiada característica. Na metodologia que vamos utilizar, o estudo da estimação da proporção, começamos por verificar que uma proporção é uma média de 0 s e s em que atribuímos o valor a um elemeto da população que verifique a característica em estudo e o valor 0 a um elemeto que ão verifique essa característica. Assim, a proporção p ão é mais do que o valor médio desta população cujos elemetos são 0 s e s, pelo que o estudo feito para a estimação do valor médio será facilmete adaptado para a estimação da proporção. Para esta população tão particular, costituída por 0 s e s, em que a média populacioal é a proporção populacioal, a média amostral também será a proporção amostral, que será assim, o estimador ituitivo para a proporção populacioal. Como o capítulo aterior estudámos a distribuição de amostragem da média, tedo cocluído que a média é um bom estimador para o valor médio, imediatamete cocluímos que a proporção amostral é um bom estimador para a proporção populacioal. A fim de utilizar os resultados euciados para a distribuição de amostragem da média, vejamos a que é igual a variâcia de uma população costituída por 0 s e s em que a percetagem de s é p. Maria Eugéia Graça Martis

45 Aálise de Dados 39 Variâcia σ da população em estudo: A partir da expressão da variâcia, temos que σ = (-p) Np + (0 - p) N(- p) N σ = p (- p) A variâcia de uma população costituída por 0 s e s, em que a percetagem de s é p, é igual a p(- p). As coclusões a que chegámos o capítulo aterior, permitem-os agora euciar os seguites resultados: Dada uma população de dimesão N, em que p é a percetagem de elemetos da população que verificam determiada característica, quado se cosidera um esquema de amostragem aleatória simples, e como estimador de p, a proporção amostral ˆ p, isto é a proporção de elemetos com a característica em estudo, existete em amostras de dimesão, etão: O estimador ˆ p de p é um estimador cetrado, já que o seu valor médio coicide com p; A variâcia de p ˆ é igual a p(-p) ( N- N- ). O resultado teórico cohecido como Teorema Limite Cetral toma agora a seguite expressão: Supohamos que uma amostra aleatória simples é seleccioada de uma População de dimesão grade, em que a característica em estudo está presete uma proporção p (descohecida) Etão, se a dimesão da amostra for suficietemete grade (um valor que é usual cosiderar como suficietemete grade é 30), a distribuição de amostragem da proporção amostral ˆ p pode ser aproximada pela distribuição Normal com valor médio p e variâcia p(- p). Maria Eugéia Graça Martis

46 Aálise de Dados Distribuição de amostragem da proporção para populações ifiitas ou com reposição Neste caso, em que a população é ifiita ou a amostragem se faz com reposição, as variáveis aleatórias X, X,..., X ( provas) que cosistem em seleccioar outros tatos elemetos da população e verificar se sim ou ão têm a característica em estudo (sucesso ou isucesso), que existe a população com uma proporção p, são variáveis de Beroulli. Assim, a v.a. X que represeta o º de sucessos as provas tem distribuição Biomial de parâmetros e p, Bi(,p). Um estimador da proporção p é a proporção amostral ˆ p = X, cujas propriedades podem ser deduzidas a partir do facto da distribuição de X ser cohecida. Efectivamete E( p ˆ ) = E(X) p = = p e Var( p ˆ ) = Var(X) p( p) p( p) = = Por outro lado, se a dimesão da amostra for suficietemete grade, a distribuição Bi(,p) pode ser aproximada por uma distribuição Normal(p, p( p) ), pelo que a distribuição de ˆ p pode ser aproximada por uma distribuição Normal (p, como já havíamos cocluído ateriormete. p( p) ), Maria Eugéia Graça Martis

47 Aálise de Dados 4 Itrodução à estimação Itrodução à estimação. Estimação potual e itervalar. Itervalo de cofiaça com uma cofiaça de 00(-α)%. Dimesão da amostra ecessária para obter um itervalo de cofiaça com uma determiada precisão e uma determiada cofiaça. Margem de erro.. Itrodução Dada uma amostra, vimos que é possível fazer a sua redução, através do cálculo de certas estatísticas. No etato, a importâcia destas características amostrais ão se fica por aqui, pois o osso objectivo vai ser utilizá-las para iferir algo sobre a população subjacete à amostra. Foi esta perspectiva que falámos em utilizar: i) a média x como estimativa do valor médio µ; ii) a proporção ˆ p =x/, ode x represeta o º de sucessos obtidos uma certa amostra de dimesão, como estimativa da probabilidade p de sucesso, a distribuição Biomial, etc. Quer dizer que as estatísticas referidas permitem-os obter determiados valores que servem como estimativas dos parâmetros (descohecidos) ou características das distribuições populacioais - a estes valores chamamos estimativas potuais. Por vezes iteressa-os obter, ão um valor que estime o parâmetro em causa, mas um itervalo que coteha, com determiada probabilidade, esse parâmetro - este caso pretedemos uma estimativa itervalar ou um itervalo de cofiaça. Um estimador é uma variável aleatória, fução da amostra aleatória, que para valores observados da amostra forece estimativas potuais ou estimativas itervalares do parâmetro populacioal descohecido. Etão, a v.a. X é um estimador do valor médio, Maria Eugéia Graça Martis

48 Aálise de Dados 4 assim como p ˆ = X é um estimador da probabilidade p. De um modo geral quado os referimos ao estimador utilizamos letra maiúscula, equato que a estimativa se represeta com letra miúscula. Esta metodologia por vezes ão é seguida, como é por exemplo, o caso ateriormete cosiderado da proporção. O que é um "bom" estimador? O facto de termos escolhido a média como estimador do valor médio, ão se deve uicamete à aalogia existete, etre parâmetros populacioais e parâmetros amostrais. Comom vimos o capítulo, existem algus critérios que defiem à partida, se um estimador é "bom" ou "mau". Assim, o critério mais utilizado exige que o estimador seja ão eviesado ou cetrado, isto é, que o seu valor médio coicida com o parâmetro populacioal a estimar, e de etre os que satisfazem esta codição deve ter variâcia míima. Estas duas propriedades são, de certo modo ituitivas, pois ao cosiderar um estimador esperamos que as estimativas que ele forece coicidam, em média, com o parâmetro a estimar, e além disso a variabilidade dessas estimativas, em toro do parâmetro, deve ser pequea. Por exemplo, o caso cocreto de populações simétricas, podem existir vários estimadores cetrados para o valor médio, omeadamete a média e a mediaa. No etato, escolhe-se o que tem variâcia míima, que é a média. No que diz respeito à variâcia populacioal σ, algus estimadores possíveis são S = Σ(X i X ) ou S' = Σ(X i X ) Ao cosiderar estas duas estatísticas, costuma-se dizer que por razões que se predem com a iferêcia estatística, a estatística mais utilizada é S. Neste mometo já podemos dar a razão que os leva a escolher Σ(X i X ) - é o facto de este estimador, ao cotrário de Σ(X i X ), ser cetrado, pois pode-se mostrar que E [S ]=σ com X i, i=,..., variáveis aleatórias idepedetes e ideticamete distribuídas a X, equato Maria Eugéia Graça Martis

49 Aálise de Dados 43 que E [S ]= σ. Assim, quado a dimesão da amostra é suficietemete grade, S é assitóticamete cetrado, pois, sedo idiferete utilizar um ou outro estimador.. Estimação da proporção. Itervalo de cofiaça para a proporção Já vimos o capítulo que se tivermos uma população costituída por idivíduos que pertecem a uma de duas categorias, que represetamos por A e Ac em que p é a proporção (descohecida) de idivíduos que pertecem à categoria A, um estimador desta proporção é p ˆ. Vimos que p ˆ é um estimador cetrado ou ão eviesado e tem uma variabilidade que tede para 0, à medida que a dimesão da amostra recolhida aumeta. Podemos dizer que temos um bom estimador, pelo meos relativamete ao critério cosiderado ateriormete! Etão, quado pretedemos fazer iferêcia sobre p, recolhemos uma amostra de dimesão e calculamos p ˆ. O valor obtido é uma estimativa potual de p. Se recolhermos várias amostras da mesma dimesão e calcularmos outras tatas estimativas para p, ão temos possibilidade de saber qual o erro associado com cada uma dessas estimativas. O verdadeiro valor da percetagem p é descohecido, pelo que ão sabemos se as estimativas que obtivemos são boas ou más, portato ão sabemos qual a cofiaça com que devem ser ecaradas, e ão temos assim possibilidade de saber qual a que devemos utilizar. Por exemplo, se dois jorais distitos apresetarem, o mesmo dia, as percetages de 45% e 5% de pessoas que votarão Sim à Costituição Europeia, ão sabemos qual a que os merece mais cofiaça. Perate esta icapacidade de medir o erro cometido ao tomar uma estimativa potual, abordamos o problema de outra forma e vamos procurar uma estimativa itervalar, isto é, um itervalo da forma [a,b], que coteha o verdadeiro valor da percetagem (descohecida), com uma determiada cofiaça, que defiimos à priori, isto é, Prob( [a,b] coter p ) = -α Maria Eugéia Graça Martis

50 Aálise de Dados 44 De um modo geral a cofiaça exprime-se a forma 00(-α)%, com α pequeo. Como determiar os limites a e b do itervalo de cofiaça? Já que, como vimos a secção aterior, a distribuição de amostragem de ˆ p pode ser aproximada pela distribuição Normal, quado a dimesão da amostra utilizada for suficietemete grade, etão é possível, dada uma probabilidade P, por exemplo.95, obter o valor de z tal que se teha P( pˆ p p( p) z ) =.95. Se P( pˆ p p( p) z ) =.95 etão z=.96, ou seja P( pˆ p p( p).96 ) =.95. Trabalhado a expressão aterior obtemos P( pˆ -.96 p( p) p p ˆ +.96 p( p) ) =.95 Se é suficietemete grade ˆ p está suficietemete próximo de p, pelo que a expressão aterior vamos substituir p por ˆ p em p( p), obtedo-se P( ˆ p -.96 pˆ ( pˆ) p ˆ p +.96 pˆ ( pˆ) ).95 Dizemos que o itervalo [ ˆ p -.96 pˆ ( pˆ), ˆ p +.96 pˆ ( pˆ) ] é um itervalo aproximado de cofiaça para p, com uma cofiaça de 95%. De um modo geral se cosiderarmos uma cofiaça de 00(-α)% (represetamos por α uma probabilidade pequea, que associamos à descofiaça ou ao erro cometido a obteção do itervalo de cofiaça), o itervalo de cofiaça para p assume o aspecto [ p ˆ -z-α/ pˆ ( pˆ), ˆ p +z-α/ pˆ ( pˆ) ] ode represetamos por z-α/ o quatil de probabilidade (-α/) da N(0,) e ˆ p é a proporção de elemetos da amostra pertecetes à categoria em estudo. Maria Eugéia Graça Martis

51 Aálise de Dados 45 EXEMPLO. (Adaptado de De Veaux ad al, 004) Os corais estão em declíio, em todo o mudo, possívelmete devido à poluição ou mudaça da temperatura da água do mar. A morte dos recifes de corais pode ser um aviso das mudaças climáticas e poderá ter um impacto ecoómico aida ão calculado. Uma espécie muito boita de coral, cohecida como Leque do Mar, é particularmete afectada pela poluição e pela doeça aspergillosis. Em Juho de 000, uma equipa de ivestigadores recolheu uma amostra de corais desta espécie, a uma profudidade de 40 pés, em Las Redes Reef, Akumal, México. Verificaram que 54 dos 04 corais que recolheram, estavam ifectados com aquela doeça. O que é que se pode dizer sobre a prevalêcia desta doeça, sobre aquele tipo de corais? Para já, temos uma proporção de corais doetes de 5.9%, mas iguém os garate que os ivestigadores obteriam a mesma proporção se recolhessem outra amostra de 04 corais.o que é que podemos dizer efectivamete sobre a proporção p de corais ifectados? Apresetamos a seguir uma lista de coisas que poderíamos dizer, ou que por vezes se dizem, e a razão pela qual ão são correctas a maior parte delas:. 5.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estão ifectados Não temos iformação suficiete para fazer esta afirmação. Só poderíamos fazer esta afirmação se tivéssemos ivestigado o que se passava com todos os corais. Assim, se recolhessemos outra amostra, obteríamos outra percetagem.. Provavelmete é verdade que 5.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estejam ifectados Não podemos fazer esta afirmação. Podemos ter quase a certeza de que, qualquer que seja a verdadeira proporção de corais ifertados, ela ão será exactamete igual a 5.900%. 3. Não sabemos exactamete qual a proporção de corais ifectados, da espécie Leque do Mar, em Las Redes Ref, mas sabemos que essa proporção está o itervalo 5.9% ± ( 0.59), ou seja 5.9%±9.6%, ou seja aida etre 4.3% e 6.5%. Aida ão podemos 04 fazer esta afirmação, pois ão podemos ter a certeza que a verdadeira proporção esteja este itervalo, ou outro qualquer. Maria Eugéia Graça Martis

52 Aálise de Dados Não sabemos exactamete qual a proporção de corais ifectados da espécie Leque do Mar, em Las Redes Ref, mas o itervalo de 4.3% a 6.5% provavelmete cotém a verdadeira proporção. Agora sim, podemos fazer esta afirmação. Começámos por dar o itervalo e em seguida admitir que pesamos que esse itervalo provavelmete cotém o verdadeiro valor da proporção. Esta última afirmação está correcta, mas podemos quatificar o que é que etedemos por provavelmete. Podemos dizer que 95% das vezes que costruirmos itervalos do tipo cosiderado ateriormete, coseguimos cobrir o valor de p, pelo que podemos estar 95% cofiates de que aquele itervalo seja um dos que cotém p. 5. Temos uma cofiaça de 95% de que o itervalo etre 4.3% e 6.5% coteha a percetagem de corais ifectados, da espécie Leque do Mar, em Las Redes Reef. A este itervalo chamamos um itervalo de cofiaça. Cofiaça e precisão Qual a dimesão da amostra ecessária para obter um itervalo de 00(-α)% de cofiaça, cuja amplitude ão exceda d? Repare-se que a amplitude do itervalo os dá a precisão quato meor for a amplitude, maior será a precisão. Efectivamete ão estamos iteressados em obter um itervalo com uma grade amplitude, pois uma situação extrema dizemos que o itervalo [0, ] cotém a probabilidade p, que pretedemos estimar, com uma cofiaça de 00%! Da forma do itervalo de cofiaça para p, verificamos que existem duas maeiras de dimiuir a sua amplitude, que é igual a z-α/ ˆ p ( ˆ p ). Assim: i) Ou dimiuímos a cofiaça (-α), o que implica obter um valor mais pequeo para o quatil z-α/, ou ii) aumetamos a dimesão da amostra. A solução apresetada em i) ão é acoselhável - um caso extremo obteríamos um itervalo de amplitude ula (estimativa potual!), mas com uma cofiaça de 0%! Etão vejamos como proceder adoptado a solução precoizada em ii). Pretedemos que Maria Eugéia Graça Martis

53 Aálise de Dados 47 z-α/ ˆ p ( ˆ p ) d de ode ( z α/ d ) ˆ p ( ˆ p ) Se ão tivermos uma estimativa de p, etão devemos cosiderar o valor máximo do º membro da desigualdade aterior, que se obtém quado ˆ p =, dode um limite superior para será ( z α / d ) Chamamos a ateção para que este valor de, de um modo geral, peca por excesso, já que foi obtido para a pior situação do valor do parâmetro a estimar estar próximo de 0.5. Assim, é acoselhável proceder a um estudo prévio, ou recolher iformação evetualmete existete, para ter uma ideia do valor do parâmetro, se os custos com a recolha da amostra forem elevados. Chama-se margem de erro, a metade da amplitude do itervalo de cofiaça. Represetado a margem de erro por ME, temos a expressão aterior que dá o valor adequado para a dimesão da amostra: z α / ( ) ME Repare que, fixado a dimesão da amostra, quato maior for a cofiaça, maior será a margem de erro. Podemos aumetar a cofiaça até 00%. Mas, a verdade, qual a utilidade de um itervalo, com essa cofiaça? EXEMPLO. Numa cidade com 5000 habitates cosiderou-se uma amostra de 600 pessoas para estimar a percetagem de eleitores que votavam um certo cadidato. Dos 600 iquiridos, 97 declararam ter a iteção de votar o dito cadidato. Determie um itervalo de 95% de cofiaça para a proporção de eleitores da cidade que pesam votar o cadidato. Resolução: Uma estimativa de p é ˆ p =97/600=.57. O itervalo de cofiaça pretedido será [ , ], ou seja [.55,.59], pelo que o itervalo tem amplitude.04. Maria Eugéia Graça Martis

54 Aálise de Dados 48 Qual a dimesão da amostra ecessária para reduzir a metade a amplitude aterior? Como cosideramos o mesmo ível de sigificâcia, vem Repare-se que este caso já ão estão satisfeitas as codições para podermos aplicar o modelo Biomial, pois a dimesão da amostra é muito grade, quado comparada com a dimesão da população. Iterpretação do itervalo de cofiaça Ao iterpretar o itervalo de cofiaça deve-se ter em ateção que o que é aleatório é o itervalo e ão a percetagem p descohecida - a variabilidade existe o processo de amostragem e ão o parâmetro. Quado se recolhem várias amostras, o valor de ˆ p é diferete de amostra para amostra, pelo que os limites do itervalo variam. Ao calcular um itervalo com 95% de cofiaça (a partir de uma amostra etretato recolhida), ão sigifica que a probabilidade do itervalo coter o parâmetro é.95, já que o itervalo cotém ou ão cotém o parâmetro. Como deve ser iterpretado o itervalo de cofiaça é da seguite forma: ao recolher 00 amostras da mesma dimesão e ao calcular os itervalos correspodetes, aproximadamete 95 destes itervalos cotêm o parâmetro p, equato que 5 ão o cotêm, Maria Eugéia Graça Martis

55 Aálise de Dados 49 com a i = pˆ i( pˆ i). Na figura aterior represetámos 3 itervalos, dos quais cotêm p, equato um terceiro ão cotém o valor de p. Chamamos a ateção para que quado calculamos um itervalo de cofiaça para a proporção, uca sabemos se ele cotém ou ão o verdadeiro valor da proporção. Estamos cofiates que sim, já que em 95% das vezes que calculamos esses itervalos, eles cotêm o valor de p. Já seria muito azar, o osso itervalo ser um dos 5% de itervalos que ão cotêm o valor de p!.3 Estimação do valor médio. Itervalo de cofiaça para o valor médio Dada uma população X, com valor médio µ, descohecido, e desvio padrão, supohamos que se pretede estimar o parâmetro µ. Já vimos que um bom estimador para o valor médio é a média, pelo que a maeira de proceder é a seguite: recolhe-se uma amostra de dimesão da população a estudar, x, x,, x, e calcula-se a média x = xi/. Este valor é cosiderado como estimativa potual de µ. No etato, se tivesse sido outra a amostra recolhida, omeadamete x',x',,x', seria atural que a estimativa obtida para µ através desta amostra, diferisse da iicialmete obtida. Qual a cofiaça que devemos atribuir a uma ou a outra? Surge assim, ituitivamete, a ecessidade de um outro processo, que ão só os foreça o método de estimar, mas permita simultaeamete saber qual a cofiaça que devemos atribuir ao resultado obtido, tal como o caso da proporção..3. Itervalo de cofiaça para o valor médio - σ cohecido Cosideremos a população X com distribuição Normal de parâmetros μ e σ, em que o parâmetro σ é cohecido. Etão, como vimos o capítulo, para a distribuição da média, tem-se, X N(µ,σ/ ) pelo que é possível obter o valor de z tal que Maria Eugéia Graça Martis

56 Aálise de Dados 50 X μ P[ z] =.95 z=.96 σ/ A probabilidade aterior pode-se escrever P[ X -.96 σ/ µ X +.96 σ/ ] =.95 ou seja, [ X -.96 σ/, X +.96 σ/ ] é um itervalo aleatório, que cotém o valor médio µ, com uma probabilidade ou cofiaça igual a.95, ou por outras palavras, se recolhermos um grade úmero de amostras (de igual dimesão), esperamos que cerca de 95% dos itervalos [ x -.96σ/, x +.96σ/ ] obtidos, coteham µ, equato 5% dos itervalos ão o coterão. Para cosiderar um exemplo cocreto, admitamos por exemplo, que o peso dos idivíduos do sexo masculio, de.65 m de altura, tem distribuição ormal com valor médio 60 e desvio padrão 4. Nas cidades de Lisboa, Porto, Coimbra, Braga e Évora recolheram-se amostras de pesos de 0 idivíduos escolhidos ao acaso (com.65 m de altura), tedo-se obtido os seguites resultados: Média L P C B E Qualquer uma das médias obtidas pode ser cosiderada como estimativa potual do valor médio 60. Pesemos aida a mediaa amostral, como estimador de µ (as distribuições simétricas o valor médio coicide com a mediaa). As estimativas obtidas para as diferetes amostras seriam: L 6.55 P 59.5 C 58.0 B E 56.5 Maria Eugéia Graça Martis

57 Aálise de Dados 5 Dispodo os valores obtidos para as médias e as mediaas, um segmeto de recta, verificamos que a mediaa apreseta maior variabilidade do que a média, em relação ao valor médio (embora uma amostra de dimesão 5 ão seja sigificativa!). Vejamos agora o que se passa com a estimação itervalar. Cosiderado o itervalo aleatório [ X , X ], com cofiaça de 95%, para as amostras 0 cosideradas ateriormete, chegámos aos seguites resultados: Cidade x [x-.48, x +.48] L 60.8 [58.34, 63.30] P [57.8, 6.4] C 59.3 [56.65, 6.6] B 6. [58.74, 63.70] E [54.56, 59.5] *** Dos itervalos obtidos, cocluímos que 4 cotêm o valor médio equato que um ão o cotém (assialado com ***). Uma questão que se levata este mometo é a seguite: o que acotece se exigirmos um itervalo de cofiaça com uma probabilidade de 99% em vez de 95%? Facilmete se coclui, que quato maior for o ível de cofiaça exigido, maior será a amplitude do itervalo obtido. Para um ível de cofiaça de 99% o itervalo de cofiaça será [ X -.58 σ/, X +.58 σ/ ] e a realidade a amplitude pode ser tão grade que deixe de ter sigificado o cálculo do itervalo. No limite temos um itervalo de amplitude ifiita, mais precisamete R, com uma cofiaça de 00%! De um modo geral, dada uma população N(µ,σ), um itervalo de cofiaça para o valor médio, com um ível de cofiaça de 00(-α)%, obtém-se cosiderado P[ -z -α/ X μ σ/ z -α/ ] = - ode represetamos por z-α/ o quatil de probabilidade -α/, da ormal (0,). Maria Eugéia Graça Martis

58 Aálise de Dados 5 A partir da probabilidade aterior coclui-se imediatamete, que o itervalo de cofiaça para o valor médio tem a forma [ X - z -α/ σ/, X + z - α/ σ/ ] para uma cofiaça de 00(-α)%, e qualquer que seja a dimesão da amostra cosiderada. Admitamos agora, que a distribuição da população de que se pretede estimar o valor médio já ão é ormal. Neste caso, as coclusões ateriormete obtidas cotiuam a ser válidas, mas exige-se que a dimesão da amostra seja suficietemete grade (>30), para ser possível aplicar o teorema do limite cetral - os resultados agora ão serão exactos, mas sim aproximados. Resumido Dada uma população N(µ,σ) e uma amostra de dimesão qualquer, ou uma amostra de dimesão suficietemete grade (>30), o caso de a população já ão ser ormal, cohecido, um itervalo de cofiaça para o valor médio, com um ível de cofiaça de 00(-α %, tem a forma [ X - z -α/ σ/, X + z - α/ σ/ ] ode represetamos por z-α/ o quatil de probabilidade -α/, da N(0,). Supohamos aida que a população X tem distribuição ormal de valor médio µ descohecido e desvio padrão σ cohecido, ou que a dimesão da amostra é suficietemete grade. Pretede-se determiar para o valor médio, um itervalo de cofiaça com um ível de cofiaça de 00(-α)% e cuja amplitude ão exceda d. Qual a dimesão exigida para a amostra? Tedo em cota a forma para o itervalo de cofiaça, cocluímos aida, que um processo para dimiuir a amplitude do itervalo de cofiaça, será aumetar a dimesão da amostra e essa dimesão terá de ser tal que: z-α/ σ/ d ou ( z -α/ σ/d) Repare-se que da expressão aterior podemos cocluir, para já, que a dimesão da amostra que deve ser recolhida, depede da variabilidade existete a população. Maria Eugéia Graça Martis

59 Aálise de Dados Itervalo de cofiaça para o valor médio - σ descohecido. Em todas as coclusões obtidas até aqui, o que respeita à estimação do valor médio, admitimos que o parâmetro σ era cohecido. No etato a situação mais vulgar, tato µ como σ são descohecidos. Para resolver o problema, vamos distiguir dois casos: a) Se a dimesão da amostra for suficietemete grade (>30), utiliza-se a estatística S como estimador de σ e o itervalo de cofiaça, para um ível de cofiaça de 00 (-α)% tem a forma [ X - z -α/ S/, X + z -α/ S/ ] ode represetamos por z-α/ o quatil de probabilidade -α/, da ormal (0,), pois para grade, (X μ) /S cotiua a ter distribuição aproximadamete ormal. b) Se a dimesão da amostra for pequea, mas a população tem distribuição ormal, etão (X μ) /S já ão tem distribuição ormal, mas sim a chamada distribuição t de Studet com (-) graus de liberdade, como já vimos o capítulo 9, o estudo da distribuição de amostragem da média. Nestas codições o itervalo de cofiaça para a média, para um ível de cofiaça de 00(-α)% é [ X - t -α/ (-) S/, X + t -α/ (-) S/ ] ode represetamos por t -α/ (-) o quatil de probabilidade -α/, da distribuição t de Studet, com - graus de liberdade. Esta distribuição, assim como a ormal, ecotra-se tabelada. Covém aida observar que a distribuição t-studet se aproxima da distribuição ormal reduzida, à medida que o úmero de graus de liberdade aumeta. Assim, tem toda a propriedade utilizar a aproximação feita em a), para grades amostras. Observação Para usar o modelo de Studet, é ecessário que a população seja Normal. Na prática, é suficiete que os dados sejam proveietes de uma população uimodal e simétrica, se a dimesão da amostra for superior a 5 (De Veaux ad al, 004). Maria Eugéia Graça Martis

60 Aálise de Dados 54 Qual a dimesão da amostra ecessária para que o itervalo de cofiaça teha alguma utilidade? Já ateriormete defiimos margem de erro (ME), como sedo metade da amplitude do itervalo de cofiaça e dissemos que quato meor for a margem de erro, maior será a precisão, mas meor será a cofiaça, para uma mesma dimesão da amostra. Qualquer itervalo de cofiaça é uma solução de compromisso etre cofiaça e precisão. Etão o que se faz é fixar a cofiaça em determiados valores, tais como 90%, 95% ou 99% e recolher uma amostra de dimesão tal que mateha a margem de erro detro de certo limite. Cosiderado etão determiados valores para a margem de erro e para a cofiaça, vejamos qual a dimesão da amostra ecessária: ME = t-α/ (-) s/ de ode = (t-α/ (-) s/me) Na expressão aterior podemos fixar um determiado valor para a margem de erro ME, mas estamos perate algumas situações problemáticas. Não cohecemos s, ates de termos recolhido a amostra e precisamete queríamos cohecer para recolher a amostra! Normalmete o que se faz estes casos é fazer um estudo piloto que os dá uma ideia do valor de s. Aliás esta situação è idêtica à que já os deparámos quado do estudo do itervalo de cofiaça para a proporção ou probabilidade p, em que era ecessário cohecer umaa estimativa de p. E o que diz respeito ao valor de t-α/ (- )? Novamete precisamos de cohecer para calcular o valor do quatil de probabilidade (-α/ ) de uma t-studet com (-) graus de liberdade! Neste caso o que se pode fazer é substituir o quatil da t-studet pelo quatil z-α/ da N(0,) e ver qual o valor que vem para. Se este valor for suficietemete grade, podemos utilizá-lo como dimesão da amostra a recolher, já que os quatis da t-studet e da Normal(0,) são idêticos. Caso cotrário, utilizamo-lo para obter o quatil da t-studet e posteriormete recalcular o valor (de ) a partir da fórmula respectiva. Maria Eugéia Graça Martis

61 Aálise de Dados 55 EXEMPLO.3 Uma máquia está afiada para produzir peças de um certo comprimeto. Todavia, observa-se uma certa variação de comprimeto de uma peça para outra, podedo tal comprimeto ser cosiderado uma variável aleatória ormal. a) Supoha que foi extraída uma amostra de 6 peças, tedo sido medido o comprimeto de cada uma. Os resultados obtidos foram os seguites: x i = 80 cm x i = 535 cm Determie um itervalo de 95% de cofiaça para o valor médio do comprimeto das peças. b) Admita que o verdadeiro valor da variâcia é igual à estimativa obtida aquela amostra. Determie ovo itervalo de cofiaça, com esta iformação adicioal. Que coclusões tira? c) Repita a alíea b) admitido que a amostra recolhida tiha dimesão 5. Resolução: =6 x = 80 6 = 5 s = t.975(5) = = 9 5 a) Itervalo de cofiaça [ , ] = [3.40, 6.60] 3 3 b) Itervalo de cofiaça [5 -.96, ] = [3.53,6.47] 4 4 O itervalo de cofiaça agora calculado tem uma amplitude iferior à do calculado a alíea a), o que seria de esperar pois dispomos de mais iformação. 3 3 c) Itervalo de cofiaça [5 -.96, ] = [ 3.8, 6.8] 5 5 A amplitude do itervalo é iferior à do itervalo calculado a alíea b) pois cosiderámos aida mais iformação ao dispormos de uma amostra de maior dimesão. EXEMPLO.4 Numa rua que passa à frete de uma escola, chamada Rua Nova, existe uma passadeira para os peões e um sial a limitar a velocidade a 50 km por hora. No etato, a maior parte das vezes, os carros em sequer abradam! A polícia, frequetemete, coloca um radar para cotrolar a velocidade e motivar ao cumprimeto daquela regra de trâsito. Os pais das criaças é que ão acreditam que esta medida seja suficiete e pretedem que seja colocado um semáforo, que passa a ecarado com velocidade superior aos 50 Km/h. Para poderem ter argumetos perate as istâcias camarárias, resolvem fazer um cotrolo de velocidades e um certo dia útil, pesam recolher as velocidades médias de algus dos carros que passarem. Quatos carros devem observar, para obterem um itervalo de cofiaça de 95%, cuja margem de erro ão ultrapasse Km? Maria Eugéia Graça Martis

62 Aálise de Dados 56 Resolução: Para determiar a dimesão da amostra a recolher, é ecessário ter uma ideia de como é que se distribuem as velocidades, omeadamete se a distribuição dos dados é uimodal e simétrica. Além disso é ecessário ter um valor aproximado para a variabilidade. Supohamos etão que se recolheu uma amostra piloto, para recolher a iformação ecessária: O histograma que fizémos dos dados mostra que a distribuição é uimodal e aproximadamete simétrica. Não temos razões que os levem a duvidar da idepedêcia dos dados (estamos a admitir que a recolha dos dados ão se fez em hora de pota...). Para a variâcia amostral obtivémos o valor de s=7.33. Cosiderato o quatil de probabilidade da ormal, que é igual a.96, temos = ( ) = 5.5 dode ecessitamos de uma amostra de dimesão 5. Refazedo os cálculos para a determiação da dimesão da amostra, cosiderado agora o quatil da t-studet com 5 graus de liberdade, que é igual a.008, obtivémos para o valor de 54. Facilmete se verifica que a margem de erro do itervalo de 95% de cofiaça, costruído com os dados recolhidos para a amostra piloto, é de 3 Km. Exercícios. Uma fábrica produz peças, havedo uma certa percetagem de defeituosas. O departameto de cotrolo de qualidade recolheu uma amostra de 30 peças, ecotrado 4 defeituosas. Determie um itervalo de 95% de cofiaça para a percetagem de peças defeituosas produzidas pela dita máquia. Qual a dimesão da amostra ecessária para obter um itervalo com 95% de cofiaça, cuja amplitude ão exceda.?. Pergutou-se a cada um dos 80 estudates de um determiado curso, qual o seu grau de satisfação relativamete ao curso que frequeta. Obtiveram-se os seguites resultados: NS MB B S NS NS SP SP NS B NS NS SP B B MB SP NS NS MB SP B NS B Maria Eugéia Graça Martis

63 Aálise de Dados 57 SP S SP SP NS NS SP S MB S B MB NS S S S SP S B NS S S SP B B B MB NS B S NS NS B S MB S MB NS MB SP S S NS B MB NS MB NS B MB SP MB S SP SP MB NS-"Não Satisfaz"; SP-"Satisfaz Pouco; S-"Satisfaz"; B- "Bom"; MB- "Muito Bom". a) Faça uma represetação gráfica adequada para os dados e idique uma característica amostral. b) Admitido que as opiiões destes estudates são represetativas das opiiões dos estudates dos outros cursos, costrua um itervalo de 95% de cofiaça para a probabilidade de um estudate, escolhido ao acaso, ter uma opiião positiva (Satisfaz, Bom ou Muito Bom) sobre o curso em que está iscrito. 3. Um iquérito realizado a 00 poteciais compradores de um carro ovo para o próximo ao, revelou que estão dispostos a pagar em média 4750 euros, com um desvio padrão de 450 euros. a) Calcule um itervalo de 95% de cofiaça para a quatia média que os compradores estão dispostos a pagar. b) Foi posto à veda um ovo tipo de carro, ao preço de 500 euros. Será que este valor excede sigificativamete o que os compradores pretedem gastar em média? 4. Ao Istituto para a defesa do cosumidor têm sido apresetadas queixas, dizedo que as embalages de determiado produto cogelado têm meos peso do que o idicado as embalages. Uma recolha prelimiar de 40 destas embalages idicou um peso médio de 975 gramas, com um desvio padrão de 85 gramas. Quatas embalages devem ser examiadas, de forma a obter uma estimativa do peso médio com erro iferior a 5 gramas, com uma cofiaça de 95%? 5. Os seguites dados represetam o tempo de reacção (em segudos), de 4 idivíduos, a um estímulo lumioso : a) Determie as seguites características amostrais : média, variâcia, mediaa, Q e Q. 3/5 5/4 b) Escolha uma amplitude coveiete para o itervalo de classe e costrua o histograma correspodete aos dados. c) Costrua um itervalo de 99% de cofiaça para o tempo médio de reacção. 6. Os seguites dados represetam o tempo de CPU (em segudos), gastos por um programa que utiliza um determiado software de estatística : Maria Eugéia Graça Martis

64 Aálise de Dados a) Determie as seguites características amostrais : média, variâcia, mediaa, Q e Q. /5 3/4 b) Escolha uma amplitude coveiete para o itervalo de classe e costrua o histograma correspodete aos dados. c) Admitido a ormalidade dos dados, costrua um itervalo de 95% de cofiaça para o valor médio dos tempos de CPU gastos pelo programa. 7. Recolheu-se uma amostra de 40 aluos a frequetarem o troco comum de Matemática Aplicada o ao lectivo de 98/99, tedo-se verificado que 0 destes aluos frequetam o curso em ª opção. Com base os resultados determie um itervalo de 95% de cofiaça para a verdadeira percetagem de estudates do º ao que efectivamete escolheram o curso em º opção. Se pretedesse reduzir a metade a amplitude do itervalo obtido ateriormete, com uma amostra da mesma dimesão, qual o maior ível de cofiaça com que devia trabalhar? Se recolhesse 00 amostras de dimesão 40, a partir das quais costruísse outros tatos itervalos de cofiaça, quatos destes itervalos esperaria que cotivessem o verdadeiro valor da percetagem de estudates que frequetam o curso em ª opção? 8. Verifique que o itervalo de 90% de cofiaça para os dados do exemplo 4 é [47.9km; 54.km]. Explique, porque é que ão é correcto dizer o seguite (Adaptado de De Veaux ad al, 004): a) 90% de todos os veículos que passam a Rua Nova, vão a uma velocidade etre 47.9km e 54.km. (Res: O itervalo de cofiaça diz respeito à velocidade média dos veículos e ão à velocidade de cada um dos veículos). b) Temos uma cofiaça de 90% de que um veículo seleccioado aleatoriamete, vá a uma velocidade etre 47.9km e 54.km. (Res: Como o caso aterior, estamos a referir-os a um úico veículo, quado, a verdade, estamos 90% cofiates que o itervalo [47.9km; 54.km] coteha a velocidade média de todos os veículos que passam a Rua Nova). c) A velocidade média dos veículos, é 5km, 90% do tempo. (Res: esta afirmação dá a ideia que a verdadeira velocidade média varia, quado o que varia é o itervalo, que será diferete, sempre que recolhermos uma amostra diferete). d) 90% de todas as amostras têm velocidades médias etre 47.9km e 54.km. (Res: Esta afirmação dá a ideia de que este itervalo goza de algum privilégio, relativamete a outros. De facto, este itervalo é tão bom ou tão mau, como qualquer dos outos. O que deveremos dizer é que 90% de todas as possíveis amostras permitem costruir itervalos que cotêm a velocidade média. Nuca saberemos se o osso itervalo é um dos que cotêm ou ão). Maria Eugéia Graça Martis

65 Aálise de Dados 59 Itrodução aos testes de hipóteses 3 Itrodução aos testes de hipóteses. Hipótese ula e hipótese alterativa. Estatística de teste. Região de rejeição e de ão rejeição. Nível de sigificâcia de um teste. P-value. Testes de hipóteses sobre a proporção e sobre o valor médio e sobre. 3. Itrodução Já vimos um processo de fazer iferêcia estatística - a estimação, em que utilizámos o modelo Biomial e o modelo Normal. Vamos aida utilizar o modelo Biomial um outro tipo de iferêcia estatística a que chamamos testes de hipóteses. O objectivo dos testes de hipóteses, é determiar se uma dada cojectura ou hipótese que fazemos acerca de uma população, é plausível, isto é, tem razão de ser. Precisamete esta plausibilidade é calculada com base a iformação obtida a partir de uma amostra da população. EXEMPLO 3. (Teachig Statistics, vol 5, º, 993) Um professor chega um dia à aula e resolve pôr a seguite questão: - Há aqui algum aluo que cosiga distiguir, pelo sabor, a Coca-Cola da Pepsi-Cola? Um estudate diz que sim, que cosegue distiguir, embora o professor pese que ele efectivamete ão o cosegue, e se acertar, é por acaso. Depois de alguma discussão em que o aluo afirma que cosegue distiguir e o professor diz que ele está a fazer "bluf", resolvem fazer uma aposta, em que apostam uma certa quatia. Algumas questões que se levatam, relativamete a este problema, são: - Com que probabilidade cosegue o estudate distiguir etre a Coca e a Pepsi? - Qual o critério que se utiliza para ver quem é o vecedor? 3 - Usado o critério, a defiir em : a) Qual a probabilidade do estudate perder, mesmo que teha razão? ( o estudate pode ter acordado mal disposto, estar ervoso, pouco cocetrado, ) Maria Eugéia Graça Martis

66 Aálise de Dados 60 b) Qual a probabilidade do estudate gahar a aposta, se de facto adivihou, mas efectivamete ão cosegue distiguir etre a Coca e a Pepsi e respode ao acaso (foi uma questão de sorte )? 4 - Quão pequeas devem ser as probabilidades em 3, para que cada um dos apostadores ão esteja a correr um risco muito grade? A perspectiva de levar a cabo a experiêcia a turma, em frete de toda a gete, é deveras itimidate, pelo que ão é de esperar que o volutário cosiga distiguir as duas bebidas 00% das vezes. De modo geral o estudate estabelecerá essa probabilidade etre 0.7 e 0.8 como realística. Para o prosseguimeto da ossa experiêcia, vamos admitir que é de 0.7. Temos agora de deliear a experiêcia e determiar o critério de sucesso para o estudate. Depois de algumas discussões a aula, o volutário cocorda em provar 5 copos de bebida e dizer se cada uma é Coca ou Pepsi. De acordo com a probabilidade estabelecida ateriormete, para cada prova ele terá uma probabilidade de 70% de dar a resposta correcta. Qual o critério justo, que se deve cosiderar, para admitir que o estudate tem razão? Ou ates, qual o critério justo, que se deve cosiderar, para que as duas pessoas que apostaram ão estejam a correr um risco demasiado grade? Idealmete, gostaríamos que o risco que correm os dois apostadores fosse aproximadamete igual, isto é, as probabilidades cosideradas em 3. deveriam ser aproximadamete iguais. Com o objectivo de estabelecer um critério, o volutário sugere que pelo meos 0 respostas certas sigifica que tem razão. Etão, P(estudate gahar a aposta, sabedo distiguir as bebidas) = = P(º respostas certas em 5 ser 0, sabedo que a probabilidade de sucesso é.7) = 5 5 i i = ) ( =.7 i= 0 i de ode P(estudate perder a aposta, sabedo distiguir as bebidas) = -.7 =.78 Esta probabilidade de.78 é o risco que o estudate corre. Qual o risco que o professor corre? O professor está iteressado em calcular a probabilidade de perder o seu diheiro, se o estudate se limitou a adivihar e efectivamete ão cosegue distiguir a Coca da Pepsi. Esta probabilidade é: P(professor perder a aposta, se o estudate ão sabe distiguir as bebidas) = Maria Eugéia Graça Martis

67 Aálise de Dados 6 P(º respostas certas em 5 ser 0, sabedo que a probabilidade de sucesso é.5) = 5 5 i i = ) ( =.5 i= 0 i Esta probabilidade de.5 é o risco que o professor corre. Nestas circustâcias estarão eles dispostos a apostar? E se se aumetar o º de respostas correctas como critério de gaho ou perca? - Se se aumetar o º de respostas correctas ecessárias, a probabilidade do estudate perder, embora estado covecido que cosegue distiguir, aumeta. Obs: Se o º de respostas correctas ecessárias fosse k (>0), etão o risco que o estudate corria seria P(º de respostas certas < k) > P(º de respostas certas < 0)(=.78) - Por outro lado, aumetado o º de respostas correctas ecessárias, a probabilidade do professor perder, se o estudate se limita a adivihar, dimiui. Obs: Se o º de respostas correctas ecessárias fosse k>0, etão o risco que o professor corria seria P(º de respostas certas k) < P(º de respostas certas 0)(=.5) Assim, modificado o critério, estamos a aumetar a probabilidade de um dos tipos de erro e a dimiuir a probabilidade do outro tipo de erro. 3 - Sob a hipótese de que a capacidade de decisão (gustativa ) do estudate cotiua em forma, aumetado a dimesão da amostra, talvez se cosigam dimiuir estas probabilidades dos dois tipos de erros. Por exemplo, se o º de provas for 0 e o critério para gahar for de respostas correctas pelo meos, recalculado as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os dois tipos de risco são 0.3 e 0.5, respectivamete, para o estudate e o professor. Se o professor for um "bom desportista" este critério é razoável, se a quatidade de diheiro posta em jogo ão for grade. Este exemplo servirá para itroduzir os coceitos formais de testes de hipóteses, erros de tipo e tipo e as otações associadas com os procedimetos estatísticos. No etato vamos ates disso, dar outros exemplos de aplicação de testes de hipóteses. Maria Eugéia Graça Martis

68 Aálise de Dados 6 3. Outros exemplos EXEMPLO 3. Numa fábrica de determiadas peças, um lote destas peças é cosiderado aceitável se tem meos de 8% de peças defeituosas. Já que os lotes têm um grade úmero de peças, sairia muito caro ispeccioar todas essas peças. A decisão a favor de ão rejeitar o lote será tomada o caso de uma amostra a retirar do lote, dar idicação esse setido. EXEMPLO 3.3 Supõe-se que os estudates são a favor da avaliação cotíua, isto é, mais de 50% dos estudates preferem a avaliação cotíua. Para verificar se existem idícios de que esta hipótese ão seja verdadeira, recolhe-se uma amostra de estudates, registado-se o º de respostas a favor. EXEMPLO Um fabricate afirma a garatia que acompaha as lâmpadas que fabrica, que o tempo médio de vida é superior a 450 horas. Ultimamete algus clietes têm-se queixado das referidas lâmpadas. Para testar se os clietes têm razão, recolheu-se uma amostra de algumas lâmpadas, registado-se o tempo de vida (utilizado os chamados testes de vida acelerados, que provocam a falha mais rapidamete). Todos estes exemplos que acabamos de referir, têm algumas características comus: Cosideram-se duas hipóteses complemetares acerca de uma quatidade descohecida da população. a iformação dispoível é dada pela amostra que se recolheu da população em estudo. pretede-se verificar se uma das hipóteses a que damos mais importâcia, é sustetada ou rejeitada pela iformação recolhida da amostra. No caso 3., por exemplo, as hipóteses a testar são de que o lote é aceitável - p.08, ou ão - p>.08. O que se pretede é verificar que ão temos razões para rejeitar a hipótese de que p.08. No caso 3.3, temos as hipóteses p.5 e p<.5. O que se pretede testar é se há alguma razão para rejeitar p.5. Maria Eugéia Graça Martis

69 Aálise de Dados Hipótese ula e Hipótese alterativa; erros de tipo e tipo ; estatística de teste; região de rejeição Num teste estatístico temos duas hipóteses em alterativa, a que chamamos hipótese ula (H 0 ) e hipótese alterativa (H ), sobre um parâmetro descohecido da população. A hipótese ula é a hipótese que reflecte a situação em que ão há mudaça, sedo pois uma hipótese coservadora e é aquela em que temos mais cofiaça (resultado de uma experiêcia passada). O objectivo de um teste de hipóteses é o de tomar uma decisão, o setido de verificar se existem razões para rejeitar ou ão a hipótese ula. Esta decisão é baseada a iformação dispoível, obtida a partir de uma amostra, que se recolhe da população. No caso em estudo vamos cosiderar as hipóteses H 0 : O estudate cosegue distiguir cotra(versus) H : O estudate ão Coca da Pepsi cosegue distiguir Estas hipóteses podem-se exprimir em termos da probabilidade de o estudate dar uma resposta correcta H 0 : p=.7 cotra H : p=.5 A amostra recolhida tem dimesão 5 e vamos utilizar como iformação relevate, o º de respostas correctas, as 5 provas. Seja X a variável aleatória que represeta esse úmero. É esta v.a. que vai permitir tomar uma decisão, recebedo o ome de estatística de teste. Ao tomar uma decisão podemos cometer dois tipos de erros: Decidir que o estudate ão cosegue distiguir, quado efectivamete ele cosegue, isto é, Rejeitar H 0, quado H 0 é verdadeiro; Decidir que o estudate cosegue distiguir, quado efectivamete ele ão cosegue e respode ao acaso, isto é, Não rejeitar H 0, quado H é verdadeiro. Ao primeiro erro chamamos erro de tipo e ao segudo, erro de tipo. Estes erros são cotabilizados em termos de probabilidade. Maria Eugéia Graça Martis

70 Aálise de Dados 64 O ível de sigificâcia do teste represeta-se por α e é o valor máximo para a probabilidade de cometer o erro de tipo : P(Rejeitar H0 H0 é verdadeiro) α A probabilidade de cometer o erro de tipo represeta-se por β P(Não rejeitar H0 H é verdadeiro) = β O risco que o estudate corre é α, equato que o risco que o professor corre é β. O seguite quadro reflecte a situação verificada quado se realiza um teste de hipóteses: Na escolha do teste, o osso objectivo é cotrolar o erro de tipo, ou seja α. No caso do exemplo o osso critério de decisão baseou-se a seguite regra de decisão: Rejeitar H 0 se X<0 Cosiderado a regra aterior vimos que α =.784. Poderíamos cosiderar o problema de outra forma, isto é, partir de um determiado ível de sigificâcia, e determiar os valores de X que levavam à rejeição de H 0. Supohamos que pretedíamos realizar o teste para o ível de sigificâcia de 0%. Os valores possíveis para X v.a. que represeta o º de respostas correctas, são Maria Eugéia Graça Martis

71 Aálise de Dados 65 todos os iteiros etre 0 e 5. Destes, pretedemos saber quais os que levam a rejeitar H 0, de modo que o que pretedemos é saber qual o valor de c, tal que P(X c X B(5,.7)) 0.0 Obs: Atededo às hipóteses cosideradas somos levados a rejeitar a hipótese ula quado o º de respostas correctas do estudate for pequeo (X c). Cosultado uma tabela da Biomial com parâmetros 5 e 0.7, verificamos que P(X 8) =.3 P(X 7) =.0500 Etão rejeitamos H 0 quado o º de respostas correctas for 7. Mas para esta região de rejeição a probabilidade de cometer o erro de tipo é P(X 8 X B(5,.5)) =.5, o qual é muito grade! 3.4 Testes de hipóteses para a proporção p O exemplo apresetado ateriormete é um caso particular de testes de hipóteses para a proporção p, que vamos formalizar seguidamete. Supohamos que temos uma população costituída por idivíduos que pertecem a uma de duas categorias, que represetamos por A e A C. Represetemos por p a proporção (descohecida) de idivíduos que pertecem à categoria A. Pretedemos fazer iferêcia sobre o parâmetro p, pelo que se recolhe da população uma amostra de dimesão. A estatística de teste que vamos utilizar, para tomar uma decisão, é X - v.a. que represeta o º de idivíduos da amostra que pertecem à categoria A. Na formalização dos testes represetamos por p 0 o valor da proporção, que se pretede testar. Os testes que vamos realizar são os seguites: Maria Eugéia Graça Martis

72 Aálise de Dados 66. H 0 : p = p 0 cotra H : p > p 0 Rejeitamos H 0 quado for elevado o º de idivíduos da amostra pertecetes à categoria A, ou seja quado X x α. (Se H verdadeiro, ou seja, p > p 0, caso em que devemos rejeitar H 0, etão esperamos ecotrar a amostra "muitos" idivíduos pertecetes à categoria A. Etedemos por "muitos", um úmero de idivíduos à volta de p, que é superior aos que esperaríamos ecotrar caso fosse H 0 verdadeiro, ou seja p 0 ). A determiação do poto crítico xα deve fazer-se tedo em ateção o ível de sigificâcia α, ou seja, vamos calcular o meor iteiro xα tal que P[ X xα X B(, p0)] α isto é, a região de rejeição R é costituída pelos potos: R = { x xα [ ( i )p i 0 ( p 0 ) i ] α e [ ( i )p i 0( p 0 ) i ]>α} i = x α i = x α Obs: A hipótese ula pode-se exprimir a forma p p 0, já que se obtém um teste equivalete.. H 0 : p = p 0 cotra H : p < p 0 Rejeitamos H 0 quado for pequeo o º de idivíduos da amostra pertecetes à categoria A, ou seja quado X x'α. R 0 x' α A determiação do poto crítico x'α deve fazer-se tedo em ateção o ível de sigificâcia α, ou seja, vamos calcular o maior iteiro x'α tal que Maria Eugéia Graça Martis

73 Aálise de Dados 67 P[ X x'α X B(, p 0 )] α isto é, a região de rejeição R é costituída pelos potos: x' α R = { x x'α [ ( i )p i 0( p 0 ) i ] α e [ ( i )p i 0 ( p 0 ) i ]>α} i = 0 x' α + i =0 Obs: A hipótese ula pode-se exprimir a forma p p 0, já que se obtém um teste equivalete. 3. H 0 : p = p 0 cotra H : p p 0 Rejeitamos H0 quado for pequeo ou elevado o º de idivíduos da amostra pertecetes à categoria A, ou seja quado X x'α ou X xα. R R 0 x' α x α A determiação dos potos críticos x'α e xα deve fazer-se tedo em ateção o ível de sigificâcia α. Além disso vamos cosiderar o chamado teste equilibrado, isto é, atribuir a cada uma das partes da região de rejeição, uma probabilidade igual a metade do ível de sigificâcia: P[ X x'α X B(, p0)] α/ e P[ X xα X B(, p0)] α/ isto é, a região de rejeição R é costituída pelos potos: x' α R = { x x'α ou x xα [ ( i )p i 0( p 0 ) i ] α/ e [ ( i )p i 0 ( p 0 ) i ] α/} i = 0 Dos três tipos de testes cosiderados ateriormete, os dois primeiros dizem-se uilaterais, equato que o último se chama bilateral. i = x α EXEMPLO 3.5 Uma fábrica produz determiado tipo de peças, e sabe-se que a percetagem de defeituosas é de 0%. O director da liha de motagem procedeu a algumas alterações o equipameto, Maria Eugéia Graça Martis

74 Aálise de Dados 68 com o objectivo de melhorar a produção, dimiuido omeadamete a percetagem de peças defeituosas. Tedo-se recolhido uma amostra de 0 peças, verificou-se que eram defeituosas. Será que há evidêcia de mudaça a percetagem de peças defeituosas? Resolução: H0: p.0 cotra H:p <.0 Pretede-se determiar o valor de x'α tal que P[ X x'α X B(0,.0)] α Cosultado uma tabela da Biomial, verificamos que P(X 0) =.05 P(X ) =.069 P(X ) =.06 dode cocluímos que: Se α= 5% R={0} Se α= 0% R={0,} Decisão: Para os íveis usuais de sigificâcia, ão se deve rejeitar H0, isto é ão há evidêcia de ter havido alteração (para melhor) o processo de fabrico Determiação dos potos críticos x'α e xα para grades amostras A determiação dos potos críticos x'α e xα dos testes ateriores, pode fazer-se cosultado as tabelas com a distribuição Biomial. Pode o etato acotecer que o valor de seja demasiado grade, e já ão coste essas tabelas. Etão faz-se uma aproximação à Normal, como se descreve a seguir. Tedo em cosideração o teorema do limite cetral, sabe-se que a distribuição Biomial pode ser aproximada pela distribuição Normal, isto é, se X B(,p), etão P(X x) Φ( x p p( p) ) Cosidera-se a estatística de teste Z = X p0 p0( p0 ) Maria Eugéia Graça Martis

75 Aálise de Dados 69 cuja distribuição pode ser aproximada por uma Normal(0,) e a determiação dos potos críticos, para os três tipos de testes cosiderados ateriormete, faz-se da seguite forma:. P[ X xα X B(, p 0 )] α sedo xα o meor iteiro tal que xα +p 0 +z-α p ( ) 0 p 0. P[ X x'α X B(, p 0 )] α sedo x'α o maior iteiro tal que x'α p 0 +zα p ( ) ou x'α p 0 - z-α p ( ) 0 p 0 3. P[ X x'α X B(, p 0 )] α/ e P[ X xα X B(, p 0 )] α/ 0 p 0 x'α p 0 - z-α/ p ( ) e xα + p 0 + z-α/ p ( ) 0 p 0 0 p 0 (x'α maior iteiro e xα meor iteiro satisfazedo respectivamete cada uma das desigualdades ateriores). Observação Uma alterativa, equivalete, à estatística de teste X, com distribuição aproximadamete Normal(p 0, p0 ( p 0 ) ), sob H 0, é a estatística X p ) =, com distribuição aproximadamete N(p 0, p ( p0 ) 0 ) P-value (valor-p) Ao realizar um teste de hipóteses, podemos à partida ão ter especificado um ível de sigificâcia. Etão, um processo alterativo para a realização dos testes ateriores é, face ao valor observado x 0 da estatística de teste X, calcular a seguite probabilidade: Caso : P = P[X x 0 X B(, p 0 )] Caso : P = P[X x 0 X B(, p 0 )] Caso 3 : P = mi {P[X x 0 X B(, p 0 )],P[X x 0 X B(, p 0 )]} Esta probabilidade P é o meor valor para o ível de sigificâcia que levaria à rejeição da hipótese ula, para a amostra recolhida. A P chamamos P-value. Assim, para Maria Eugéia Graça Martis

76 Aálise de Dados 70 tomarmos uma decisão, calcula-se o P-value e para um dado ível de sigificâcia α, rejeita-se a hipótese ula se P α A metodologia seguida este caso é diferete da seguida ateriormete, em que para tomarmos uma decisão era ecessário especificar à partida o ível de sigificâcia com que pretedíamos realizar o teste, de forma a calcular a região de rejeição. Se o valor observado da estatística de teste pertecesse a essa região etão rejeitaríamos a hipótese ula. Agora calculamos o P-value e ão é ecessário calcular explicitamete a região de rejeição, pois se para um determiado ível de sigificâcia se verifica que P α, isto sigifica ecessariamete que o valor observado da estatística de teste pertece à região de rejeição. 3.5 Vamos coversar acerca de testes Ao logo deste texto já temos referido várias vezes que é objectivo da Estatística arrajar modelos probabilísticos que sirvam para modelar situações do mudo real. Ao formular uma hipótese (hipótese ula), como as que formulámos ateriormete, ão estamos mais que a propor um modelo para uma situação real. Uma vez o modelo proposto, vamos recolher iformação - os dados, para averiguar da cosistêcia do modelo. Etão, defrotamo-os com duas situações: ou os dados são cosistetes com o modelo, e esse caso ão vemos razão para o rejeitar, ou os dados cotradizem fortemete o modelo, e este caso pesamos que há evidêcia para o rejeitar. Repare-se que a primeira situação, ão dissemos que os dados mostravam que a hipótese é verdadeira! Só dissémos que ão víamos razão para a rejeitar. Esta situação é aáloga à que se passa os tribuais tem que se começar por admitir a presução de iocêcia e cabe ao juiz, mostrar que os factos cotradizem esta presução, para admitir a culpabilidade. Na seguda situação, dissémos que pesamos que há evidêcia para rejeitar o modelo. Mas fica-os sempre a dúvida se deveremos tomar Maria Eugéia Graça Martis

77 Aálise de Dados 7 essa opção, já que rejeitar o modelo proposto, se ele fosse efectivamete verdadeiro, pode acarretar grades prejuízos. Etão precisamos de quatificar essa decisão e essa quatificação é feita probabilisticamete. Assim, calculamos a probabilidade de obter dados como os recolhidos, baseado-os em que o modelo é verdadeiro. Se esta probabilidade for muito pequea, pesamos que ão foi só o acaso, isto é a aleatoriedade presete a recolha da iformação, que os levou a obter aqueles dados, mas aturalmete é o próprio modelo que ão é o correcto, pois essa probabilidade é demasiado pequea, para ser verdade, e rejeitamos esse modelo. Esta tal probabilidade p-value, dá-os uma medida do erro que cometemos ao rejeitar o modelo proposto, e quato meor for, maior será a evidêcia cotra o modelo. Assim, quado ão rejeitamos a hipótese ula, ficamos sempre a dúvida, sobre se terá sido o teste que ão teve capacidade para a rejeitar, mesmo sedo ela falsa. Justificase, assim, que se procure calcular a probabilidade de se rejeitar a hipótese ula, quado ela é falsa, isto é, P(RejeitarH 0 H verdadeira). A esta probabilidade chama-se potêcia do teste. Repare-se que para um determiado valor do parâmetro especificado a hipótese alterativa: Potêcia do teste = P(erro de tipo ) Etão, de um modo geral, podemos dizer que pretedemos um teste com ível de sigificâcia pequeo e potêcia grade. Para visualizar melhor a relação etre estes coceitos, vamos colocar-os a situação de estarmos a realizar o seguite teste: H 0 : p=p 0 cotra H : p>p 0 Rejeitamos H 0 para valores grades de X ou de forma equivalete, para valores ) X grades de p =, omeadamete para valores de p ) p ) α, ode p ) α = otação já itroduzida ateriormete. x α, utilizado Se for grade, a distribuição da estatística de teste é aproximada pela Normal, pelo que temos: Maria Eugéia Graça Martis

78 Aálise de Dados 7 Na figura aterior apresetamos a distribuição da estatística de teste, para o caso de H 0 ser verdadeira (Normal superior) e para um valor específico do parâmetro (p ), o caso de ser H verdadeira (Normal iferior). A região de rejeição é dada pelo itervalo [ p ) α, ]. Algumas coclusões são evidetes da figura aterior: Quato mais p ) α estiver para a direita, isto é, meor for o ível de sigificâcia do teste, ou a probabilidade de cometer o erro de tipo, maior será a probabilidade de cometer o erro de tipo. Assim, ão é possível miimizar os dois erros ao mesmo tempo, a ão ser aumetado a dimesão da amostra. Efectivamete, se se aumetar a dimesão da amostra recolhida, as ormais ficam mais magras, já que a variâcia dimiui; Quato meor for o erro de tipo, maior será a potêcia do teste; No caso de H 0 ser falsa, a potêcia do teste será tato maior, quato mais afastado de p 0, estiver o verdadeiro valor da proporção p (a Normal de baixo afasta-se para a direita). Maria Eugéia Graça Martis

79 Aálise de Dados 73 Formalizado um pouco o que dissémos ateriormete, para realizar um teste de hipóteses, em que as hipótese são quase sempre sobre parâmetros de modelos, é ecessário: Formular uma hipótese ula H 0, que é aquela que reflecte a situação em que ão há mudaça e em que assumimos um valor para o parâmetro o modelo proposto, e uma hipótese alterativa H, que reflecte a situação que pesamos ser verdadeira, o caso de ão o ser a hipótese ula; Arrajar uma estatística de teste, que sirva para medir a discrepâcia etre o que se observa os dados e o que se espera quado se cosidera a hipótese ula (isto é, uma estatística cuja distribuição de amostragem seja cohecida o caso da hipótese ula ser verdadeira, pois a discrepâcia é medida em termos de probabilidade); Face à amostra que etretato se recolheu, calcular o p-value; Tomar uma decisão, que se exprimirá a seguite forma: Rejeitar H 0, para o ível de sigificâcia α ou Não rejeitar H 0 para o ível de sigificâcia α. Se tivermos possibilidade de escolher etre vários testes, etão para o mesmo ível de sigificâcia, deve-se escolher o de potêcia máxima; Se tivermos possibilidade de recolher amostras de dimesão maior, melhor será, pois reduzimos as probabilidades de cometer erros, ao tomar uma decisão, aumetado também a potêcia do teste. Maria Eugéia Graça Martis

80 Aálise de Dados Testes de hipóteses sobre o valor médio Da mesma forma que realizámos testes de hipóteses sobre o parâmetro p, também se podem realizar sobre o valor médio μ, descohecido, de uma população. A metodologia a seguir é a mesma, mas agora temos de cosiderar outra estatística de teste, sedo atural cosiderar a média ou uma fução da média para fazer iferêcia estatística sobre o valor médio. Cosideremos, por exemplo, um idustrial de compoetes electróicas, que afirma que o tempo médio de vida das compoetes que fabrica é de 560 horas. Um cliete acha este tempo exagerado, pois tem tido mau resultado com este tipo de material. Etão o idustrial está iteressado em testar que o valor médio da distribuição do tempo de vida das compoetes é igual a 560 horas, ou seja de que tem razão. Temos assim uma cojectura ou hipótese sobre a população e que em testes de hipóteses se refere como Hipótese ula e se represeta por H 0. No etato a hipótese aterior vai ser testada cotra uma Hipótese alterativa que se represeta por H, que reflicta a situação que será verdadeira, o caso de ão o ser a hipótese ula. Cocretamete, o exemplo ateriormete cosiderado temos as seguites hipóteses a serem testadas (represetado por µ o valor médio da população): H 0 : µ=560 horas cotra H : µ<560 horas Escolhemos a hipótese alterativa aterior, pois ela reflecte a situação real, o caso de ão se provar que H 0 é verdadeira (estamos a pesar as queixas dos clietes). Vamos exemplificar a realização de um teste de hipóteses sobre o valor médio através do exemplo dos pesos, referido quado abordámos o problema da estimação. Supohamos que estamos iteressados em realizar um teste sobre o peso médio da população, costituída pelos idivíduos de.65 m de altura, tedo sido levatadas algumas dúvidas sobre se o peso seria de 60 kg. Etão H 0 : µ = 60 kg cotra H : µ 60 kg Maria Eugéia Graça Martis

81 Aálise de Dados 75 Formulamos a hipótese alterativa deste modo já que à partida ão tíhamos qualquer iformação que os levasse a cosiderar quer um valor médio superior, quer um valor médio iferior a 60 kg. Pesemos a seguite estatística de teste T = X μ σ/ cuja distribuição é cohecida se H 0 verdadeira. É fudametal cohecer a distribuição de T, o caso de H 0 ser verdadeira, pois esse facto vai-os permitir determiar a região de rejeição R a partir do ível de sigificâcia α, defiido à priori, P[Tε R H 0 verdadeira]= α ou seja P[ T 0 > z - α/ ] = α ode T 0 se obtém de T substituido µ por µ 0, sedo µ 0 o valor de µ cosiderado a hipótese ula (o caso do exemplo µ 0 =60). Etão a zoa de rejeição é dada pelo seguite itervalo R = ]-, -z - α/ [ ] z -α/, + [ pelo que se rejeita a hipótese H 0, sempre que t 0 ε R, sedo t 0 o valor observado da estatística de teste. Cosiderado, o exemplo, a amostra correspodete à cidade de Lisboa, temos: t 0 = 0( ) /4=.65 pelo que trabalhado com um ível de sigificâcia de 5%, se tem a seguite região de rejeição: R = ]-, -.96[ ].96, + [ Como 0.65 ão pertece à região de rejeição, ão vemos razão para rejeitar a hipótese ula. Aida o exemplo que temos vido a cosiderar, supohamos que tíhamos começado por recolher a amostra referete à cidade de Évora. Mediate o resultado obtido, uma Maria Eugéia Graça Martis

82 Aálise de Dados 76 pessoa mais céptica teria razões para suspeitar que o peso médio seria iferior a 60 kg. Nestas circustâcias deveríamos proceder ao seguite teste: H 0 : µ =60 cotra H : µ < 60 Agora a hipótese alterativa especifica que o valor médio é iferior a 60 e se a hipótese H fosse verdadeira esperaríamos obter amostras que levassem a um valor egativo para t 0 (porquê?). Quer dizer que vamos rejeitar a hipótese ula se t 0 < zα, pois P [ T < zα H 0 verdadeira] = α Para o ível de sigificâcia de 5% o quatil z.05 = , pelo que a região de rejeição é R = ]-, [ Cosiderado etão a amostra observada em Évora, obtemos t 0 = 0( ) /4 = -.34 valor que pertece à região de rejeição, dode cocluímos que devemos rejeitar a hipótese ula. Pesemos agora a cidade de Braga, em que temos razões para suspeitar que os pesos são mais altos (come-se muito bem o Norte..., o que ão quer dizer que se coma mal em Évora...), pelo que cosideramos o seguite teste: H 0 : µ=60 cotra H : µ>60 Neste mometo a hipótese alterativa idica-os que a zoa de rejeição correspoderá a valores de t 0 demasiado grades, ou seja t 0 >z-α. Como t 0 = 0(6. 60) /4=.96 e z.95=.6449 ão vemos razão para rejeitar a hipótese ula. Repare-se que dos 3 testes cosiderados ateriormete, o º é de ídole diferete dos outros dois, o que diz respeito à hipótese alterativa - o º caso estamos perate um teste bilateral equato que os outros se referem a testes uilaterais. O exemplo aterior pode-se iserir um processo mais geral de testar hipóteses sobre o valor médio, que podemos resumir do modo seguite: Maria Eugéia Graça Martis

83 Aálise de Dados 77 º caso Dados: É dada uma amostra (x,x,x ), valor observado da amostra aleatória (X,X,,X ) em que 30. Se a população tem distribuição aproximadamete ormal e variâcia cohecida, etão a dimesão da amostra pode ser iferior a 30. Hipótese ula: H 0 : µ = µ 0 (Esta hipótese ula é equivalete a µ µ 0 ou µ µ 0 coforme se utilizem as hipóteses alterativas b) e c) especificadas a seguir) Estatística de teste: T 0 = (X μ 0 ) /σ Obs. Para 30, quado σ é descohecido, pode ser estimado por s. Hipótese alterativa Decisão a tomar para um ível de sigificâcia α a) H: µ µ 0 Rejeita-se H0 se t 0 > z -α/ b) H: µ > µ 0 Rejeita-se H0 se t 0 > z -α c) H: µ < µ 0 Rejeita-se H 0 se t 0 < z α º caso Dados: É dada uma amostra (x,x,x ), valor observado da amostra aleatória (X,X,,X ) de uma população com distribuição Normal e parâmetro σ descohecido. Hipótese ula - H 0 : µ = µ 0 (Esta hipótese ula é equivalete a µ µ 0 ou µ µ 0 coforme se utilizem as hipóteses alterativas b) e c) especificadas a seguir) Estatística de teste : T = (X μ 0 ) /S Hipótese alterativa Decisão a tomar para um ível de sigificâcia α a) H: µ µ 0 Rejeita-se H 0 se t > t -α/ (-) b) H: µ > µ 0 Rejeita-se H 0 se t > t -α (-) c) H: µ < µ 0 Rejeita-se H 0 se t < t α (-) ode represetamos por tα(-) o quatil de probabilidade α da distribuição t de Studet com (-) graus de liberdade. Maria Eugéia Graça Martis

84 Aálise de Dados 78 Obs. Quado a dimesão da amostra for suficietemete grade, a distribuição da estatística T é aproximadamete ormal, pelo que podemos tratar o segudo caso de modo aálogo ao º caso. Na realidade, à medida que a dimesão da amostra aumeta e cosequetemete o úmero de graus de liberdade, a distribuição t de Studet aproxima-se da distribuição Normal P-value Um processo alterativo de realizar os testes de hipóteses ateriores é calcular o P- value. Mais cocretamete, para cada uma das situações cosideradas ateriormete, face ao valor observado t 0 ou t das estatísticas de teste T 0 ou T, calcula-se: º caso: a) P = mi {P[T 0 t 0 ], P[T 0 t 0 ]} b) P = P[T 0 t 0 ] c) P = P[T 0 t 0 ] º caso: a) P = mi {P[T t ], P[T t ]} b) P = P[T t ] c) P = P[T t ] Decisão: Para um determiado ível de sigificâcia α, rejeita-se a hipótese ula quado P α. Exercícios. Admita que a mediaa da ota da PE, dos aluos que etraram o ao lectivo 9/9 foi de 35. Com base a amostra aterior, verifique se existem razões para suspeitar de que os aluos que etraram o ao lectivo de 9/93, têm tedêcia para terem otas mais fracas. Obs. Cosidere que a população a estudar está dividida em duas categorias: a dos aluos com ota superior a 35 e dos aluos com ota iferior ou igual a 35.. Supõe-se que uma população existem três vezes mais idivíduos ão fumadores do que fumadores. a) Tedo-se recolhido uma amostra de 0 idivíduos, verificou-se que 7 eram fumadores. Teste, ao ível de sigificâcia de 5% se a suposição tem razão de ser. Maria Eugéia Graça Martis

85 Aálise de Dados 79 b) Na população aterior pretede-se estudar a icidêcia de doeça pulmoar. Sabe-se que a percetagem de doetes etre os fumadores e ão fumadores é respectivamete de 60% e 0%. (i) Determie a probabilidade de um idivíduo ter doeça pulmoar. (ii) Determie a probabilidade de um doete pulmoar ser fumador. (iii) Qual a probabilidade de uma amostra de 0 doetes, pelo meos três serem fumadores? (iv) Qual a probabilidade de uma amostra de 5 doetes, mais de metade serem fumadores? 3. O sr. X ão cosegue chegar a horas ao emprego. Todos os dias marca o poto depois da hora estipulada para a sua etrada. No fial do mês, jutamete com uma repreesão escrita, recebeu uma folha com um registo dos seus atrasos (em miutos): a) Ivestigue a existêcia de possíveis outliers a amostra. b) O sr. X acha ijusta a repreesão, já que segudo diz, desde que trabalha aquela empresa, mais de 50% das vezes o atraso é iferior a 5 miutos. Com base os dados ateriores verifique se existe evidêcia suficiete para dar razão ao sr. X. 4. Supoha que uma amostra recolhida de redimetos de famílias de determiada cidade revelou que 55% dos redimetos da população se situam etre os 60 e os 0 cotos. O presidete da câmara cosidera-a "ideal"! Descofia-se que o bairro X ão segue a distribuição "ideal" da cidade. Recolheu-se uma amostra de valores de redimetos familiares esse bairro, tedo-se obtido os seguites resultados: Verifique se esta suspeita tem razão de ser. 5. Um grupo de 0 idivíduos hipertesos, foi submetido durate 30 dias a um regime de dieta sem sal. Apresetam-se a seguir os valores da pressão sistólica para esses idivíduos: sexo Ates da dieta Depois da dieta M M M F F M F M M F F F M M F M Maria Eugéia Graça Martis

86 Aálise de Dados 80 M F F F a) Um especialista afirma que após um mês em regime de dieta sem sal, pelo meos 80% dos idivíduos apreseta uma dimiuição da pressão sistólica superior a 0%. Averigúe se existem razões para duvidar da afirmação do especialista. 6. Recolheu-se a opiião de 0 executivos acerca de máquias fotocopiadoras, verificado-se que 5 preferiam a marca Kodac relativamete à marca Xerox. Pesa-se, o etato, que a realidade ão existem difereças sigificativas etre as máquias, pelo que a probabilidade de cada uma ser escolhida é de 50%. Poderíamos assim cosiderar as seguites hipóteses a testar: H 0 : p=.5 cotra H : p.5 em que represetamos por p a probabilidade de ser escolhida a máquia Kodac. Se para 0 executivos cosultados, represetar por X o úmero dos que preferem Kodac, cosidere a seguite regra de decisão: rejeito H 0 se X<6 ou se X>4 a) Qual o ível de sigificâcia associado ao teste aterior? b) Qual a decisão a tomar relativamete á amostra cosiderada? c) Para as hipóteses H0 e H especificadas, qual a regra de teste se efectivamete o úmero de executivos que costituem a amostra fosse de 50, cosiderado o ível de sigificâcia de 5%? 7. Admite-se que a quatidade de icotia (medida em mg.) existete uma dada marca de cigarros, tem distribuição ormal. Observaram-se 5 cigarros da referida marca tedo-se obtido: O fabricate afirma que a quatidade média de icotia, por cigarro, é de 3.5 mg. a) Teste, ao ível de sigificâcia α= 0.0 a hipótese: H 0 : µ = 3.5 cotra H : µ > 3.5 b) Determie um itervalo de 95% de cofiaça para a quatidade média de icotia existete em cada cigarro. 8. O departameto de cotrolo de qualidade de uma fábrica de coservas, está a disposição de madar reajustar todo o equipameto, caso se verifique que o peso médio de cada lata é iferior ao especificado a embalagem. Nomeadamete o caso das latas de sardiha, especifica-se que este peso seja de 50 gramas. Com o objectivo de tomar uma decisão, procedeu-se à recolha de algumas latas de sardiha, que se pesaram, usado-se a média X, - como estatística de teste. a) Formule as hipóteses ula e alterativa, em termos do valor especificado para o peso médio. Maria Eugéia Graça Martis

87 Aálise de Dados 8 b) Tedo em cosideração as cosequêcias que advêm de cometer um erro de tipo I, deverá escolher um ível de sigificâcia grade ou pequeo? Justifique coveietemete a sua resposta. Qual ou quais os valores que escolheria? c) Admitido que o peso das latas de sardiha se distribui de acordo com uma Normal e que os valores observados para os pesos de uma amostra de 0 latas foram ( em gramas): qual a decisão que o gerete da fábrica deve tomar, o que diz respeito ao reajustameto do equipameto? 9. Um médico receita aos seus doetes um medicameto para dimiuir o úmero de pulsações por miuto. Recolheu o º de pulsações a doetes medicados, que já tomam o medicameto há um mês, tedo obtido o seguite output, obtido através de um software de Estatística, em que seleccioou como opção, utilizar a distribuição t-studet: Com 95% de cofiaça: < μ < a) Quais as hipóteses que o ivestigador teve de admitir para tomar a opção de seleccioar a distribuição t-studet? b) Explique o que sigifica o output aterior. c) Qual a margem de erro do itervalo? d) Se o itervalo fosse calculado com uma cofiaça de 99%, a margem de erro aumetaria ou dimiuiria? 0. Durate um cateterismo para detectar a a exteção da doeça cardíaca, verificado o estado das artérias, é itroduzido um pequeo tubo, o catéter, através de uma artéria da pera. É importate que catéter teha um diâmetro de.00mm, em média, com um desvio padrão muito pequeo. O processo de fabrico dos cateteres é submetido a um rigoroso cotrolo de qualidade, de modo que todos os dias são recolhidas algumas medidas, para testar a hipótese ula H 0 : m =.00mm, cotra a hipótese alterativa m.00mm, com um ível de sigificâcia de 5%, para parar o processo de fabrico, o caso de haver alterações. a) Estamos perate um teste uilateral ou bilateral? Porque é que isto é importate, o cotexto do problema? b) Explicar o que é que acotece se o departameto de cotrolo de qualidade cometer um erro de tipo? c) E se cometer um erro de tipo?. Uma fábrica de bolachas com pedacihos de chocolate, ao auciar as suas bolachas diz que cada pacote de meio quilo cotém, pelo meos, 000 pedacihos de chocolate. Os estudates do Departameto de Estatística de determiada Uiversidade, decidiram comprar algus destes pacotes e cotar o úmero de pedacihos de chocolate, tedo obtido os seguites resultados: Maria Eugéia Graça Martis

88 Aálise de Dados a) Verifique se estão cumpridas as codições para poder fazer ifereêcia. b) Obteha um itervalo de 95% de cofiaça para o úmero médio de pedacihos de chocolate, em cada pacote. c) O que é que pode cocluir sobre o que diz a empresa que vede as bolachas? Utilize o itervalo aterior para testar uma hipótese apropriada para tirar coclusões. Sugestão: Verifique que o itervalo de cofiaça é (87.9, 88.4) e de seguida calcule P(X<000) tedo em cosideração que a v.a.x, que represeta o º de pedacihos de chocolate em cada pacote, tem distribuição Normal N(88, 94) ou N(88, 94). Maria Eugéia Graça Martis

89 Aálise de Dados 83 Testes à igualdade de duas populações 4 Teste sobre a difereça de proporções de duas populações idepedetes. Testes de hipóteses sobre a difereça de valores médios de duas populações idepedetes Normais variâcias cohecidas, variâcias descohecidas e iguais ou variâcias descohecidas e diferetes. Caso de populações ão Normais, mas grades amostras. Caso de amostras emparelhadas. 4. Iferêcia sobre a difereça etre as proporções de duas populações Uma situação que por vezes tem iteresse estudar, é a difereça etre proporções correspodetes a duas populações. Supohamos, por exemplo, a situação de um cadidato a Presidete da República, que está iteressado em saber se a percetegem de poteciais eleitores que votarão ele é igual para Lisboa e Porto. Outro exemplo é o de duas máquias que produzem o mesmo tipo de artigo e estamos iteressados em estudar se a percetagem de defeituosos é igual, para as duas máquias. Temos aida o caso em que se pretede cohecer se o sucesso o exame acioal de Matemática, é o mesmo para os aluos de duas escolas distitas. Sejam etão duas populações W e W e p e p as percetages ou proporções que se pretedem comparar: p percetagem de elemetos da população W pertecetes a determiada categoria; p percetagem de elemetos da população W pertecetes a determiada categoria Maria Eugéia Graça Martis

90 Aálise de Dados 84 Sejam e as dimesões de amostras recolhidas respectivamete das populações W e W. Etão uma estimativa potual de p p será dada por p ) ) ) R p, ode p = e ) R p =, sedo R e R, respectivamete o úmero de elemetos das amostras que pertecem à categoria em estudo. Admitido que temos populações ifiitas ou que a amostragem se faz com reposição, já vimos o Capítulo que as variáveis aleatórias R e R têm, respectivamete, distribuição Biomial de parâmetros (, p ) e (, p ). Não é cohecida a distribuição de amostragem exacta de p ) ) p, mas admitido que as dimesões das amostras são suficietemete grades, a distribuição de p ) p ) (p p ) p( p) p ( p ) pode ser aproximada pela N(0,) + Este resultado vai-os servir para costruir os testes de hipóteses sobre a difereça de proporções p -p Testes de hipóteses sobre a difereça de proporções Cosideremos os seguites testes, realizados para o ível de sigificâcia α: a) H 0 : p -p p 0 cotra H : p -p > p 0 Se H 0 verdadeiro, podemos cosiderar para estatística de teste Z = ) ) p p p0 ) ) ) ) p( p) p ( p ) + ~ N(0,) Região de rejeição: Valores grades da estatística de teste ou Z z -α ou p ) ) p p0 + z -α ) p ( p) p ( ) ) + ) p ) b) H 0 : p -p p 0 cotra p -p < p 0 Região de rejeição: Valores pequeos da estatística de teste ou Maria Eugéia Graça Martis

91 Aálise de Dados 85 Z z α ou p ) ) p p0 + z α ) p ( p) p ( ) ) + ) p ) c) H 0 : p -p = p 0 cotra p -p p 0 Região de rejeição: Valores pequeos ou grades da estatística de teste ou Z z -α/ ou p ) ) p p0 + z -α/ ) p ( p) p ( ) ) + ) p ) Podemos em alterativa calcular o P-value (valor-p), que se obtém, calculado para o valor observado da estatística de teste, z obs, as seguites probabilidades: a) P(Z z obs H 0 ) b) P(Z z obs H 0 ) c) P(Z z obs H 0 ) 4... Itervalo de cofiaça para a difereça de proporções Um itervalo de cofiaça, com uma cofiaça de 00(-α)% vem imediatamete a partir da distribuição de amostragem para a difereça de proporções amostrais: ) ) p p ± p0 + z -α/ ) p ( p) p ( ) ) + ) p ) 4. Iferêcia sobre a difereça etre os valores médios de duas populações De um modo geral, quado se está a fazer um estudo comparativo, utiliza-se o termo estatístico tratameto para referir as características que estão a ser comparadas. Por exemplo, um estudo para ivestigar se um ovo tipo de semete de trigo produz maior quatidade de cereal, semearam-se várias porções de terreo, umas com a semete ormal e as outras com a ova semete. As porções de terreo semeadas com cada tipo de semete foram escolhidas aleatoriamete. Quado o trigo amadureceu, pesaram-se as quatidades produzidas por cada porção de terreo. Nesta Maria Eugéia Graça Martis

92 Aálise de Dados 86 experiêcia os dois tipos de semete represetam os dois tratametos. A atribuição de cada tipo de semete a cada porção de terreo, costitui o que se chama o plaeameto da experiêcia. Esta fase é crucial para o tratameto futuro dos dados, já que este plaeameto pode, de uma maeira geral, produzir: Amostras idepedetes ou Amostras emparelhadas (pares de dados) O primeiro caso, das amostras idepedetes, verifica-se quado os idivíduos ou uidades que vão ser expostas a cada tratameto, são escolhidas aleatoriamete em dois grupos, atribuido-se a um dos grupos o tratameto e ao outro grupo o tratameto. Os resultados que se obtêm de cada tratameto costituem uma amostra de uma dada população, pelo que podemos falar em comparação de populações. Num plaeameto de experiêcias por pares, os idivíduos ou uidades que vão ser expostas ao tratameto são escolhidas aos pares, de modo que os membros de cada par são semelhates, e um elememto de cada par recebe o tratameto, equato que o outro recebe o tratameto. assim, ao cotrário do que se passa o caso aterior, esperamos que os resultados de cada par sejam depedetes, já que houve, à partida, codições marcates para que isso acotecesse, a escolha de elemetos semelhates. Vamos começar por abordar o primeiro caso de amostras idepedetes de duas populações Iferêcia sobre a difereça etre valores médios de populações idepedetes Cosideremos duas populações X e X, idepedetes, de valores médios e desvios padrões, respectivamete, μ e μ e σ e σ. Sejam X, X,..., X e X, X,..., X, duas amostras aleatórias de X e X, respectivamete. O osso objectivo, ao preteder comparar os dois tratametos ou populações, vai ser o de comparar os seus valores médios. Assim, pretede-se fazer iferêcia sobre μ -μ. Maria Eugéia Graça Martis

93 Aálise de Dados 87 O estimador potual para a difereça etre os valores médios é, obviamete, X X. No que diz respeito à distribuição de amostragem deste estimador, tem-se E( X X ) = μ -μ Var( X X ) = σ σ + e o que diz respeito à forma da distribuição, podemos cosiderar os seguites casos: 4... As populações são Normais e as variâcias são cohecidas Neste caso, tedo em cosideração que a combiação liear de variáveis aleatórias, idepedetes, com distribuição Normal, aida tem distribuição Normal, vem imediatamete X X σ ( μ σ + μ ) I N(0,) Testes de hipóteses sobre μ -μ H 0 : μ -μ = δ 0 Estatística de teste sob H 0 : Z = X X σ δ σ + 0 Hipótese alterativa H Região de Rejeição P-value μ -μ > δ 0 z z -α P(Z Z obs H 0 ) μ -μ < δ 0 z z α P(Z Z obs H 0 ) μ -μ δ 0 z z -α/ P(Z Z obs H 0 ) Itervalo de cofiaça, com uma cofiaça de 00(-α)%, para μ -μ X X ± z -α/ σ σ + Maria Eugéia Graça Martis

94 Aálise de Dados As populações são Normais e as variâcias são iguais e descohecidas teste t, para amostras idepedetes Se a variâcia comum σ fosse cohecida, etão estaríamos o caso aterior. No etato, de um modo geral a variâcia é descohecida e será estimada a partir das duas amostras. O estimador utilizado é o chamado pooled variace, que se obtém da seguite forma: S = ( ) S + ( ) S + e com este estimador X X ( μ μ ) I t( + -) S + tem como distribuição (exacta) uma t-studet com ( + -) graus de liberdade. Testes de hipóteses sobre μ -μ, para um ível de sigificâcia α H 0 : μ -μ = δ 0 Estatística de teste sob H 0 : T = X S X δ + 0 Hipótese alterativa H Região de Rejeição P-value μ -μ > δ 0 t t -α () P(T T obs H 0 ) μ -μ < δ 0 t t α P(T T obs H 0 ) μ -μ δ 0 t t -α/ P(T T obs H 0 ) () Quatil de probabilidade (-α) da t-studet com ( + -) graus de liberdade. Itervalo de cofiaça, com uma cofiaça de 00(-α)%, para μ -μ X X ± t -α/ S + Maria Eugéia Graça Martis

95 Aálise de Dados As populações são Normais e as variâcias são diferetes e descohecidas No caso aterior exigimos que as variâcias fossem iguais, para termos uma distribuição exacta e posteriormete podermos utilizar o teste t. Em termos práticos S S verifica-se se ão é muito diferete de. Como regra empírica, se 4, S 4 S S assume-se a igualdade de variâcias e utiliza-se o processo descrito. Se S for muito diferete de, deve-se suspeitar da igualdade de variâcias e utiliza-se, por exemplo, um método ão paramétrico. A regra que apresetámos é empírica, pelo que em situações de maior rigor deve-se utilizar um teste de igualdade de variâcias para populações ormais (por exemplo o teste F). No etato, aida para o caso de populações ormais, pequeas amostras e variâcias diferetes, existe um processo aproximado sugerido por Satterthwaite e daí o ome de aproximação de Satterthwaite, que sugeriu aida a distribuição aproximada de uma t- Studet para a estatística de teste X X ( μ μ ) S S + mas com o úmero de graus de liberdade dado pela equação f = s ( s ( ) s + s ( ) + ) Os testes sobre μ -μ são idêticos ao caso aterior. Maria Eugéia Graça Martis

96 Aálise de Dados As populações ão são Normais e as amostras têm dimesão grade No caso em que as amostras têm dimesão suficietemete grade a distribuição de amostragem de X X S ( μ S + μ ) pode ser aproximada pela N(0,) A iferêcia estatística sobre μ -μ é idêtica à realizada o caso 4... com as variâcias substituídas pelos estimadores. 4.. Amostras emparelhadas Ao comparar dois tratametos, seria desejável que os idivíduos ou uidades experimetais sujeitas a esses tratametos, fossem tão semelhates quato possível, de modo que as difereças etre os resultados dos dois grupos pudessem ser atribuídas às difereças de tratameto. Na realidade, se algumas codições variarem de forma icotrolada os idivíduos sujeitos a tratameto, essas codições podem itroduzir os resultados uma grade variabilidade. Por outro lado, a imposição de que todos os idivíduos sejam semelhates é demasiado restritiva, podedo, iclusivamete, impedir a recolha de amostras de dimesão suficiete para determiadas aálises estatísticas. Por exemplo, para a comparação de dois aalgésicos, seria impraticável obter um úmero suficiete de doetes as mesmas codições da doeça, mesmo sexo, mesma idade, etc. Além disso seria mais razoável aplicar os aalgésicos a idivíduos com características diferetes. Estamos uma situação de coflito, em que por um lado exigimos idivíduos com características semelhates, mas que também teham características diferetes! Para resolver esta questão, etramos com o coceito de matchig ou blockig, que cosiste em escolher os idivíduos por pares ou blocos, de modo que detro de cada bloco teham características semelhates e sejam diferetes, para blocos diferetes. Maria Eugéia Graça Martis

97 Aálise de Dados 9 Num plaeameto de experiêcias deste tipo, depois de seleccioados os pares (ou blocos), deve-se aplicar a cada elemeto do par o tratameto ou de forma aleatória. Represetado por X e X, respectivamete, as respostas ou resultados ao tratameto ou, os dados apresetam-se com a seguite estrutura: Par Tratameto Tratameto Difereça D X X D X X D 3 X 3 X 3 D 3 N X X D As difereças D, D, D 3,..., D, costituem a amostra aleatória. Observe-se que, embora os pares (X i, X i ) sejam idepedetes us dos outros, detro do mesmo par ão existe idepedêcia, tedo em cosideração a forma como foi plaeada a experiêcia. Algumas das estatísticas de iteresse são D = D i i= e S D = (Di D) i= A iferêcia estatística sobre as difereças etre os valores médios dos resultados devidos aos dois tratametops, resume-se a fazer iferêcia sobre δ = μ -μ, e os processos resumem-se ao que já foi dito atrás sobre a iferêcia sobre o valor médio de uma população Populações Normais, pequeas amostras teste t emparelhado No caso em que temos pequeas amostras, é ecessário assumir que a amostra D i = X i X i, é proveiete de uma população Normal (δ, σ D ). Etão, a estatística de teste que vamos utilizar tem uma distribuição t-studet, com (-) graus de liberdade e a este tipo de teste chamamos o teste t emparelhado (t-paired test). Testes de hipóteses sobre μ -μ Maria Eugéia Graça Martis

98 Aálise de Dados 9 H 0 : μ -μ = δ 0 Estatística de teste sob H 0 : T = D δ 0 S / D Hipótese alterativa H Região de Rejeição P-value μ -μ > δ 0 t t -α () P(T T obs H 0 ) μ -μ < δ 0 t t α P(T T obs H 0 ) μ -μ δ 0 t t -α/ P(T T obs H 0 ) () Quatil de probabilidade (-α) da t-studet com (-) graus de liberdade Observação Para testar que os dois tratametos tiveram o mesmo efeito, faz-se δ 0 =0. Itervalo de cofiaça, com uma cofiaça de 00(-α)%, para μ -μ 4... Grades amostras D ± t -α/ Neste caso a distribuição da estatística de teste pode ser aproximada pela distribuição Normal(0,), pelo que temos o seguite: S D H 0 : μ -μ = δ 0 Estatística de teste sob H 0 : Z = D δ 0 S / D Hipótese alterativa H Região de Rejeição P-value μ -μ > δ 0 z z -α P(Z Z obs H 0 ) μ -μ < δ 0 z z α P(Z Z obs H 0 ) μ -μ δ 0 z z -α/ P(Z Z obs H 0 ) Itervalo de cofiaça, com uma cofiaça de 00(-α)%, para μ -μ D ± z -α/ S D Maria Eugéia Graça Martis

99 Aálise de Dados Que tipo de plaeameto fazer Ao plaear uma experiêcia para comparar dois tratametos, muitas vezes temos a opção de escolher etre cosiderar amostras idepedetes ou amostras emparelhadas. Vejamos algumas cosiderações sobre estes dois tipos de plaeameto. Se cosiderarmos pares de observações, obtemos valores, o que correspode o caso de amostras idepedetes a duas amostras de dimesão igual a. Para o cálculo da média, é idiferete se as amostras estão emparelhadas ou ão, já que D = (X i= i X i ) = X Cetrado a ossa ateçaõ o caso de termos pequeas amostras, o que diz respeito aos itervalos de cofiaça para μ -μ, temos X X X ± t -α/ * estimador do erro padrão (desvio padrão da difereça das médias) Estimativa do erro padrão Amostras idepedetes Amostras emparelhadas ( = =) pares s + S D Graus de liberdade (-) - Obs: s= ( )s + ( )s s + = ( ) s Do quadro apresetado ateriormete verifica-se que, se cosiderarmos amostras emparelhadas, o º de graus de liberdade dimiui, o que implica que para o mesmo valor de α, o quatil de probabilidade -α/ será maior. Por exemplo com =0, t.95 (9)=.833, equato que t.95 (8)=.734. Assim, se o valor estimado para o erro padrão fosse igual os dois casos, uma dimiuição do úmero de graus de liberdade, verificada para o caso das amostras emparelhadas, implicaria um itervalo de cofiaça maior. Aalogamete, os testes de Maria Eugéia Graça Martis

100 Aálise de Dados 94 hipóteses, este facto resultaria uma perda de potêcia para detectar difereças reais os valores médios de duas populações. Na verdade, o grade mérito das amostras emparelhadas, se efectivametev a escolha dos pares for feita de modo a cumprir os objectivos deste tipo de plaeameto, está em que os resultados obtidos para os pares são altamete correlacioados, obtedo-se uma redução a variâcia das difereças D i. Esta redução a variâcia e cosequetemete o valor estimado para o erro padrão, compesa a perca de graus de liberdade (ex pag 345, Bhattacharya) 4.3 Teste para a igualdade de variâcias em populações Normais São dadas duas amostras aleatórias X, X,..., X e X, X,..., X, de populacões Normais, X e X, idepedetes, em que os valores médio μ e μ e as variâcias σ, são descohecidos. Represetado as variâcias amostrais por S / σ que F= S / σ S e σ e S, sabe-se tem uma distribuição F com ( -) graus de liberdade o umerador e ( -) graus de liberdade o deomiador, que se represeta por F( -; -) 4. Este facto vai-os servir para testar a igualdade de variâcias, codiderado F como S estatística de teste, uma vez que sob H 0 : σ = σ, F 0 = S tem distribuição F( -; -). Temos etão os seguites testes: H 0 : σ = σ S Estatística de teste sob H 0 : F 0 = S Hipótese alterativa H Região de Rejeição P-value σ σ f 0 F -α/ ( -; -) ou mi{p(f F obs H 0 ), f 0 F α/ ( -; -) P(F F obs H 0 )} 4 A distribuição F goza da propriedade de Fα(m;)=/F-α (;m) Maria Eugéia Graça Martis

101 Aálise de Dados 95 σ > σ f 0 F -α ( -; -) P(F F obs H 0 ) σ < σ f 0 F α ( -; -) P(F F obs H 0 ) Itervalo de cofiaça, com uma cofiaça de 00(-α)%, para σ / σ : s s σ s F α/ ( -; -) σ s F -α/ ( -; -) Exemplo 4. (Adaptado de Murteira, B. et al, 00) Para cofrotar dois tipos de máquias de ceifar, um trigal foi dividido em secções logitudiais, e cada duas secções adjacetes, tratadas por cada uma das máquias. As produtividades alcaçadas foram as seguites: Máquia A: Máquia B: Pretededo averiguar se a produtividade das duas máquias é idêtica, utilizado o teste t, averigúe da igualdade das variâcias. H0: σ = σ cotra H : σ σ A B A B S Estatística de teste sob H 0 : F 0 = S A B com distribuição F(9;9) Decisão: Não rejeitar a igualdade de variâcias. Observação: O teste F, para a igualdade de variâcias pode ser realizado directamete o Excel. Para isso basta seleccioar Tools Data Aalysis F-Test Two Samples for Variaces Maria Eugéia Graça Martis

102 Aálise de Dados 96 Maria Eugéia Graça Martis

103 Aálise de Dados 97 Métodos ão paramétricos 5 Métodos ão paramétricos como alterativa aos métodos paramétricos. Testes de ajustameto teste do Qui-quadrado e de Kolmogorov-Smirov. Problema da localização e da localização e simetria Teste dos Siais e teste de Wilcoxo. Testes de hipóteses em modelos ão paramétricos para testar a homogeeidade de populações idepedetes Teste de Ma-Whitey e de Kruskal-Wallis. Teste do Quiquadrado em tabelas de cotigêcia para testar a homogeeidade e a idepedêcia. Outros testes para testar a idepedêcia. 5.. Itrodução Vimos os capítulos ateriores algus processos de iferêcia estatística, omeadamete os que evolvem pequeas amostras, em que é ecessário fazer hipóteses sobre a forma da distribuição da população subjacete à amostra. De um modo geral a iferêcia estatística clássica admite o modelo Normal e temos assim o teste-t, quado pretedemos fazer testes de hipóteses acerca do valor médio de uma população ou pretedemos comparar populações, ou o teste F quado comparamos variâcias. Felizmete algus destes processos são razoavelmete robustos para os desvios da ormalidade e basta assumir a simetria, para que aida se possam utilizar. É exemplo desta situação o teste-t, que é bastate robusto, podedo aida cotiuar a aplicar-se quado a população ão é Normal, mas simétrica. No etato, em sempre é apropriado cosiderar como hipótese, que a população subjacete a determiada amostra, segue uma família específica de distribuições. Pode aida acotecer, por exemplo, que os dados os sejam dados através de uma ordeação e ão tehamos acesso aos verdadeiros valores é o que acotece quado temos as classificações de um cojuto de cadidatos a um lugar, em que esses Maria Eugéia Graça Martis

104 Aálise de Dados 98 cadidatos foram ordeados, ão dispodo de classificações idividuais. Nestes casos têm de se utilizar os chamados métodos ão paramétricos, que são métodos com uma grade geeralidade de aplição, já que as hipóteses subjacetes a essa aplicação são pouco restritivas, o que ão sigifica que ão teham de se fazer algumas hipóteses. Os métodos ão paramétricos baseiam-se essecialmete em cotages, ordes e siais de difereças. Como são métodos que fucioam bem para várias distribuições, dizem-se robustos e as estatísticas utilizadas recebem o ome de estatísticas firmes. EXEMPLO 5. Para testar o efeito de um ovo medicameto, cosiderou-se um grupo de 9 doetes, tedo-se dado o medicameto a 4 dos doetes escolhidos aleatoriamete. Passadas 3 semaas, os 9 doetes foram examiados por um médico que, com base um cojuto de observações clíicas, ordeou os doetes, uma escala de a 9, sedo o atribuído ao doete que se apresetava em melhores codições e o 9 o que se apresetava em piores codioções. Pretede-se testar, com base esta iformação, o seguite: H 0 : O ovo medicameto cotra H : O ovo medicameto ão tem efeito tem efeito (bom ou mau) Uma estatística de teste possível será cosiderar a soma das ordes dos doetes que tomaram o medicameto. Se o ovo medicameto ão tem efeito, as ordes dos doetes que o tomaram podem ser quaisquer, pelo que o resultado fial pode ser qualquer das 6 combiações possíveis das 9 ordes 4 a 4. No etato, se o medicameto teve efeito beéfico deveremos ter, por exemplo, (,,3,4), equato que se fôr prejudicial teríamos (6,7,8,9). Os valores possíveis para a estatística de teste T, que represeta a soma das ordes dos 4 doetes que tomaram o medicameto são T Nº de vezes A região de rejeição será costituída pelos valores grades ou pequeos da estatística de teste. Se rejeitarmos para T= 0,, 9 e 30, etão o ível de sigificâcia do teste será = 4/ Na secção seguite vamos abordar os testes de ajustameto, que se podem iserir a categoria dos métodos ão paramétricos Maria Eugéia Graça Martis

105 Aálise de Dados Testes de ajustameto 5.. Itrodução Será que existe alguma razão para dizer que os ascimetos são iflueciados pelas fases da Lua? Será que o sigo ifluecia o futuro, mais ou meos brilhate, de cada idivíduo? Será que é verdade o que a empresa das drageias M&M afirma, sobre as percetages de cores das drageias em cada embalagem? A revista Fortue (De Veaux ad al, 004) recolheu os sigos de 56 presidetes de 400 das maiores empresas, tedo obtido a seguite iformação: Careiro 3 Balaça 8 Touro 0 Escorpião Gémeos 8 Sagitário 9 Caraguejo 3 Capricório Leão 0 Aquário 4 Virgem 9 Peixes 9 Na tabela aterior verifica-se que o sigo dos Peixes sobressai com maior úmero de ascimetos, mas será esta difereça suficiete para dizer que os idivíduos que ascem sob este sigo têm maior probabilidade de sucesso? Se os ascimetos se distribuissem uiformemete, esperaríamos aproximadamete.3 (56/) ascimetos em cada sigo. De que modo é que os valores observados se ajustam à hipótese (ula) de que os ascimetos se distribuem uiformemete ao logo do ao? Neste caso já ão temos, como o capítulo aterior, um teste sobre uma proporção, mas sim sobre proporções, uma para cada sigo, pelo que precisamos de arrajar um teste que os dê uma ideia global sobre se as proporções observadas diferem muito das cojecturadas (cosideradas a hipótese ula). 5.. Geeralização do modelo Biomial o modelo Multiomial Cosideremos uma População W dividida em k categorias disjutas e exaustivas A, A,, A k, pelo que cada idivíduo da população pertece a uma e só a uma das categorias. Para i=,, k, seja p i a proporção de idivíduos da População pertecetes à categoria i, tedo-se Nesta secção seguimos itegralmete Graça Martis, M. E. (005) Maria Eugéia Graça Martis

106 Aálise de Dados 00 k p i i= Fazer iferêcia estatística acerca desta População resume-se a estudar os parâmetros p i, i=,, k. Recolha-se da População em estudo uma amostra de dimesão, (x, x,, x ) e comece-se por costruir a tabela de frequêcias associadas às categorias = Classes Frequêcia A o A o A k Da tabela de frequêcias aterior obtêm-se as estimativas (da máxima verosimilhaça) dos parâmetros p i, o k p ) i = o i, i=,, k. Temos agora uma geeralização dum caso tratado ateriormete, pois ao cotrário do que se passava aí, em que podíamos cosiderar que estávamos perate provas de Beroulli (cada idivíduo pertecia a uma de categorias, A ou A C, sedo costate a probabilidade de pertecer à categoria A, e daí termos cosiderado o modelo Biomial), temos este mometo provas multiomiais - uma prova multiomial, com parâmetros p i, i=,, k, é uma prova cujo resultado pode ser um de k possíveis, chamados classes ou categorias. A probabilidade da ocorrêcia da k-ésima classe é p i, com k p i i= 0 pi e =. Mais formalmete, temos que a geeralização do modelo Biomial é o chamado modelo Multiomial que cosiste o seguite: Cosideram-se provas idêticas; O resultado de cada prova pode pertecer a uma de k classes possíveis A, A,, A k ; Maria Eugéia Graça Martis

107 Aálise de Dados A probabilidade de que o resultado perteça à classe A i, é p i e é sempre a mesma de prova para prova, i=,, k e p +p + +p k =; 4 As provas são idepedetes; 5 As variáveis de iteresse são O, O,,O k, em que O i é o úmero de vezes em que o resultado pertece à classe A i e O +O + +O k =. Euciamos a seguir algumas defiições e resultados úteis para a aálise da População em estudo. Defiição 5.. Dada uma experiêcia que cosiste em provas repetidas multiomiais, idepedetes, com parâmetros p i, i=,, k, seja O i a v.a. que represeta o º de provas cujo resultado pertece à i-ésima classe, i=,, k. Etão (O, O,, Ok) é uma variável aleatória multiomial com parâmetros, p i, i=,, k. Teorema 5. Se (O, O,, O k ) é uma v. a. multiomial com parâmetros, p i, i=,, k, etão P(O =o, O =o,, O k =o k ) =! o!o!...o k! o o ok p p k p o i = 0,, k o i i= = ; i=,, k Observação: Repare-se que se k=, estamos o caso Biomial. Teorema 5. Se (O, O,, O k ) é uma v.a. multiomial, com parâmetros, p i, i=,, k, etão a fução distribuição da v.a. U = k i = (O i p i ) p i aproxima-se da fução distribuição dum χ com (k-) graus de liberdade, quado. O resultado aterior serve para testar a hipótese de que (O, O,, O k ) é uma v.a. multiomial com parâmetros, p i, i=,, k. Basta para isso calcular Maria Eugéia Graça Martis

108 Aálise de Dados 0 u = k i = (o i p i ) p i para uma amostra observada (o, o,, o k ) e rejeitar a hipótese se u ( k ) χ α, ode χ α ( k ) é o quatil de probabilidade (-α) de uma distribuição dum χ com (k-) graus de liberdade. Nota - A distribuição aproximada da estatística de teste do Qui-quadrado pode ser obtida de forma ituitiva da forma seguite: Numa experiêcia multiomial em que cada resultado pode ser um de k possíveis, o úmero médio de resultados, em, que pertecem à classe A i é p i. Etão O i tem distribuição Biomial(,p i ), pelo que se for suficietemete grade e p i suficietemete pequeo, a distribuição de O i pode ser aproximada por uma Poisso de valor médio p i, pelo que a distribuição de O i p i p i pode ser aproximada por uma Normal(0,). Fialmete O i p i p i tem uma distribuição de um χ com () grau de liberdade e k (O i p i ) tem uma distribuição dum χ com (k-) graus de liberdade. p i = i Observação - O modelo do χ tem uma fução desidade com suporte positivo e tem eviesameto para a direita, depededo a sua forma do úmero de graus de liberdade. Apreseta-se a seguir a fução desidade do Qui-quadrado para vários graus de liberdade: Maria Eugéia Graça Martis

109 Aálise de Dados Teste de ajustameto do Qui-quadrado Aálise de dados qualitativos Cosiderado etão a População em estudo, pretedemos realizar testes de hipóteses sobre os parâmetros p i, i=,, k, sedo as hipóteses a testar H 0 : p = p 0, p= p 0,, pk= p 0 k cotra H: pi p 0 i para algum i=,,k Estamos em codições, depois dos resultados apresetados ateriormete, de utilizar a estatística X = k i = (O i e i ) ode O i é a v.a. que represeta o º de idivíduos observados a amostra, de dimesão, que pertecem à classe A i e e i =p 0 i, i=,,k. Esta estatística, sob a hipótese de H 0 ser verdadeira, tem uma distribuição de amostragem aproximada de um χ com (k-) graus de liberdade. Regra de decisão: Para o ível de sigificâcia α, rejeita-se a hipótese ula H 0 quado X χ α ( k ), ou seja, a região de rejeição é costituída pelo itervalo [ como se pode ver pela figura seguite e i χ α (k-), + [, De forma alterativa, face ao valor observado da estatística de teste value P= P(X x 0 ) e rejeita-se H0 quado P α. x 0, calcula-se o p- Observação: Para se utilizar este teste deve-se ter em cosideração que os valores esperados para cada classe, e i ão podem ser muito pequeos. Normalmete exigemse que sejam 5. Maria Eugéia Graça Martis

110 Aálise de Dados 04 Exemplo 5. Utilize os dados apresetados o iício deste capítulo, para verificar se existe evidêcia de que existam algus sigos mais propícios a que os seus ativos sejam homes de sucesso. H 0 : P(Careiro) = P(Touro) = P(Gémeos) =... = P(Peixes) = / cotra H : Alguma das probabilidades ateriores é diferete de / Sabemos que, sob H 0, a estatística de teste tem uma distribuição aproximada dum χ com graus de liberdade, uma vez que k=, isto é, temos classes. Para calcular o valor observado da estatística de teste, vamos cosiderar a seguite tabela: Obtivémos o valor de para a estatística de teste. Será que é um valor grade? Será que é um valor a cauda direita da fução desidade? Será que P(X ) é um valor pequeo, quado a distribuição de X é um χ com graus de liberdade? Estas três questões, são outras tatas formas de fazer a mesma perguta, que é: Há evidêcia para rejeitar a hipótese ula H 0? Repare-se que este caso, ão temos dificuldade em dizer que ão há evidêcia para rejeitar H 0, pois basta ver a figura da fução desidade do χ com graus de liberdade, que o valor é relativamete pequeo. De qualquer modo calculámos o P-value associado a este teste, utilizado a fução CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), ode X é uma variável aleatória com uma distribuição do Qui-quadrado com deg_freedom graus de liberdade. O valor obtido é 0.965, que se apreseta a figura seguite: Maria Eugéia Graça Martis

111 Aálise de Dados 05 Decisão: Não há evidêcia para rejeitar a hipósese de que os ascimetos se distribuem uiformemete pelos sigos. Não rejeitar a hipótese ula sigifica que o modelo proposto é o correcto? Não! Na verdade o facto de os dados ão os levarem a rejeitar o modelo proposto a hipótese ula, ão sigifica que ele seja verdadeiro. O teste serviu uicamete para mostrar que os dados são cosistetes com a teoria (o modelo proposto), mas ão para provar que ela é verdadeira. Porque é que ão podemos provar a hipótese ula? (De Veaux ad al, 004) Um biologista pretede mostrar que a sua teoria, sobre a mosca da fruta, é válida. Segudo ele, 0% das moscas são de tipo, 70% de tipo e 0% de tipo 3. Fez um teste de ajustameto a partir dos dados que os seus aluos recolheram, sobre 00 moscas, tedo obtido um P-value de 7%. Celebrou este facto, pois sustetava a sua hipótese, até que os seus aluos recolheram iformação sobre mais 00 moscas. Com 00 moscas o P-value desceu para %. Apesar de já estar a adivihar que a resposta seria ão, aida pergutou ao estatístico, a esperaça de poder deitar fora metade dos dados e ficar com os 00 primeiros! Ora bem, se isto fosse possível, coseguiríamos sempre provar a hipótese ula ão recolhedo muitos dados. Efectivamete, quato meos iformação tivermos, mais os ossos dados serão cosistetes com o que quer que seja, e também uca rejeitaremos o que quer que seja! Etão um teste assim ão serve para ada. Como já vimos a secção.5, diz-se que um teste destes tem pouca potêcia, medido-se a potêcia de um teste como a probabilidade de rejeitar H 0, quado H 0 é falsa. Assim, quatos mais dados, melhor, já que uca poderemos provar a hipótese ula. Maria Eugéia Graça Martis

112 Aálise de Dados 06 Exemplo 5.3 Supoha que uma marca cohecida de carros pretede averiguar se existe evidêcia para afirmar que os compradores mudaram, os últimos tempos, as suas preferêcias pelas 4 cores mais vedidas, omeadamete o ciza prateado, o preto, o braco e o vermelho, em que estas cores eram preferidas por, respectivamete 56.5%, 8.75%, 8.75% e 6.5% dos compradores, segudo iformação de algus aos atrás. Assim, recolheu iformação sobre 00 clietes, tedo obtido os seguites resultados: Preto Ciza prateado Vermelho Braco Retire coclusões, para o ível de sigificâcia de 5%. Hipóteses: H 0 : P(Ciza prateado) = 0.565; P(Preto) = 0.875; P(Braco) = 0.875; P(Vermelho) = cotra H : P(Ciza prateado) ou P(Preto) ou P(Braco) ou P(Vermelho) Estatística de teste: X (O = i ei ) e 4 i= i, que sob H 0, tem distribuição aproximada dum χ (3). Valor observado da estatística de teste: x = 5.67 P-value: P(X 5.67) Para calcular a probabilidade aterior, utilizado o Excel, utiliza-se a fução CHIDIST(x;deg_freedom), tal como já fizémos o exemplo aterior, agora com x=5.67 e deg_freedom=3, obtedo para o P-value = Decisão: Não rejeitar H 0, para os íveis usuais de sigificâcia, omeadamete para o ível de sigificâcia de 5%. Só rejeitaríamos H 0, para α.855%. Supohamos, agora, que tiha sido recolhido uma amostra de dimesão 00, tedo obtido o dobro dos valores observados, em cada uma das categorias. Qual a coclusão que se tiraria? Refazedo os cálculos ateriores, temos: Maria Eugéia Graça Martis

113 Aálise de Dados 07 Valor observado da estatística de teste: x =.34 P-value: P(X.34) = CHIDIST(.34;3), = Decisão: Para o ível de sigificâcia de 5%, rejeitar H 0, isto é, existe evidêcia de que os compradores mudaram de atitude, quato ao gosto das cores. Esta coclusão ão é de estrahar, embora seja diferete da retirada ateriormete, pois agora temos mais dados, isto é, mais iformação, e podemos dizer que as discrepâcias existetes etre os valores observados e os valores esperados, mostram maior evidêcia cotra a hipótese ula Aálise de dados discretos Face à amostra observada (x, x,,x ) de dados discretos quatitativos, associada a uma característica populacioal X, pretede-se iferir algo sobre a fução distribuição de X. Etão começa por se fazer o agrupameto dos dados, o qual o caso dos dados discretos, de um modo geral, ão apreseta dificuldade, uma vez que cosiste em cotar o úmero de vezes que os diferetes elemetos surgem a amostra. Costroi-se assim a tabela de frequêcias e o diagrama de barras. Sedo o diagrama de barras a imagem estatística da fução massa de probabilidade, esta primeira fase de tratameto descritivo dos dados vai-os obter iformações para passar à fase seguite de postular qual o modelo que melhor se adapta a esses dados. Nesta fase também se etram com algumas cosiderações teóricas, que evetualmete sejam cohecidas, sobre a população de ode se recolheu a amostra. Uma vez postulado o modelo é ecessário testá-lo, utilizado ormalmete o teste de ajustameto do Qui-quadrado. Maria Eugéia Graça Martis

114 Aálise de Dados 08 Comecemos por admitir que a hipótese ula se especifica um modelo discreto de forma completa, isto é, H 0 : X F ode F está perfeitamete especificada, ou etão, uma vez que o modelo é discreto, se especifica através da fução massa de probabilidade H 0 : P(X=a i ) = p i ode a i εd, domíio de variação da v.a. X Cosidera-se etão uma partição de D, evetualmete costituída pelos potos a i, algus dos quais podem ser agrupados. Represetado por A, A,, A k essa partição, calculam-se as frequêcias observadas, que represetamos por o i, e estamos o caso aalisado ateriormete, de aálise de observações qualitativas pertecetes a uma de k categorias. Se o modelo ão estiver completamete especificado, terão de se estimar algus parâmetros, através de estimativas da máxima verosimilhaça e estamos também a situação descrita ateriormete, da aálise de observações pertecetes a uma de k categorias, mas em que a distribuição da estatística de teste ão é a mesma. Resumido, temos: H 0 : X F vs H : X ão tem distribuição F Classes Freq. observadas Sob a validade de Ho Valores esperados A o p =P(XεA ) p A o p =P(XεA ) p A k o k p k =P(XεA k ) p k Estatística de teste: X = k i = (O i e i ) e i Distribuição da estatística de teste: Sob a validade de H 0 a) Se o modelo está completamete especificado, X tem uma distribuição assitótica dum χ (k-). Maria Eugéia Graça Martis

115 Aálise de Dados 09 b) Se o modelo está especificado a meos de m parâmetros descohecidos, que terão de ser estimados a partir dos dados, X tem uma distribuição assitótica dum χ (k-m-). Etão, fixado o ível de sigificâcia α temos: a) Rejeita-se H 0 se X χ ( k ) ou alterativamete, face ao valor observado x da α estatística de teste X calcula-se P=P(χ (k-) x ) e se P α, rejeita-se H 0. b) Aálogo à alíea a), mas a distribuição do Qui-quadrado cosiderada, em vez de ter (k-) graus de liberdade tem, (k-m-) graus de liberdade. Os m parâmetros descohecidos são estimados utilizado as estimativas da máxima verosimilhaça. Exemplo 5.4 A procura diária de um determiado produto, foi, em 60 dias escolhidos ao acaso, a seguite: Nº uidades procuradas Nº dias Haverá evidêcia para duvidar que tal procura se faça segudo um modelo de Poisso? Resolução: Seja X a v.a. que represeta o º de uidades procuradas, por dia. Etão: H 0 : X P(λ) cotra H : X ão tem uma distribuição P(λ) Represetado o estimador de λ por λˆ, temos que λˆ = X (ão esquecer que o modelo de Poisso, o parâmetro é o valor médio da variável aleatória), pelo que uma estimativa para λ, é a média dos dados x =3.8, e as estimativas para as probabilidades p i, obter-se-ão a partir da expressão P(X=k) = e k. k! Estas probabilidades foram obtidas o Excel através da fução Poisso(x; mea; cumulative), em que x é o valor que a v.a. X assume, mea é o valor médio e cumulative é um valor lógico: para a fução distribuição, usar TRUE; para a fução massa de probabilidade usar FALSE. Por exemplo, para obter o valor , colocámos o cursor a célula C3 e iserimos a fução =POISSON(B3;3,8;FALSE). Maria Eugéia Graça Martis

116 Aálise de Dados 0 Chamamos a ateção para o facto de as classes A i deverem costituir uma partição do domíio da v.a. X. Assim, como o domíio da Poisso é costituído pelos valores iteiros positivos (icluido o 0) itroduzimos a classe 0 ou mais, cuja probabilidade foi calculada fazedo (-P(X 9)) (ão esquecer que P(Ai ) = ). Por outro lado, tedo em cota a observação feita sobre o valor dos e i, que ão devem ser iferiores a 5, agrupámos as classes 0 e, uma classe, e as classes 7, 8, 9 e 0 ou mais, outra classe, tedo ficado assim 7 classes. Se H 0 for verdadeiro, a estatística de teste X (O = i ei ) e 7 i= i tem uma distribuição assitótica dum χ (7- -), ou seja dum Qui-quadrado com 5 graus de liberdade. Segudo a tabela aterior, obtivémos, para a estatística de teste, o valor observado de.736. Para tomar uma decisão, vamos calcular o P- value:p(x.736) = 0.8. Este valor foi obtido, iserido a célula F3, a fução = CHIDIST(E3;5): Decisão: Não há evidêcia para dizer que a distribuição do úmero de uidades procuradas por dia, ão segue uma distribuição de Poisso. Maria Eugéia Graça Martis

117 Aálise de Dados Aálise de dados cotíuos Este caso é em tudo idêtico ao caso aterior, com a excepção de que agora a escolha das classes A i, que costituem uma partição do domíio da variável aleatória X, já ão é tão óbvia, como o caso dos dados discretos. Assim, de forma a reduzir a arbitrariedade a escolha da partição A i, i k, é usual escolher os A i, tais que P(XεA i H 0 ) = /k ou seja p i = /k, i k. Como escolher o k? A escolha de k é feita de modo a garatir que o úmero esperado e i =p i, de elemetos em cada classe seja 5. Assim, deve ter-se /k 5, o que implica que k /5. Cosiderase geralmete para k o maior iteiro cotido em /5 (a ão ser que este valor seja demasiado grade, como veremos o exemplo a seguir, em que se escolhe um valor iferior), e as classes A i, são assim costruídas: A = (-, a [, P(XεA H 0 ) = /k P(X a ) = F(a ) = /k a =F - (/k) A = [a, a [, P(XεA H 0 ) = /k P(a <X a ) = F(a )- F(a )= /k a =F - (/k)... A k = [a k-, [, P(XεA k H 0 ) = /k P(X> a k- ) = F(a k- )= /k a k- =F - ((k-)/k) A estatística de teste obtém-se da mesma maeira, assim como a distribuição de amostragem. Exemplo 5.4 O Sr. Silva, idustrial têxtil, decidiu começar a fabricar camisas de homem, destiadas a serem vedidas em Portugal. Para ter alguma iformação sobre os moldes que deve cosiderar, omeadamete o que diz respeito ao comprimeto das magas, resolveu pedir a uma empresa de Cosultoria de Estatística que o ajudasse, dado-lhe algumas idicações sobre a população a que se destiam as camisas. Vamos deliear o processo utilizado pela tal empresa, para ajudar o Sr. Silva. º passo Recolha de uma amostra A empresa de Cosultoria ecarregou o Departameto de Sodages de recolher uma amostra de dimesão 50, tedo esta forecido os seguites dados, relativos ao comprimeto do braço direito de 50 homes: Maria Eugéia Graça Martis

118 Aálise de Dados º passo Estudo descritivo Procedeu-se ao estudo descritivo dos dados ateriores, calculado algumas características amostrais e procededo à redução dos dados através de uma tabela de frequêcias e à costrução do histograma correspodete. Apresetam-se a seguir os resultados obtidos: Maria Eugéia Graça Martis

119 Aálise de Dados 3 Decidimos costruir uma tabela de frequêcias com 8 classes, valor sugerido pela regra empírica euciada quado da costrução do histograma, e cosiderar como amplitude de classe o valor.54 (valor aproximado, por excesso, de (max-mi)/8).costruímos uma tabela de frequêcias e o histograma associado, utilizado a metodologia das PivotTables.: O histograma sugere-os um modelo Normal, pelo que, o passo seguite será testar se efectivamete tem setido ajustar um modelo Normal aos dados. Uma questão que se levata este mometo é a seguite: terá setido estar a ajustar aos ossos dados um modelo com suporte R, isto é, que pode assumir qualquer valor real, quado ós sabemos que isso ão se passa com o comprimeto do braço? Mas se estamos reitetes em ajustar um modelo com suporte em R, talvez pesassemos que seria mais razoável um cujo suporte fosse R +, pois se temos a garatia que o comprimeto ão pode ser egativo, ão sabemos qual o valor máximo que devemos escolher. Ou poderíamos ivetar um valor ao acaso como limite superior, por exemplo 50 cm, mas com que legitimidade é que escolhemos este e ão outro valor? Também ão devemos cosiderar o valor 60.7 como valor máximo, embora teha sido o maior valor da amostra que se recolheu. Niguém os garate que a população ão haja homes com o comprimeto do braço superior a 60.7! Nesta altura, de reflexão sobre qual o modelo a adoptar, recordemos o que se disse sobre a escolha de um modelo para traduzir um feómeo aleatório todos os modelos são maus, algus são úteis. No etato, além do histograma os sugerir o modelo Normal, devido à semelhaça com a fução desidade da Normal, também dispomos de alguma iformação cietífica sobre este modelo; e são esses estudos que os dizem que ele se aplica em situações de feómeos que possam ser cosiderados proveietes de uma cotribuição aditiva de várias variáveis, como é, por exemplo, o caso da variável em estudo. Etão, em posse da iformação sobre a proveiêcia dos dados e dos resultados do estudo descritivo dos mesmos, estamos em codições de propor o modelo Normal. 3º passo Teste de ajustameto do modelo sugerido o passo aterior Maria Eugéia Graça Martis

120 Aálise de Dados 4 Represetado por X, a v.a. que represeta o comprimeto do braço, cosideremos as seguites hipóteses: H 0 : X N(µ,σ) cotra H : X N(µ,σ) Para utilizarmos o teste de ajustameto do Qui-qudrado, as classes A i têm que costituir uma partição do suporte da v.a. X. Neste mometo podemos seguir dois processos, omeadamete: utilizar a tabela de frequêcia aterior, procededo às modificações adequadas as classes, de forma a termos uma partição, ou utilizar o processo euciado ateriormete, para a formação das classes. Vamos exemplificar os dois processos: Processo Modificação da tabela de frequêcias, de forma a termos uma partição de R Para obter uma partição, basta proceder a uma alteração coveiete a primeira e a última classe, como se apreseta a seguir: Para calcular estimativas das probabiliaddes p i, utilizámos o modelo Normal(55.4,.087), o Excel. Por exemplo, para calcular a probabilidade do itervalo ]49.94, 5.48], colocámos o cursor a célula G9 e escrevemos =NORMDIST(5,48;55,4;,087;TRUE)-NORMDIST(49,94;55, 4;,087;TRUE). Como estimámos dois parâmetros a partir dos dados, a estatística de teste X, tem uma distribuição assitótica dum χ (8--), ou seja dum Qui-quadrado com 5 graus de liberdade. Para tomar uma decisão calculámos o P-value, bastado colocar o cursor a célula J6 e escrever =CHIDIST(I6;5): Maria Eugéia Graça Martis

121 Aálise de Dados 5 Decisão: Não existe evidêcia para rejeitar a hipótese do modelo Normal. Processo Admitido que ão tiha havido uma fase aterior, em que tiha sido ecessário proceder a um agrupameto dos dados, como o caso do exemplo que estamos a tratar, vamos exemplificar o processo sugerido a secção aterior. Temos =50, dode k 50/5. Vamos cosiderar k=0, isto é, 0 classes. Etão os limites de classe a, a,..., a 9, com a otação itroduzida a secção referida, podem ser obtidos o Excel, da seguite forma: Uma vez as classes costruídas, teremos de cotar quais os valores observados. Utilizámos a seguite tabela feita o Excel, para determiar esses valores, assim como o valor observado da estatística de teste: A estatística de teste é a mesma, mas agora tem uma distribuição de amostragem dum Qui-quadrado com 7=(0--) graus de liberdade, uma vez que cosiderámos 0 classes e estimámos parâmetros: Maria Eugéia Graça Martis

122 Aálise de Dados 6 Decisão: Uma vez que o P-value é igual a 3.56%, ão existe evidêcia para rejeitar a hipótese de que os dados sejam proveietes de um modelo Normal. 4º passo Trasmissão dos resultados ao idustrial têxtil Agora, esta fase, justificava-se uma coversa com o Sr. Silva, para a apresetação dos resultados. Pode-se, o etato, ir adiatado alguma iformação, em termos de percetages dos futuros compradores das camisas. Assim, temos os seguites úmeros: Aproximadamete 68% dos homes têm o comprimeto dos braços o itervalo [53, 57] P( X )=φ()-φ(-)= φ() Aproximadamete 95% dos homes têm o comprimeto dos braços o itervalo [5, 59] P( X )=φ()-φ(-)= φ() Aproximadamete 00% dos homes têm o comprimeto dos braços o itervalo [49, 6] P( X )=φ()-φ(-)= φ(3) Utilizado aida o modelo Normal(55.4,.087), podemos ser um pouco mais precisos, iformado o Sr. Silva sobre os valores do º e 3º quartis, que são respectivamete 53.7 cm e 56.5 cm: Assim, o idustrial sabe que, por exemplo, só 5% dos homes é que têm o comprimeto dos braços iferior a 53.7 cm e que 50% dos homes têm o comprimeto dos braços o itervalo [53.7, 56.5]. Esta iformação é importate, pois permite fazer uma programação adequada da percetagem de camisas que devem ser fabricadas, para cada tamaho Maria Eugéia Graça Martis

ActivALEA. ative e atualize a sua literacia

ActivALEA. ative e atualize a sua literacia ActivALEA ative e atualize a sua literacia N.º 29 O QUE É UMA SONDAGEM? COMO É TRANSMIITIIDO O RESULTADO DE UMA SONDAGEM? O QUE É UM IINTERVALO DE CONFIIANÇA? Por: Maria Eugéia Graça Martis Departameto

Leia mais

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA 5. INTRODUÇÃO É freqüete ecotrarmos problemas estatísticos do seguite tipo : temos um grade úmero de objetos (população) tais que se fossem tomadas as medidas

Leia mais

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... INTRODUÇÃO Exemplos Para curar uma certa doeça existem quatro tratametos possíveis: A, B, C e D. Pretede-se saber se existem difereças sigificativas os tratametos o que diz respeito ao tempo ecessário

Leia mais

CAP. I ERROS EM CÁLCULO NUMÉRICO

CAP. I ERROS EM CÁLCULO NUMÉRICO CAP I ERROS EM CÁLCULO NUMÉRICO 0 Itrodução Por método umérico etede-se um método para calcular a solução de um problema realizado apeas uma sequêcia fiita de operações aritméticas A obteção de uma solução

Leia mais

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais José Paulo Careiro & Moacyr Alvim O erro da pesquisa é de 3% - o que sigifica isto? A Matemática das pesquisas eleitorais José Paulo Careiro & Moacyr Alvim Itrodução Sempre que se aproxima uma eleição,

Leia mais

Jackknife, Bootstrap e outros métodos de reamostragem

Jackknife, Bootstrap e outros métodos de reamostragem Jackkife, Bootstrap e outros métodos de reamostragem Camilo Daleles Reó camilo@dpi.ipe.br Referata Biodiversa (http://www.dpi.ipe.br/referata/idex.html) São José dos Campos, 8 de dezembro de 20 Iferêcia

Leia mais

PROBABILIDADES E ESTATÍSTICA

PROBABILIDADES E ESTATÍSTICA ESCOLA SUPERIOR DE TECNOLOGIA DE SETÚBAL DEPARTAMENTO DE MATEMÁTICA PROBABILIDADES E ESTATÍSTICA o Teste 7 o SEMESTRE 5/6 Data: Sábado, 7 de Jaeiro de 6 Duração: 9:3 às :3 Tópicos de Resolução. O úmero

Leia mais

Lista 9 - Introdução à Probabilidade e Estatística

Lista 9 - Introdução à Probabilidade e Estatística UNIVERSIDADE FEDERAL DO ABC Lista 9 - Itrodução à Probabilidade e Estatística Desigualdades e Teoremas Limites 1 Um ariro apota a um alvo de 20 cm de raio. Seus disparos atigem o alvo, em média, a 5 cm

Leia mais

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais Estatística II Atoio Roque Aula Testes de Hipóteses para a Difereça Etre Duas Médias Populacioais Vamos cosiderar o seguite problema: Um pesquisador está estudado o efeito da deficiêcia de vitamia E sobre

Leia mais

1.4- Técnicas de Amostragem

1.4- Técnicas de Amostragem 1.4- Técicas de Amostragem É a parte da Teoria Estatística que defie os procedimetos para os plaejametos amostrais e as técicas de estimação utilizadas. As técicas de amostragem, tal como o plaejameto

Leia mais

Probabilidades. José Viegas

Probabilidades. José Viegas Probabilidades José Viegas Lisboa 001 1 Teoria das probabilidades Coceito geral de probabilidade Supoha-se que o eveto A pode ocorrer x vezes em, igualmete possíveis. Etão a probabilidade de ocorrêcia

Leia mais

VII Equações Diferenciais Ordinárias de Primeira Ordem

VII Equações Diferenciais Ordinárias de Primeira Ordem VII Equações Difereciais Ordiárias de Primeira Ordem Itrodução As equações difereciais ordiárias são istrumetos esseciais para a modelação de muitos feómeos proveietes de várias áreas como a física, química,

Leia mais

Introdução ao Estudo de Sistemas Lineares

Introdução ao Estudo de Sistemas Lineares Itrodução ao Estudo de Sistemas Lieares 1. efiições. 1.1 Equação liear é toda seteça aberta, as icógitas x 1, x 2, x 3,..., x, do tipo a1 x1 a2 x2 a3 x3... a x b, em que a 1, a 2, a 3,..., a são os coeficietes

Leia mais

CAPÍTULO 8 - Noções de técnicas de amostragem

CAPÍTULO 8 - Noções de técnicas de amostragem INF 6 Estatística I JIRibeiro Júior CAPÍTULO 8 - Noções de técicas de amostragem Itrodução A Estatística costitui-se uma excelete ferrameta quado existem problemas de variabilidade a produção É uma ciêcia

Leia mais

Duas Fases da Estatística

Duas Fases da Estatística Aula 5. Itervalos de Cofiaça Métodos Estadísticos 008 Uiversidade de Averio Profª Gladys Castillo Jordá Duas Fases da Estatística Estatística Descritiva: descrever e estudar uma amostra Estatística Idutiva

Leia mais

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu Programação Diâmica Aula 3: Programação Diâmica Programação Diâmica Determiística; e Programação Diâmica Probabilística. Programação Diâmica O que é a Programação Diâmica? A Programação Diâmica é uma técica

Leia mais

Estatística stica para Metrologia

Estatística stica para Metrologia Estatística stica para Metrologia Aula Môica Barros, D.Sc. Juho de 28 Muitos problemas práticos exigem que a gete decida aceitar ou rejeitar alguma afirmação a respeito de um parâmetro de iteresse. Esta

Leia mais

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões DEPARTAMENTO DE ESTATÍSTICA - UFMG PROVA DE ESTATÍSTICA E PROBABILIDADE SELEÇÃO - MESTRADO/ UFMG - 2013/2014 Istruções: 1. Cada questão respodida corretamete vale 1 (um) poto. 2. Cada questão respodida

Leia mais

Capitulo 6 Resolução de Exercícios

Capitulo 6 Resolução de Exercícios FORMULÁRIO Cojutos Equivaletes o Regime de Juros Simples./Vecimeto Comum. Descoto Racioal ou Por Detro C1 C2 Cm C1 C2 C...... 1 i 1 i 1 i 1 i 1 i 1 i 1 2 m 1 2 m C Ck 1 i 1 i k1 Descoto Por Fora ou Comercial

Leia mais

Séries de Potências AULA LIVRO

Séries de Potências AULA LIVRO LIVRO Séries de Potêcias META Apresetar os coceitos e as pricipais propriedades de Séries de Potêcias. Além disso, itroduziremos as primeiras maeiras de escrever uma fução dada como uma série de potêcias.

Leia mais

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos Aálise de Projectos ESAPL / IPVC Critérios de Valorização e Selecção de Ivestimetos. Métodos Estáticos Como escolher ivestimetos? Desde sempre que o homem teve ecessidade de ecotrar métodos racioais para

Leia mais

somente um valor da variável y para cada valor de variável x.

somente um valor da variável y para cada valor de variável x. Notas de Aula: Revisão de fuções e geometria aalítica REVISÃO DE FUNÇÕES Fução como regra ou correspodêcia Defiição : Uma fução f é uma regra ou uma correspodêcia que faz associar um e somete um valor

Leia mais

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li Média Aritmética Simples e Poderada Média Geométrica Média Harmôica Mediaa e Moda Fracisco Cavalcate(f_c_a@uol.com.br)

Leia mais

Lista 2 - Introdução à Probabilidade e Estatística

Lista 2 - Introdução à Probabilidade e Estatística UNIVERSIDADE FEDERAL DO ABC Lista - Itrodução à Probabilidade e Estatística Modelo Probabilístico experimeto. Que eveto represeta ( =1 E )? 1 Uma ura cotém 3 bolas, uma vermelha, uma verde e uma azul.

Leia mais

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil Carteiras de Míimo VAR ( Value at Risk ) o Brasil Março de 2006 Itrodução Este texto tem dois objetivos pricipais. Por um lado, ele visa apresetar os fudametos do cálculo do Value at Risk, a versão paramétrica

Leia mais

Testes χ 2 (cont.) Testes χ 2 para k categorias (cont.)

Testes χ 2 (cont.) Testes χ 2 para k categorias (cont.) Testes χ 2 de ajustameto, homogeeidade e idepedêcia Testes χ 2 (cot.) Os testes χ 2 cosiderados este último poto do programa surgem associados a dados de cotagem. Mais cocretamete, dados que cotam o úmero

Leia mais

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO Ferado Mori DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA Resumo [Atraia o leitor com um resumo evolvete, em geral, uma rápida visão geral do

Leia mais

Capítulo 1. Teoria da Amostragem

Capítulo 1. Teoria da Amostragem Capítulo 1 Teoria da Amostragem 1.1 Itrodução A amostragem e em particular os processos de amostragem aplicam-se em variadíssimas áreas do cohecimeto e costituem, muitas vezes, a úica forma de obter iformações

Leia mais

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt:

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt: Proposta de Resolução do Exame de Matemática Aplicada às Ciêcias Sociais Cód. 835-2ª 1ª Fase 2014 1.1 Comecemos por determiar a distribuição de represetates por aplicação do método de Hodt: Divisores PARTIDOS

Leia mais

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos Aexo VI Técicas Básicas de Simulação do livro Apoio à Decisão em Mauteção a Gestão de Activos Físicos LIDEL, 1 Rui Assis rassis@rassis.com http://www.rassis.com ANEXO VI Técicas Básicas de Simulação Simular

Leia mais

INTRODUÇÃO A TEORIA DE CONJUNTOS

INTRODUÇÃO A TEORIA DE CONJUNTOS INTRODUÇÃO TEORI DE CONJUNTOS Professora Laura guiar Cojuto dmitiremos que um cojuto seja uma coleção de ojetos chamados elemetos e que cada elemeto é um dos compoetes do cojuto. Geralmete, para dar ome

Leia mais

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV DISCIPLINA: TGT410026 FUNDAMENTOS DE ESTATÍSTICA 8ª AULA: ESTIMAÇÃO POR INTERVALO

Leia mais

SUMÁRIO 1. AMOSTRAGEM 4. 1.1. Conceitos básicos 4

SUMÁRIO 1. AMOSTRAGEM 4. 1.1. Conceitos básicos 4 SUMÁRIO 1. AMOSTRAGEM 4 1.1. Coceitos básicos 4 1.. Distribuição amostral dos estimadores 8 1..1. Distribuição amostral da média 8 1... Distribuição amostral da variâcia 11 1..3. Distribuição amostral

Leia mais

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo? AMOSTRAGEM metodologia de estudar as populações por meio de amostras Amostragem ou Ceso? Por que fazer amostragem? população ifiita dimiuir custo aumetar velocidade a caracterização aumetar a represetatividade

Leia mais

Otimização e complexidade de algoritmos: problematizando o cálculo do mínimo múltiplo comum

Otimização e complexidade de algoritmos: problematizando o cálculo do mínimo múltiplo comum Otimização e complexidade de algoritmos: problematizado o cálculo do míimo múltiplo comum Custódio Gastão da Silva Júior 1 1 Faculdade de Iformática PUCRS 90619-900 Porto Alegre RS Brasil gastaojuior@gmail.com

Leia mais

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização Curso MI Matemática Fiaceira Professor: Pacífico Referêcia: 07//00 Juros compostos com testes resolvidos. Coceito Como vimos, o regime de capitalização composta o juro de cada período é calculado tomado

Leia mais

Definição 1.1: Uma equação diferencial ordinária é uma. y ) = 0, envolvendo uma função incógnita y = y( x) e algumas das suas derivadas em ordem a x.

Definição 1.1: Uma equação diferencial ordinária é uma. y ) = 0, envolvendo uma função incógnita y = y( x) e algumas das suas derivadas em ordem a x. 4. EQUAÇÕES DIFERENCIAIS 4.: Defiição e coceitos básicos Defiição.: Uma equação diferecial ordiária é uma dy d y equação da forma f,,,, y = 0 ou d d ( ) f (, y, y,, y ) = 0, evolvedo uma fução icógita

Leia mais

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato 1 PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato 1. Estimação: O objetivo da iferêcia estatística é obter coclusões a respeito de populações através de uma amostra extraída

Leia mais

Demonstrações especiais

Demonstrações especiais Os fudametos da Física Volume 3 Meu Demostrações especiais a ) RLAÇÃO NTR próx. e sup. osidere um codutor eletrizado e em equilíbrio eletrostático. Seja P sup. um poto da superfície e P próx. um poto extero

Leia mais

Prof. Eugênio Carlos Stieler

Prof. Eugênio Carlos Stieler http://wwwuematbr/eugeio SISTEMAS DE AMORTIZAÇÃO A ecessidade de recursos obriga aqueles que querem fazer ivestimetos a tomar empréstimos e assumir dívidas que são pagas com juros que variam de acordo

Leia mais

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA UNIVERSIDADE DO ALGARVE ESCOLA SUPERIOR DE TECNOLOGIA APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA (III ) ÁREA DEPARTAMENTAL DE ENGENHARIA CIVIL Ídice Itrodução Aplicação do cálculo matricial aos

Leia mais

Matemática Ficha de Trabalho

Matemática Ficha de Trabalho Matemática Ficha de Trabalho Probabilidades 12º ao FT4 Arrajos completos (arrajos com repetição) Na liguagem dos computadores usa-se o código biário que é caracterizado pela utilização de apeas dois algarismos,

Leia mais

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA 5- CÁLCULO APROXIMADO DE INTEGRAIS 5.- INTEGRAÇÃO NUMÉRICA Itegrar umericamete uma fução y f() um dado itervalo [a, b] é itegrar um poliômio P () que aproime f() o dado itervalo. Em particular, se y f()

Leia mais

UNIVERSIDADE DA MADEIRA

UNIVERSIDADE DA MADEIRA Biofísica UNIVERSIDADE DA MADEIRA P9:Lei de Sell. Objetivos Verificar o deslocameto lateral de um feixe de luz LASER uma lâmia de faces paralelas. Verificação do âgulo critico e reflexão total. Determiação

Leia mais

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA Paulo César de Resede ANDRADE Lucas Moteiro CHAVES 2 Devail Jaques de SOUZA 2 RESUMO: Este trabalho apreseta a teoria do teste de Galto

Leia mais

Capitulo 9 Resolução de Exercícios

Capitulo 9 Resolução de Exercícios FORMULÁRIO Empréstimos a Curto Prazo (Juros Simples) Taxa efetiva liear i l i ; Taxa efetiva expoecial i Empréstimos a Logo Prazo Relações Básicas C k R k i k ; Sk i Sk i e i ; Sk Sk Rk ; Sk i Sk R k ;

Leia mais

EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N

EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N Estudaremos este capítulo as equações diereciais lieares de ordem, que são de suma importâcia como suporte matemático para vários ramos da egeharia e das ciêcias.

Leia mais

A TORRE DE HANÓI Carlos Yuzo Shine - Colégio Etapa

A TORRE DE HANÓI Carlos Yuzo Shine - Colégio Etapa A TORRE DE HANÓI Carlos Yuzo Shie - Colégio Etapa Artigo baseado em aula miistrada a IV Semaa Olímpica, Salvador - BA Nível Iiciate. A Torre de Haói é um dos quebra-cabeças matemáticos mais populares.

Leia mais

PRESTAÇÃO = JUROS + AMORTIZAÇÃO

PRESTAÇÃO = JUROS + AMORTIZAÇÃO AMORTIZAÇÃO Amortizar sigifica pagar em parcelas. Como o pagameto do saldo devedor pricipal é feito de forma parcelada durate um prazo estabelecido, cada parcela, chamada PRESTAÇÃO, será formada por duas

Leia mais

PROBABILIDADES E ESTATÍSTICA

PROBABILIDADES E ESTATÍSTICA ESCOLA SUPERIOR DE TECNOLOGIA DE SETÚBAL DEPARTAMENTO DE MATEMÁTICA PROBABILIDADES E ESTATÍSTICA Exame - Época Normal 006/00 Data: 14de Julhode 00 Tópicos de Resolução Duração: 3 horas 1. SejaΩumespaçoamostraleA,BeCacotecimetoscomasseguitescaracterísticasA

Leia mais

CAPÍTULO 5 CIRCUITOS SEQUENCIAIS III: CONTADORES SÍNCRONOS

CAPÍTULO 5 CIRCUITOS SEQUENCIAIS III: CONTADORES SÍNCRONOS 60 Sumário CAPÍTULO 5 CIRCUITOS SEQUENCIAIS III: CONTADORES SÍNCRONOS 5.1. Itrodução... 62 5.2. Tabelas de trasição dos flip-flops... 63 5.2.1. Tabela de trasição do flip-flop JK... 63 5.2.2. Tabela de

Leia mais

Guia do Professor. Matemática e Saúde. Experimentos

Guia do Professor. Matemática e Saúde. Experimentos Guia do Professor Matemática e Saúde Experimetos Coordeação Geral Elizabete dos Satos Autores Bárbara N. Palharii Alvim Sousa Karia Pessoa da Silva Lourdes Maria Werle de Almeida Luciaa Gastaldi S. Souza

Leia mais

CURTOSE. Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes possibilidades:

CURTOSE. Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes possibilidades: CURTOSE O que sigifica aalisar um cojuto quato à Curtose? Sigifica apeas verificar o grau de achatameto da curva. Ou seja, saber se a Curva de Freqüêcia que represeta o cojuto é mais afilada ou mais achatada

Leia mais

onde d, u, v são inteiros não nulos, com u v, mdc(u, v) = 1 e u e v de paridades distintas.

onde d, u, v são inteiros não nulos, com u v, mdc(u, v) = 1 e u e v de paridades distintas. !"$# &%$" ')( * +-,$. /-0 3$4 5 6$7 8:9)$;$< =8:< > Deomiaremos equação diofatia (em homeagem ao matemático grego Diofato de Aleadria) uma equação em úmeros iteiros. Nosso objetivo será estudar dois tipos

Leia mais

JUROS COMPOSTOS. Questão 01 A aplicação de R$ 5.000, 00 à taxa de juros compostos de 20% a.m irá gerar após 4 meses, um montante de: letra b

JUROS COMPOSTOS. Questão 01 A aplicação de R$ 5.000, 00 à taxa de juros compostos de 20% a.m irá gerar após 4 meses, um montante de: letra b JUROS COMPOSTOS Chamamos de regime de juros compostos àquele ode os juros de cada período são calculados sobre o motate do período aterior, ou seja, os juros produzidos ao fim de cada período passam a

Leia mais

Capítulo 2 Análise Descritiva e Exploratória de Dados

Capítulo 2 Análise Descritiva e Exploratória de Dados UNIVERSIDADE FEDERAL DE SÃO CARLOS C E N T R O D E C I Ê N C I A S E X A T A S E D E T E C N O L O G I A D E P A R T A M E N T O D E E S T A T Í S T I C A INTRODUÇÃO AO PLANEJAMENTO E ANÁLISE ESTATÍSTICA

Leia mais

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2 Faculdade Campo Limpo Paulista Mestrado em Ciêcia da Computação Complexidade de Algoritmos Avaliação 2. (2,0): Resolva a seguite relação de recorrêcia. T() = T( ) + 3 T() = 3 Pelo método iterativo progressivo.

Leia mais

Os juros compostos são conhecidos, popularmente, como juros sobre juros.

Os juros compostos são conhecidos, popularmente, como juros sobre juros. Módulo 4 JUROS COMPOSTOS Os juros compostos são cohecidos, popularmete, como juros sobre juros. 1. Itrodução Etedemos por juros compostos quado o fial de cada período de capitalização, os redimetos são

Leia mais

Influência do ruído aéreo gerado pela percussão de pavimentos na determinação de L n,w

Influência do ruído aéreo gerado pela percussão de pavimentos na determinação de L n,w Ifluêcia do ruído aéreo gerado pela percussão de pavimetos a determiação de,w iogo M. R. Mateus CONTRAruído Acústica e Cotrolo de Ruído, Al. If.. Pedro, Nº 74-1º C, 3030 396 Coimbra Tel.: 239 403 666;

Leia mais

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse: www.pagina10.com.br

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse: www.pagina10.com.br A seguir, uma demostração do livro. Para adquirir a versão completa em papel, acesse: www.pagia10.com.br Matemática comercial & fiaceira - 2 4 Juros Compostos Iiciamos o capítulo discorredo sobre como

Leia mais

Analise de Investimentos e Custos Prof. Adilson C. Bassan email: adilsonbassan@adilsonbassan.com

Analise de Investimentos e Custos Prof. Adilson C. Bassan email: adilsonbassan@adilsonbassan.com Aalise de Ivestimetos e Custos Prof. Adilso C. Bassa email: adilsobassa@adilsobassa.com JUROS SIMPLES 1 Juro e Cosumo Existe juro porque os recursos são escassos. As pessoas têm preferêcia temporal: preferem

Leia mais

Problema de Fluxo de Custo Mínimo

Problema de Fluxo de Custo Mínimo Problema de Fluo de Custo Míimo The Miimum Cost Flow Problem Ferado Nogueira Fluo de Custo Míimo O Problema de Fluo de Custo Míimo (The Miimum Cost Flow Problem) Este problema possui papel pricipal etre

Leia mais

MATEMÁTICA APLICADA À GESTÃO I

MATEMÁTICA APLICADA À GESTÃO I 00 MATEMÁTICA APLICADA À GESTÃO I TEXTO DE APOIO MARIA ALICE FILIPE ÍNDICE NOTAS PRÉVIAS ALGUNS CONCEITOS SOBRE SÉRIES6 NOTAS PRÉVIAS As otas seguites referem-se ao maual adoptado: Cálculo, Vol I James

Leia mais

PRÁTICAS DE LABORATÓRIO

PRÁTICAS DE LABORATÓRIO PRÁTICAS DE LABORATÓRIO TRATAMENTO E APRESENTAÇÃO DE DADOS EXPERIMENTAIS M. Ribeiro da Silva Istituto Superior Técico Departameto de Física 1997 1 Ídice Itrodução 1 1. - Tratameto de dados experimetais

Leia mais

O oscilador harmônico

O oscilador harmônico O oscilador harmôico A U L A 5 Meta da aula Aplicar o formalismo quâtico ao caso de um potecial de um oscilador harmôico simples, V( x) kx. objetivos obter a solução da equação de Schrödiger para um oscilador

Leia mais

Profa. Regina Maria Sigolo Bernardinelli. Estatística. Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing

Profa. Regina Maria Sigolo Bernardinelli. Estatística. Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing Profa. Regia Maria Sigolo Berardielli Estatística Gestão Fiaceira / Gestão de Recursos Humaos / Logística / Marketig REGINA MARIA SIGOLO BERNARDINELLI ESTATÍSTICA Esio a Distâcia E a D Revisão 09/008 LISTA

Leia mais

O poço de potencial infinito

O poço de potencial infinito O poço de potecial ifiito A U L A 14 Meta da aula Aplicar o formalismo quâtico ao caso de um potecial V(x) que tem a forma de um poço ifiito: o potecial é ifiito para x < a/ e para x > a/, e tem o valor

Leia mais

Módulo 4 Matemática Financeira

Módulo 4 Matemática Financeira Módulo 4 Matemática Fiaceira I Coceitos Iiciais 1 Juros Juro é a remueração ou aluguel por um capital aplicado ou emprestado, o valor é obtido pela difereça etre dois pagametos, um em cada tempo, de modo

Leia mais

Equações Diferenciais (ED) Resumo

Equações Diferenciais (ED) Resumo Equações Difereciais (ED) Resumo Equações Difereciais é uma equação que evolve derivadas(diferecial) Por eemplo: dy ) 5 ( y: variável depedete, : variável idepedete) d y dy ) 3 0 y ( y: variável depedete,

Leia mais

Prova 3 Matemática ... GABARITO 1 NOME DO CANDIDATO:

Prova 3 Matemática ... GABARITO 1 NOME DO CANDIDATO: Prova 3 QUESTÕES OBJETIIVAS N ọ DE ORDEM: NOME DO CANDIDATO: N ọ DE INSCRIÇÃO: IINSTRUÇÕES PARA A REALIIZAÇÃO DA PROVA. Cofira os campos N ọ DE ORDEM, N ọ DE INSCRIÇÃO e NOME, que costam da etiqueta fixada

Leia mais

Tabela Price - verdades que incomodam Por Edson Rovina

Tabela Price - verdades que incomodam Por Edson Rovina Tabela Price - verdades que icomodam Por Edso Rovia matemático Mestrado em programação matemática pela UFPR (métodos uméricos de egeharia) Este texto aborda os seguites aspectos: A capitalização dos juros

Leia mais

MINISTÉRIO DAS CIDADES, ORDENAMENTO DO TERRITÓRIO E AMBIENTE Instituto do Ambiente PROCEDIMENTOS ESPECÍFICOS DE MEDIÇÃO DE RUÍDO AMBIENTE

MINISTÉRIO DAS CIDADES, ORDENAMENTO DO TERRITÓRIO E AMBIENTE Instituto do Ambiente PROCEDIMENTOS ESPECÍFICOS DE MEDIÇÃO DE RUÍDO AMBIENTE MINISÉRIO DAS CIDADES, ORDENAMENO DO ERRIÓRIO E AMBIENE Istituto do Ambiete PROCEDIMENOS ESPECÍFICOS DE MEDIÇÃO DE RUÍDO AMBIENE Abril 2003 . Equadrameto O presete documeto descreve a metodologia a seguir

Leia mais

DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL. todas as repetições). Então, para todo o número positivo ξ, teremos:

DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL. todas as repetições). Então, para todo o número positivo ξ, teremos: 48 DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL LEI DOS GRANDES NÚMEROS Pretede-se estudar o seguite problema: À medida que o úmero de repetições de uma experiêcia cresce, a frequêcia relativa

Leia mais

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física Uiversidade Federal do Marahão Cetro de Ciêcias Exatas e Tecologia Coordeação do Programa de Pós-Graduação em Física Exame de Seleção para Igresso o 1º. Semestre de 2011 Disciplia: Mecâica Clássica 1.

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Itervalo Amostragem e iferêcia estatística População: cosiste a totalidade das observações em que estamos iteressados. Nº de observações a população é deomiado tamaho=n. Amostra:

Leia mais

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE CURSO: ENGENHARIA DE PRODUÇÃO ASSUNTO: INTRODUÇÃO ÀS EQUAÇÕES DIFERENCIAIS, EQUAÇÕES DIFERENCIAIS DE PRIMEIRA ORDEM SEPARÁVEIS, HOMOGÊNEAS, EXATAS, FATORES

Leia mais

a taxa de juros i está expressa na forma unitária; o período de tempo n e a taxa de juros i devem estar na mesma unidade de tempo.

a taxa de juros i está expressa na forma unitária; o período de tempo n e a taxa de juros i devem estar na mesma unidade de tempo. UFSC CFM DEPARTAMENTO DE MATEMÁTICA MTM 5151 MATEMÁTICA FINACEIRA I PROF. FERNANDO GUERRA. UNIDADE 3 JUROS COMPOSTOS Capitalização composta. É aquela em que a taxa de juros icide sempre sobre o capital

Leia mais

Aula 2 - POT - Teoria dos Números - Fabio E. Brochero Martinez Carlos Gustavo T. de A. Moreira Nicolau C. Saldanha Eduardo Tengan

Aula 2 - POT - Teoria dos Números - Fabio E. Brochero Martinez Carlos Gustavo T. de A. Moreira Nicolau C. Saldanha Eduardo Tengan Aula - POT - Teoria dos Números - Nível III - Pricípios Fabio E. Brochero Martiez Carlos Gustavo T. de A. Moreira Nicolau C. Saldaha Eduardo Tega de Julho de 01 Pricípios Nesta aula apresetaremos algus

Leia mais

defi departamento de física www.defi.isep.ipp.pt

defi departamento de física www.defi.isep.ipp.pt defi departameto de física Laboratórios de Física www.defi.isep.ipp.pt stituto Superior de Egeharia do Porto- Departameto de Física Rua Dr. Atóio Berardio de Almeida, 431 4200-072 Porto. T 228 340 500.

Leia mais

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra. UNIVERSIDADE FEDERAL DA PARAÍBA Distribuição Amostral Luiz Medeiros de Araujo Lima Filho Departameto de Estatística INTRODUÇÃO A Iferêcia Estatística é um cojuto de técicas que objetiva estudar a população

Leia mais

Juros Simples e Compostos

Juros Simples e Compostos Juros Simples e Compostos 1. (G1 - epcar (Cpcar) 2013) Gabriel aplicou R$ 6500,00 a juros simples em dois bacos. No baco A, ele aplicou uma parte a 3% ao mês durate 5 6 de um ao; o baco B, aplicou o restate

Leia mais

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD Teste de ióteses VÍCTOR UGO LACOS DÁVILAD Teste De ióteses. Exemlo. Cosidere que uma idustria comra de um certo fabricate, ios cuja resistêcia média à rutura é esecificada em 6 kgf (valor omial da esecificação).

Leia mais

Eletrodinâmica III. Geradores, Receptores Ideais e Medidores Elétricos. Aula 6

Eletrodinâmica III. Geradores, Receptores Ideais e Medidores Elétricos. Aula 6 Aula 6 Eletrodiâmica III Geradores, Receptores Ideais e Medidores Elétricos setido arbitrário. A ddp obtida deve ser IGUAL a ZERO, pois os potos de partida e chegada são os mesmos!!! Gerador Ideal Todo

Leia mais

UFRGS 2007 - MATEMÁTICA

UFRGS 2007 - MATEMÁTICA - MATEMÁTICA 01) Em 2006, segudo otícias veiculadas a impresa, a dívida itera brasileira superou um trilhão de reais. Em otas de R$ 50, um trilhão de reais tem massa de 20.000 toeladas. Com base essas

Leia mais

Unesp Universidade Estadual Paulista FACULDADE DE ENGENHARIA

Unesp Universidade Estadual Paulista FACULDADE DE ENGENHARIA Uesp Uiversidade Estadual Paulista FACULDADE DE ENGENHARIA CAMPUS DE GUARATINGUETÁ MBA-PRO ESTATÍSTICA PARA A TOMADA DE DECISÃO Prof. Dr. Messias Borges Silva e Prof. M.Sc. Fabricio Maciel Gomes GUARATINGUETÁ,

Leia mais

Probabilidade e Estatística. Probabilidade e Estatística

Probabilidade e Estatística. Probabilidade e Estatística Probabilidade e Estatística i Sumário 1 Estatística Descritiva 1 1.1 Coceitos Básicos.................................... 1 1.1.1 Defiições importates............................. 1 1.2 Tabelas Estatísticas...................................

Leia mais

Sistema Computacional para Medidas de Posição - FATEST

Sistema Computacional para Medidas de Posição - FATEST Sistema Computacioal para Medidas de Posição - FATEST Deise Deolido Silva, Mauricio Duarte, Reata Ueo Sales, Guilherme Maia da Silva Faculdade de Tecologia de Garça FATEC deisedeolido@hotmail.com, maur.duarte@gmail.com,

Leia mais

Dispensa e Redução de Contribuições

Dispensa e Redução de Contribuições Dispesa Temporária do Pagameto de Cotribuições Dec - Lei º 89/95, de 6 de Maio Dec - Lei º 34/96, de 18 de Abril Dec - Lei º 51/99, de 20 de Fevereiro Lei º 103/99, de 26 de Julho Taxa Cotributiva Dec

Leia mais

Avaliação de Desempenho de Sistemas Discretos

Avaliação de Desempenho de Sistemas Discretos Distribuições Comus Avaliação de Desempeho de Sistemas Discretos Probabilidade e Estatística 2 Uiforme Normal Poisso Hipergeométrica Biomial Studet's Geométrica Logormal Expoecial Beta Gamma Qui-Quadrado

Leia mais

A soma dos perímetros dos triângulos dessa sequência infinita é a) 9 b) 12 c) 15 d) 18 e) 21

A soma dos perímetros dos triângulos dessa sequência infinita é a) 9 b) 12 c) 15 d) 18 e) 21 Nome: ºANO / CURSO TURMA: DATA: 0 / 0 / 05 Professor: Paulo. (Pucrj 0) Vamos empilhar 5 caixas em ordem crescete de altura. A primeira caixa tem m de altura, cada caixa seguite tem o triplo da altura da

Leia mais

Tópicos de Mecânica Quântica I. Equações de Newton e de Hamilton versus Equações de Schrödinger

Tópicos de Mecânica Quântica I. Equações de Newton e de Hamilton versus Equações de Schrödinger Tópicos de Mecâica Quâtica I Equações de Newto e de Hamilto versus Equações de Schrödiger Ferado Ferades Cetro de Ciêcias Moleculares e Materiais, DQBFCUL Notas para as aulas de Química-Física II, 010/11

Leia mais

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas 117-123.

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas 117-123. Uiversidade de São Paulo IME (Istituto de Matemática e Estatística MAE Profº. Wager Borges São Paulo, 9 de Maio de 00 Ferado Herique Ferraz Pereira da Rosa Bach. Estatística Lista de Exercícios #4 i Noções

Leia mais

APOSTILA MATEMÁTICA FINANCEIRA PARA AVALIAÇÃO DE PROJETOS

APOSTILA MATEMÁTICA FINANCEIRA PARA AVALIAÇÃO DE PROJETOS Miistério do Plaejameto, Orçameto e GestãoSecretaria de Plaejameto e Ivestimetos Estratégicos AJUSTE COMPLEMENTAR ENTRE O BRASIL E CEPAL/ILPES POLÍTICAS PARA GESTÃO DE INVESTIMENTOS PÚBLICOS CURSO DE AVALIAÇÃO

Leia mais

Até que tamanho podemos brincar de esconde-esconde?

Até que tamanho podemos brincar de esconde-esconde? Até que tamaho podemos bricar de escode-escode? Carlos Shie Sejam K e L dois subcojutos covexos e compactos de R. Supoha que K sempre cosiga se escoder atrás de L. Em termos mais precisos, para todo vetor

Leia mais

Conceito 31/10/2015. Módulo VI Séries ou Fluxos de Caixas Uniformes. SÉRIES OU FLUXOS DE CAIXAS UNIFORMES Fluxo de Caixa

Conceito 31/10/2015. Módulo VI Séries ou Fluxos de Caixas Uniformes. SÉRIES OU FLUXOS DE CAIXAS UNIFORMES Fluxo de Caixa Módulo VI Séries ou Fluxos de Caixas Uiformes Daillo Touriho S. da Silva, M.Sc. SÉRIES OU FLUXOS DE CAIXAS UNIFORMES Fluxo de Caixa Coceito A resolução de problemas de matemática fiaceira tora-se muito

Leia mais

AMOSTRAGEM ALEATÓRIA DISTRIBUIÇÕES POR AMOSTRAGEM

AMOSTRAGEM ALEATÓRIA DISTRIBUIÇÕES POR AMOSTRAGEM 6 AMOSTRAGEM ALEATÓRIA DISTRIBUIÇÕES POR AMOSTRAGEM Quado se pretede estudar uma determiada população, aalisam-se certas características ou variáveis dessa população. Essas variáveis poderão ser discretas

Leia mais

1. GENERALIDADES 2. CHEIA DE PROJETO

1. GENERALIDADES 2. CHEIA DE PROJETO Capítulo Previsão de Echetes. GENERALIDADES Até agora vimos quais as etapas do ciclo hidrológico e como quatificá-las. O problema que surge agora é como usar estes cohecimetos para prever, a partir de

Leia mais