Teste Anova. Prof. David Prata Novembro de 2016

Teste Anova Prof. David Prata Novembro de 2016

Tipo de Variável Introduzimos o processo geral de teste de hipótese. É hora de aprender a testar a sua própria hipótese. Você sempre terá que interpretar os valores de p, independentemente do teste inferencial que você usa. O teste estatístico específico que você irá usar para avaliar as suas hipóteses, vai depender do tipo de variável explanatória e de resposta que você escolheu.

Ferramentas Estatística Bivariada Estas são algumas ferramentas estatísticas bivariadas, e as situações em que você as utiliza. O termo bivariada aqui, refere-se a duas variáveis, explicativa e de resposta. Se você tem uma variável categórica explicativa e uma variável de resposta quantitativa, você usaria uma análise de variância ANOVA como seu teste inferencial. Se você tem uma variável categórica explicativa, e sua variável de resposta também é uma variável categórica você usaria o teste Quiquadrado de Independência como seu teste inferencial.

Ferramentas Estatística Bivariada Se tanto a sua variável explicativa quanto a sua variável de resposta forem quantitativas, você usaria um coeficiente de correlação como seu teste inferencial. Se a sua variável explicativa é quantitativa e sua variável de resposta é categórica, você deve categorizar a sua variável explicativa em apenas dois níveis, binário, e, em seguida, usar o teste Chi quadrado de Independência como seu teste inferencial.

Analisando Situações de Uso Pronto para começar a testar nossas questões de pesquisa estatisticamente? Na descrição do teste de hipótese, quando olhamos para a associação entre depressão e tabagismo, estávamos trabalhando com uma variável categórica explicativa, a presença ou ausência de depressão, e uma variável de resposta quantitativa, o número de cigarros fumados por mês. Quando você está testando hipóteses com a variável explicativa categórica e uma variável de resposta quantitativa, a ferramenta que você deve usar é análise de variância, também chamado de ANOVA.

Exemplo de Teste Agora que você entende em que situações você usaria ANOVA, estamos prontos para aprender como ela funciona ou mais especificamente, qual é a ideia que está por trás da comparação de médias. O teste que você vai usar é chamado ANOVA F-teste. Então vamos usar outra questão de pesquisa de categórica para quantitativa. A frustração acadêmica está relacionada com a sua especialização? Neste exemplo, um decano da faculdade acredita que os estudantes com diferentes especializações podem experimentar diferentes níveis de frustração acadêmica. Amostras aleatórias de 35 indivíduos, cada uma de Business, Inglês, Matemática, e Psicologia foram solicitados a classificar seu nível de frustração acadêmico, numa escala de um, o mais baixo, a vinte, o maior.

Relação entre X e Y Estaremos examinando a relação entre especializações, a nossa variável explicativa, ou X, e o nível de frustração, a nossa resposta, ou variável Y, para comparar as diferentes médias aritméticas de níveis de frustração entre as quatro especializações definidas em X. A hipótese nula afirma que não há nenhuma relação entre as variáveis explicativas e respostas, x e y. Uma vez que a relação é examinada por comparação das médias de Y nas populações, definida pelos valores de x, nenhuma relação significaria que todas as médias são iguais. Por conseguinte, a hipótese nula do teste f é: H 0 : a média da população 1 igual a média populacional 2, que é igual a média da população 3, que é igual a média da população 4.

Diferença entre Médias A hipótese nula afirma que não há uma relação entre x e y, variável explicativa e de resposta. Em termos de médias, a hipótese alternativa simplesmente diz o contrário, que nem todas as médias são iguais e que simplesmente escrevemos: H a : nem todas as médias da população são iguais. Há muitas maneiras das médias da população não serem iguais. Vamos falar sobre isso mais tarde. Vamos pensar em como faríamos o teste para ver se as médias da população são iguais. Podemos calcular o nível de frustração média para cada especialização e ver o quão distantes essas médias estão da amostra. Ou, em outras palavras, medir a variação entre a média das amostras. Se acharmos que as quatro médias das amostras não são as mesmas, podemos dizer que temos provas contra a hipótese nula. E pelo contrário, se as médias são as mesmas, podemos dizer que não temos evidência contra a hipótese nula. Isso parece bastante simples, mas, será que é suficiente?

Diferença entre Médias Vamos ver. Acontece que a pontuação de frustração da média da amostra dos 35 especialistas de business é 7,3. A pontuação de frustração da média da amostra para os 35 especialistas em inglês é 11,8. A pontuação de frustração da média da amostra para os 35 especialistas em matemática é 13,2. E a pontuação de frustração da média da amostra para os 35 especialistas em psicologia é 14,0.

Representação Gráfica do Teste Anova Segue uma representação gráfica de dois conjuntos de dados hipotéticos feita a partir de duas populações diferentes.

Representação Gráfica do Teste Anova Por exemplo, os alunos do país da esquerda e do país da direita. Em nossas amostras hipotéticas, as médias são as mesmas, mas elas aparecem nesse BoxPlot (diagrama de caixa) de forma muito diferente. Um boxplot, ou diagrama de caixa, é uma maneira conveniente de graficamente retratar grupos de dados numéricos, incluindo informações descritivas como a menor observação do grupo, a média aritmética e a mediana, a maior observação, e a dispersão ou variabilidade dos valores. O ponto representa a média, a mediana divide o box em parte superior e inferior. A dispersão é expressa pelo tamanho dos boxes. O topo da linha que fica para fora do topo da caixa do gráfico e a parte inferior da linha que fica para fora do fundo da caixa do gráfico são os mais baixos e mais altos valores. O ponto vermelho é a média. A linha horizontal do meio é a mediana.

Variabilidade Você pode ver que cada conjunto de dados tem o mesmo conjunto de médias e, assim, as mesmas diferenças entre eles. Ou seja, os alunos do país da esquerda e os estudantes do país da direita, ambos mostram os dados para os quatro grupos com uma média de amostragem de 7,3, 11,8, 13,2 e 14,0, indicadas com marcas vermelhas. A diferença importante entre os dois conjuntos de dados é que o primeiro representa dados com uma grande quantidade de variação dentro de cada um dos quatro grupos. O segundo representa dados com uma pequena quantidade de variação dentro de cada um dos quatro grupos. Boxplots para o país da esquerda mostra uma abundância de sobreposição entre os quatro grupos, devido à grande quantidade de variação na pontuação de frustração dentro dos grupos.

Variabilidade Pode-se imaginar os dados resultantes das quatro amostras aleatórias tomadas a partir de quatro populações, todas tendo uma mesma média de cerca de 11 ou 12. O primeiro grupo de valores pode ter ficado um pouco no lado de baixo comparado com os outros três que ficaram um pouco no lado alto. Mas essas diferenças poderiam ter surgido por acaso. Este seria o caso se a hipótese nula exigir que a igualdade das médias da população sejam verdadeiras. Boxplots para o país da direita mostram muito pouca sobreposição devido à pequena quantidade de variação nas pontuações de frustração dentro dos grupos. Seria muito difícil acreditar que a amostragem dos quatro grupos têm necessidades iguais de população. Este caso é um exemplo de quando a hipótese nula alegando necessidades iguais da população seria falsa.

Definição do Teste Anova A pergunta que temos de responder com ANOVA F-Teste é, as diferenças entre as médias das amostras é devido as verdadeiras diferenças entre as médias da população, ou simplesmente é devido à variabilidade de amostragem? A fim de responder a esta pergunta usando nossos dados, evidentemente precisamos olhar a variação entre as médias amostrais. Mas isso não é suficiente. Também vamos precisar olhar para a variação entre a média da amostra em relação à sua variação dentro dos grupos. Então, F é a variação entre as médias amostrais dividida pela variação dentro dos grupos.

Variação entre as Médias X Variação dentro dos grupos Em outras palavras, precisamos olhar para a quantidade, da variação entre as médias amostrais dividido pela variação dentro dos grupos. Isto vai medir a extensão da diferença da média entre os grupos da amostra, sobre a variação dentro dos grupos da amostra. O que refletirá as diferenças nos indivíduos que são típicas de amostras aleatórias. Quando a variação dentro dos grupos é grande, como no país da esquerda, as diferenças ou variação entre as médias de amostragem podem se tornar insignificantes. E os dados proporcionarão muito pouca evidência contra a hipótese nula. Quando a variação dentro dos grupos é pequena, tal como no país da direita, a variação entre as médias das amostras domina. E os dados passam a ter evidência mais forte contra a hipótese nula.

Análise de Variância do País da Direita Analisar a relação das variações é a ideia por trás das comparações das médias, por isso do nome análise de variância. Aqui estão os resultados da análise de variância do país da direita.

P-Valor Testando a relação entre a pontuação da especialização e da frustração, a estatística F é 46.60. Sabendo que esta é a variabilidade entre médias amostrais dividida pela variabilidade dentro dos grupos, este grande número sugere que a variabilidade entre as médias amostrais é muito maior do que no interior dos grupos da amostra. O valor de P do F-Teste ANOVA é a probabilidade de obter uma estatística F grande como temos ou ainda maior tendo a hipótese nula como verdade. Isso é, tendo a média da população igual. Em outras palavras, ela nos diz o quão surpreendente é encontrar os dados observados, assumindo que não existe qualquer diferença entre as médias da população. Este valor P é praticamente 0, contando-nos que seria quase impossível obter dados como os observados tendo a média do nível de frustração das quatro especializações sido o mesmo, como a hipótese de nulidade reivindicava. O valor P 0,0001 sugere que nós iriamos rejeitar incorretamente a hipótese nula em uma de cada dez mil vezes. E que estaríamos corretos em aceitar a hipótese alternativa 9999 vezes de 10.000 vezes.

Aceitar a Hipótese Alternativa e Rejeitar a Hipótese Nula Assim, podemos concluir com confiança que as médias dos níveis de frustração das quatro especializações não são todas iguais. Ou em outras palavras, há uma associação significativa entre o nível de frustração e as especializações. Portanto, aceitar a hipótese alternativa e rejeitar a hipótese nula. Agora que você tem uma ideia sobre análise de variância, vamos executar o teste usando SAS. Vamos usar um primeiro exemplo descrito no teste de hipótese.