Estimate ln(estimate)

Tamanho: px
Começar a partir da página:

Download "Estimate ln(estimate)"

Transcrição

1 Expected ormal Estatística Aplicada com o S.P.S.S. género * grupo sanguíneo Crosstabulation grupo sanguíneo grupo AB Total 24,6 4,% grupo O 25 grupo A 5 grupo B ,4 00,0% 3,9 masculino 8 9,0 género Count Expected Count 30,3 24,4 36,3% 27,5% 9,8% 6,5% -,5, ,6 00,0% 24 4,,2 3 % within género feminino Adjusted Residual, ,0 Expected Count 30,7 30,4% 26,% 29,3%,5 -,4 83 Count -, ,0 00,0% 49 28,0 % within género Adjusted Residual -, ,0 Total Count Expected Count 6,0 49,0 33,3% 26,8% 24,6% 5,3% % within género ormal Q-Q Plot of estética Manual de Apoio género grupo sanguíneo peso à nascença altura à nascença Valid (listwise) Mantel-Haenszel Common Odds Ratio Estimate Estimate ln(estimate) Std. Error of ln(estimate) Descriptive Statistics Minimum Maximum Mean Std. Deviation 83 2,50, ,22, ,04 280,04 3,230,72,343,00 Asymp. Sig. (2-sided) Asymp. 95% Confidence Common Odds Lower Bound,650 Interval Ratio Upper Bound 6,322 ln(common Lower Bound,50 Odds Ratio) Upper Bound,844 The Mantel-Haenszel common odds ratio estimate is asymptotically normally distributed under the common odds ratio of,000 assumption. So is the natural log of the estimate ,0 57,7 5,029 3, Observed Value Amadeu Quelhas Martins 200

2 ota introdutória O recurso à análise estatística de dados tem sofrido consistente disseminação, quer no meio laboral como suporte a estratégias de marketing, de gestão e de decisão empresarial, quer no meio académico como veículo privilegiado de comunicação de resultados nas diversas áreas do conhecimento. Se, há duas décadas atrás, o analista era considerado como um guru da probabilística, actualmente subentende-se que qualquer leitor de uma publicação científica tende a ampliar também os seus conhecimentos de análise de dados. A constituição de um manual deste tipo reveste-se de inúmeras dificuldades, a maioria das quais emergindo da preocupação de se manter um compromisso entre vários objectivos, nomeadamente, a exposição clara dos procedimentos, a ilustração permanente dos comandos seguidos, o salientar das interpretações em detrimento do jargão estatístico e numérico eventualmente assustador, entre outros, a par da manutenção do rigor da comunicação. O software de estatística SPSS, nas suas mais recentes versões, apresenta imensas possibilidades de edição, tratamento e análise de grandes conjuntos de dados, a par de uma relativa facilidade de utilização mesmo para utilizadores menos versados em estatística. O presente manual pretende servir de guia de apoio a qualquer utilizador inexperiente do programa, cujos conhecimentos de estatística sejam elementares. ão é por isso minha pretensão que este manual sirva de referência teórica ou prática de modelos de análise estatística. Os utilizadores mais familiarizados com análise estatística de dados (ou que pretendam ampliar os seus conhecimentos básicos de estatística) são, por isso, remetidos para a lista bibliográfica do final do manual. Amadeu Quelhas Martins Porto, Junho de 200. i

3 Índice Conteúdos Página. Visão geral do programa 2. Classificação de variáveis no SPSS 3. Os menus do SPSS 4. Inserir variáveis no SPSS 5. Manipulação dos dados recolhidos 6. Transformação de dados 7. Exploração de dados 8. Cruzamento e associação de variáveis 9. Testes de hipóteses 0. Outros modelos estatísticos de análise Bibliografia 77 ii

4 . Visão geral do programa O SPSS desempenha uma grande variedade de procedimentos estatísticos. Com ele o investigador consegue inserir e manipular dados, e calcular simples médias ou desvios até modelos complexos de previsibilidade como a regressão. Além disso, o SPSS permite editar e analisar dados provenientes de programas como o Excel, entre outros. Basicamente, apresenta as seguintes modalidades visuais: Data View, onde se apresenta a matriz de casos (linhas) e variáveis (colunas) inseridas. Variable View, onde se dispõem as variáveis inseridas e as suas características. Output View, onde são apresentados todos os procedimentos solicitados pelo utilizador; é ainda a partir desta janela que se podem exportar tabelas, gráficos, etc, para documentos do Office. Chart Editor, janela especificamente desenhada para a edição (composição) de gráficos. Figura. Aspecto da matriz de casos e variáveis (Data View) Figura.2 Aspecto da janela de variáveis (Variable View) 2. Classificação de variáveis no SPSS O que é um caso? Um caso representa uma ocorrência, um sujeito, um objecto, etc, que foi avaliado, e que é proveniente de um conjunto de casos semelhantes, vulgarmente designado de amostra. Concretizando, um caso poderá ser um aluno duma turma avaliada, uma notícia do conjunto de notícias dos jornais desta semana, um automóvel do conjunto de automóveis vendidos durante um mês, etc. O que é uma variável? Pode definir-se variável como uma característica ou propriedade de um indivíduo (por exemplo, a sua altura, o seu estado serológico para o HIV, etc), objecto (por exemplo, a potência de uma lâmpada medida em Watts, etc), ou situação (por exemplo, o número de acidentes rodoviários durante a época natalícia), a qual pode ser expressa por valores, nomes, categorias ou rankings. Variáveis nominais ou categóricas Uma variável nominal (ou categórica) pode ter duas ou mais categorias e exprime-se vulgarmente por uma etiqueta ou label, que não é mais que uma expressão verbal. Alguns exemplos: a variável

5 género tem duas categorias expressas em masculino e feminino ; a naturalidade expressa-se pelos nomes dos locais de nascimento dos sujeitos. Variáveis ordinais As variáveis ordinais são semelhantes às anteriores. A grande diferença é que existe uma ordem implícita na criação das categorias. o entanto, esse ordenamento não é passível de operações matemáticas aritméticas, ou seja, mesmo que se consigam ordenar as categorias desde os valores mais baixos até aos mais elevados, o espaçamento entre esses valores pode não ser o mesmo entre as categorias. Suponha a variável classe social classificada nas seguintes categorias: = classe social baixa; 2 = classe social média; 3 = classe social alta. ão se pode afirmar que o facto de se pertencer à classe social alta é o triplo ou tem o triplo de importância que o facto de se pertencer à classe social baixa!!!... Variáveis intervalares e variáveis de rácio Vulgarmente, os investigadores designam ambas como variáveis métricas ou quantitativas. o entanto existe uma diferença entre elas: nas variáveis de rácio o valor 0 denota ausência da característica medida, enquanto que nas variáveis intervalares o valor 0 não indica a inexistência desse atributo. Concretizando: a temperatura é uma variável intervalar pois uma temperatura igual a zero é bem concreta, existindo até valores negativos de temperatura. Já a luminosidade de uma sala é uma variável de rácio, pois o valor 0 significa a ausência total do atributo Porque é que isto é importante? Os cálculos estatísticos pressupõem que as variáveis têm níveis específicos de medida. Se as variáveis não estiverem correctamente definidas, o programa produz cálculos completamente incompreensíveis Faz sentido calcular-se a média da cor dos olhos ou dos nomes próprios de uma turma de alunos? Obviamente que não, pois a média pressupõe que a variável seja intervalar ou de rácio. 3. Os menus do SPSS O funcionamento do SPSS assenta numa visualização por janelas e em menus, a partir dos quais são pedidos os comandos a operar no programa. Serão descritas sumariamente as funções de cada um. Menu Edit O menu Edit permite copiar, alterar ou eliminar tabelas, gráficos ou texto que conste nos outputs (ficheiros de resultados produzidos pelo SPSS na janela com o mesmo nome). Dentro do menu Edit, o comando Find é particularmente útil para localizar um determinado valor numa variável. o exemplo da Figura 3., pretende-se encontrar um indivíduo cuja categoria na variável peso corporal seja igual a 3; o primeiro sujeito identificado está na linha 5. Para identificar o sujeito seguinte com o mesmo valor, bastaria premir o botão Find ext; o próximo indivíduo com o valor 3 é localizado na linha 27. Figura 3. Caixas de diálogo dos comandos Find e Find ext 2

6 Ainda em relação ao menu Edit, o comando Options permite formatar a forma como se visualizam os resultados, as janelas, ou mesmo os gráficos, tabelas, ou ainda o texto que os acompanha. A utilidade de se formatarem estes conteúdos revela-se, por exemplo, na economia de tempo caso se pretendam exportar tabelas ou gráficos para um documento do Office com formatações pré-definidas. Figura 3.2 Caixa de diálogo do comando Options Menu View O menu View permite ao utilizador intercalar a vista de dados com a vista de variáveis, visualizar as etiquetas dos valores das variáveis nominais e ordinais (comando Value Labels), assim como aceder, criar, ou modificar barras de ferramentas. Esta será, provavelmente, a funcionalidade mais útil deste menu, obtida através do comando Toolbars e do subcomando Customize, ilustrada na figura seguinte. Figura 3.3 Caixa de diálogo do comando Customize Toolbar Menu Data O menu Data permite definir as propriedades das variáveis, inserir novas variáveis ou novos casos, ordenar os casos segundo uma variável (comando Sort Cases), juntar ficheiros de dados (comando Merge Files), e ainda utilizar comandos de manipulação dos dados para separar os sujeitos segundo as categorias de uma variável (comando Split File), seleccionar sujeitos segundo um determinado critério (comando Select Cases), entre outras funcionalidades. O menu Data é, juntamente com os menus Transform, Analyze, e Graphs, dos mais utilizados durante o processo de análise dos dados recolhidos. Sort Cases Este comando permite ordenar a base de dados em função dos valores crescentes ou decrescentes de uma ou mais variáveis. o exemplo seguinte, pretende-se ordenar os pesos dos sujeitos de modo 3

7 crescente em função do sexo (geralmente, para a mesma idade e altura, os homens pesam mais). Para tal utiliza-se Sort Cases conforme demonstrado na Figura 3.4. Após a aplicação do comando, o Data View apresenta um aspecto reordenado. Figura 3.4 Aplicação do comando Sort Cases Transpose O comando Transpose transpõe os casos e as variáveis iniciais para, respectivamente, novas variáveis e novos casos; ou seja, inverte completamente a matriz de dados e cria um novo ficheiro onde consta esta inversão. A Figura 3.5 ilustra a sua aplicação à base de dados do exemplo anterior. Figura 3.5 Aplicação do comando Transpose Restructure Este comando tem várias funcionalidades, incluindo a de transposição de dados já referida no comando Transpose. Inicialmente, o utilizador é acompanhado por um tutor de modo a esclarecer qual a manipulação de dados que pretende realizar. O tutor apresenta três alternativas, como se vê na figura 3.6. Figura 3.6 Caixa de diálogo do comando Restructure A primeira alternativa permite reestruturar variáveis seleccionadas em casos; a segunda alternativa realiza precisamente o inverso. A terceira alternativa aplica a transposição total aos dados. 4

8 Aggregate ormalmente ignorado pelos utilizadores mas com grande utilidade é o comando Aggregate. Este permite resumir valores de variáveis (em médias, contagens, percentagens, etc) em função de uma ou mais variável de agrupamento, e, se o utilizador o desejar, cria um novo ficheiro com o resumo obtido. Para concretizar, suponha que um professor dispõe de uma base de dados de uma turma de alunos com as variáveis sexo, idade, informação sobre reprovações, nota do primeiro teste, nota do segundo teste, e pontuação de questionário de depressão, consoante a figura seguinte. Figura 3.7 Exemplo de aplicação do comando Aggregate (I) O professor poderia estar interessado em saber, de forma descritiva, qual a percentagem de alunos que tiveram negativas nos testes, consoante o género e a informação de reprovações. O professor poderia ainda indagar que proporção destes alunos se situou num determinado intervalo de valores quanto aos sintomas de depressão. Utilizando o comando Aggregate, apareceria a janela seguinte. Figura 3.8 Exemplo de aplicação do comando Aggregate (II) Variáveis de agrupamento Variáveis dependentes a resumir Comando que permite atribuir funções que definem a agregação de dados para cada variável dependente Definição do nome do ficheiro de destino da acção do comando De seguida, para cada variável dependente a agregar, seria definida a função respectiva. Figura 3.9 Exemplo de aplicação do comando Aggregate (III) Função definida para ambas variáveis que representam as notas dos testes, de modo a considerar a percentagem de alunos que tiveram negativa Para a variável depressão (dep_) seria pedida a proporção de alunos que pontuam dentro do intervalo de valores que indicam sintomas depressivos Definidas as funções, o comando originaria um novo ficheiro consoante o nome e a localização pretendida pelo utilizador. O novo ficheiro teria uma janela de dados como a da figura seguinte. 5

9 Figura 3.0 Exemplo de aplicação do comando Aggregate (IV) Pela análise da janela anterior, era possível concluir que:. Um quarto (25%) dos rapazes que nunca reprovaram teve negativa no primeiro teste, mas todos tiveram positiva no segundo; igualmente um quarto destes alunos está deprimido. 2. Todos os rapazes que reprovaram uma vez tiveram negativa no primeiro teste, mas nenhum deles tirou negativa no segundo, nem pontua no intervalo de depressão. 3. Entre os rapazes que reprovaram mais de uma vez, a incidência de negativas foi de 66,7% no primeiro teste e de 33,3% no segundo; cerca de 66,7% destes rapazes estão deprimidos. 4. ETC (Experimente interpretar o resumo para as raparigas) Menu Transform A manipulação de variáveis assenta, por excelência, no menu Transform. Este menu permite criar novas variáveis a partir de cálculos aplicados a variáveis pré-existentes (comando Compute), possibilita extrair amostras aleatórias de casos (comando Random umber Seed), fazer a contagem de ocorrências numa ou mais variáveis (comando Count), recodificar variáveis (comando Recode), recodificar variáveis automaticamente (comando Automatic Recode), categorizar variáveis expressas numericamente (comando Categorize Variables), obter classificações ou rankings para os dados de uma ou mais variáveis (comando Rank Cases), criar variáveis a partir de séries cronológicas de dados (comando Create Time Series), e ainda substituir as células em que ocorreram não respostas (comando Replace Missing Values). Os comandos de uso mais frequente são abordados no capítulo 6. Count Este comando possibilita a contagem de ocorrências de resposta em uma ou mais variáveis, e gera uma nova variável com os dados da contagem. Para ilustrar o seu uso, estão representadas na Figura 3. as variáveis e a matriz de respostas a uma sondagem de opinião sobre o aborto. Aos sujeitos foi perguntado Qual a sua opinião em relação ao aborto devido a: pobreza materna; gravidez de risco; e violação?, com as respostas possíveis a favor, contra, e sem opinião. Figura 3. Variable View e Data View de sondagem sobre o aborto O investigador pode utilizar o comando Count para saber o número de respostas a favor que ocorreram nas três variáveis pobreza, risco, e violação. Para tal, uma nova variável (favor) será criada a partir dos comandos Transform Count Target Variable favor umeric Variables pobreza risco violação Define Values Value Add Continue OK. 6

10 Figura 3.2 Exemplo de aplicação do comando Count (I) ome da nova variável a ser criada Etiqueta da nova variável Variáveis para a contagem de respostas Comando para definir os valores a contar Figura 3.3 Exemplo de aplicação do comando Count (II) Comando para se definir valores através de expressão numérica Figura 3.4 Exemplo de aplicação do comando Count (III) A nova variável surge com valores decimais, pelo que estes devem ser eliminados no Variable View Uma tabela de frequências da nova variável (através dos comandos Analyze Descriptive Statistics Frequencies Variable(s) favor OK) permite interpretar as respostas Figura 3.5 Exemplo de aplicação do comando Count (IV) Pela análise do output, o investigador pode concluir que:. Dezassete pessoas (40,5%) responderam contra ou sem opinião às três situações de aborto. 2. Dez pessoas (23,8%) responderam favoravelmente a apenas uma das situações. 3. ove pessoas (2,4%) responderam favoravelmente a duas das situações. 4. Seis pessoas (4,3%) são a favor do aborto nas três situações descritas. 7

11 Automatic Recode o âmbito de um estudo sobre o divórcio, admita que um investigador possui uma variável nominal que descreve o distrito a que pertence o registo civil onde decorreu o divórcio de cada um dos participantes, como se encontra ilustrado na janela seguinte. Figura 3.6 Variable View de estudo sobre o divórcio Ao utilizar o comando Automatic Recode, o investigador transforma os dados nominais, por ordem alfabética crescente ou decrescente, em dados numéricos, passíveis de serem tratados como categorias. Por outro lado, os dados iniciais não são perdidos, dado que é criada uma nova variável. As figuras seguintes ilustram o procedimento. Figura 3.7 Exemplo de aplicação do comando Automatic Recode (I) Figura 3.8 Exemplo de aplicação do comando Automatic Recode (II) A nova variável county surge na base de dados atribuindo um valor numérico a cada distrito, de modo crescente consoante a posição alfabética inicial Por outro lado, o Output View resume as correspondências estabelecidas na amostra de dados Categorize Variables Este comando permite transformar uma variável quantitativa de rácio numa variável qualitativa ordinal. Pode ser útil quando se observam dados quantitativos muito dispersos e não surta problema a sua categorização numa nova variável, por exemplo, categorizar os ordenados mensais de uma grande amostra de sujeitos. Seguem-se os comandos Transform Categorize Variables Create Categories for (variável de destino) umber of categories (utilizador define o número de categorias que pretende) OK. Concretizando: suponha que a figura seguinte representa os dados relativos aos ordenados mensais e às intenções de voto de uma amostra de sujeitos. 8

12 Figura 3.9Variable View de estudo sobre intenções de voto Perante a variabilidade de valores dos ordenados pretende-se categorizar esta variável com o mesmo número de categorias que a variável intenções de voto, ou seja, cinco. A Figura 3.20 ilustra os comandos referidos anteriormente. Figura 3.20 Exemplo de aplicação do comando Categorize Variables (I) A nova variável nsalario surge na base de dados De seguida, para se identificarem os códigos da nova variável nsalario, comparam-se as suas frequências acumuladas com a variável inicial salário através dos comandos Analyze Descriptive Statistics Frequencies Variable(s) salário nsalario OK. O Output View produz uma janela de resultados, dos quais são pertinentes as tabelas da figura seguinte. Figura 3.2 Exemplo de aplicação do comando Categorize Variables (II) As tabelas anteriores demonstram que a categoria da variável nsalario representa ordenados inferiores a 450 ; a categoria 2 compreende os ordenados entre 450 e 560, inclusive; a categoria 3 reúne os ordenados entre 750 e 900, inclusive; a categoria 4 agrupa os ordenados entre 00 e 2000, inclusive; finalmente, a categoria 5 representa ordenados superiores a Desta forma, devem definir-se os Value Labels (etiquetas das categorias; consulte também este subtítulo em Inserir variáveis no SPSS ) da recém criada variável nsalario na janela de variáveis. 9

13 Figura 3.22 Exemplo de aplicação do comando Categorize Variables (III) Menu Analyze Este é o menu que permite aceder aos procedimentos de análise estatística, testes paramétricos ou não paramétricos de comparação de grupos, medidas de associação de variáveis, entre outros. Dado o recurso posterior a este menu, apresentam-se aqui apenas alguns exemplos. Reports Permite gerar relatórios descritivos de casos a analisar considerando diversas variáveis agrupadas por variáveis de carácter categórico ( brake variables ) como o género, estado civil, etc. Este comando tem quatro subcomandos, sendo os dois últimos (Report Summaries in Rows; Report Summaries in Columns) um produto do segundo (Case Summaries). OLAP Cubes: OLAP significa OnLine Analytical Processing, e permite criar tabelas de cruzamento e relatórios descritivos para variáveis contínuas segundo as categorias das variáveis de agrupamento. Case Summaries: cria listagens de casos e respectivos valores em variáveis contínuas, separando, se for o caso, pelas categorias de uma ou mais variáveis de agrupamento. Para concretizar, suponha que no anterior estudo sobre o aborto o investigador pretende observar como se distribuem, por género, as médias de idades e de rendimentos mensais dos sujeitos, consoante o número de respostas a favor que deram para as três situações de aborto. Recorde que o número de respostas favoráveis dos sujeitos estava representado numa nova variável, favor, criada pelo comando Count do menu Transform. Os passos a seguir seriam, então, Analyze Reports Case Summaries Variables idade rendim Grouping Variable(s) sexo favor Statistics umber of Cases Mean Standard Deviation Continue OK. Figura 3.23 Exemplo de aplicação do comando Case Summaries (I) Repare que neste exemplo não foi assinalada a caixa Display cases. Se assim o fosse, além dos resumos apresentados seriam listados os valores de cada sujeito para ambas as variáveis idade e rendim O Output View produz, entre outras, a tabela apresentada na Figura

14 Figura 3.24 Exemplo de aplicação do comando Case Summaries (II) Case Summarie s sexo do sujeito masculino respostas favoráveis 0 rendimento idade do sujeito mensal 6 6 Mean 44,33 6,67 Std. Deviation 2,60 568, Mean 42,83 225,00 Std. Deviation 6, , Mean 3,67 566,67 Std. Deviation 3,52 246, Mean 36,50 600,00 Std. Deviation 6,37 285,774 Total 9 9 Mean 40,2 955,26 Std. Deviation 9, ,245 feminino 0 Mean 53,82 98,82 Std. Deviation 9,6 478, Mean 33,75 72,50 Std. Deviation 3,948 29, Mean 3,67 708,33 Std. Deviation 3,4 270, Mean 35,00 950,00 Std. Deviation 7,07 777,87 Total Mean 42,9 034,78 Std. Deviation 2, ,48 Pela análise da tabela anterior, o investigador pode concluir que:. Em relação ao sexo masculino, os homens com opiniões mais favoráveis em relação às três situações de aborto são globalmente mais jovens e têm rendimentos mensais mais baixos. 2. Em relação ao sexo feminino, as mulheres com opiniões desfavoráveis às três situações de aborto, são no geral mais velhas; no entanto, os rendimentos médios parecem não estar tão associados às suas opiniões como acontecia para os homens. Tables O comando Tables possibilita a construção de quadros para apresentação dos dados, assim como algumas estatísticas descritivas. Os subcomandos Custom Tables, Basic Tables, e General Tables permitem obter na prática quadros muito semelhantes. Com Custom Tables o utilizador pouco experiente constrói passo a passo o quadro que pretende adicionando simplesmente variáveis com o rato. De seguida ilustram-se os comandos Basic Tables e General Tables para o mesmo exemplo. Retomando o anterior estudo sobre as opiniões em relação às situações de aborto, o investigador poderia desejar sumariar as diversas opiniões quanto ao aborto posterior a violação consoante as variáveis sexo, idade, e rendim (rendimento mensal do sujeito inquirido). Seguindo os comandos Analyze Tables Basic Tables teria simplesmente de ordenar as variáveis de interesse como demonstram as figuras seguintes.

15 Figura 3.25 Exemplo de aplicação do comando Basic Tables (I) Variáveis intervalares idade e rendim para as quais se pretende sumariar algumas estatísticas como a média e o desvio padrão Variável violação com as categorias a favor, contra, e sem opinião Muito importante!!! Sempre que se coloca uma variável a sumariar deve clickar-se em Statistics para escolher as estatísticas que se pretende em relação a ela Variável sexo cujas categorias se pretendem comparar a Figura 3.26 pode observar-se o output resultante. Figura 3.26 Exemplo de aplicação do comando Basic Tables (II) sexo do sujeito masculino feminino aborto devido a violação a favor contra idade do sujeito rendimento mensal idade do sujeito Mean Std Deviation Mean Std Deviation rendimento mensal sem opinião idade do sujeito rendimento mensal Para o mesmo exemplo, recorre-se agora ao comando General Tables. Figura 3.27 Exemplo de aplicação do comando General Tables (I) Variáveis intervalares que se pretende sumariar Para cada variável a sumariar deve assinalar-se Selected Variable Is summarized e, mais abaixo, Edit Statistics Variáveis categóricas; repare que a variável violação é uma variável de segundo nível Para a variável de segundo nível ser considerada em relação ao sexo deve assinalar est Figura 3.28 Exemplo de aplicação do comando General Tables (II) Após pressionar o botão Edit Statistics tem à esquerda diversas opções que pode utilizar para sumariar a variável. o entanto, recorde que é necessário conhecer bem a natureza da variável em estudo 2

16 Como demonstra a Figura 3.29, o output resultante é muito semelhante ao da Figura 3.26, obtido a partir do comando Basic Tables. Figura 3.29 Exemplo de aplicação do comando General Tables (III) sexo do sujeito idade do sujeito rendimento mensal Mean Std Deviation Mean Std Deviation masculino feminino aborto devido a violação aborto devido a violação a favor contra sem opinião a favor contra sem opinião Menu Graphs este ponto, recomenda-se alguma cautela ao utilizador inexperiente: uma representação gráfica depende da natureza das variáveis e dados a apresentar, assim como das funções subjacentes às mesmas (contagem de casos, somatório de categorias de variáveis, médias, etc). Frequentemente, uma fraca familiaridade com as variáveis em estudo resulta em gráficos, no mínimo misteriosos!!! O recurso a um (ou ambos) dos dois primeiros comandos deste menu é útil quando a incerteza impera. O comando Gallery, em especial, além de permitir optar pelo estilo de gráfico pretendido, fornece ajuda relativa à adaptabilidade do mesmo, ao seu objectivo, ao método de construção, assim como ao tipo de variáveis necessárias para o obter e à qualidade de informação veiculada. O comando Interactive facilita a tarefa do utilizador, pois começa por questionar o tipo de gráfico pretendido e segue passo a passo a sua construção. Menu Utilities Trata-se de um menu de simples informação e gestão sobre a base de dados e as variáveis em uso. As funcionalidades úteis relacionam-se com a criação de conjuntos de variáveis a utilizar em sessões posteriores (comandos Define Sets e Use Sets), assim como com a possibilidade de modificar os menus (comando Menu Editor). O comando File Info lista as variáveis utilizadas na base de dados. Menu Window Menu simplesmente informativo quanto aos ficheiros em utilização. Permite aceder a cada um deles ou minimizar todas as janelas utilizadas pelo programa. 4. Inserir variáveis no SPSS A criação de variáveis no SPSS pode ser feita de forma simples na janela Variable View, em que as variáveis inseridas directamente vão sendo dispostas em linhas, ou na janela Data View (onde se encontra a matriz de dados), utilizando-se para isso os comandos Insert Variable e Define Variable Properties no menu Data. Em qualquer altura podem inserir-se novas variáveis ou novos casos (sujeitos), ou ainda modificar-se as propriedades de qualquer variável. Para maior simplicidade de trabalho, sugere-se a criação e definição de propriedades de variáveis no Variable View. Variable ame Trata-se da identificação mais simples da variável a inserir. Deve respeitar algumas regras: ter até 8 caracteres, começar com uma letra, não terminar com ponto final, não conter espaços, não conter os símbolos?! *, nem expressões que o SPSS utiliza nos cálculos, como AD, OT, BY, entre outras. 3

17 Variable Type Tipo de variável ormalmente o SPSS assume qualquer nova variável introduzida como numérica, ou seja, os dados a introduzir serão algarismos. o entanto, podem existir variáveis de formato temporal (data de nascimento, duração de uma doença em dias ou meses, etc), ou ainda monetário, ou mesmo simplesmente verbais (local de nascimento, por exemplo). O tipo de variável pode ser rapidamente definido clickando na coluna Type da variável em questão na janela Variable View: Figura 4. Caixa de diálogo do Variable Type Variable Label & Value Labels Etiquetas da variável e dos valores É agora possível caracterizar com mais pormenor a variável (em vez dos simples 8 caracteres do Variable ame) e atribuir significados aos números que representam as suas categorias (para variáveis nominais ou ordinais). Pode escrever-se directamente a descrição da variável na coluna Label e clickar na coluna Values para definir o que representam os algarismos desta variável (sendo numérica): Figura 4.2 Caixa de diálogo dos Value Labels Missing Values ão respostas Por vezes é útil retirar do tratamento estatístico os não respondentes, mas mantendo essa informação em base de dados para posteriores análises. Frequentemente atribui-se um valor inexistente na variável em causa para representar as não respostas. Por exemplo, se os valores de um item de um questionário vão de -2 a +2, um possível valor a atribuir aos Missing Values seria o 3 ou o -3 ou o 9 (Exemplo A da Figura 4.3). Figura 4.3 Caixa de diálogo dos Missing Values (Exemplo A) (Exemplo B) 4

18 Os Missing Values podem também ser usados para seleccionar respostas. Suponha que um professor pretende calcular a média de notas (de 0 a 00%) de uma turma apenas para os alunos que terminaram o teste e que tiveram notas superiores a 20%. a janela Missing Values escolheria Range plus one optional discrete missing value (veja o Exemplo B da Figura 4.3), determinaria o valor 0 como Low (valor mais baixo) e o valor 20 como High (valor mais elevado). O SPSS passaria a não considerar para análise os alunos com notas 20. Para os alunos que desistiram (e por isso não tinham nota), o professor poderia determinar o valor -, dado que as notas são de 0 a 00, e colocaria o - como Discrete value. a figura 4.4 representa-se a distribuição de notas segundo estes critérios. Repare ainda que três alunos desistiram (ver System Missing no segundo quadro). Figura 4.4 Output de frequências obtido após aplicação dos Missing Values nota do teste Statistics nota do teste Valid Missing Mean Minimum Maximum 9 54, Valid Missing Total Total System Total Frequency Percent Valid Percent 5,0 9, 5,0 9, 5,0 9, 2 0,0 8,2 5,0 9, 5,0 9, 2 0,0 8,2 5,0 9, 5,0 9, 55,0 00,0 5,0 5,0 5,0 5,0 5,0 5,0 3 5,0 9 45, ,0 Seis alunos não foram considerados pelas notas serem 20 Três alunos não tiveram nota, pelo que lhes foi atribuído o valor discreto - Measure Classificação da variável esta coluna do Variable View define-se se a variável em questão é nominal, ordinal, ou intervalar. Para o exemplo anterior, o género dos alunos seria uma variável nominal, enquanto a nota do teste seria uma variável intervalar: 5. Manipulação dos dados recolhidos O utilizador pode ter interesse em analisar categorias particulares de uma ou mais variáveis. O comando Select Cases do menu Data permite seleccionar para análise apenas os casos definidos pelo investigador. Por outro lado, pode existir a necessidade de conduzir análises separadamente pelas categorias de uma variável; por exemplo, num estudo transversal de casos versus controlos em que uma das variáveis dependentes seja a pontuação de um questionário de depressão, o investigador deve comparar esta variável entre os dois grupos separando os géneros pois é conhecida a maior incidência de sintomas depressivos entre as mulheres. O comando Split File serve este propósito. Select Cases Recorrendo ao exemplo das páginas 5 e 6, suponha que o mesmo professor desejava explorar as pontuações de depressão apenas para as raparigas que tinham obtido notas negativas em ambos os testes. O comando Select Cases seria activado pela sequência Data Select Cases Select If condition is satisfied If (expressão numérica) Continue OK. A figura 5. ilustra a sua aplicação. 5

19 Figura 5. Exemplo de aplicação do comando Select Cases O comando é desactivado seguindo-se Data Select Cases Select All Cases OK. Split File Suponha agora que o mesmo professor está interessado em caracterizar as pontuações de depressão consoante as categorias da variável reprovações (nunca reprovou; reprovou uma vez; reprovou mais de uma vez). Para tal, o comando Split File seria activado pela sequência Data Split File Organize output by groups Groups Based on reprov OK. Figura 5.2 Exemplo de aplicação do comando Split File Seguidamente, poderia pedir um resumo descritivo através dos comandos Analyze Descriptive Statistics Descriptives Variable(s) dep OK. O Output View originaria as tabelas da Figura 5.3, que permitiriam concluir que os alunos que sofreram uma ou mais retenções apresentam, em média, mais sintomas depressivos. Figura 5.3 Estatísticas descritivas obtidas após aplicação do comando Split File Descriptive Statistics a Descriptive Statistics a Descriptive Statistics a Mean Std. Deviation Mean Std. Deviation Mean Std. Deviation avaliação de depressão 4 9,79 6,053 avaliação de depressão 7 24,00 2,74 avaliação de depressão 7 23,4 7,798 Valid (listwise) 4 Valid (listwise) 7 Valid (listwise) 7 a. reprovações = nunca reprovou a. reprovações = reprovou uma vez a. reprovações = reprovou mais de uma vez O comando é desactivado seguindo-se Data Split File Analyze all cases OK. 6

20 6. Transformação de dados Após a criação da base de dados, pode ser necessária uma nova codificação de variáveis, uma transformação dos valores de uma variável, ou ainda o cálculo de uma nova variável em função de valores de variáveis já existentes. Os comandos seguintes são fundamentais para isso. Compute Comando utilizado para transformar os valores de uma variável. Os novos valores gerados pelo comando Compute podem substituir os valores anteriores (não se recomenda, pois mais tarde pode existir a necessidade de retomar os valores anteriores) ou criar novos valores numa nova variável. O mesmo se aplica para o comando Recode. Ambos se encontram no menu Transform. Figura 6. Exemplo de aplicação do comando Compute (I) Com o comando Compute cria-se uma nova variável a partir de uma função matemática aplicada a variáveis pré-existentes. Como se representa na Figura 6., uma nova variável total foi definida como o somatório (SUM) do primeiro item (dep) até ao (TO) último item (dep5) de um questionário de depressão. Automaticamente, o SPSS determina os somatórios para cada sujeito. Este comando pressupõe assim que os valores das variáveis a utilizar nas expressões de cálculo estão previamente inseridos. O comando Compute permite ainda a selecção (ou exclusão) concomitante de casos, pela utilização do sub-comando If. o exemplo exposto, pode haver o interesse de calcular os totais do questionário apenas para os sujeitos que pontuaram mais do que o valor no primeiro item. Para tal, o sub-comando If restringe os novos casos, como se apresenta na Figura 6.2. Figura 6.2 Exemplo de aplicação do comando Compute (II) Recode Como foi dito, quando existe necessidade de recodificar uma variável, é mais prudente manter intactos os valores da variável pré-existente. Como tal, quando o Recode é utilizado (a partir do menu 7

21 Transform), deve escolher-se Recode Into Different Variables, como se demonstra na Janela A da Figura 6.3. a Janela B da mesma figura estão representadas as notas de uma turma de alunos. Figura 6.3 Exemplo de aplicação do comando Recode (I) (Janela A) (Janela B) O professor desta turma poderia ter o interesse de recodificar as notas dos exames de modo a obter uma listagem imediata dos alunos que passaram à disciplina, dos que reprovaram, e dos alunos que terão de prestar uma prova oral. O comando Recode seria activado pela sequência Transform Recode Into Different Variables abrindo a caixa de diálogo da figura 6.4. Figura 6.4 Exemplo de aplicação do comando Recode (II) Inserir o nome e a etiqueta da nova variável a criar 2 Clicar Change 3 Definir a correspondência entre os valores da nova variável e os da pré-existente A definição dos novos valores tem duas opções: considerar a nova variável como uma variável string, ou seja, verbal; ou considerá-la como uma variável numérica ordinal, o que implicará a definição dos Value Labels (=reprovado; 2=oral; 3=aprovado). A figura seguinte ilustra o primeiro caso. Figura 6.5 Exemplo de aplicação do comando Recode (III) Começar por avisar o programa que a nova variável é do tipo string Dado que a palavra reprovado tem nove letras, ajustar para o tamanho Colocar os intervalos de valores das notas no Old Value e o rótulo verbal correspondente no ew Value Para o segundo caso, não era seleccionada a caixa Output variables are strings, nem alterado o Width. Os intervalos dos Old Value seriam os mesmos, apenas mudando o ew Value: em vez de reprovado inseria o número, em vez de oral o 2, e em vez de aprovado o 3. Em 8

22 qualquer um dos casos expostos, após Continue e OK, a variável recodificada surgiria imediatamente na matriz de dados como se ilustra na Figura 6.6. Figura 6.6 Exemplo de aplicação do comando Recode (IV) 7. Exploração de dados A exploração de dados deve permitir ao utilizador um conhecimento rigoroso das distribuições das variáveis em estudo. Dependendo do tipo de dados recolhidos, estas podem ser exclusivas de cada variável. Como exemplo, uma variável do tipo dicotómico (ex: cara ou coroa) não obedece à curva de Gauss, a chamada distribuição normal, mas sim à distribuição binomial, pois uma variável dicotómica é na realidade um binómio de categorias. Após uma breve introdução, será apresentado um exemplo prático de análise exploratória de dados, variando na sua complexidade. Introdução: Estatística descritiva e indutiva A estatística descritiva, como o nome indica, destina-se a explorar e caracterizar dados relativos a cada grupo em estudo (variáveis independentes), expressando-os, consoante a natureza das variáveis, através de indicadores como a moda, a mediana, a média, e o desvio-padrão. A estatística indutiva questiona se as variáveis dependentes se associam de forma sistemática a alguma situação em especial das condições de uma ou mais variáveis independentes de um ou mais grupos distintos em estudo. A estatística indutiva apoia-se em provas ou testes estatísticos, paramétricos ou não, para possibilitar interpretações sobre as hipóteses em estudo. A partir do menu Analyze, os comandos mais frequentes para a caracterização dos dados encontram-se nos sub-menus Descriptive Statistics e Tables. Como o comando Tables foi já extensivamente discutido no capítulo 3, serão focados outros comandos a utilizar na exploração de dados. Análise exploratória de dados A exploração de dados deve ilustrar a forma como se distribuem as variáveis de modo a permitir programar testes subsequentes de análise indutiva. Algumas vezes, e especialmente para variáveis normalmente distribuídas (as que obedecem à distribuição normal), as estatísticas designadas de medidas de tendência central (média, mediana, moda) podem ser muito informativas. Outras vezes, no entanto, a distribuição dos dados viola os pressupostos da normalidade (por exemplo, distribuições muito assimétricas, ou com muitos valores extremos, etc), pelo que outras estatísticas indicadoras do grau de dispersão dos dados são simultaneamente mais informativas e satisfatórias. Outras vezes ainda, o analista tem de transformar as variáveis até que estas satisfaçam os seus objectivos. 9

23 Exemplo prático Uma equipa de neonatologistas reuniu os dados consecutivos de 83 bebés nascidos a termo para as variáveis género, grupo sanguíneo, altura e peso à nascença, demonstrados na figura seguinte. Figura 7. Data View de estudo de neonatalogia A equipa clínica pretende um resumo descritivo das variáveis em estudo, e uma visão preliminar do modo como se distribuem. Uma primeira opção seria obter estatísticas descritivas pelos comandos Analyze Descriptive Statistics Descriptives Variable(s) sexo grupo peso altura OK. Daqui resultaria um quadro como o representado na Figura 7.2. Figura 7.2 Output de estatísticas descritivas iniciais Descriptive Statistics género grupo sanguíneo peso à nascença altura à nascença Valid (listwise) Minimum Maximum Mean Std. Deviation 83 2,50, ,22, ,04 280, ,0 57,7 5,029 3, O Output obtido é pouco informativo. Os valores mínimo e máximo, a média (Mean) e o desvio-padrão (Standard Deviation), não têm sentido para as variáveis género e grupo sanguíneo. A pouca informação útil é relativa ao peso e altura: sabe-se por exemplo que a média de peso à nascença da amostra foi de 3,2 Kg, pesando o bebé mais leve 2,6 Kg e o mais pesado quase 3,9 Kg. A equipa fica insatisfeita com informação tão escassa. De forma faseada, começam por avaliar a frequência de bebés masculinos e femininos na amostra. Se o género estiver proporcionalmente distribuído, poderão analisar a distribuição das outras variáveis separadamente por género (à nascença os bebés masculinos poderão ter uma estatura superior). Seguem os comandos Analyze Descriptive Statistics Frequencies Variable(s) sexo Display frequency tables Charts Chart Type Bar chart Chart Values Percentages Continue OK, ilustrados na figura seguinte. Figura 7.3 Caixa de diálogo dos comandos Frequencies e Charts A Figura 7.4 demonstra que a distribuição dos bebés por género é bastante equitativa. 20

24 Percentagem Amadeu Martins, Estatística Aplicada com o SPSS. Figura 7.4 Output de frequências relativas ao género género 40 masculino feminino Cumulative Frequency Valid Percent Percent 9 49,7 49, ,3 00, Total 83 00,0 0 masculino feminino Antes do estudo das variáveis quantitativas, importa averiguar se a distribuição dos grupos sanguíneos é semelhante entre os bebés. Para isso pode efectuar-se o cruzamento destas variáveis qualitativas a partir dos comandos Analyze Descriptive Statistics Crosstabs Row(s) sexo Column(s) grupo Display clustered bar charts Statistics Chi-square ominal Contingency coefficient Continue Cells Counts Observed Expected Percentages Row Residuals Adj. standardized Continue OK, ilustrados nas figuras seguintes. O comando Crosstabs permite criar tabelas de cruzamento de variáveis qualitativas e testar as suas distribuições (neste caso, recorrendo à distribuição do qui-quadrado, referido adiante como 2 ). Esta prova será novamente abordada neste manual no âmbito dos testes estatísticos para variáveis qualitativas. Figura 7.5 Caixas de diálogo relativas ao comando Crosstabs Figura 7.6 Tabela de cruzamento produzida pelo comando Crosstabs género * grupo sanguíneo Crosstabulation grupo sanguíneo grupo O grupo A grupo B grupo AB Total género masculino Count Expected Count 30,3 24,4 22,4 3,9 9,0 % within género 36,3% 27,5% 9,8% 6,5% 00,0% Adjusted Residual,8,2 -,5,4 feminino Count Expected Count 30,7 24,6 22,6 4, 92,0 % within género 30,4% 26,% 29,3% 4,% 00,0% Adjusted Residual -,8 -,2,5 -,4 Total Count Expected Count 6,0 49,0 45,0 28,0 83,0 % within género 33,3% 26,8% 24,6% 5,3% 00,0% a análise de tabelas de cruzamento é importante observar-se a magnitude das diferenças entre as contagens observadas (Count) e as contagens teóricas esperadas (Expected Count), pois é com base nessas distâncias que é efectuado o cálculo da prova do 2. Apresenta-se na Figura 7.7 o valor do 2 assim como o valor de probabilidade estatística a ele associado. 2

25 úmero de efectivos Amadeu Martins, Estatística Aplicada com o SPSS. Figura 7.7 Prova do 2 e valores de probabilidade estatística associados Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided) 2,368 a 3,500 2,380 3,497,455, a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 3,92. Conclui-se que as distribuições dos grupos sanguíneos são equiparáveis entre os sexos: o valor de significância estatística associado a um 2 de 2,368 é bem superior a 0,05, indicando, por isso que as diferenças não são estatisticamente significativas. Dito doutro modo, a variável grupo sanguíneo é independente da variável género. Realça-se ainda a nota (a) que refere não existirem células com contagens esperadas inferiores a cinco; isto é particularmente importante pois a validade do teste do 2 fica comprometida caso existam células com efectivos <5. A figura seguinte apresenta o valor do coeficiente de contingência e respectiva probabilidade estatística associada. Os dados deste coeficiente devem ser analisados em simultâneo com os dados do teste do 2 sempre que se cruzam duas variáveis nominais. Como pode verificar, o valor de probabilidade estatística associado é precisamente o mesmo que o do teste do 2. Figura 7.8 Coeficiente de contingência e probabilidade estatística associada Symmetric Measures ominal by ominal of Valid Cases Contingency Coefficient Value Approx. Sig.,3, a. ot assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. O Output View apresenta ainda o gráfico de barras em clusters solicitado. Acede-se ao editor de gráficos (Chart Editor) através de duplo click sobre o gráfico apresentado no Output View. Figura 7.9 Gráfico de barras por clusters da variável grupo sanguíneo grupo sanguíneo grupo O masculino feminino grupo A grupo B grupo AB género Procede-se então à separação dos sujeitos por género através dos comandos Data Split File Organize output by groups Groups Based on sexo Sort the file by grouping variables OK (pode consultar o comando Split File na página 6). Para o estudo da altura e peso à nascença seguem-se os comandos Analyze Descriptive Statistics Frequencies Variable(s) altura peso Display frequency tables Statistics Central Tendency Mean Median Mode Dispersion Std. Deviation Variance Minimum Maximum S.E. mean Distribution Skewness Kurtosis Continue Charts Chart Type Histograms With normal curve Continue OK. A Figura 7.0 ilustra estes comandos. 22

26 Frequências Frequências Amadeu Martins, Estatística Aplicada com o SPSS. Figura 7.0 Caixa de diálogo dos comandos Frequencies, Statistics e Charts A Figura 7. resume as variáveis para bebés masculinos. Incluem-se as respectivas traduções. Figura 7. Estatísticas descritivas de peso e altura à nascença para os bebés masculinos peso à nascença altura à nascença º casos Valid Casos válidos 9 9 Missing ão respostas 0 0 Mean Média 3286,2 52,48 Std. Error of Mean Erro-Padrão da Média 29,050,353 Median Mediana 3285,00 53,000 Mode Moda 2950(a) 53,0 Std. Deviation Desvio-Padrão 277,6 3,3680 Variance Variância 76793,523,3432 Skewness Coeficiente de Assimetria,253 -,384 Std. Error of Skewness Erro-Padrão do C. Assimetia,253,253 Kurtosis Coeficiente de Curtose -,534 -,680 Std. Error of Kurtosis Erro-Padrão do C. Curtose,500,500 Minimum Valor mínimo ,0 Maximum Valor máximo ,7 a Multiple modes exist. The smallest value is shown. Existem várias modas. Apresenta-se o valor mais reduzido. Pela observação do resumo anterior é possível verificar que ambas distribuições obedecem à curva normal pois as medidas de assimetria e curtose estão dentro dos seus parâmetros: -,96 Coef. Assimetria +,96 Erro-Padrão C.A. -,96 Coef. Curtose +,96 Erro-Padrão C.C. Enquanto a variável peso tem uma ligeira assimetria positiva (inclinação para a direita da curva normal), a variável altura tem uma ligeira assimetria negativa (inclinação para a esquerda da curva normal). Por outro lado, as distribuições de ambas apresentam alguns achatamentos (medidas de curtose negativas). Estas extrapolações numéricas podem ser visualizadas nos histogramas solicitados, que se encontram ilustrados na Figura 7.2. Figura 7.2 Histogramas das distribuições de peso e altura à nascença dos bebés masculinos 20 sexo masculino 20 sexo masculino ,0 2900,0 300,0 3300,0 3500,0 3700,0 3900,0 2800,0 3000,0 3200,0 3400,0 3600,0 3800,0 Peso à nascença 0 45,0 47,0 49,0 5,0 53,0 55,0 57,0 46,0 48,0 50,0 52,0 54,0 56,0 58,0 Altura à nascença De igual modo, é estudado o output para os bebés femininos, representado na figura

27 Frequências Frequências Amadeu Martins, Estatística Aplicada com o SPSS. Figura 7.3 Estatísticas descritivas de peso e altura à nascença para os bebés femininos peso à nascença altura à nascença º casos Mean Média 36,79 49,655 Std. Error of Mean Erro-Padrão da Média 26,873,345 Median Mediana 327,50 50,350 Mode Moda ,0 Std. Deviation Desvio-Padrão 257,753 3,3098 Variance Variância 66436,583 0,9548 Skewness Coeficiente de Assimetria -,02 -,292 Std. Error of Skewness Erro-Padrão do C. Assimetia,25,25 Kurtosis Coeficiente de Curtose -,626 -,834 Std. Error of Kurtosis Erro-Padrão do C. Curtose,498,498 Minimum Valor mínimo ,0 Maximum Valor máximo ,7 a Multiple modes exist. The smallest value is shown. Existem várias modas. Apresenta-se o valor mais reduzido. Como ocorrera anteriormente, as distribuições obedecem à curva normal pois as medidas de assimetria e curtose estão dentro dos parâmetros. As duas variáveis apresentam assimetria negativa e alguns achatamentos, como se confirma nos respectivos histogramas representados na Figura 7.4 Figura 7.4 Histogramas das distribuições de peso e altura à nascença dos bebés femininos sexo feminino sexo feminino ,0 3500,0 3400,0 3300,0 3200,0 300,0 3000,0 2900,0 2800,0 2700,0 2600, ,0 45,0 47,0 49,0 5,0 53,0 55,0 44,0 46,0 48,0 50,0 52,0 54,0 56,0 Peso à nascença Altura à nascença Analisadas as distribuições, não parece existir necessidade de transformação de variáveis. A equipa avalia com pormenor as características dos bebés recorrendo aos quadros de frequências das variáveis para cada género. Como exemplo apresenta-se o quadro relativo à altura dos bebés masculinos. Figura 7.5 Quadro de frequências da altura à nascença dos bebés masculinos altura à nascença a Valid 45,0 46,0 46,8 47,0 47,7 48,0 50,0 50,3 50,7 5,0 5,3 5,5 52,0 52,3 52,5 52,6 53,0 53,3 53,5 53,7 54,0 54,3 55,0 55,7 56,0 56,5 56,7 57,0 57,3 57,5 57,7 Total Cumulative Percent Frequency Percent Valid Percent,,, 4 4,4 4,4 5,5,, 6,6 5 5,5 5,5 2,,, 3,2 6 6,6 6,6 9,8 3 3,3 3,3 23, 2 2,2 2,2 25,3,, 26,4 2 2,2 2,2 28,6 2 2,2 2,2 30,8 3 3,3 3,3 34, 9 9,9 9,9 44,0,, 45, 2 2,2 2,2 47,3,, 48,4 2 3,2 3,2 6,5,, 62,6,, 63,7 2 2,2 2,2 65,9 4 4,4 4,4 70,3,, 7,4 5 5,5 5,5 76,9 3 3,3 3,3 80,2 5 5,5 5,5 85,7 3 3,3 3,3 89,0 2 2,2 2,2 9,2,, 92,3,, 93,4 4 4,4 4,4 97,8 2 2,2 2,2 00,0 9 00,0 00,0 a. género = masculino 24

28 Após este estudo preliminar é retomado o ficheiro sem divisão de género: Data Split File Analyze all cases, do not create groups OK. De seguida, avaliam-se as médias de alturas e pesos à nascença dos bebés comparando os vários grupos sanguíneos separadamente por género. Existem dois procedimentos muito semelhantes: o primeiro é obtido pelos comandos Analyze Reports Case Summaries Variable(s) altura peso Grouping Variable(s) sexo grupo (desmarcar) Display cases Statistics Cell Statistics umber of Cases, Standard Deviation, Mean Continue OK, representados na figura seguinte. Figura 7.6 Caixas de diálogo do comando Case Summaries Repare que as Grouping Variable(s) consistem, na realidade, em variáveis independentes que se cruzam: irá obter-se estatísticas de peso e altura para cada grupo sanguíneo de bebés masculinos e o equivalente para os bebés femininos, como demonstra o quadro editado na Figura 7.7. Figura 7.7 Quadro resumo obtido pelo comando Case Summaries Case Summaries género masculino grupo sanguíneo grupo O peso à nascença altura à nascença Std. Deviation 24,044 2,8306 Mean 3095,9 49,936 grupo A Std. Deviation 203,36 2,6803 Mean 3353,20 53,800 grupo B 8 8 Std. Deviation 94,007 3,0277 Mean 3252,78 52,6 grupo AB 5 5 Std. Deviation 220,443 2,0092 Mean 3633,33 55,340 feminino grupo O Std. Deviation 206,326 2,5000 Mean 2878,39 46,254 grupo A Std. Deviation 77,003 2,2389 Mean 348,2 50,367 grupo B Std. Deviation 75,007 2,3306 Mean 382,78 50,944 grupo AB 3 3 Std. Deviation 65,82,9543 Mean 3435,38 52,992 O segundo procedimento recorre aos comandos Analyze Compare Means Means Dependent List altura peso Independent List (Layer of ) sexo ext Independent List (Layer 2 of 2) grupo Options Cell Statistics Mean, umber of Cases, Standard Deviation Continue OK, e está ilustrado na figura seguinte. Figura 7.8 Caixas de diálogo do comando Means 25

29 Compare agora o output obtido com o da Figura 7.7. a prática, são iguais Figura 7.9 Quadro resumo obtido pelo comando Means Report género masculino grupo sanguíneo grupo O Mean peso à nascença altura à nascença 3095,9 49, Std. Deviation 24,044 2,8306 grupo A Mean 3353,20 53, Std. Deviation 203,36 2,6803 grupo B Mean 3252,78 52,6 8 8 Std. Deviation 94,007 3,0277 grupo AB Mean 3633,33 55, Std. Deviation 220,443 2,0092 feminino grupo O Mean 2878,39 46, Std. Deviation 206,326 2,5000 grupo A Mean 348,2 50, Std. Deviation 77,003 2,2389 grupo B Mean 382,78 50, Std. Deviation 75,007 2,3306 grupo AB Mean 3435,38 52, Std. Deviation 65,82,9543 Conclui-se para ambos os sexos que os bebés do grupo sanguíneo AB são mais pesados e mais altos à nascença, seguidos dos bebés dos grupos A e B. Os bebés do grupo O possuem em geral menor estatura. Posteriormente, a equipa poderia testar se estas diferenças têm expressão estatística recorrendo à Análise de Variância para comparar as médias de pesos e alturas entre os quatro grupos sanguíneos. A análise exploratória poderia ainda recorrer a outros procedimentos como o comando Explore, vantajoso na pesquisa de valores extremos (outliers) para cada grupo sanguíneo. Os comandos a seguir seriam Data Split File Organize output by groups Groups Based on sexo OK (para separar o ficheiro por género), seguidos de Analyze Descriptive Statistics Explore Dependent List altura peso Factor List grupo Display Both Statistics Descriptives Confidence Interval for Mean 95%, Outliers Continue Plots Boxplots Factor levels together Descriptive Stem-and-leaf, Histogram ormality plots with tests Continue OK. A Figura 7.20 ilustra a utilização das técnicas reunidas no comando Explore. Figura 7.20 Caixas de diálogo do comando Explore Com as opções seleccionadas, o output produz muita informação, desde as estatísticas descritivas para os grupos criados às representações gráficas, entre outras. Destacam-se, como exemplo, e por economia de espaço apenas para os bebés masculinos:. Quadro de valores extremos de peso e altura em cada grupo sanguíneo (no mesmo, é possível identificar os casos em que os valores ocorrem). 2. Testes da normalidade das distribuições de peso e altura por grupo sanguíneo. 3. Boxplots (também chamados gráficos de bigodes) para a identificação de outliers. 4. ormal Q-Q Plots e Detrended ormal Q-Q Plots. 26

30 A figura seguinte apresenta um resumo dos casos com os três valores mais extremos de peso e altura para cada grupo sanguíneo. ote que os casos estão identificados (número da linha correspondente do Data View), permitindo ao analista retirá-los da análise se o pretender. Figura 7.2 Quadro resumo dos valores extremos de peso e altura para os bebés masculinos Extreme Values peso à nascença grupo sanguíneo grupo O Highest Case umber Value Lowest grupo A Highest Lowest grupo B Highest Lowest grupo AB Highest Lowest altura à nascença grupo O Highest 52 56, , ,0 Lowest 24 45, , ,0 grupo A Highest 40 57, , ,5 Lowest 26 47, , ,5 grupo B Highest 49 57, , ,7 Lowest 2 46, , ,0 grupo AB Highest 69 57, , ,3 Lowest 77 5, , ,0 Seguem-se os testes de normalidade das distribuições das alturas e pesos pelos grupos sanguíneos. Frequentemente, o teste de Kolmogorov-Smirnov (K-S) é o utilizado (ver também testes estatísticos para uma amostra ). Quando o número de efectivos em estudo é inferior a 50 (no presente exemplo, o número de bebés por cada categoria de grupo sanguíneo é inferior a 50), o teste K-S é acompanhado do teste de Shapiro-Wilk, e deve ser interpretado em conjunto. Ambos os testes se encontram representados na Figura Figura 7.22 Testes de normalidade das distribuições de peso e altura dos bebés masculinos Kolmogorov-Smirnov Shapiro-Wilk grupo sanguíneo Statistic Df Sig. Statistic df Sig. peso à nascença grupo O,6 33,200(*),952 33,5 grupo A,36 25,200(*),945 25,97 grupo B,46 8,200(*),937 8,254 grupo AB,97 5,22,869 5,032 altura à nascença grupo O,47 33,068,949 33,22 grupo A,43 25,200(*),92 25,034 grupo B,62 8,200(*),94 8,307 grupo AB,85 5,79,908 5,25 27

31 Valor ormal Esperado Valor ormal Esperado peso à nascença altura à nascença Amadeu Martins, Estatística Aplicada com o SPSS. A figura anterior sugere, pelos valores de significância associados ao teste K-S (todos superiores a 0,05), que as variáveis peso e altura têm distribuições normais ao longo dos quatro grupos sanguíneos. Os valores de significância associados ao teste de Shapiro-Wilk, no entanto, levantam reservas a essa conclusão para a distribuição da variável peso no grupo sanguíneo AB (p<0,05) e da variável altura no grupo A (p<0,05). Os boxplots representados na Figura 7.23 ajudarão a esclarecer se tal se deve à acção de outliers. Figura 7.23 Boxplots das distribuições de peso e altura dos bebés masculinos = 33 grupo O 25 grupo A 8 grupo B 5 grupo AB 44 = 33 grupo O 25 grupo A 8 grupo B 5 grupo AB grupo sanguíneo grupo sanguíneo Relativamente ao peso, apesar de existirem alguns outliers, estes ocorrem nos grupos O e A, e não no grupo AB. A razão para a suspeita da violação da normalidade na distribuição de pesos no grupo AB advém do facto da mesma apresentar uma marcada assimetria negativa (valores muito dispersos até à mediana e concentrados a partir desta). Como se extrapolou esta informação? os boxplots, os bigodes inferior e superior representam o valor mínimo não extremo e o valor máximo dos dados observados para a variável; o limite inferior da barra vertical representa o primeiro quartil; a linha interior da barra representa a mediana (ou segundo quartil); o limite superior traduz o terceiro quartil. este exemplo a distância entre o primeiro quartil e a mediana é superior ao dobro da distância entre a mediana e o terceiro quartil, revelando uma grande dispersão. Relativamente à altura, quando se avalia o boxplot para o grupo A é notório um efeito inverso ao anterior: neste caso revela-se uma assimetria positiva, a qual é disfarçada pelos valores extremos dos outliers do grupo. De todo o modo, também se conclui que os casos 26 e 28 são bebés com estatura mais pequena do que seria de esperar para o grupo A. Apresenta-se agora uma breve explicação dos gráficos ormal Q-Q Plots e Detrended ormal Q-Q Plots, que permitem analisar desvios à normalidade. os ormal Q-Q Plots os dados devem distribuir-se junto à recta oblíqua para garantir a normalidade da distribuição. Os valores que mais se afastam da recta representam os casos mais extremos. Como exemplo, apresentam-se na Figura 7.24 as distribuições das variáveis peso e altura para os bebés masculinos dos grupos sanguíneos, respectivamente, AB e A. Figura 7.24 ormal Q-Q Plots das distribuições do peso dos bebés masculinos do grupo AB e da altura dos bebés masculinos do grupo A Peso à nascença Altura à nascença Sexo masculino, grupo AB 2,0 69,5,0,5 0,0 -,5 82 -, ,5-2, Sexo masculino, grupo A,5,0,5 0,0 -,5 -,0 28 -,5 26-2, Valor Observado Valor Observado 28

32 Desvio da ormalidade Desvio da ormalidade Amadeu Martins, Estatística Aplicada com o SPSS. Os gráficos foram editados, permitindo identificar os casos mais afastados das rectas. os gráficos Detrended ormal Q-Q Plots os valores devem distribuir-se de modo aleatório nas proximidades da recta de valor 0. Os outliers apresentarão maiores distâncias à recta. a Figura 7.25 estão representados os Detrended ormal Q-Q Plots relativos aos ormal Q-Q Plots anteriores. Figura 7.24 Detrended ormal Q-Q Plots das distribuições do peso dos bebés masculinos do grupo AB e da altura dos bebés masculinos do grupo A Peso à nascença Altura à nascença,6,4,2 0,0 -,2 -,4 -,6 Sexo masculino, grupo AB , ,5,4,3,2,,0 -, -,2 -,3 -,4 -,5 -,6 -,7 -,8 Sexo masculino, grupo A Valor Observado Valor Observado A equipa de investigação poderia agora decidir prosseguir a análise estatística mantendo ou não os casos identificados, o que dependeria, sobretudo dos objectivos do estudo: um estudo exploratório pode abdicar dos dados dos outliers; já um estudo que decorra em contexto clínico deve manter a informação dos casos extremos, pois estes revelam, frequentemente, as respostas às questões empíricas. 8. Cruzamento e associação de variáveis Os estudos de carácter exploratório pretendem frequentemente avaliar o grau de associação entre variáveis, ou seja, até que ponto estas se relacionam na(s) amostra(s) estudada(s). Variáveis nominais As medidas mais utilizadas para testar a associação entre duas variáveis nominais derivam das estatísticas do 2 (coeficiente Phi, coeficiente de contingência e coeficiente V de Cramer). Elas podem ser obtidas recorrendo aos comandos exemplificados na página 2 e assinalando as caixas respectivas na janela ilustrada na Figura 8.. A sua interpretação não difere da interpretação da estatística do 2. Figura 8. Caixa de diálogo do comando Crosstabs Existem outras medidas de associação como o rácio de produtos cruzados (odds ratio) e ainda outras que derivam do método da redução proporcional do erro de previsão (Lambda, Goodman & Kruskal s tau, coeficiente de incerteza). Apresentam-se, de seguida, alguns exemplos ilustrativos. 29

33 Odds ratio O odds ratio é uma medida de associação entre variáveis nominais com duas categorias (dispostas em tabelas 2 X 2) muito usada em investigação clínica. Avalia a relação existente entre uma variável (considerada factor de risco) que antecede uma outra (designada de acontecimento); é utilizado em estudos retrospectivos que avaliam variáveis anteriores ao estado clínico actual dos sujeitos. Para concretizar, suponha que um pneumologista pretendia avaliar a associação entre a história de hábitos tabágicos (factor de risco) e o desenvolvimento de enfisema pulmonar (acontecimento) numa amostra aleatória de 50 doentes retirados do seu ficheiro clínico. A tabela de dupla entrada obtida no início do estudo está representada na figura seguinte. Figura 8.2 Estado clínico dos doentes e respectivos antecedentes de hábitos tabágicos HÁBITO TABÁGICO Total fumador não fumador EFISEMA com enfisema sem enfisema Total Para a obtenção do odds ratio seguem-se os mesmos comandos da prova do 2 e assinala-se a caixa de verificação Risk. A Figura 8.3 apresenta os valores de risco estimados assim como os limites para um intervalo de confiança de 95% (ou seja, equivalente a p<0,05). a realidade, o valor do odds ratio corresponde ao quociente entre a taxa de incidência de enfisema para os fumadores (,886) e a taxa de incidência de enfisema para os não fumadores (0,584). Ou seja, OR =,886 / 0,584 = 3, Figura 8.3 Estimativas de odds ratio e taxas de incidência de enfisema Risk Estimate Odds Ratio for EFISEMA ( / 2) For cohort TABACO = For cohort TABACO = 2 of Valid Cases 95% Confidence Interval Value Lower Upper 3,230,650 6,322,886,287 2,765,584,426,80 50 A hipótese nula (H 0=O factor é independente do acontecimento) não deve ser rejeitada se o valor estiver compreendido dentro do intervalo de confiança a 95%. Observando os limites inferior (,650) e superior (6,322) do intervalo, pode concluir-se que esse não é o caso, ou seja, existe uma associação entre as variáveis que permite concluir que os doentes com enfisema têm três vezes (3,230) mais probabilidade de serem fumadores que os doentes sem enfisema. Por outro lado, quando considerados os doentes fumadores ( For cohort TABACO = ), conclui-se que têm uma probabilidade de sofrer de enfisema quase duas vezes superior à dos doentes não fumadores. Medidas direccionais Como se referiu, estas medidas representam uma estimativa da redução proporcional do erro de previsão. São obtidas a partir dos mesmos comandos da prova do 2, devendo ser assinaladas as caixas de verificação Lambda e Uncertainty coefficient, como se demonstra na Figura 8.4. Os valores destes coeficientes (Lambda, Goodman & Kruskal s tau, coeficiente de incerteza) variam entre 0 (impossibilidade de uma variável prever as categorias de uma outra, ou seja, ausência de relação) e (o conhecimento de uma variável prevê as categorias da outra variável). Estas medidas dizem-se direccionais pois dependem do conhecimento que o analista tem das variáveis: se não lhe é possível distinguir entre variável independente e variável dependente, deve recorrer a um coeficiente simétrico; se, pelo contrário, consegue definir a direcção da influência de uma variável numa outra, deve optar por um coeficiente assimétrico. 30

34 Figura 8.4 Caixa de diálogo do comando Crosstabs Para concretizar, recorre-se à anterior sondagem sobre o aborto (páginas 6 e 7). A Figura 8.5 resume a frequência das opiniões sobre o aborto nas situações de risco materno e de violação. Figura 8.5 Opiniões sobre o aborto devido a risco materno e o aborto devido a violação aborto devido a violação * aborto devido a risco materno Crosstabulation Count aborto devido a violação Total a favor contra sem opinião aborto devido a risco materno a favor contra sem opinião Total A Figura 8.6 resume as medidas direccionais aplicadas a estes dados, apresentando os valores dos coeficientes assim como os valores da probabilidade estatística associada. Figura 8.6 Medidas direccionais das variáveis cruzadas Directional Measures ominal by ominal Lambda Goodman and Kruskal tau Uncertainty Coefficient a. ot assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on chi-square approximation d. Likelihood ratio chi-square probability. Symmetric aborto devido a violação Dependent aborto devido a risco materno Dependent aborto devido a violação Dependent aborto devido a risco materno Dependent Symmetric aborto devido a violação Dependent aborto devido a risco materno Dependent Asymp. Value Std. Error a Approx. T b Approx. Sig.,42,093 4,243,000,407,8 2,927,003,47,9 2,934,003,268,080,000 c,284,086,000 c,284,076 3,772,000 d,280,075 3,772,000 d,289,078 3,772,000 d Pela observação da figura anterior é possível concluir que todos os coeficientes apoiam a rejeição da hipótese nula, ou seja, as variáveis estão associadas (p<0,05). Tomando como exemplo o valor do coeficiente simétrico de Lambda (0,42), conclui-se que sendo conhecido o comportamento de uma das variáveis é possível reduzir em 4,2% o erro de previsão sobre o comportamento da outra, sendo esta redução estatisticamente significativa. Por outro lado, as reduções do erro de previsão são muito semelhantes, seja quando o aborto devido a violação é considerado como variável dependente, seja quando o é o aborto devido a risco materno. Isso implica a consideração dos coeficientes simétricos, não esclarecendo qualquer direcção da associação entre as variáveis. Variáveis ordinais Existem várias medidas que quantificam a relação entre variáveis ordinais, desde medidas de associação (simétricas ou direccionais) ou de concordância (coeficiente Kappa de Cohen), até ao coeficiente de correlação de Spearman. Ilustram-se de seguida algumas aplicações. 3

35 Medidas de associação simétricas Estas medidas assentam na análise dos rankings de cada par de casos para ambas variáveis ordinais. Apesar dos valores dos coeficientes variarem entre - e +, a sua interpretação não difere da interpretação dos coeficientes de associação simétrica referidos para as variáveis nominais. Para a aplicação destas medidas, considere-se um estudo de sondagem que avaliou a frequência de donativos a organizações humanitárias consoante a classe social dos participantes. A Figura 8.7 resume estes dados. Figura 8.7 Distribuição da frequência de donativos pela classe social CLASSE * DOATIVO Crosstabulation Count CLASSE Total classe baixa classe média baixa classe média alta classe alta DOATIVO nunca raramente frequentemente Total As medidas de associação simétricas obtêm-se pelos mesmos comandos da prova do 2, assinalando-se as caixas Gamma, Kendall s tau-b, e Kendall s tau-c ilustradas na Figura 8.8. Figura 8.8 Caixa de diálogo do comando Crosstabs A Figura 8.9 apresenta os valores dos coeficientes Gamma, Kendall s tau-b e Kendall s tau-c, assim como os respectivos valores de significância estatística associados. Figura 8.9 Medidas simétricas do cruzamento das variáveis classe social e donativos Ordinal by Ordinal of Valid Cases Kendall's tau-b Kendall's tau-c Gamma a. ot assuming the null hypothesis. Symmetric Measures b. Using the asymptotic standard error assuming the null hypothesis. Asymp. Value Std. Error a Approx. T b Approx. Sig. -,438,08-24,79,000 -,455,08-24,79,000 -,60,022-24,79, O coeficiente Gamma baseia-se na redução do erro de previsão (como alguns coeficientes anteriores) e pressupõe que as variáveis a testar têm a mesma ordem crescente ou decrescente de categorias, o que é o caso, pois as categorias de classe social estão compreendidas entre (classe baixa) e 4 (classe alta) e as frequências de donativos entre (nunca) e 3 (frequentemente). Deste modo, o nível de significância associado ao valor de Gamma expresso na figura anterior permite concluir que existe uma associação entre as variáveis (p<0,05) robusta (corresponde a uma redução de 60% no erro de previsão). Além disso, o Gamma tem sinal negativo, o que é indicador de uma relação em sentido inverso: à medida que aumenta a ordem da classe social decresce a frequência de donativos. A interpretação dos coeficientes Kendall s tau-b e Kendall s tau-c é semelhante à do coeficiente Gamma, existe associação entre as variáveis, a qual tem expressão estatística significativa (p<0,05). 32

36 Medidas de associação direccionais O SPSS apresenta o coeficiente direccional Somers d que pode ser obtido pelos mesmos comandos dos coeficientes anteriores, devendo ser assinalada a caixa de verificação Somers d. A Figura 8.0 apresenta o valor do coeficiente assim como o valor de significância estatística associado. Figura 8.0 Medidas direccionais do cruzamento das variáveis classe social e donativos Ordinal by Ordinal Somers' d a. ot assuming the null hypothesis. Directional Measures Symmetric CLASSE Dependent DOATIVO Dependent b. Using the asymptotic standard error assuming the null hypothesis. Asymp. Value Std. Error a Approx. T b Approx. Sig. -,437,08-24,79,000 -,466,09-24,79,000 -,42,06-24,79,000 A fórmula de cálculo do Somers d é semelhante à do Gamma, mas além de distinguir as variáveis em independente e dependente considera o número de pares empatados nesta última. Deste modo, o Somers d obtido sugere que se a classe social for considerada como variável dependente o erro de previsão pode ser reduzido em 46,6% (p<0,05). o entanto, para o presente exemplo, isso não faz muito sentido, sendo mais objectivo considerar os valores obtidos pelas medidas de associação simétricas. Medida de concordância Kappa de Cohen O Kappa de Cohen é utilizado para avaliar o grau de concordância entre categorias homólogas de duas variáveis ordinais. O exemplo seguinte representa um inquérito realizado em dois centros de saúde urbanos, no qual o Kappa vai ser aplicado na avaliação do grau de acordo de classificação entre a satisfação face ao atendimento médico e a qualidade de instalações e equipamentos técnicos. Figura 8. Classificação da satisfação face ao atendimento médico e da qualidade de instalações e equipamentos técnicos pelos utentes de dois centros de saúde ATEDIM * EQUIPAM Crosstabulation Count ATEDIM Total muito bom bom aceitável sofrível EQUIPAM muito bom bom aceitável sofrível Total O Kappa obtem-se pelos mesmos comandos dos coeficientes anteriores, nomeadamente Analyze Descriptive Statistics Crosstabs Row(s) atendim Column(s) equipam Statistics Kappa Continue OK, ilustrados na figura 8.2. Figura 8.2 Caixa de diálogo do comando Crosstabs A Figura 8.3 apresenta o valor do coeficiente e o respectivo valor de significância estatística associado. 33

37 Figura 8.3 Kappa de Cohen do cruzamento das variáveis atendimento e equipamento Measure of Agreement of Valid Cases Kappa a. ot assuming the null hypothesis. Symmetric Measures b. Using the asymptotic standard error assuming the null hypothesis. Asymp. Value Std. Error a Approx. T b Approx. Sig.,369,027 5,892, Pela observação do quadro representado na Figura 8.3 conclui-se que 37% dos utentes inquiridos avaliam de igual forma (positiva ou negativa) a satisfação face ao atendimento médico e a qualidade do equipamento técnico dos centros de saúde. Dito de outro modo, a avaliação do atendimento médico e do equipamento técnico é interdependente (as variáveis estão moderadamente associadas com p<0,05), verificando-se, por exemplo, que dos 73 utentes que avaliaram o atendimento médico como muito bom cerca de 33 também o fizeram em relação aos equipamentos, ou ainda que dos 06 inquiridos que classificaram o atendimento médico como sofrível 88 avaliaram de igual modo os equipamentos. Ou seja, a percepção face às instalações e equipamento influencia a percepção face à qualidade do atendimento, e vice-versa. Com este conhecimento, a administração poderia investir num melhoramento logístico dos equipamentos e instalações e obter com isso um pay off de melhoria da satisfação face ao atendimento médico por parte dos seus utentes. Coeficiente de correlação de Spearman O coeficiente de correlação de Spearman quantifica a relação entre variáveis ordinais. Trata-se de um coeficiente de correlação não-paramétrico cujos valores variam entre - e. Quanto mais próximo da unidade estiver o seu valor, mais robusta é a associação entre as variáveis. O sinal (+/-) indica, por sua vez, o sentido de variação das variáveis; como exemplo, um coeficiente negativo indica que as categorias mais baixas de uma variável estão associadas às categorias mais elevadas da outra. O coeficiente de correlação de Spearman é também a alternativa não-paramétrica ao coeficiente de correlação de Pearson para variáveis intervalares, quando não se verifica o pressuposto de normalidade da distribuição de uma das variáveis em estudo. Para concretizar, a Figura 8.4 resume os dados de um inquérito conduzido numa empresa de telecomunicações que pretendia avaliar até que ponto as responsabilidades inerentes à posição hierárquica dos trabalhadores se relacionam com o stress percebido no seu contexto laboral. Figura 8.4 Grau de envolvimento hierárquico e stress diário percebido numa empresa Envolvimento hierárquico * Stress diário percebido Crosstabulation Envolvimento hierárquico Total muito baixo baixo médio alto muito alto Count Expected Count Adjusted Residual Count Expected Count Adjusted Residual Count Expected Count Adjusted Residual Count Expected Count Adjusted Residual Count Expected Count Adjusted Residual Count Expected Count Stress diário percebido muito baixo baixo médio alto muito alto Total ,6 4,6 43,6 56,0 2,3 298,0-8,3-7,3-5,5-2,7 7, ,5 34,0 35,7 45,8 9,9 244,0,9 7,6 7,7 2,0-3, , 7,9 8,7 24,0 48,2 28,0 5,8 3,6-2,9-4,2-8, ,3 8,0 8,9 24,2 48,6 29,0-3,6 -,6,7 5,6 -, ,5 2,6 3,2 6,9 33,9 90,0-2,6-2, -,3 -,3 4, ,0 24,0 30,0 67,0 335,0 889,0 Para a obtenção do coeficiente de correlação de Spearman seguem-se os comandos Analyze Correlate Bivariate Variables envolvim stress Correlation Coefficients Spearman Test of Significance Two-tailed Flag significant correlations OK, ilustrados na figura 8.5. A Figura 8.6 apresenta o valor do coeficiente e o valor de significância estatística a ele associado. 34

38 Figura 8.5 Caixa de diálogo do comando Bivariate Correlations Figura 8.6 Coeficiente de correlação de Spearman entre envolvimento hierárquico e stress Correlations Spearman's rho Envolvimento hierárquico Stress diário percebido **. Correlation is significant at the 0.0 level (2-tailed). Correlation Coefficient Sig. (2-tailed) Correlation Coefficient Sig. (2-tailed) Envolvimento Stress diário hierárquico percebido,000 -,32**., ,32**,000, O quadro apresentado na figura anterior revela uma relação linear moderada e negativa entre as variáveis (p<0,05) através do coeficiente de correlação de Spearman. Se este valor for elevado ao quadrado obtém-se o coeficiente de determinação, o qual indica a quantidade de variação que uma variável explica em relação à outra. este caso o coeficiente de determinação seria obtido pela expressão (-0,32) 2 = 0,03, o que equivale a dizer que somente 0% da variação do stress percebido é explicada pelo envolvimento hierárquico dos participantes. O sentido da relação entre as variáveis (sinal negativo) suscita, no entanto, algumas dúvidas: é pouco lógico que os participantes do topo hierárquico, com maiores responsabilidades na empresa, sejam os que menos stress percebem. Deste modo indagou-se como seria a representação gráfica da associação entre as variáveis através dos comandos Graphs Scatter Simple Define. O grau de envolvimento hierárquico foi considerado como variável independente e o stress diário percebido como variável dependente. A Figura 8.7 representa a caixa de diálogo obtida. Figura 8.7 Caixa de diálogo do comando Simple Scatterplot O Output View produz então um gráfico de dispersão, o qual se pretende editar. Como se sabe, a edição de gráficos realiza-se a partir do Chart Editor, o qual é obtido através de um duplo click sobre a área do gráfico a editar. Após a abertura da janela do Chart Editor seguem-se os comandos Chart Options Fit Line Total Fit Options Fit Method Quadratic regression Regression Options Include constant in equation, Display R-square in legend Continue OK. a Figura 8.8 estão ilustrados estes comandos para a edição do diagrama de dispersão. 35

39 Stress diário percebido Amadeu Martins, Estatística Aplicada com o SPSS. Figura 8.8 Caixas de diálogo para a edição do scatterplot Deste modo, revela-se uma função quadrática entre as variáveis que explica agora o valor do coeficiente de correlação (linear) de Spearman. Ou seja, não existe uma simples relação linear entre as variáveis mas sim uma função, como é visível na Figura 8.9. Figura 8.9 Diagrama de dispersão (scatterplot) obtido entre o grau de envolvimento hierárquico e o stress diário percebido pelos participantes 6 5 a realidade são os trabalhadores com um grau de envolvimento hierárquico muito baixo ou muito alto aqueles que percebem maiores índices de stress Existe assim uma correlação não linear mais robusta que a correlação de Spearman obtida, produzindo um coeficiente de determinação mais elevado 0 Rsq = Envolvimento hierárquico Pela observação da figura anterior conclui-se que a relação existente entre as variáveis é melhor explicada através de um coeficiente de correlação não linear. O valor do coeficiente de determinação correspondente permite agora concluir que 45% da variação do stress percebido pelos participantes é explicada pela variação do grau de envolvimento hierárquico. A estimativa deste novo coeficiente de correlação segue os comandos Analyze Regression Curve Estimation, ilustrados na figura Figura 8.20 Caixa de diálogo do comando Curve Estimation 36

40 A Figura 8.2 resume o modelo obtido para a estimativa do coeficiente de correlação a partir da curva de função quadrática existente na associação entre as variáveis. Figura 8.2 Estimativa da curva de função quadrática pelo comando Curve Estimation MODEL: MOD_. Dependent variable.. STRESS Method.. QUADRATI Multiple R,67337 R Square,45343 Adjusted R Square,45220 Standard Error, Stress diário percebido Analysis of Variance: DF Sum of Squares Mean Square Regression 2 878, ,43096 Residuals ,38, Observed F = 367,5254 Signif F =, Quadratic Variables in the Equation Variable B SE B Beta T Sig T EVOLVIM -3,639639, , ,049,0000 EVOLVIM**2,63556, , ,7,0000 (Constant) 7,596065, ,222,0000 Envolvimento hierárquico Cases weighted by FREQ Pode observar-se na figura anterior o valor do coeficiente de determinação obtido anteriormente (0,45343), assim como o valor do coeficiente de correlação múltiplo (0,67), o qual é neste caso positivo. Variáveis intervalares ou de rácio As medidas utilizadas para avaliar a eventual associação entre variáveis intervalares ou de rácio são o coeficiente de correlação de Pearson e, quando não se verificam os pressupostos para a sua utilização, o coeficiente de correlação de Spearman, como se referiu anteriormente. Com base no coeficiente de correlação de Pearson, existe ainda o coeficiente de correlação parcial que permite avaliar a associação entre variáveis controlando possíveis efeitos de uma outra. Coeficiente de correlação de Pearson O coeficiente de correlação de Pearson varia entre - e. Quanto mais próximo da unidade estiver o seu valor, mais robusta é a associação entre as variáveis. O sinal (+/-) indica, como se referiu para o coeficiente de Spearman, o sentido de variação das variáveis. O coeficiente de determinação, que também já se referiu, é obtido elevando ao quadrado o valor do coeficiente de correlação de Pearson, e representa a quantidade de variação de uma variável que é devida à variação da outra variável correlacionada. O coeficiente de Pearson tem os seguintes pressupostos:. As variáveis a correlacionar têm uma distribuição normal bidireccional. 2. Ocorre uma função (relação) linear entre elas. 3. A amostra tem uma dimensão mínima de 30 sujeitos. O exemplo seguinte pretende ilustrar a utilização deste coeficiente. Uma equipa de investigadores está a conduzir um estudo sobre a influência da nutrição no rendimento desportivo de 32 atletas de alta competição. De entre múltiplas variáveis, a Figura 8.22 resume as estatísticas descritivas do peso e altura dos atletas a par das quilocalorias médias das suas refeições. Figura 8.22 Estatísticas descritivas das variáveis altura, peso e quilocalorias Descriptive Statistics ALTURA PESO KCAL Valid (listwise) Minimum Maximum Mean Std. Deviation ,3 2, ,28 2, ,63,

41 Expected ormal Expected ormal Expected ormal Amadeu Martins, Estatística Aplicada com o SPSS. Os investigadores pretendem correlacionar estas variáveis na amostra. Inicialmente procedem ao estudo dos pressupostos do coeficiente de Pearson. Através dos comandos Analyze Descriptive Statistics Explore Dependent List altura peso kcal Plots Boxplots Dependents together Descriptive histogram ormality plots with tests Continue OK obtêm-se as caixas de diálogo ilustradas na figura Realça-se que, excepcionalmente, as três variáveis são adicionadas à lista de variáveis dependentes de modo a prosseguir as representações gráficas. Figura 8.23 Caixas de diálogo obtidas a partir do comando Explore Deste modo, é examinada a normalidade da distribuição das três variáveis através dos gráficos ormal Q-Q Plots e do Teste de Kolmogorov-Smirnov, representados na figura seguinte. Figura 8.24 Estudo da normalidade das distribuições das variáveis altura, peso, e quilocalorias avaliadas na amostra de atletas (Teste K-S e ormal Q-Q Plots) 2 ormal Q-Q Plot of ALTURA 2 ormal Q-Q Plot of PESO 2 ormal Q-Q Plot of KCAL Observed Value Observed Value Observed Value KCAL ALTURA PESO Tests of ormality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig.,07 32,200*,948 32,25,088 32,200*,980 32,798,097 32,200*,978 32,73 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Pela análise dos gráficos ormal Q-Q Plots obtidos verifica-se que as três variáveis têm distribuições aparentemente normais, com os valores observados muito próximos das rectas. A conclusão é suportada pelos valores de significância estatística associados quer ao Teste Kolmogorov-Smirnov, quer ao Teste de Shapiro-Wilk (recorde-se que o SPSS desempenha também este teste sempre que o valor total da amostra é inferior a 50, como no presente exemplo) todos eles superiores a 0,05. O passo seguinte consiste em avaliar se existe uma relação linear entre as variáveis. Para tal solicitam-se diagramas de dispersão entre cada par através dos comandos Graphs Scatter Scatterplot Simple Define Y Axis variável X Axis variável OK, ilustrados na Figura

42 ALTURA KCAL KCAL Amadeu Martins, Estatística Aplicada com o SPSS. Figura 8.25 Caixas de diálogo obtidas a partir do comando Scatterplot Com um duplo click em cada gráfico abre-se o Chart Editor e seguem-se os comandos Chart Options Fit Line Total Fit Options Fit Method Linear regression Regression Options Include constant in equation, Display R-square in legend Continue OK. A Figura 8.26 demonstra o aspecto final dos gráficos revelando forte associação linear entre as variáveis (os coeficientes de determinação são muito elevados). Figura 8.26 Diagramas de dispersão entre as variáveis altura, peso, e quilocalorias Rsq = PESO 20 Rsq = PESO 20 Rsq = ALTURA A obtenção dos coeficientes de correlação de Pearson segue os comandos Analyze Correlate Bivariate Variables altura peso kcal Correlation Coefficients Pearson Test of Significance Two-tailed Flag significant correlations OK. A Figura 8.27 apresenta os valores dos coeficientes e os respectivos valores de significância estatística. Figura 8.27 Coeficientes de correlação de Pearson entre a altura, peso, e quilocalorias ALTURA PESO KCAL Pearson Correlation Sig. (2-tailed) Pearson Correlation Sig. (2-tailed) Pearson Correlation Sig. (2-tailed) Correlations **. Correlation is significant at the 0.0 level (2-tailed). ALTURA PESO KCAL,990**,923**.,000, ,990**,946**,000., ,923**,946**,000, Como se pode concluir, as três variáveis estão altamente correlacionadas, atingindo os coeficientes de Pearson valores invulgarmente elevados. Todas as correlações são positivas e estatisticamente significativas para p<0,00. Curiosamente, e esta é uma característica central do conceito de correlação, apesar dos coeficientes demonstrarem que as variáveis estão fortemente associadas, não sugerem qualquer relação de causa-efeito entre elas. 39

43 Coeficiente de correlação parcial Como se referiu, o coeficiente de correlação parcial é uma extensão do coeficiente de Pearson aplicada ao controlo da possível influência de uma variável sobre a correlação existente entre outras. Os pressupostos necessários para a estimativa são os mesmos que estão subjacentes ao coeficiente de correlação de Pearson, ou seja, a variável a controlar deverá ter uma distribuição normal bidireccional e estar relacionada linearmente com cada uma das variáveis a correlacionar. Para concretizar, em relação ao estudo anterior, os investigadores desejavam avaliar se as quilocalorias médias das refeições avaliadas nos atletas influenciam a correlação entre o peso e a altura dos mesmos. Dado que os pressupostos se encontram reunidos, prossegue-se para a estimativa do coeficiente de correlação parcial através dos comandos Analyze Correlate Partial Variables altura peso Controlling for kcal Test of Significance Two-tailed Display actual significance level Options Statistics Zero-order correlations Continue OK, cujas caixas de diálogo se apresentam na Figura Figura 8.28 Caixas de diálogo obtidas a partir do comando Partial Correlations a Figura 8.29 representam-se os coeficientes de correlação de ordem zero e o coeficiente de correlação parcial entre a altura e o peso dos atletas, controlado para a influência da variável quilocalorias. Figura 8.29 Correlação parcial entre a altura e peso, controlando a variável quilocalorias P A R T I A L C O R R E L A T I O C O E F F I C I E T S Zero Order Partials ALTURA PESO KCAL ALTURA,0000,9899,9232 ( 0) ( 30) ( 30) P=. P=,000 P=,000 Estes coeficientes são exactamente os da Figura 8.27, estando aqui arredondados à milésima PESO,9899,0000,9456 ( 30) ( 0) ( 30) P=,000 P=. P=,000 KCAL,9232,9456,0000 ( 30) ( 30) ( 0) P=,000 P=,000 P=. (Coefficient / (D.F.) / 2-tailed Significance) P A R T I A L C O R R E L A T I O C O E F F I C I E T S Controlling for.. ALTURA KCAL PESO ALTURA,0000,9355 ( 0) ( 29) P=. P=,000 a realidade, quando se controla a variável quilocalorias, a correlação existente entre altura e peso decai ligeiramente PESO,9355,0000 ( 29) ( 0) P=,000 P=. (Coefficient / (D.F.) / 2-tailed Significance) A figura anterior revela, então, uma elevada correlação parcial entre peso e altura, de sentido positivo, e estatisticamente significativa para p<0,00. Apesar do seu valor ser ligeiramente inferior ao da correlação representada na Figura 8.27, traduz, na realidade pouca influência da variável quilocalorias. 40

44 9. Testes de hipóteses Introdução A que deve a investigação responder? Como já se referiu, as investigações exploratórias procuram normalmente testar associações entre variáveis, recorrendo a medidas como os coeficientes de correlação expostos no capítulo anterior. Já outras investigações têm como objectivo comparar grupos de participantes (e.g., hipertensos versus normotensos) consoante variáveis de interesse (e.g., hábitos tabágicos, coeficientes calóricos). Qual é o desenho do estudo do investigador? Esta é outra das razões da escolha do teste estatístico adequado, o planeamento do estudo.. Escalas de medida das variáveis em estudo Como se discutiu no segundo capítulo, as variáveis são medidas em escalas diferentes. Assim, os testes estatísticos usados com dados do tipo intervalar (e.g., o peso, a altura, etc.) são diferentes dos testes a usar com dados de tipo nominal (e.g. o género, a naturalidade, etc.). 2. úmero de amostras em estudo O número de amostras do planeamento determina igualmente o teste estatístico a utilizar. 3. As amostras são independentes ou relacionadas? As avaliações de amostras dizem-se independentes (ou os planos de comparação dizem-se between subjects) quando as medições ou observações de uma amostra são independentes da outra (normalmente por acção de uma variável independente de agrupamento ou experimental). Dito de outra forma, avaliam-se diferentes sujeitos no mesmo momento. Alguns exemplos: comparar a rapidez de aprendizagem de uma nova língua entre duas turmas de alunos; comparar o desempenho no Water Maze Test entre ratos Wistar normais e ratos Wistar lesionados estrategicamente A avaliação de amostras emparelhadas ou relacionadas, equivalente aos planos de comparação within subjects, refere-se a avaliações repetidas no mesmo grupo de sujeitos. Ou seja, avaliam-se os mesmos sujeitos em diferentes momentos. Este tipo de avaliação é mais aplicado em modelos experimentais ou clínicos de investigação. Alguns exemplos: avaliar a tensão arterial antes e depois de um filme de carga emocional negativa; avaliar índices da diabetes antes e depois da terapêutica O quadro seguinte resume os principais testes estatísticos a utilizar consoante o tipo de dados, o número de amostras e o tipo de estudo em causa. Tipo de Dados Amostras Independentes Tipo de Estudo Amostras Relacionadas Intervalares Ordinais ominais Intervalares Ordinais ominais Duas amostras Teste t de Student Teste de Mann-Whitney Teste do 2 Mais de duas amostras Oneway Anova Teste de Kruskal-Wallis Teste do 2 Duas amostras Teste t de Student Teste de Wilcoxon Teste de Mcemar Mais de duas amostras Anova de medidas repetidas Teste de Friedman Teste de Cochran 4

45 Testes estatísticos para uma amostra Como se referiu, os testes estatísticos dependem das propriedades das variáveis em questão, do número de grupos a comparar, bem como de pressupostos relativos à distribuição e ao tamanho amostral. Raramente (exceptuando, talvez, as sondagens) ocorre necessidade de se utilizarem testes estatísticos para uma só amostra. o entanto, vão analisar-se estes procedimentos consoante o tipo de dados. Dados nominais Uma educadora deseja saber se as 56 crianças do infantário têm maior preferência por um de dois brinquedos (Peter Pan ou Hulk) e regista as suas escolhas à chegada à sala de actividades. este caso, existe uma variável nominal (brinquedo escolhido) com duas categorias (as crianças só têm duas hipóteses de escolha). Este tipo de distribuição designa-se binomial pois obedece a um binómio de ocorrência (ou A ou B), e é exactamente a mesma distribuição que se obtém, por exemplo, ao se atirar uma moeda ao ar (cara ou coroa). À partida é aparente que o Peter Pan é o brinquedo mais escolhido, como demonstra a Figura 9., mas será essa tendência distinta do que se pode esperar de uma distribuição binomial?... Figura 9. Piechart da proporção de escolhas efectuadas em relação a cada brinquedo Brinquedo escolhido Hulk 42,9% ão será novidade que se pode modificar o aspecto dos gráficos do Output View fazendo um duplo clique sobre eles para abrir o editor de gráficos, o Chart Editor Peter Pan 57,% Para o teste desta hipótese recorre-se à prova da binomial pelos comandos Analyze onparametric Tests Binomial Test Variable List brinquedo OK ilustrados na Figura 9.2. Figura 9.2 Caixa de diálogo do comando Binomial Test Repare que as proporções da variável são comparadas com 0,5 (50% de hipóteses de ocorrência de cada categoria). O Output obtido permite atribuir ao acaso a maior frequência (57%) de escolha do Peter Pan, pois o valor de significância (0,350) é muito superior a 0,05. Logo, as diferenças não têm expressão estatística para o tamanho da amostra em causa ( = 56), como o demonstra a Figura 9.3. Figura 9.3 Prova da binomial para o brinquedo escolhido Binomial Test Brinquedo escolhido Group Group 2 Total a. Based on Z Approximation. Asymp. Sig. Category Observed Prop. Test Prop. (2-tailed) Peter Pan 32,57,50,350 a Hulk 24,43 56,00 42

46 Suponha agora que a mesma educadora pretendia avaliar a cor de esferográfica favorita das crianças, perante três cores disponíveis (logo, três categorias para uma variável), preto, azul, e verde. A Figura 9.4 resume a distribuição de frequências para a variável cor de caneta. Figura 9.4 Resumo de frequências das cores de caneta escolhidas Cor de caneta favorita Cor de caneta favorita Verde 25,0% Preto 32,% Preto Azul Verde Total Cumulative Frequency Valid Percent Percent 8 32, 32, 24 42,9 75,0 4 25,0 00, ,0 Azul 42,9% Recorde que o Output View permite editar as tabelas produzidas, por exemplo, retirar valores de células, linhas ou colunas, etc. Uma rápida análise permite concluir que o azul é a cor mais escolhida pelas crianças. Mas será essa associação sistemática ou meramente devida ao acaso? Para responder à questão, e uma vez que os dados já não apresentam uma distribuição binomial (pois têm três categorias) deve utilizar-se a prova do 2. A prova do 2 aplica-se mais frequentemente para testar as distribuições de frequências obtidas pelo cruzamento entre duas variáveis qualitativas ou categóricas, normalmente por uma tabela de contingência. O racional desta prova consiste em comparar as frequências (efectivos) observadas em cada célula da tabela com as que se obteriam no caso das variáveis não estarem relacionadas (frequências esperadas). este exemplo, não existem duas variáveis em cruzamento, pelo que a prova limita-se a comparar as frequências observadas das escolhas das crianças com as frequências teóricas esperadas (neste caso, como a variável tem três categorias, seria de esperar um terço da amostra por categoria). Os comandos a seguir seriam Analyze onparametric Tests Chi-Square Test Variable List caneta Expected Range Get from data Expected Values All categories equal OK, e estão ilustrados na Figura 9.5. Figura 9.5 Caixa de diálogo do comando Chi-Square Test A Figura 9.6 apresenta o resumo das frequências observadas e esperadas para cada categoria e os valores das distâncias entre elas (resíduos). o quadro Test Statistics observa-se o valor do 2, os graus de liberdade da prova (número de categorias-), e o valor de probabilidade estatística a ela associado (Asymp. Sig. = 0,257). Com base neste último valor, bastante superior à convenção de 0,05, deve aceitar-se a hipótese nula, de que as diferenças que ocorrem entre as cores escolhidas não são estatisticamente significativas. Realça-se que a prova do 2 que testa a distribuição de três ou mais categorias de uma única variável é considerada não-paramétrica pois assume que não se verificam os pressupostos da distribuição normal dos dados. 43

47 Figura 9.6 Prova do Qui-quadrado para a cor de caneta favorita Preto Azul Verde Total Cor de caneta favorita Observed Expected Residual 8 8,7 -,7 24 8,7 5,3 4 8,7-4,7 56 Test Statistics Cor de caneta favorita Chi-Square 2,74 df 2 Asymp. Sig.,257 Dados ordinais O teste de Kolmogorov-Smirnov é o procedimento de análise de uma amostra de dados ordinais, assim como a prova a executar para o teste da normalidade de distribuição de dados intervalares de uma variável. Recorrendo ao exemplo da página 32, que avaliou a frequência de donativos a organizações humanitárias consoante a classe social dos participantes, procede-se ao teste da distribuição da classe social através do teste K-S. Este pode ser obtido a partir dos comandos Analyze Descriptive Statistics Explore Dependent List classe Plots ormality plots with tests Continue OK, já referidos na página 38, ou através dos comandos Analyze onparametric Tests - Sample K-S Test Variable List classe Test Distribution ormal OK, ilustrados na Figura 9.7. Figura 9.7 Caixa de diálogo do comando One-Sample Kolmogorov-Smirnov Test Como se demonstra na Figura 9.8, a distribuição da variável classe social difere significativamente de uma distribuição normal (p<0,00), qualquer que seja a linha de comandos seguida. Figura 9.8 Teste K-S para a distribuição da classe social One-Sample Kolmogorov-Smirnov Test ormal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is ormal. b. Calculated from data. Mean Std. Deviation Absolute Positive egative CLASSE 564 2,48,09,209,209 -,67 8,272,000 CLASSE Tests of ormality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig., ,000, ,000 a. Lilliefors Significance Correction Dados intervalares Além do teste K-S já referido, o teste t de Student para uma amostra pode ser utilizado quando é conhecida a média da variável em estudo para a população donde foi extraída a amostra. Para concretizar recorre-se ao exemplo da sondagem sobre o aborto, descrita nas página 6 e 7. Uma das variáveis avaliadas nos participantes foi o rendimento mensal. Suponha que o rendimento médio mensal da população Portuguesa é de 50. O teste t permite avaliar se a diferença entre a média do rendimento mensal da amostra e a média do rendimento mensal da população atinge significância estatística. Para tal seguem-se os comandos Analyze Compare Means One-Sample T Test Test Variable(s) rendim Test Value 50 OK. Observa-se na Figura 9.9 a caixa de diálogo respectiva. 44

48 Figura 9.9 Caixa de diálogo do comando One-Sample T Test a janela de entrada Test Value é introduzido o valor da média da população, com o qual se pretende comparar a média da amostra A Figura 9.0 resume algumas estatísticas descritivas para a distribuição do rendimento mensal da amostra, assim como os valores relativos ao teste t e à significância estatística do mesmo para um intervalo de confiança de 95%. Verifica-se que apesar da média do rendimento mensal da amostra (998 ) ser inferior à da população (50 ), essa diferença não atinge significância estatística (p=0,24, n.s.), levando à conclusão de que as médias de rendimento são semelhantes e de que a diferença entre elas se deve ao acaso da constituição amostral. Figura 9.0 Teste t para comparação do rendimento médio da amostra com o da população One-Sample Statistics Rendimento mensal Mean Std. Deviation Std. Error Mean ,8 623,79 96,59 One-Sample Test Test Value = 50 Rendimento mensal Mean 95% Confidence Interval of the Difference t df Sig. (2-tailed) Difference Lower Upper -,572 4,24-5,9-345,39 43,0 Testes estatísticos para duas amostras independentes Dados nominais O teste a utilizar na comparação de duas distribuições de dados nominais independentes é a prova do 2. Esta prova foi já demonstrada anteriormente (ver por exemplo as páginas 2 e 22). Dados ordinais A comparação de duas distribuições de dados ordinais independentes é normalmente efectuada pela prova U de Mann-Whitney, que é também o recurso não paramétrico ao teste t de Student para duas amostras de dados intervalares independentes quando não se reúnem os pressupostos para a sua utilização. A prova U de Mann-Whitney compara os centros de localização de duas amostras independentes e obedece a alguns pressupostos. A forma das distribuições amostrais deve ser semelhante. Quando o número de efectivos das amostras é inferior a 0 ( <0), a probabilidade estatística associada ao teste deve ser lida no nível de significância exacto (Exact Sig.); nos casos em que 0, o nível de significância a assumir será o relativo à distribuição assimptótica (Asymp. Sig.). Para concretizar, um serviço de neurologia distribuiu aleatoriamente 3 doentes consecutivos de AVC por dois grupos terapêuticos, um primeiro grupo que recebeu fisioterapia (=6) e um segundo que recebeu fisioterapia e psicoterapia de forma combinada (=5). Após três meses de intervenção, os doentes de ambos os grupos são avaliados na sua motricidade, nomeadamente quanto à preensão de objectos, à locomoção, e à coordenação de movimentos, segundo a escala: 0=sem dificuldades; =com dificuldades mas autónomo; 2=necessita de ajuda; 3=dependência em relação aos outros. Os neurologistas pretendem testar se as intervenções implementadas são igualmente eficazes ou não. O estudo dos pressupostos faz-se através da determinação dos boxplots das distribuições das variáveis em cada grupo, e do respectivo teste de normalidade. Procede-se ao estudo de curtose e 45

49 simetria com base nas estatísticas descritivas das distribuições (quocientes entre valores de curtose e assimetria e os respectivos erros padrão, ver página 23). Seguem-se para tal os comandos Analyze Descriptive Statistics Explore Dependent List preensão marcha coordena Factor List grupo Statistics Descriptives Plots Boxplots Dependents together ormality plots with tests Continue OK. A Figura 9. ilustra as caixas de diálogo respectivas. Figura 9. Caixas de diálogo do comando Explore A Figura 9.2 apresenta os boxplots das distribuições das três variáveis de motricidade avaliadas em cada grupo terapêutico. Como se referiu no capítulo 7, as caixas representam os dados compreendidos entre o primeiro e o terceiro quartil. Comparando cada variável entre os grupos, verifica-se igual distância entre as caixas, sugestiva de semelhança entre ambas as distribuições. Figura 9.2 Boxplots das distribuições das variáveis preensão de objectos, locomoção e coordenação de movimentos para cada grupo de intervenção 3,5 3,0 2,5 2,0,5,0,5 0,0 -,5 = Fi sioterapi a 5 Terapia combinada Preensão Locomoção Coordenação Grupo de estudo A Figura 9.3 resume as estatísticas descritivas de interesse para o estudo da simetria e da curtose. Figura 9.3 Estatísticas descritivas referentes às variáveis avaliadas nos grupos de estudo Descriptives Preensão de objectos Locomoção Coordenação de movimentos Grupo de estudo Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Median Skewness Kurtosis Median Skewness Kurtosis Median Skewness Kurtosis Median Skewness Kurtosis Median Skewness Kurtosis Median Skewness Kurtosis Statistic Std. Error 2,00 -,624,564 -,728,09,00,53,580 -,79,2 2,00 -,624,564 -,728,09,00,344,580 -,35,2 2,00 -,624,564 -,728,09 2,00 -,09,580 -,499,2 46

50 Quer para a assimetria quer para a curtose, os quocientes entre os coeficientes e os erros-padrão se situam dentro do intervalo [-,96; +,96], o que acontece para todas as variáveis. A Figura 9.4 apresenta os testes de normalidade da distribuição das variáveis. Figura 9.4 Testes de normalidade da distribuição das variáveis em estudo Tests of ormality Preensão de objectos Locomoção Coordenação de movimentos a. Lilliefors Significance Correction Grupo de estudo Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig.,26 6,044,846 6,02,27 5,056,862 5,026,26 6,044,846 6,02,95 5,28,853 5,09,26 6,044,846 6,02,86 5,7,858 5,023 Como o número de efectivos de cada distribuição a avaliar é inferior a 50, o teste de normalidade a considerar é o de Shapiro-Wilk. Os valores de significância estatística associados a este teste confirmam que as distribuições de todas as variáveis se afastam da normalidade (p <0,05), o que reforça a ideia de que as distribuições são semelhantes e comparáveis. Um último aspecto a analisar será a dispersão das distribuições. Para o seu estudo solicita-se o teste de homogeneidade de variâncias de Levene. Este pode ser obtido a partir do subcomando options do one-way AOVA seguindo-se Analyze Compare Means One-Way AOVA Dependent List preensão marcha coordena Factor grupo Options Statistics Homogeneity of variance test Continue OK como pretende ilustrar a Figura 9.5. Figura 9.5 Caixas de diálogo do comando One-Way AOVA O teste de Levene de homogeneidade de variâncias está representado na figura seguinte. Figura 9.6 Teste de homogeneidade de variância das variáveis em estudo entre os grupos Test of Homogeneity of Variances Preensão de objectos Locomoção Coordenação de movimentos Levene Statistic df df2 Sig.,002 29,969,506 29,483,896 29,352 Pela observação da Figura 9.6 é possível concluir que, para cada uma das variáveis em estudo, os grupos não diferem na dispersão de valores. Os níveis de significância estatística, todos superiores a 0,05, obrigam a aceitar a hipótese nula de que as variâncias não diferem entre os grupos em cada variável considerada, ou seja, a dispersão de cada variável é relativamente homogénea entre os grupos. Os procedimentos descritos permitem assegurar que, de facto, as distribuições das variáveis entre os grupos são idênticas (apesar de violarem a normalidade). A prova U de Mann-Whitney pode agora ser obtida a partir dos comandos Analyze onparametric Tests 2 Independent Samples Test Variable List preensão marcha coordena Grouping Variable grupo Define Groups Group Group 2 2 Continue Test Type Mann-Whitney U Exact Exact Continue OK como pretende demonstrar a Figura

51 Figura 9.7 Caixas de diálogo do comando Two-Independent-Samples Tests ote que os valores a introduzir são os valores correspondentes aos value labels usados na variável de agrupamento. Em estudos com grupo de controlo, o SPSS considera o Group como o valor que o designa. Encontram-se resumidas na Figura 9.8 as ordenações médias das pontuações de cada grupo nas três variáveis avaliadas. Globalmente, o grupo de doentes que recebeu terapêutica combinada apresenta menos incapacidades e mais autonomia do que o grupo que apenas recebeu fisioterapia. Mas representarão essas diferenças um efeito estatisticamente significativo ou dever-se-ão a acaso amostral? Figura 9.8 Prova U de Mann-Whitney para comparação das variáveis preensão de objectos, locomoção e coordenação de movimentos entre os grupos de intervenção Ranks Preensão de objectos Locomoção Coordenação de movimentos Grupo de estudo Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Total Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Total Grupo de fisioterapia Grupo de fisioterapia + psicoterapia Total Mean Rank Sum of Ranks 6 9,06 305,00 5 2,73 9, ,47 295,50 5 3,37 200, ,47 279,50 5 4,43 26,50 3 Test Statistics b Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(-tailed Sig.)] Exact Sig. (2-tailed) Exact Sig. (-tailed) Point Probability a. ot corrected for ties. b. Grouping Variable: Grupo de estudo Preensão de objectos Locomoção Coordenação de movimentos 7,000 80,500 96,500 9, ,500 26,500-2,000 -,64 -,964,046,07,335,054 a,9 a,358 a,048,,352,027,063,85,009,02,026 a mesma figura é possível observar que apenas a preensão de objectos atinge significância estatística (p <0,05), apesar da variável locomoção apresentar uma tendência nesse sentido. O nível de significância considerado foi o nível exacto de significância bicaudal [Exact Sig. (2-tailed)]. A significância unicaudal só deve ser utilizada nos casos em que se conhecem a priori diferenças nas distribuições a comparar. Se, por exemplo, se pretendesse avaliar se diferiam as classificações médias de classe etária entre um grupo de reformados e um grupo de trabalhadores activos, como à partida se conhecia o facto dos trabalhadores reformados (excluindo reforma por invalidez) serem mais velhos iria testar-se se a distribuição das classes etárias era significativamente diferente no extremo (cauda) superior, utilizando-se para isso o nível de significância unicaudal (-tailed). Por outro lado, números reduzidos de efectivos na prova de Mann-Whitney ( <20) forçam ao uso da correcção exacta do valor de significância (Exact Sig.). Desta forma, a equipa de neurologistas poderia concluir que a intervenção combinada com fisioterapia e psicoterapia seria geralmente mais eficaz, em especial na recuperação da motricidade fina. Dados intervalares A comparação de duas amostras de dados intervalares independentes é frequentemente realizada através do teste t de Student quando se verificam os pressupostos para a sua utilização. Quando tal não acontece, e como se referiu, a prova U de Mann-Whitney poderá ser uma alternativa viável ao teste t de Student. Deste modo, o teste t pode ser usado: a) quando o número de efectivos em cada grupo a comparar é superior a 30 (> 30); b) quando as variáveis a testar têm distribuição normal nos grupos, apesar destes terem efectivos inferiores ou iguais a 30. O estudo destes pressupostos deve, 48

52 por isso, recorrer a estatísticas descritivas e a testes de normalidade (Shapiro-Wilk para 30), como já se exemplificou anteriormente. Para ilustrar a aplicação do teste recorre-se ao exemplo do capítulo 7. Pretende-se comparar os pesos e as alturas dos bebés masculinos com os dos bebés femininos. A Figura 9.9 resume os testes de normalidade das distribuições destas variáveis. Como o número de efectivos dos grupos é superior a 50 deve considerar-se o teste K-S, que indica que a distribuição da altura dos bebés em ambos os sexos se afasta da normalidade (p <0,05). Esta constatação não impede a utilização do teste t pois o número de efectivos em cada grupo é bem superior a 30. Figura 9.9 Testes de normalidade das distribuições de peso e altura pelo género dos bebés peso à nascença altura à nascença género masculino feminino masculino feminino *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Tests of ormality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig.,083 9,52,97 9,04,06 92,200*,98 92,95,0 9,008,95 9,002,07 92,02,960 92,006 Para a obtenção do teste t de Student seguem-se os comandos Analyze Compare Means Independent-Samples T Test Test Variable(s) peso altura Grouping Variable sexo Define Groups Group Group 2 2 Continue OK ilustrados na figura seguinte. Figura 9.20 Caixas de diálogo do comando Independent-Samples T Test Os valores a introduzir são os valores correspondentes aos value labels usados na variável de agrupamento sexo. A janela cut point usa-se quando se pretende definir os grupos a partir de pontuações de uma variável intervalar; por exemplo, comparar indivíduos com idades inferiores a 25 anos com indivíduos com idades superiores a esse valor A Figura 9.2 apresenta as médias, desvios-padrão, e erros-padrão das médias do peso e altura dos bebés masculinos e femininos, assim como os testes t obtidos. Os bebés masculinos são em geral mais pesados e mais altos à nascença. Será esta diferença sistemática na amostra? Figura 9.2 Testes t para comparação da altura e peso entre bebés masculinos e femininos Group Statistics peso à nascença altura à nascença género masculino feminino masculino feminino Mean Std. Deviation Std. Error Mean ,2 277,6 29, ,79 257,753 26, ,48 3,3680, ,655 3,3098,345 Independent Samples Test peso à nascença altura à nascença Equal variances assumed Equal variances not assumed Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of Mean Std. Error the Difference F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper,83,669 4,283 8,000 69,42 39,557 9, ,468 4,28 79,754,000 69,42 39,573 9, ,503,066,797 5,595 8,000 2,762,4936,788 3,7362 5,595 80,854,000 2,762,4937,7880 3,7363 O valor do teste t a considerar depende do resultado do teste de Levene de homogeneidade das variâncias: quando este apresenta um valor estatisticamente significativo (p <0,05), conclui-se que as variâncias dos grupos a comparar diferem, pelo que o valor do teste t e respectiva significância estatística a considerar se encontra em linha com a expressão Equal variances not assumed; nos casos, como no presente exemplo, em que a significância associada ao teste de Levene é superior a 0,05, os valores a consultar encontram-se em linha com a expressão Equal variances assumed. Assim, é possível concluir que as diferenças de médias verificadas são altamente significativas, com uma probabilidade inferior a uma milésima de serem devidas ao acaso (p <0,00). 49

53 ota: Correcção de Bonferroni para testes t simultâneos O uso do teste t na análise simultânea de variáveis aumenta a probabilidade de um resultado falso positivo, isto é, obter-se uma diferença significativa quando na realidade ela não existe. A correcção de Bonferroni previne isso ajustando o intervalo de confiança para o número de variáveis em análise. Como exemplo, pretende testar-se simultaneamente 8 variáveis para um intervalo de confiança de 95% (p=0,05). A correcção de Bonferroni é igual a [ - (p/nº de variáveis)]. Substituindo os valores na fórmula, obtém-se (0,05 / 8), ou seja, 0, O intervalo de confiança para a comparação simultânea será de 0,99375, ou seja 99,37%. Este será o valor a colocar na caixa Confidence Interval do subcomando Options do comando Independent-Samples T Test. Testes estatísticos para duas amostras relacionadas Dados nominais A comparação de duas distribuições de dados nominais dicotómicos relacionados recorre à prova de Mcemar. Esta prova, tal como a Q de Cochran, analisa dados de tipo binário classificando-os em sucessos (normalmente atribuídos de ) ou em insucessos (normalmente atribuídos de 0). São provas que comparam as proporções de mudança de estado dos sujeitos entre dois momentos; ou seja, quantos sucessos ocorridos num primeiro momento se transformam em insucessos num segundo momento e vice-versa. Para concretizar, um grupo de 45 doentes asmáticos de um centro de saúde é alvo de uma acção de formação de 8 horas visando os aspectos da prevenção e gestão de sintomas da doença. Todos os doentes são avaliados clinicamente um mês antes (primeiro momento) e um mês depois (segundo momento) da acção de formação, e a sua doença classificada em asma controlada (successo) e asma descontrolada (insucesso). O centro de saúde pretende saber se a formação contribuiu para uma melhoria do controlo da asma por parte dos doentes. Os dados relativos a esta avaliação resumem-se na figura seguinte. Figura 9.22 Tabela de dupla entrada representando o estado clínico dos doentes asmáticos um mês antes e um mês depois da acção de formação sobre o controlo da doença Antes da formação * Depois da formação Crosstabulation Antes da formação Total Asma descontrolada Asma controlada Count % within Antes da formação % within Depois da formação % of Total Count % within Antes da formação % within Depois da formação % of Total Count % within Antes da formação % within Depois da formação % of Total Depois da formação Asma descontrolada Asma controlada Total ,6% 68,4% 00,0% 75,0% 35,% 42,2% 3,3% 28,9% 42,2% ,7% 92,3% 00,0% 25,0% 64,9% 57,8% 4,4% 53,3% 57,8% ,8% 82,2% 00,0% 00,0% 00,0% 00,0% 7,8% 82,2% 00,0% Destacam-se as células em que ocorre mudança de estado, a partir das quais incide a estatística do teste a realidade, é notório que 3 doentes que antes tinham a asma descontrolada têm-na agora sob controlo (mudança no sentido insucesso sucesso), mas também se observa que 2 doentes que outrora tinham o controlo da doença, estão agora pior (mudança no sentido sucesso insucesso). A prova de Mcemar é obtida através dos comandos Analyze onparametric Tests 2 Related Samples Current Selections Variable pretrata Variable 2 póstrata Test Pair(s) List pretrata -- póstrata Test Type Mcemar Exact Exact Continue OK que a Figura 9.23 pretende ilustrar. Figura 9.23 Caixas de diálogo do comando Two-Related-Samples Tests A primeira variável corresponde ao primeiro clique sobre as variáveis da lista da esquerda 50

54 a Figura 9.24 encontra-se o valor de significância associado ao teste de Mcemar. Realça-se que o teste segue a distribuição binomial nos casos em que o número de mudanças de sucessos para insucessos e vice-versa (células assinaladas acima) 20; quando este número é superior, é utilizada a distribuição do χ 2. o presente exemplo, a soma de efectivos é 5, sendo por isso utilizada a distribuição binomial. Figura 9.24 Teste de Mcemar para a comparação da proporção de sucessos (controlo da asma) antes e depois da acção de formação sobre o controlo da doença Exact Sig. (2-tailed) Exact Sig. (-tailed) Point Probability a. Binomial distribution used. b. Mcemar Test Test Statistics b Antes da formação & Depois da formação 45,007 a,004,003 O valor de significância associado ao teste de Mcemar (p=0,007) é estatisticamente significativo, pelo que permite afirmar que a acção de formação trouxe benefícios terapêuticos ao grupo de doentes. Dados ordinais A comparação de duas amostras relacionadas de dados ordinais pode ser efectuada através do teste do sinal ou do teste de Wilcoxon. Ambos os testes não-paramétricos, servem também como alternativas ao teste t para comparação de dados intervalares relacionados. Ambos os testes serão demonstrados a partir de um mesmo exemplo. Um grupo aleatório de 22 estudantes do º ano da Licenciatura em Biologia responde a um questionário de auto-relato sobre a importância do estudo da Matemática para a sua carreira profissional futura. O questionário é administrado em dois momentos, uma hora antes do visionamento de um vídeo didáctico intitulado Avanços na Biotecnologia e nos Biomateriais, e dois dias depois. Uma maior pontuação traduz uma maior importância atribuída ao estudo da Matemática. Pretende-se avaliar se o vídeo influenciou positivamente as respostas ao questionário no segundo momento. O teste do sinal, como o nome indica, utiliza para a sua estatística o sinal da diferença existente entre cada par de valores de cada observação. Cada par é classificado consoante a sua pontuação nas duas variáveis (variável, variável 2) em + (variável < variável 2), 0 (variável = variável 2), ou - (variável > variável 2). A região crítica de decisão do teste depende da relação esperada: Se a hipótese a testar é a de que a variável 2 > variável, deve ser considerada a região unicaudal direita (-tailed). Se a hipótese a testar é a de que a variável > variável 2, deve ser considerada a região unicaudal esquerda (-tailed). Se a hipótese a testar é a de que as variáveis diferem na tendência central, então deve ser considerada a região bicaudal (2-tailed), pois a diferença pode situar-se quer para a esquerda quer para a direita. O teste do sinal é obtido através dos comandos Analyze onparametric Tests 2 Related Samples Current Selections Variable antesvid Variable 2 depoisvi Test Pair(s) List antesvid -- depoisvi Test Type Sign Exact Exact Continue OK já ilustrados na Figura 9.23, diferindo o presente exemplo apenas nas variáveis seleccionadas e no teste escolhido (Test Type). a figura seguinte constam o valor do teste e os valores de significância relativos à região crítica de decisão. Figura 9.25 Teste do sinal para a comparação da tendência central entre a importância atribuída ao estudo da Matemática antes e depois de um vídeo didáctico Importância da matemática depois do vídeo - Importância da matemática antes do vídeo Frequencies egative Differences a Positive Differences b Ties c Total a. Importância da matemática depois do vídeo < Importância da matemática antes do vídeo b. Importância da matemática depois do vídeo > Importância da matemática antes do vídeo c. Importância da matemática depois do vídeo = Importância da matemática antes do vídeo Situações de empate Exact Sig. (2-tailed) Exact Sig. (-tailed) Point Probability a. Binomial distribution used. b. Sign Test Test Statistics b Importância da matemática depois do vídeo - Importância da matemática antes do vídeo,8 a,059,042 5

55 Pela observação da Figura 9.25 conclui-se que apesar de metade dos inquiridos terem considerado uma maior importância da Matemática para a sua carreira futura após o visionamento do vídeo, esse efeito não atinge significância estatística para a região crítica unicaudal direita [Exact Sig. (-tailed) =0,059, n.s.]. Examine-se agora o mesmo exemplo segundo o teste de Wilcoxon. O teste de Wilcoxon é um teste mais eficaz que o anterior uma vez que a sua estatística considera não só o sinal da diferença dos pares de valores mas também o seu valor absoluto. Desta forma, as diferenças variável = variável 2 são ordenadas de modo crescente numa sucessão de valores de ordem, desde o 0 (diferença nula), o (menor diferença), até ao valor de ordem da maior diferença encontrada entre os pares de dados. a prática, obtém-se uma distribuição das diferenças entre as variáveis emparelhadas e o teste pressupõe que esta distribuição é simétrica. A região crítica de decisão do teste depende da relação esperada, tal como no teste do sinal. O teste de Wilcoxon é obtido pelos mesmos comandos anteriores, diferindo apenas para o teste escolhido (Test Type). A Figura 9.26 apresenta os resultados obtidos. Figura 9.26 Teste de Wilcoxon para a comparação da tendência central entre a importância atribuída ao estudo da Matemática antes e depois de um vídeo didáctico Importância da matemática depois do vídeo - Importância da matemática antes do vídeo Ranks egative Ranks Positive Ranks Ties Total a. Importância da matemática depois do vídeo < Importância da matemática antes do vídeo b. Importância da matemática depois do vídeo > Importância da matemática antes do vídeo c. Importância da matemática depois do vídeo = Importância da matemática antes do vídeo Mean Rank Sum of Ranks 4 a 5,00 20,00 b 9,09 00,00 7 c 22 Situações de empate Z Asymp. Sig. (2-tailed) Exact Sig. (2-tailed) Exact Sig. (-tailed) Point Probability a. Based on negative ranks. b. Wilcoxon Signed Ranks Test Test Statistics b Importância da matemática depois do vídeo - Importância da matemática antes do vídeo -2,333 a,020,09,00,004 Contrariamente à conclusão extraída para o teste do sinal, o teste de Wilcoxon representado na figura anterior determina a rejeição da hipótese nula. a realidade, para uma região crítica unicaudal direita [Exact Sig. (-tailed)] o teste atinge um valor de significância de 0,0, o qual é estatisticamente significativo e leva à conclusão que o vídeo temático promoveu uma mudança de opinião no sentido positivo em relação à importância da Matemática para a carreira futura. A razão para tal deve-se ao facto do teste considerar os valores das diferenças e não simplesmente o sinal. De facto, e apesar de terem o mesmo sinal, uma diferença de 3, por exemplo, traduz uma mudança de opinião mais radical que uma diferença de. Daí que o teste de Wilcoxon seja preferível pela sua maior sensibilidade. Dados intervalares O teste t de Student para amostras emparelhadas é a prova a utilizar quando se verificam os pressupostos a ela subjacentes, nomeadamente a normalidade das distribuições amostrais nos casos em que o número de efectivos é inferior ou igual a 30, e a existência de correlação entre elas. Quando tal não acontece, o teste do sinal ou o teste de Wilcoxon são as alternativas não-paramétricas. Como exemplo, 4 estudantes universitários participam numa experiência para avaliar se um treino de utilização de mnemónicas espaciais tem efeito facilitador na memorização de uma lista de palavras. uma primeira fase são expostos a uma lista de 25 palavras trissilábicas e cinco minutos depois tentam evocar o maior número de palavras possível. Segue-se o treino de mnemónicas, utilizando-se locais conhecidos da cidade. Após o treino são expostos a uma nova lista de 25 palavras trissilábicas e realizam a sua evocação cinco minutos depois. Pretende-se testar se a segunda evocação é mais eficaz. 52

56 Após o estudo da normalidade das distribuições, o teste t para amostras emparelhadas (desempenho antes do treino versus desempenho depois do treino) é obtido a partir dos comandos Analyze Compare Means Paired-Samples T Test Current Selections Variable pretrein Variable 2 póstrein Paired Variables pretrein -- póstrein OK (Figura 9.27). Figura 9.27 Caixa de diálogo do comando Paired-Samples T Test A primeira variável corresponde ao primeiro clique sobre as variáveis da lista da esquerda Observa-se na Figura 9.28 as estatísticas descritivas relativas às duas variáveis em estudo, o coeficiente da correlação existente entre elas e respectivo valor de significância estatística, assim como o teste t com o respectivo intervalo de confiança a 95% e valor de significância associado. Figura 9.28 Teste t para comparação do número médio de palavras evocadas antes e após o treino com mnemónicas espaciais por um grupo de 4 estudantes Pair Palavras evocadas antes do treino Palavras evocadas depois do treino Paired Samples Statistics Mean Std. Deviation Std. Error Mean 7,86 4,562,47 8,64 4,550,44 Pair Paired Samples Correlations Palavras evocadas antes do treino & Palavras evocadas depois do treino Correlation Sig. 4,899,000 Paired Samples Test Paired Differences Pair Palavras evocadas antes do treino - Palavras evocadas depois do treino Mean Std. Deviation Std. Error 95% Confidence Interval of the Difference Mean Lower Upper t df Sig. (2-tailed) -,79,699,87 -,9 -,38-4,204 3,00 Pela análise da figura anterior, é possível concluir que as variáveis estão fortemente correlacionadas (r = 0,899; p <0,05), condição essencial para a validação do teste. A média de palavras evocadas é superior depois do treino com mnemónicas, com essa diferença a atingir significância estatística (p <0,05), pelo que se conclui que o treino facilita a segunda evocação, tornando-a mais eficaz. Testes estatísticos para mais de duas amostras independentes Dados nominais A prova do 2 é o teste a utilizar na comparação de mais de duas amostras independentes de dados nominais. Os procedimentos para o seu uso foram atrás referidos. Dados ordinais A comparação de três ou mais amostras de dados ordinais independentes é frequentemente efectuada pela prova Kruskal-Wallis, também utilizada como recurso não paramétrico à Análise de Variância quando não se reúnem os pressupostos para a sua utilização. A prova de Kruskal-Wallis, tal como se descreveu para o teste U de Mann-Whitney, compara centros de localização das ordenações dos dados, neste caso de três ou mais amostras independentes. 53

57 Os pressupostos de utilização são em tudo idênticos aos da prova U de Mann-Whitney, devendo o analista começar pelo estudo das distribuições, anteriormente exposto. Para concretizar, 6 doentes diagnosticados com Demência de Alzheimer participam num ensaio farmacológico duplamente cego com grupo de placebo. Após um seguimento de 6 meses, os doentes são avaliados através da Clinical Dementia Rating (CDR), escala que classifica vários domínios cognitivos e comportamentais em: 0=sem queixas; =demência possível; 2= demência ligeira; 3= demência moderada; 4= demência grave. Após o estudo das distribuições, a prova de Kruskal-Wallis é obtida a partir dos comandos Analyze onparametric Tests K Independent Samples Test Variable List cdr cdr2 cdr3 cdr4 cdr5 cdr6 Grouping Variable grupo Define Range Range for Grouping Variable Minimum Maximum 3 Continue Test Type Kruskal-Wallis H Exact Exact Continue OK como se observa na Figura Figura 9.29 Caixas de diálogo do comando Tests for Several Independent Samples Os valores introduzidos são os valores correspondentes aos value labels mínimo e máximo usados na variável de agrupamento, neste caso representando o grupo de controlo e 3 o grupo de casos A Figura 9.30 apresenta as ordenações médias das pontuações de cada grupo de estudo nas seis dimensões avaliadas pela CDR. Será de recordar que maior pontuação traduz maior incapacidade. Deste modo, o grupo de doentes que recebeu o fármaco em ensaio apresenta menor incapacidade de modo consistente em todas as dimensões da CDR (pontuam sempre menos), seguido do grupo de placebo, e finalmente, dos controlos. Serão estas diferenças estatisticamente significativas? Figura 9.30 Prova de Kruskal-Wallis para comparação das dimensões da Clinical Dementia Rating avaliadas nos grupos de casos, controlos, e de placebo Ranks Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais GRUPO grupo de placebo grupo de controlo grupo de casos Total grupo de placebo grupo de controlo grupo de casos Total grupo de placebo grupo de controlo grupo de casos Total grupo de placebo grupo de controlo grupo de casos Total grupo de placebo grupo de controlo grupo de casos Total grupo de placebo grupo de controlo grupo de casos Total Mean Rank 7 29, , , , , , , , , , , , , , , , ,0 24 7,88 6 Test Statistics a,b Chi-Square df Asymp. Sig. a. Kruskal Wallis Test Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais,982 36,329 33,50 32,46 33,266 35, ,003,000,000,000,000,000 b. Grouping Variable: GRUPO 54

58 Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais Amadeu Martins, Estatística Aplicada com o SPSS. a realidade observa-se um efeito do grupo em todas as dimensões da CDR avaliadas, atingindo esse efeito significância estatística (p <0,05). Desta forma, os clínicos podem afirmar que o estado clínico dos doentes entre os grupos difere significativamente e que essa diferença não é devida ao acaso amostral. o entanto, neste ponto, não é correcto afirmar que o fármaco ensaiado produziu efeitos significativamente superiores ao placebo. Para esclarecer as diferenças, serão necessárias comparações entre cada par de grupos, recorrendo à prova U de Mann-Whitney. As figuras seguintes apresentam as devidas comparações. Figura 9.3 Prova U de Mann-Whitney para comparação das dimensões da Clinical Dementia Rating entre os grupos de placebo e controlo Ranks Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais GRUPO grupo de placebo grupo de controlo grupo de placebo grupo de controlo grupo de placebo grupo de controlo grupo de placebo grupo de controlo grupo de placebo grupo de controlo grupo de placebo grupo de controlo Mean Rank Sum of Ranks 7 5,50 263, ,98 439,50 7 6,94 288, ,75 45,00 7 2,29 209, ,70 494,00 7 5,00 255, ,40 448,00 7 2,7 26, ,35 487,00 7 2,82 28, ,25 485,00 Mann-Whitney U Asymp. Sig. (2-tailed) b. Grouping Variable: GRUPO Test Statistics b 0,500 35,000 56,000 02,000 63,000 65,000,050,048,000,004,000,000 a figura anterior é possível observar um efeito benéfico da acção do placebo (p <0,05) nas dimensões de orientação, resolução de problemas, afazeres sociais, hobbies, e cuidados pessoais da CDR. Já para a dimensão de memória esse efeito é discutível (p=0,05). Figura 9.32 Prova U de Mann-Whitney para comparação das dimensões da Clinical Dementia Rating entre casos os grupos de casos e placebo Ranks Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais GRUPO grupo de placebo grupo de casos grupo de placebo grupo de casos grupo de placebo grupo de casos grupo de placebo grupo de casos grupo de placebo grupo de casos grupo de placebo grupo de casos Mean Rank Sum of Ranks 7 23,29 396, ,38 465, ,65 504, ,88 357, ,65 49, ,42 442, ,62 469, ,3 39, ,35 43, ,92 430, ,76 455, ,92 406,00 Mann-Whitney U Asymp. Sig. (2-tailed) a. Grouping Variable: GRUPO Test Statistics a 65,000 57,000 42,000 9,500 30,000 06,000,69,000,037,000,05,00 Em relação ao grupo placebo, os casos demonstram melhorias evidentes (p< 0,05) nas dimensões de orientação, resolução de problemas, afazeres sociais, hobbies, e cuidados pessoais da CDR. a dimensão de memória, o fármaco não é significativamente mais eficaz que o placebo (p=0,69, n.s.). A Figura 9.33 demonstra a comparação restante entre casos e controlos. Figura 9.33 Prova U de Mann-Whitney para comparação das dimensões da Clinical Dementia Rating entre os grupos de casos e controlo Ranks Memória Orientação Resolução de problemas Afazeres sociais Hobbies Cuidados pessoais GRUPO grupo de controlo grupo de casos grupo de controlo grupo de casos grupo de controlo grupo de casos grupo de controlo grupo de casos grupo de controlo grupo de casos grupo de controlo grupo de casos Mean Rank Sum of Ranks 20 28,70 574, ,33 46, ,65 653, ,04 337, ,0 662, ,67 328, ,73 654, ,98 335, ,0 662, ,67 328, ,35 667, ,46 323,00 Mann-Whitney U Asymp. Sig. (2-tailed) a. Grouping Variable: GRUPO Test Statistics a 6,000 37,000 28,000 35,500 28,000 23,000,00,000,000,000,000,000 Como a prova de Kruskal-Wallis faria supor, os casos apresentam melhorias clínicas estatisticamente significativas em todas as dimensões da CDR quando comparados com os controlos. 55

59 Dados intervalares A Análise de Variância Simples (One-Way AOVA) é a prova que compara várias amostras de dados intervalares independentes. Avalia o efeito de uma variável qualitativa (factor) nas médias de resposta da variável dependente quantitativa. Outros modelos mais complexos de análise de variância implicam a introdução de mais variáveis, ora independentes (factores), ora concomitantes ou mediadoras, como a análise de covariância (ACOVA), ora dependentes, como nos casos de análise de variância múltipla (MAOVA). Estes modelos não serão, no entanto, abordados no presente trabalho. Como pressupostos para a utilização da One-Way AOVA, devem verificar-se: ormalidade da distribuição dos dados em cada grupo Os dados dos grupos são independentes entre si. As variâncias dos dados dos grupos são semelhantes. A ausência de normalidade não é impeditiva ao uso da One-Way AOVA se os números de efectivos de cada grupo forem elevados e semelhantes ( maior grupo / menor grupo,5). Existem igualmente estatísticas robustas que podem ser utilizadas no caso de não se verificar a homogeneidade de variâncias. Para concretizar, retoma-se o exemplo do capítulo 7. A equipa de investigadores em eonatologia pretende indagar se o grupo sanguíneo dos bebés influencia a sua estatura à nascença. Inicialmente, estudam-se os pressupostos subjacentes à prova assim como as estatísticas descritivas da distribuição de peso e altura dos bebés pelos quatro grupos sanguíneos. Figura 9.34 Estudo dos pressupostos de utilização da One-Way AOVA peso à nascença altura à nascença grupo sanguíneo grupo O grupo A grupo B grupo AB grupo O grupo A grupo B grupo AB *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Tests of ormality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig.,088 6,200*,964 6,066,09 49,98,965 49,57,089 45,200*,954 45,070,09 28,200*,966 28,485,20 6,028,955 6,026,078 49,200*,964 49,42,07 45,200*,979 45,56,0 28,200*,960 28,34 Test of Homogeneity of Variances peso à nascença altura à nascença Levene Statistic df df2 Sig., ,28 2, ,059 Pela observação da figura anterior, conclui-se que se verifica o pressuposto da homogeneidade de variâncias para a distribuição de pesos (p=0,28, n.s.) e alturas (p=0,059, n.s.) à nascença. o entanto, o valor de significância associado ao teste K-S da distribuição das alturas dos bebés do grupo O alerta para a não normalidade da sua distribuição (p <0,05). Tal facto, associado à diferença do número de efectivos entre os vários grupos, sugere a utilização de estatísticas robustas na condução da One-Way AOVA. Como a Figura 9.35 pretende ilustrar, através dos comandos Graphs Error bar Simple Data in Chart Are Summaries for groups of cases Define Variable altura Category Axis grupo Bars Represent Standard error of mean Multiplier 2 OK é possível obter gráficos de barras de erro para a altura e pesos dos bebés. Os gráficos de barras de erro permitem uma inspecção visual das médias dos vários grupos nas variáveis em estudo, assim como da dispersão dos valores em cada grupo. 56

60 Mean +- 2 SE altura à nascença Mean +- 2 SE peso à nascença Amadeu Martins, Estatística Aplicada com o SPSS. Figura 9.35 Caixas de diálogo do comando Error Bar O valor introduzido na caixa Multiplier corresponde ao número de vezes que se pretende multiplicar os desvios padrão. este caso indica-se uma dispersão a dois desvios (Média ± 2 DP), correspondente a um intervalo de confiança de 95% Os gráficos de barras de erro solicitados encontram-se na figura seguinte. Relativamente à variável altura, uma rápida análise permite concluir que os grupos sanguíneos O e AB sobressaem, respectivamente, como a menor e a maior média, enquanto os grupos A e B têm médias aproximadas; as dispersões dos valores dos grupos são semelhantes. Relativamente ao peso dos bebés, as médias seguem tendências semelhantes; o peso dos bebés do grupo AB aparenta ter uma maior dispersão de valores. Figura 9.36 Gráficos de barras de erro das alturas e pesos dos bebés por grupo sanguíneo = = grupo O grupo A grupo B grupo AB grupo O grupo A grupo B grupo AB grupo sanguíneo grupo sanguíneo Procede-se à One-Way AOVA seguindo Analyze Compare Means One-Way AOVA Dependent List altura peso Factor sexo Options Statistics Descriptive Homogeneity of variance test Brown-Forsythe Means plot Continue Post Hoc Equal Variances Assumed Scheffe Tukey Tukey s-b test Significance level 0,05 Continue OK (Figura 9.37). A estatística de Brown-Forsythe (de precisão superior à de Welch), é considerada uma estatística robusta, e foi seleccionada para posterior comparação do seu valor de significância com o do teste F da One-Way AOVA. Foram ainda seleccionados vários testes post hoc de comparação múltipla de médias pressupondo a igualdade de variâncias. Tratam-se de provas que comparam a posteriori as médias entre todos os grupos, das quais a mais frequentemente utilizada é a de Scheffe. Se não se verificasse a homogeneidade de variâncias, a prova post hoc mais recomendável seria a de Tamhane, devido à sensibilidade com que considera diferentes números de efectivos dentro dos grupos. Figura 9.37 Caixas de diálogo do comando One-Way AOVA 57

61 A Figura 9.38 apresenta as estatísticas descritivas da altura e peso dos quatro grupos sanguíneos dos bebés da amostra, os valores do teste F (Mean Square Between Groups / Mean Square Within Groups) e respectiva significância estatística. Estes são complementados pela estatística de Brown-Forsythe. Figura 9.38 Estatísticas descritivas, teste F e estatística de Brown-Forsythe da One-Way AOVA solicitada para comparar as médias de altura e peso dos bebés segundo o grupo sanguíneo Descriptives peso à nascença altura à nascença grupo O grupo A grupo B grupo AB Total grupo O grupo A grupo B grupo AB Total 95% Confidence Interval for Mean Mean Std. Deviation Std. Error Lower Bound Upper Bound ,07 235,66 30, ,7 3056, ,76 25,344 30, ,90 334, ,78 83,965 27, ,5 3266, ,43 27,787 4, , , ,04 280,04 20, ,20 324, ,246 3,249,45 47,46 49, ,8 3,0002,4286 5,257 52, ,6 2,7264, ,792 52, ,250 2,2830,435 53,365 55, ,029 3,6062, ,503 5,555 AOVA peso à nascença altura à nascença Between Groups Within Groups Total Between Groups Within Groups Total Sum of Squares df Mean Square F Sig ,099 42,576, , , ,792 32,608, , , ,87 82 peso à nascença altura à nascença Robust Tests of Equality of Means Brown-Forsythe Brown-Forsythe a. Asymptotically F distributed. Statistic a df df2 Sig. 43, ,84,000 35, ,564,000 Os valores de significância associados aos testes F e à estatística de Brown-Forsythe levam à conclusão que o grupo sanguíneo influencia quer as alturas (p <0,00) quer os pesos (p <0,00) dos bebés. Resta saber de que modo. A Figura 9.39 apresenta os testes post hoc de Scheffe e Tukey solicitados. Figura 9.39 Testes post hoc de comparação múltipla de médias Multiple Comparisons Dependent Variable peso à nascença altura à nascença Tukey HSD Scheffe Tukey HSD Scheffe (I) grupo sanguíneo grupo O grupo A grupo B grupo AB grupo O grupo A grupo B grupo AB grupo O grupo A grupo B grupo AB grupo O grupo A grupo B grupo AB *. The mean difference is significant at the.05 level. (J) grupo sanguíneo grupo A grupo B grupo AB grupo O grupo B grupo AB grupo O grupo A grupo AB grupo O grupo A grupo B grupo A grupo B grupo AB grupo O grupo B grupo AB grupo O grupo A grupo AB grupo O grupo A grupo B grupo A grupo B grupo AB grupo O grupo B grupo AB grupo O grupo A grupo AB grupo O grupo A grupo B grupo A grupo B grupo AB grupo O grupo B grupo AB grupo O grupo A grupo AB grupo O grupo A grupo B Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound -256,69* 4,378, ,00-49,38-24,7* 42,386, ,63-04,79-545,36* 49,237, ,05-47,68 256,69* 4,378,000 49,38 364,00 4,98 44,535,782-73,52 57,47-288,67* 5,098,000-42,9-56,6 24,7* 42,386,000 04,79 324,63-4,98 44,535,782-57,47 73,52-330,65* 5,98, ,29-96,0 545,36* 49,237,000 47,68 673,05 288,67* 5,098,000 56,6 42,9 330,65* 5,98,000 96,0 465,29-256,69* 4,378, ,47-39,9-24,7* 42,386, ,34-95,09-545,36* 49,237, ,32-406,40 256,69* 4,378,000 39,9 373,47 4,98 44,535,828-83,7 67,67-288,67* 5,098, ,89-44,46 24,7* 42,386,000 95,09 334,34-4,98 44,535,828-67,67 83,7-330,65* 5,98, ,8-84,3 545,36* 49,237, ,40 684,32 288,67* 5,098,000 44,46 432,89 330,65* 5,98,000 84,3 477,8-3,872*,5609,000-5,327-2,48-3,365*,5746,000-4,855 -,875-6,004*,6675,000-7,735-4,273 3,872*,5609,000 2,48 5,327,507,6037,835 -,058 2,073-2,32*,6927,03-3,928 -,335 3,365*,5746,000,875 4,855 -,507,6037,835-2,073,058-2,639*,7038,00-4,464 -,84 6,004*,6675,000 4,273 7,735 2,32*,6927,03,335 3,928 2,639*,7038,00,84 4,464-3,872*,5609,000-5,456-2,289-3,365*,5746,000-4,987 -,744-6,004*,6675,000-7,888-4,20 3,872*,5609,000 2,289 5,456,507,6037,872 -,97 2,2-2,32*,6927,026-4,087 -,77 3,365*,5746,000,744 4,987 -,507,6037,872-2,2,97-2,639*,7038,004-4,625 -,653 6,004*,6675,000 4,20 7,888 2,32*,6927,026,77 4,087 2,639*,7038,004,653 4,625 58

62 Proporção de sucessos Amadeu Martins, Estatística Aplicada com o SPSS. Pela observação da Figura 9.39 é possível concluir que as variáveis seguem a mesma tendência: os grupos sanguíneos A e B têm valores aproximados de peso (p Tukey =0,782, n.s.; p Scheffe =0,828, n.s.) e de altura (p Tukey =0,835, n.s.; p Scheffe =0,872, n.s.), o grupo O distingue-se significativamente abaixo de todos os outros quer no peso (p Tukey <0,00; p Scheffe <0,00) quer na altura (p Tukey <0,00; p Scheffe <0,00), enquanto o grupo AB distingue-se pelos bebés mais pesados (p Tukey <0,00; p Scheffe <0,00) e de maior altura (p Tukey <0,00 e p Scheffe <0,00 em relação ao grupo O; p Tukey <0,05 e p Scheffe <0,05 em relação ao grupo A; p Tukey <0,0 e p Scheffe <0,0 em relação ao grupo B). A proporção de variação da variável dependente explicada pelo factor, como já se referiu, é vulgarmente conhecida por coeficiente de determinação (R 2 ), o qual pode ser obtido pelo rácio entre a variação dos grupos e a variação total (R 2 = Sum of Squares Between Groups / Total Sum of Squares). Recorrendo à Figura 9.38, obter-se-á para a variável altura um R 2 = 836,377 / 2366,87, ou seja, R 2 = 0,3534. Isto equivale a dizer que 35% da variação das alturas dos bebés é explicada pela variação dos grupos sanguíneos, enquanto outros factores explicam os restantes 65%. Do mesmo modo, para a variável peso, obter-se-á um R 2 = / , ou seja, R 2 = 0,464, levando a concluir que 42% da variação dos pesos dos bebés resulta da influência do grupo sanguíneo. A One-Way AOVA pode também ser conduzida através dos comandos agrupados na opção Univariate do General Linear Model. Este, assim como os Mixed Models, suporta modelos de análise que contemplam efeitos principais e/ou de interacção de variáveis independentes (fixed factors), de efeitos aleatórios intrasujeitos (random effects), e de efeitos concomitantes de variáveis correlacionadas com a variável dependente. São frequentemente usados na análise de planeamentos factoriais de experiências. Testes estatísticos para mais de duas amostras relacionadas Dados nominais Como se referiu anteriormente, a prova Q de Cochran é uma extensão da prova de Mcemar aplicada à análise de dados de tipo binário através da comparação das proporções de mudança de estado dos sujeitos entre mais de dois momentos. Para concretizar, a Figura 9.40 apresenta os resultados (número de sucessos e insucessos) de um grupo de 6 ratos Wistar submetidos a três ensaios do Water Maze Test (prova de memória espacial representada na mesma figura). O investigador pretende determinar se a administração de uma droga antagonista dos receptores AMPA do glutamato entre o 2º e o 3º ensaio inibe o efeito de prática normalmente adquirido por memorização espacial com a repetição da prova. Figura 9.40 Water Maze Test e resultados experimentais de um grupo de ratos (=6) ao longo de três ensaios na prova, com administração de antagonista AMPAglu entre o 2º e 3º ensaio,0,9 Antagonista Debaixo da linha de água encontra-se um labirinto que o animal deve aprender,8,7,6 Frequencies,5 Water Maze º ensaio Water Maze 2º ensaio Water Maze 3º ensaio Outcome insucesso sucesso ,4,3,2 Water Maze º ensaio Water Maze 2º ensaio Water Maze 3º ensaio Pela observação da figura anterior é notório que o efeito de prática esperado do 2º para o 3º ensaio que se deveria traduzir na manutenção ou no aumento do número de sucessos experimentais é contrariado pela administração do antagonista, que parece fazer decair o número de sucessos. Terá este efeito significância estatística nesta pequena amostra? Obtém-se o teste Q de Cochran a partir dos comandos Analyze onparametric Tests K Related Samples Test Variables primeiro segundo terceiro Test Type Cochran s Q Statistics Descriptive Continue Exact Exact Continue OK ilustrados na Figura

63 Figura 9.4 Caixas de diálogo do comando Tests for Several Related Samples A Figura 9.42 apresenta as estatísticas descritivas dos três ensaios experimentais, o valor do Q de Cochran e respectiva significância estatística associada. Como a região crítica do teste é unicaudal, deverá ser considerado o valor de significância exacto (Exact Sig. = 0,04). Figura 9.42 Prova Q de Cochran para comparação da proporção de sucessos no Water Maze Test ao longo de três ensaios experimentais Water Maze º ensaio Water Maze 2º ensaio Water Maze 3º ensaio Descriptive Statistics Mean Std. Deviation Minimum Maximum 6,56,52 0 6,87, ,3,479 0 Test Statistics Cochran's Q df Asymp. Sig. Exact Sig. Point Probability 6 8,74 a 2,03,04,004 a. is treated as a success. Partindo da observação das estatísticas descritivas, e como se referem a dados binários, as médias apresentadas na figura anterior traduzem na realidade a proporção de sucessos em cada ensaio experimental. Baseado no valor de significância associado à prova Q de Cochran (p <0,05) e no facto da proporção de sucessos decair de 87% no 2º ensaio para 3% no 3º, o investigador pode concluir que este último desempenho é significativamente pior e inferir sobre a influência do antagonista nos mecanismos bioquímicos glutamatérgicos de memorização. Dados ordinais O teste de Friedman compara 3 ou mais amostras relacionadas de dados ordinais. Sendo uma prova não paramétrica, é também a alternativa à análise de variância de medidas intervalares repetidas. De forma semelhante às provas de Mann-Whitney e de Kruskal-Wallis, o teste de Friedman compara as ordenações médias dos dados de cada variável. Servindo de exemplo, um grupo de 3 fotojornalistas é convidado a classificar cinco propostas alternativas de um gabinete de design para uma capa de uma nova revista a ser comercializada. A classificação é feita seriando os números de a 5, e em que representa a melhor capa e 5 a pior. A direcção da nova revista pretende saber se alguma das cinco capas propostas se destaca nas preferências. O teste de Friedman é obtido pelos mesmos comandos do teste Q de Cochran, diferindo apenas para o teste escolhido (Test Type). A Figura 9.43 apresenta as estatísticas descritivas subjacentes ao teste assim como o valor de significância a ele associado. Figura 9.43 Teste de Friedman para comparação da classificação atribuída a cinco propostas alternativas de capa para uma nova revista Proposta de capa nº Proposta de capa nº2 Proposta de capa nº3 Proposta de capa nº4 Proposta de capa nº5 Descriptive Statistics Percentiles Minimum Maximum 25th 50th (Median) 75th 3 5 3,00 4,00 5,00 3 5,00 3,00 4, ,00 3,00 4, ,00 4,00 4,50 3 5,00 2,00 3,00 Ranks Proposta de capa nº Proposta de capa nº2 Proposta de capa nº3 Proposta de capa nº4 Proposta de capa nº5 Mean Rank 3,62 2,77 3,08 3,38 2,5 Test Statistics a Chi-Square df Asymp. Sig. Exact Sig. Point Probability a. Friedman Test 3 6,769 4,49,48,003 60

64 Pela análise da figura anterior, conclui-se que a proposta nº5 parece destacar-se das demais, seguida da nº2 (recorda-se que o valor traduz a melhor capa ). A proposta com pior classificação é obviamente a nº. Apesar de metade dos inquiridos terem classificado a proposta nº5 com e 2 (ver valor da mediana), o valor de significância associado ao teste de Friedman (Exact Sig.=0,48, n.s.) não permite excluir o acaso amostral como o responsável pela tendência verificada. Dados intervalares A Análise de Variância de medidas repetidas (General Linear Model with Repeated Measures) vai ser utilizada para comparar várias amostras relacionadas de dados intervalares. Pretende-se avaliar o efeito de uma variável qualitativa (factor) em várias médias de resposta de variáveis relacionadas. Os pressupostos subjacentes à prova são: ormalidade da distribuição dos dados. As covariâncias dos dados dos grupos são semelhantes pois os dados estão correlacionados. As variâncias das diferenças entre pares de medidas repetidas (esfericidade) são iguais. A esfericidade é avaliada pelo teste de Mauchly cuja potência enfraquece com um número pequeno de efectivos. A violação deste pressuposto (significância associada ao teste de Mauchly <0,05) implica o uso da correcção de Greenhouse-Geisser ou de Huynh-Feldt. Quando o factor tem apenas duas categorias, o pressuposto da esfericidade verifica-se sempre. Em casos de dúvida quanto a este pressuposto ao quanto à interpretação da correcção usada, o modelo MAOVA deverá ser utilizado. A seguinte experiência irá servir de ilustração ao uso do General Linear Model (GLM) com medidas repetidas. Um grupo de nutricionistas distribuiu aleatoriamente 45 doentes obesos por três condições de tratamento (factor between-subjects), nomeadamente, um grupo de dieta hipocalórica, um outro grupo que recebeu um plano rigoroso de exercício físico, e um terceiro, que reuniu a dieta, o exercício físico, e a prescrição de sibutramina HCl. Todos os doentes foram avaliados ao fim do primeiro, segundo e terceiro mês de tratamento. As médias e desvios do Índice de Massa Corporal dos doentes (factor within-subjects) ao longo das três avaliações encontram-se na Figura Figura 9.44 Médias (±D.P.) de IMC dos grupos terapêuticos ao longo das três avaliações Índice de Massa Corporal (IMC) Grupo Terapêutico (VI) (VD) º Mês 2º Mês 3º Mês Dieta hipocalórica (=5) 27,47 (±,06) 25,3 (±,06) 28,00 (±,20) Exercício Físico (=5) 27,00 (±,20) 25,40 (±,2) 25,33 (± 0,98) Dieta + Exercício + Sibutramina (=5) 26,80 (±,37) 25,3 (± 0,99) 23,33 (± 2,9) Prossegue-se simultaneamente com o GLM de medidas repetidas e com o estudo dos pressupostos da prova, através dos comandos Analyze General Linear Model Repeated Measures Within-Subject Factor ame (cria-se um nome para agrupar as VD s, por exemplo pesos ) umber of Levels 3 (nº VD s a analisar) Add Measure Measure ame imc Add Define Within-Subjects Variables (pesos) mês mês2 mês3 Between-Subjects Factor(s) grupo Model Specify Model Full factorial Sum of Squares Type III Continue Plots Horizontal Axis imc Separate Lines grupo Add Continue Contrasts Factors pesos (Polynomial) Change Contrast Contrast Repeated Change Continue Options Display Estimates of effect size, Observed Power, Homogeneity tests Continue Post Hoc Post Hoc Tests for grupo Equal Variances Assumed Scheffe Equal Variances ot Assumed Tamhane s T2 Continue OK, que a Figura 9.45 pretende ilustrar. 6

65 Figura 9.45 Caixas de diálogo do comando GLM Repeated Measures este momento ainda não se obteve o teste de homogeneidade de covariâncias, pelo que se solicitam testes post hoc para ambas as situações Antes da análise detalhada do output obtido, convém solicitar o teste de normalidade das distribuições das VD s para o estudo deste pressuposto, através dos comandos Analyze Descriptive Statistics Explore Dependent List mês mês2 mês3 Plots Boxplots Dependents together ormality plots with tests Continue Display Plots Continue OK. A Figura 9.46 apresenta os testes K-S e Shapiro-Wilk obtidos. 62

66 Figura 9.46 Testes de Kolmogorov-Smirnov e de Shapiro-Wilk para o estudo da normalidade das distribuições de IMC avaliadas nos três meses de tratamento IMC primeiro mês IMC segundo mês IMC terceiro mês Tests of ormality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig.,30 45,054,968 45,236,09 45,200*,958 45,0,094 45,200*,963 45,62 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction Pela observação da figura anterior, conclui-se que as distribuições das três variáveis obedecem a este pressuposto, pois o valor de significância associado ao teste de Shapiro-Wilk (a usar quando o número de efectivos é 50) é superior a 0,05 e, por isso, não é estatisticamente significativo. Para o estudo do segundo pressuposto recorre-se ao teste de Box que foi solicitado no subcomando Options. A Figura 4.47 apresenta os respectivos resultados. Figura 9.47 Teste de homogeneidade das matrizes de covariância Box's Test of Equality of Covariance Matrices a Box's M F df df2 Sig. 9,73, ,65,728 Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. a. Design: Intercept+GRUPO Within Subjects Design: PESOS O teste de Box indica que as matrizes de covariância não diferem significativamente entre os grupos (p=0,728, n.s.). O estudo do pressuposto da esfericidade é realizado, como se referiu, através do teste de Mauchly, cujos resultados se apresentam na figura seguinte. Figura 9.48 Teste de esfericidade das matrizes de covariância de Mauchly Measure: IMC Within Subjects Effect PESOS Mauchly's Test of Sphericity b Approx. Epsilon a Mauchly's W Chi-Square df Sig. Greenhouse-Geisser Huynh-Feldt Lower-bound,906 4,056 2,32,94,999,500 Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is proportional to an identity matrix. a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of Within-Subjects Effects table. b. Design: Intercept+GRUPO Within Subjects Design: PESOS Como se observa na Figura 9.48, o valor de significância associado à prova (p=0,32, n.s.) permite concluir que o pressuposto se verifica, não ocorrendo necessidade de se utilizar posteriormente a correcção de Greenhouse-Geisser na análise univariada dos efeitos intra-sujeitos (within-subjects effects). A Figura 9.49 apresenta o quadro de análise de variância que permite o teste do efeito global do tratamento (efeito inter-sujeitos ou between-subjects effect). Figura 9.49 Quadro AOVA para o teste do factor inter-sujeitos (entre os grupos) Measure: IMC Transformed Variable: Average Source Intercept GRUPO Error Tests of Between-Subjects Effects Type III Sum Partial Eta Observed of Squares df Mean Square F Sig. Squared Power a 3036, , ,699,000,999,000 23,748 2,874 3,460,000,39,996 37,052 42,882 a. Computed using alpha =,05 63

67 Estimated Marginal Means Amadeu Martins, Estatística Aplicada com o SPSS. A figura anterior permite concluir que a variação dos IMC medidos ao longo dos três meses é devida não só a factores individuais, mas também ao grupo de tratamento (p <0,00). É ainda possível afirmar, com 99,6% de certeza (Observed Power), que 39% da variabilidade dos IMC (Partial Eta Squared) é resultado do factor grupo de tratamento. A tendência desta influência ao longo do tempo no IMC dos participantes pode ser facilmente visualizada no gráfico da figura seguinte. Figura 9.50 Gráfico de perfil das variações de IMC por grupo Grupo terapêutico 24 Dieta hipocalórica Exercício físico 23 º mês 2º mês 3º mès Dieta+Ex +Sibutramina Follow up O gráfico demonstra claramente que os participantes envolvidos no plano de exercício físico e na terapêutica combinada apresentam reduções consistentes do IMC ao longo dos meses, com este último grupo a apresentar reduções em média superiores. Por seu lado, o grupo de dieta hipocalórica demonstra uma drástica redução dos valores médios de IMC entre o primeiro e segundo mês de tratamento, voltando, no terceiro mês, a regredir para valores ligeiramente superiores aos do início do estudo. Por norma, intersecções nas linhas de um gráfico de perfil demonstram uma interacção entre os factores. a Figura 9.5 encontra-se o quadro dos testes multivariados. Observam-se os valores de quatro testes diferentes para cada efeito do modelo em estudo, nomeadamente o factor intra-sujeitos pesos (representando a ponderação das médias de IMC para os três meses de avaliação) e a sua interacção com o factor inter-sujeitos grupo (PESOS * GRUPO). Os valores dos testes de Pillai e de Wilks variam entre 0 e. o entanto, enquanto que valores crescentes no teste de Pillai indicam efeitos com maior contribuição para o modelo, ocorre o inverso no Lambda de Wilks, em que as estatísticas mais ínfimas representam os maiores efeitos. O teste de Hotteling tem um valor frequentemente superior ao de Pillai; quando estas estatísticas são aproximadas indicam uma fraca contribuição do efeito para o modelo em causa. O valor do teste de Roy é sempre inferior ou igual ao do teste de Hotelling; quando apresentam o mesmo valor deve indagar-se se o efeito está sobretudo associado a uma das variáveis dependentes, se existe uma correlação elevada entre estas, ou ainda se o efeito tem uma fraca contribuição para o modelo. Globalmente, o teste de Pillai é considerado como o mais robusto à violação dos pressupostos da análise multivariada. Figura 9.5 Quadro resumo dos testes multivariados dos efeitos intra-sujeitos (dentro dos grupos) Effect PESOS PESOS * GRUPO Pillai's Trace Wilks' Lambda Hotelling's Trace Roy's Largest Root Pillai's Trace Wilks' Lambda Hotelling's Trace Roy's Largest Root a. Computed using alpha =,05 b. Exact statistic Multivariate Tests d Partial Eta Observed Value F Hypothesis df Error df Sig. Squared Power a,76 65,265 b 2,000 4,000,000,76,000,239 65,265 b 2,000 4,000,000,76,000 3,84 65,265 b 2,000 4,000,000,76,000 3,84 65,265 b 2,000 4,000,000,76,000,872 6,225 4,000 84,000,000,436,000,46 33,23 b 4,000 82,000,000,68,000 5,75 57,509 4,000 80,000,000,742,000 5,730 20,334 c 2,000 42,000,000,85,000 c. The statistic is an upper bound on F that yields a lower bound on the significance level. d. Design: Intercept+GRUPO Within Subjects Design: PESOS 64

68 Deste modo, é possível concluir com uma confiança de 00% que as avaliações mensais do IMC dos sujeitos (p <0,00) assim como a interacção da variabilidade destas com o grupo terapêutico a que os sujeitos pertencem (p <0,00) contribuem significativamente para os resultados. Para esclarecer a causa da igualdade dos valores dos testes de Hotelling e de Roy para o efeito intra-sujeitos, solicitaram-se os coeficientes de correlação de Pearson entre as VD s, os quais se apresentam na figura seguinte. Figura 9.52 Correlações de Pearson entre as variáveis dependentes IMC primeiro mês IMC segundo mês IMC terceiro mês Pearson Correlation Sig. (2-tailed) Pearson Correlation Sig. (2-tailed) Pearson Correlation Sig. (2-tailed) Correlations **. Correlation is significant at the 0.0 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed). IMC primeiro mês IMC segundo mês IMC terceiro mês,520**,440**.,000, ,520**,303*,000., ,440**,303*,003, Como se verifica, as variáveis dependentes estão todas inter-correlacionadas (p <0,05). Este facto, juntamente com a influência das pontuações da terceira avaliação dos sujeitos, justifica a igualdade das estatísticas de Roy e de Hotelling para o efeito pesos. Apresentam-se na Figura 9.53 os testes univariados para o factor intra-sujeitos e para a interacção deste com o factor inter-sujeitos. Figura 9.53 Quadro resumo dos testes univariados dos efeitos intra-sujeitos (dentro dos grupos) Tests of Within-Subjects Effects Measure: IMC Source PESOS PESOS * GRUPO Error(PESOS) Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lower-bound Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lower-bound Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lower-bound a. Computed using alpha =,05 Type III Sum Partial Eta Observed of Squares df Mean Square F Sig. Squared Power a 89, ,600 83,79,000,666,000 89,200,828 48,80 83,79,000,666,000 89,200,998 44,65 83,79,000,666,000 89,200,000 89,200 83,79,000,666,000 97, ,356 45,757,000,685,000 97,422 3,656 26,650 45,757,000,685,000 97,422 3,995 24,384 45,757,000,685,000 97,422 2,000 48,7 45,757,000,685,000 44,7 84,532 44,7 76,769,582 44,7 83,903,533 44,7 42,000,065 Os resultados do quadro apresentado devem ser lidos na linha que assume o pressuposto da esfericidade da matriz de covariâncias (Sphericity Assumed), como corroborou anteriormente (Figura 9.48) o teste de Mauchly (p=0,32, n.s.). Assim, com uma confiança de 00% (Observed Power), conclui-se que a variação dos IMC ao longo dos três momentos de avaliação é per se estatisticamente significativa (p <0,00), ou seja, que as diferenças medidas não resultam do acaso amostral. Além disso, o valor do Partial Eta Squared demonstra que o efeito de interacção, também significativo (p <0,00) para uma confiança de 00%, melhora a explicação dos resultados. Conclui-se assim que as amostras relacionadas de IMC diferem por consequência do tratamento (efeito de interacção). A Figura 9.54 apresenta a avaliação dos contrastes entre cada VD avaliada singularmente e sob o efeito de interacção com o grupo de tratamento. Figura 9.54 Contrastes salientes avaliados nos efeitos intra-sujeitos Tests of Within-Subjects Contrasts Measure: IMC Source PESOS PESOS * GRUPO Error(PESOS) PESOS Level vs. Level 2 Level 2 vs. Level 3 Level vs. Level 2 Level 2 vs. Level 3 Level vs. Level 2 Level 2 vs. Level 3 a. Computed using alpha =,05 Type III Sum Partial Eta Observed of Squares df Mean Square F Sig. Squared Power a 56,800 56,800 3,03,000,757,000 5,000 5,000 6,760,03,39,79 4, ,467 2,06,40,089,40 66, ,467 2,84,000,843,000 50,267 42,97 3,067 42,740 65

69 Analisando-se o efeito intra-sujeitos, constata-se uma diferença estatisticamente significativa entre os IMC avaliados no primeiro e segundo mês (p <0,00), que ocorre mas não de modo tão acentuado entre o segundo e o terceiro (p <0,05). Já o efeito de interacção observado entre o primeiro e o segundo mês se esbate (p=0,40, n.s.), para se revelar importante entre o segundo e o terceiro mês (p <0,00). Finalmente, a Figura 9.55 apresenta os testes post hoc solicitados. Dado que neste momento se conhece o valor de significância (p=0,728, n.s.) associado ao teste de box (Figura 9.47), devem consultar-se os resultados do teste de Scheffe pois verifica-se a homogeneidade de covariâncias. Figura 9.55 Testes post hoc de comparações múltiplas entre os grupos terapêuticos Measure: IMC Multiple Comparisons Scheffe Tamhane (I) Grupo terapêutico Dieta hipocalórica Plano de exercício físico Dieta + Exercício + Sibutramina Dieta hipocalórica Plano de exercício físico Dieta + Exercício + Sibutramina Based on observed means. *. The mean difference is significant at the,05 level. (J) Grupo terapêutico Plano de exercício físico Dieta + Exercício + Sibutramina Dieta hipocalórica Dieta + Exercício + Sibutramina Dieta hipocalórica Plano de exercício físico Plano de exercício físico Dieta + Exercício + Sibutramina Dieta hipocalórica Dieta + Exercício + Sibutramina Dieta hipocalórica Plano de exercício físico Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound,96*,343,028,09,83,78*,343,000,9 2,65 -,96*,343,028 -,83 -,09,82,343,068 -,05,69 -,78*,343,000-2,65 -,9 -,82,343,068 -,69,05,96*,342,027,09,82,78*,337,000,92 2,63 -,96*,342,027 -,82 -,09,82,350,077 -,07,7 -,78*,337,000-2,63 -,92 -,82,350,077 -,7,07 Os valores de significância associados às comparações múltiplas efectuadas pelo teste de Scheffe permitem concluir que, quanto aos efeitos dos tratamentos ao longo dos três meses de avaliação, a dieta hipocalórica difere significativamente dos outros dois tratamentos, produzindo IMC superiores em quase valor em relação ao exercício físico (p <0,05), e em quase 2 valores em relação à terapêutica combinada (p <0,00). Esta última é responsável pela maior redução nos IMC, apesar de não ser significativamente diferente do plano de exercício físico (p=0,068, n.s.). 0. Outros modelos estatísticos de análise Além de alguns procedimentos de descrição de dados, expôs-se até ao momento, essencialmente, as medidas de associação e de comparação de variáveis mais vulgarmente utilizadas. o entanto, o SPSS reúne uma imensa versatilidade de ferramentas de análise destinadas aos utilizadores simultaneamente mais experientes e exigentes. Serão agora resumidas algumas delas. Análise categórica A análise categórica refere-se a procedimentos de análise de frequências que resultam do cruzamento de duas ou mais variáveis categóricas ou qualitativas. São modelos que tentam encontrar relações vectoriais entre variáveis qualitativas, dispondo-as por eixos. AACOR (Análise de Correspondência simples) Procedimento que parte do cruzamento entre duas variáveis qualitativas e do pressuposto da não independência entre ambas (ou seja, a probabilidade estatística associada ao 2 é inferior a 0,05). Existindo interdependência entre as variáveis, podem ser criados grupos homogéneos de casos consoante as dimensões onde se agrupam as categorias das variáveis. HOMALS (Análise de Homogeneidade) A HOMALS permite estudar as correspondências entre três ou mais variáveis qualitativas nominais e distinguir os dados agrupando-os em poucas dimensões. a prática, é um modelo de análise factorial de componentes principais para dados nominais. 66

70 Análise factorial A análise factorial [AF]é um conjunto de técnicas que permitem inferir características comuns a variáveis muito correlacionadas. Essas características comuns designam-se por factores, e estes são determinados segundo critérios estabelecidos. A AF permite determinar a proporção de variabilidade de cada variável que é explicada por uma ou mais das outras variáveis do conjunto (comunalidades), e determina ainda a variância explicada por cada factor (eigenvalues), de modo a que o analista possa decidir sobre o número de factores ou componentes a extrair que melhor expliquem os dados. A AF é muito utilizada em investigações que utilizam questionários com itens (variáveis) muito correlacionados. a prática, permite reduzir o número de itens total a um pequeno número de factores com poder explicativo dos resultados. O significado dos factores não é conhecido antecipadamente: a sua interpretação ocorre no final e sintetiza o conhecimento das variáveis que os constituem. A AF é muitas vezes complementada por modelos de rotação dos dados. Tratam-se de procedimentos estatísticos que não alteram as correlações prévias existentes entre as variáveis mas que permitem facilitar a interpretação dos factores, pois maximizam as diferenças. Os métodos de rotação classificam-se em ortogonais (e.g., Quartimax, Varimax) quando aplicados a factores não correlacionados entre si, e em oblíquos (e.g., Promax) quando os factores subjacentes estão correlacionados. Análise de Regressão Como se viu anteriormente, o coeficiente de correlação de Pearson é uma medida do poder de associação existente entre duas variáveis intervalares. Este tipo de associação está na base dos Métodos de Regressão, os quais partem da existência da correlação entre variáveis para construir equações de previsibilidade. Por outras palavras, os métodos de regressão pretendem prever a variação de uma variável dependente a partir do conhecimento dos valores de uma ou mais variáveis independentes ou factores. A evolução dos métodos estatísticos permitiu a construção de métodos diferentes, incluindo métodos de previsão de valores de variáveis categóricas (a regressão logística, por exemplo). Exemplifica-se aqui a regressão linear simples remetendo para a bibliografia o utilizador interessado em modelos mais complexos de regressão. Regressão Linear Simples Como foi dito, a regressão simples pretende estimar os valores de uma variável intervalar dependente (Y) com base no conhecimento dos valores de uma variável intervalar independente (X), a partir da seguinte equação de regressão: Y = B 0 + B (X) Em que Y é o valor a estimar, B 0 um valor constante da equação, e B o coeficiente de regressão, ou seja um valor a multiplicar pelo valor de entrada conhecido da variável independente. Para concretizar, suponha o exemplo seguinte. Uma clínica psiquiátrica possui os registos de 52 doentes consecutivas de anorexia avaliadas durante o primeiro mês de internamento. Além da idade e do diag (diagnóstico) das doentes, constam ainda o peso e uma avaliação de depressão (variável depress) na base de dados ilustrada na Figura 0.. Figura 0. Data View da base de dados considerada 67

71 DEPRESS Amadeu Martins, Estatística Aplicada com o SPSS. Um investigador dessa clínica está interessado em saber se existe uma relação linear entre o peso das doentes e depress, ou seja, o total de sintomas depressivos manifestados, e até que ponto se consegue prever a gravidade da depressão conhecendo-se o peso de uma doente. O primeiro passo para uma análise de regressão simples deverá ser a exploração de relação entre as variáveis através de um diagrama de dispersão. Este gráfico informa sobre o pressuposto da linearidade da relação entre as variáveis e sobre a eventual existência de valores muito discrepantes (Outliers). Se não se observar o pressuposto de linearidade deve considerar-se ou uma transformação de dados que a obtenha, ou um outro método de análise, como a regressão não linear. O diagrama de dispersão é obtido a partir de Graphs Scatter Simple Define Y Axis depress X Axis peso Options Exclude cases listwise Continue OK (Figura 0.2). Figura 0.2 Caixas de diálogo do comando Simple Scatterplot A janela do Output View produz um gráfico como o que se demonstra na figura seguinte. Figura 0.3 Diagrama de dispersão (Scatterplot) entre o peso e a depressão das doentes PESO Sem fechar o ficheiro, dá-se duplo click em cima do gráfico, acedendo ao Chart Editor. A partir dos menus do Chart Editor é possível obter a recta ajustada que prevê o modelo de regressão. Seguem-se os comandos Chart Options Case Labels On Fit Line Total Fit Options Fit Method Linear Regression Include constant in equation Continue OK. (Figura 0.4). Figura 0.4 Caixas de diálogo do comando Scatterplot Options O output permite inspeccionar a posição de cada caso e a sua distância à recta de regressão. 68

72 Figura 0.5 Edição do diagrama de dispersão no editor de gráficos (Chart Editor) ote que cada caso está identificado pelo comando Case Labels On que foi escolhido no Chart Editor. Os valores mais distantes à recta deverão ser investigados Aparentemente existe uma relação linear entre as variáveis, apesar de alguns casos se distanciarem. A estimação do modelo de regressão deverá respeitar os seguintes pressupostos: O limite dos erros da estimativa (resíduos) deverá ter uma distribuição normal. A variância dos resíduos deverá ser constante nos casos e independente das variáveis no modelo. O valor residual de qualquer caso é independente dos valores das variáveis no modelo e dos resíduos dos outros casos. Para a obtenção do modelo e respectivo estudo dos pressupostos seguem-se os comandos Analyze Regression Linear Dependent depress Independent(s) peso Method Enter Statistics Regression Coefficients Estimates Confidence intervals Model fit Descriptives Residuals Dubin-Watson Casewise diagnostics Outliers outside 3 standard deviations Continue Plots Y *SDRESID X *ZPRED Standardized Residual Plots Histogram ormal probability plot Continue Save Predicted Values Standardized Distances Cook s Leverage values Residuals Standardized Studentized Continue OK (Figuras 0.6 e 0.7). Figura 0.6 Caixas de diálogo do comando Linear Regression O subcomando Method aplica-se quando existem várias VI s e se pretende saber a contribuição de cada uma para o modelo de regressão; nesses casos o método Stepwise testa cada VI passo a passo, seleccionando as variáveis com mais poder explicativo e excluindo as menos importantes O subcomando Plots permite inspeccionar visualmente a recta obtida e identificar casos discrepantes que poderão ser excluídos da análise, melhorando a previsibilidade da recta O subcomando Statistics permite várias estatísticas que ajudam a decidir sobre a qualidade do modelo de regressão, especialmente os valores residuais Convém seleccionar Casewise diagnostics Outliers outside 3 standard deviations, de modo a que o modelo de regressão estude os valores residuais extremos que se situam fora do intervalo de 3 desvios padrão 69

73 Para análises posteriores dos pressupostos de colinearidade e de variância constante é necessária a determinação dos valores residuais estandardizados sendo necessário o recurso ao comando Save, referido na linha de comandos. Este cria novas variáveis na base de dados, as quais devem ser gravadas. Como se sabe, os valores residuais são importantes para a identificação de outliers. Por convenção, um caso é um outlier se apresentar uma das seguintes condições: Resíduo estandardizado > 3 Resíduo estudantizado > 2 Como exemplo, uma doente que apresentasse um resíduo estandardizado da variável depressão de 3,2 seria considerada outlier, pois o seu total de depressão estaria 3,2 desvios padrão acima da média esperada para alguém com o mesmo peso. Figura 0.7 Caixas de diálogo do comando Linear Regression (continuação) Apresentam-se na Figura 0.8 os coeficientes obtidos para a recta de regressão. Figura 0.8 Coeficientes de regressão do modelo estimado Model (Constant) PESO Unstandardized Coefficients a. Dependent Variable: DEPRESS Coefficients a Standardized Coefficients 95% Confidence Interval for B t Sig. Lower Bound Upper Bound B Std. Error Beta 02,269 9,27,095,000 83,773 20,765 -,643,200 -,752-8,26,000-2,044 -,24 O modelo estimado prevê que o total do questionário de depressão seja igual a 02,269 somado à multiplicação do β (-,643) pelo peso do sujeito. Por exemplo, o total a esperar para uma doente com 45 Kg será dado pela expressão Y = 02,269+ (-,643) * 45, ou seja, 28 pontos (28,334). A adaptabilidade do modelo é estudada a partir do quadro da AOVA (Figura 0.9). A linha Regression é um indica a variação tolerada pelo modelo. A linha Residual resume a variabilidade que não é explicada pelo modelo. Deste modo, é possível verificar que a soma de quadrados (Sum of Squares) do modelo é superior à soma de quadrados dos valores residuais, indicando que mais de metade da variação dos valores de depressão é explicada pelo modelo estimado. Além disso, o valor de significância associado (p <0,00) garante que a variabilidade explicada não é devida ao acaso. Figura 0.9 AOVA para o modelo de regressão estimado Model Regression Residual Total a. Predictors: (Constant), PESO b. Dependent Variable: DEPRESS AOVA b Sum of Squares df Mean Square F Sig. 3630, ,499 67,508,000 a 2796, , ,98 53 O poder da relação existente entre o modelo e a VD é deduzido a partir dos quadros seguintes. 70

APONTAMENTOS DE SPSS

APONTAMENTOS DE SPSS Instituto de Ciências Biomédicas de Abel Salazar APONTAMENTOS DE SPSS Rui Magalhães 2010-1 - - 2 - Menu DATA Opção SPLIT FILE Permite dividir, de uma forma virtual, o ficheiro em diferentes ficheiros com

Leia mais

APRESENTAÇÃO DO SPSS

APRESENTAÇÃO DO SPSS APRESENTAÇÃO DO SPSS O Statistical Package for Social Science for Windows (SPSS) - O SPSS e um software estatístico que permite a utilização de dados em diversos formatos para gerar relatórios, calcular

Leia mais

Prof. Estevam Martins

Prof. Estevam Martins Análise Exploratória de Dados Prof. Estevam Martins "O único lugar onde o sucesso vem antes do trabalho, é no dicionário" Albert Einstein Introdução O principal objetivo de uma análise exploratória é extrair

Leia mais

Introdução à análise estatística com SPSS. Guião nº6: Medidas de associação

Introdução à análise estatística com SPSS. Guião nº6: Medidas de associação Introdução à análise estatística com SPSS Guião nº6: Medidas de associação Experiência sobre volume plasmático e o peso em 13 homens saudáveis Os investigadores pretendem descobrir se as variáveis volume

Leia mais

Estatística descritiva

Estatística descritiva Estatística descritiva Para que serve a estatística? Qual o seu principal objectivo? obter conclusões sobre a população usando uma amostra? População Amostragem Amostra Uma ou mais variáveis (X) são observadas

Leia mais

Universidade de Brasília - Y Instituto de Psicologia. Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações.

Universidade de Brasília - Y Instituto de Psicologia. Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações. Universidade de Brasília - Y Instituto de Psicologia Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações. ROTEIRO PARA REALIZAÇÃO DO TESTE t de COMPARAÇÃO ENTRE MÉDIAS, CORRELAÇÕES

Leia mais

Introdução ao SPSS 17.0

Introdução ao SPSS 17.0 Introdução ao SPSS 17.0 Metodologias de Análise Quantitativas Liliana Abreu CIPEM Novembro de 2009 Fase lógica da pesquisa Identificação do problema: Pergunta de partida; Exploração do domínio; Escolha

Leia mais

Construção da base de dados

Construção da base de dados Construção da base de dados Construção da base de dados Construção da base de dados Exemplos de Inquéritos O instrumento de notação Codificação e dicionário das variáveis Data view e variable view Introdução

Leia mais

Exame Final de Métodos Estatísticos

Exame Final de Métodos Estatísticos Exame Final de Métodos Estatísticos Data: de Junho de 26 Duração: 3h. Nome: Curso: Declaro que desisto N. Mec. Regime: As cotações deste exame encontram-se na seguinte tabela. Responda às questões utilizando

Leia mais

IMC para adolescentes:

IMC para adolescentes: ANEXO 1 Anexo 1 IMC para adolescentes: Idade Sexo Baixo Peso Peso Normal 6 anos 7 anos 8 anos 9 anos 10 anos 11 anos 12 anos 13 anos 14 anos 15 anos 16 anos 17 anos Masculino Feminino Masculino Feminino

Leia mais

Testes de Hipóteses. : Existe efeito

Testes de Hipóteses. : Existe efeito Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs. H 1 : Existe efeito Hipótese nula Hipótese alternativa Varia conforme a natureza

Leia mais

Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica Capítulo 6 Estatística não-paramétrica Slide 1 Teste de ajustamento do Qui-quadrado Testes de independência e de homogeneidade do Qui-quadrado Testes dos sinais e de Wilcoxon Teste de Mann-Whitney Teste

Leia mais

CONSULTADORIA INFORMÁTICA, LDA. Análise Bivariada

CONSULTADORIA INFORMÁTICA, LDA. Análise Bivariada CONSULTADORIA INFORMÁTICA, LDA. Análise Bivariada Testes Paramétricos Os procedimentos estatísticos e as conclusões são baseados na distribuição subjacente aos dados disponíveis em estudo. Fazem uso de

Leia mais

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados.

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados. TESTES NÃO PARAMÉTRICOS Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados. Bioestatística, 2007 15 Vantagens dos testes não

Leia mais

Exame de Recorrência de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro

Exame de Recorrência de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro Exame de Recorrência de Métodos Estatísticos Departamento de Matemática Universidade de Aveiro Data: 6/6/6 Duração: 3 horas Nome: N.º: Curso: Regime: Declaro que desisto Classificação: As cotações deste

Leia mais

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME:

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME: DEPARTAMENTO DE MATEMÁTICA DA UNIVERSIDADE DE COIMBRA Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência 24-05-2011 NOME: Observação: A resolução completa das perguntas inclui

Leia mais

Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica Capítulo 6 Estatística não-paramétrica Slide 1 Teste de ajustamento do Qui-quadrado Testes de independência e de homogeneidade do Qui-quadrado Algumas considerações Slide 2 As secções deste capítulo referem-se

Leia mais

CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008

CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008 CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008 Observações: O objetivo desse material não é apresentar todas as opções disponíveis no SPSS, mas sim apresentar alguns comandos básicos mais utilizados

Leia mais

Anexo 1 ESCALA-21 DE DEPENDÊNCIA AO EXERCÍCIO Hausenblas & Symons Downs (2002)

Anexo 1 ESCALA-21 DE DEPENDÊNCIA AO EXERCÍCIO Hausenblas & Symons Downs (2002) Anexo 1 ESCALA-21 DE DEPEDÊCIA AO EXERCÍCIO Hausenblas & Symons Downs (2002) Instruções: Usando a escala seguinte, por favor, responda às seguintes questões o mais correctamente possível. As questões referem-se

Leia mais

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento? INTRODUÇÃO À ANÁLISE DE DADOS INSTITUTO SUPERIOR DE CIÊNCIAS SOCIAIS E POLÍTICAS UNIVERSIDADE TÉCNICA DE LISBOA Frequência - 29 de Janeiro de 8 Grupo I (4, v) No seguimento de um estudo efectuado pela

Leia mais

Introdução 5 PREFÁCIO 15

Introdução 5 PREFÁCIO 15 Introdução 5 ÍNDICE PREFÁCIO 15 INTRODUÇÃO 1. INICIAÇÃO AO SPSS 17 1.1. File 19 1.2. Edit 20 1.3. View 22 1.4. Data 22 1.5. Transform 24 1.5.1. Criar novas variáveis 24 1.5.2. Inversão da ordem das categorias

Leia mais

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO: INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 Estudos de Mercado EXAME: DATA 24 / 02 / 20010 NOME DO ALUNO: Nº INFORMÁTICO: TURMA: PÁG. 1_ PROFESSOR: ÉPOCA: Grupo I (10

Leia mais

AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS

AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MEAU- MESTRADO EM ENGENHARIA AMBIENTAL URBANA ENG C 18 Métodos de Pesquisa Quantitativos e Qualitativos DOCENTE: CIRA SOUZA PITOMBO AULA 10 RELACIONAMENTOS

Leia mais

Resultados dos testes estatísticos

Resultados dos testes estatísticos Resultados dos testes estatísticos Estudo da fiabilidade do instrumento para avaliação dos comportamentos e atitudes Factor Analysis Communalities Initial Extraction Item47 1,000,759 Item48 1,000,801 Item49

Leia mais

Introdução à análise estatística com SPSS. Guião nº2: Descrição de variáveis estatísticas

Introdução à análise estatística com SPSS. Guião nº2: Descrição de variáveis estatísticas Introdução à análise estatística com SPSS Guião nº2: Descrição de variáveis estatísticas Abrir o ficheiro de dados com o SPSS Abrir o SPSS e depois a opção open an existing data source e procurar pelo

Leia mais

ÍNDICE Janelas Menus Barras de ferramentas Barra de estado Caixas de diálogo

ÍNDICE Janelas Menus Barras de ferramentas Barra de estado Caixas de diálogo XXXXXXXX ÍNDICE INTRODUÇÃO 15 1. VISÃO GERAL DO SPSS PARA WINDOWS 17 1.1. Janelas 17 1.2. Menus 20 1.3. Barras de ferramentas 21 1.4. Barra de estado 21 1.5. Caixas de diálogo 22 2. OPERAÇÕES BÁSICAS 23

Leia mais

ANÁLISE DE DADOS. Familiarização com o SPSS

ANÁLISE DE DADOS. Familiarização com o SPSS 1 ANÁLISE DE DADOS Familiarização com o SPSS 2 Statistical Package for the Social Sciences Programa de eleição dos cientistas das Ciências Sociais; O SPSS facilita a realização de numerosos métodos estatísticos;

Leia mais

MÉTODOS QUANTITATIVOS APLICADOS

MÉTODOS QUANTITATIVOS APLICADOS ANO LECTIVO DE 2013-2014 MÉTODOS QUANTITATIVOS APLICADOS Mestrados: Economia, Economia e Gestão de Ciência, Tecnologia e Inovação, Economia e Políticas Públicas, Economia Internacional e Estudos Europeus

Leia mais

Exploração e Transformação de dados

Exploração e Transformação de dados Exploração e Transformação de dados A DISTRIBUIÇÃO NORMAL Normal 99% 95% 68% Z-score -3,29-2,58-1,96 1,96 2,58 3,29 Normal A distribuição normal corresponde a um modelo teórico ou ideal obtido a partir

Leia mais

Exame de Recurso de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro

Exame de Recurso de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro Exame de Recurso de Métodos Estatísticos Departamento de Matemática Universidade de Aveiro Data: /7/6 Duração: 3 horas Nome: N.º: Curso: Regime: Declaro que desisto Classificação: As cotações deste exame

Leia mais

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA A FASE ANALÍTICA TCOR ENGEL SILVA COSTA costa.pms@ium.pt/226013 2 METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA Previamente ao início da recolha de dados, o investigador

Leia mais

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME: DEPARTAMENTO DE MATEMÁTICA DA UNIVERSIDADE DE COIMBRA Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME: Observação: A resolução completa das perguntas inclui a justificação

Leia mais

Métodos Experimentais em Ciências Mecânicas

Métodos Experimentais em Ciências Mecânicas Métodos Experimentais em Ciências Mecânicas Professor Jorge Luiz A. Ferreira Pertencem ao grupo de ferramentas estatísticas que permitem caracterizar um conjunto de dados sob ponto de vista da tendência

Leia mais

INSTITUTO POLITÉCNICO DE LISBOA ESCOLA SUPERIOR DE COMUNICAÇÃO SOCIAL. Mestrado em Publicidade e Marketing

INSTITUTO POLITÉCNICO DE LISBOA ESCOLA SUPERIOR DE COMUNICAÇÃO SOCIAL. Mestrado em Publicidade e Marketing INSTITUTO POLITÉCNICO DE LISBOA ESCOLA SUPERIOR DE COMUNICAÇÃO SOCIAL Mestrado em Publicidade e Marketing O CONSUMO DE MODA NO RETALHO DA GRANDE DISTRIBUIÇÃO ANEXOS Marta Buçaco Pinto de Miranda Orientador:

Leia mais

CAPÍTULO II. Descrevendo Dados: análise inicial dos dados

CAPÍTULO II. Descrevendo Dados: análise inicial dos dados CAPÍTULO II Descrevendo Dados: análise inicial dos dados Objetivo: O objetivo do presente trabalho é descrever a rotina básica de comandos para realização de uma inspeção inicial dos dados utilizando o

Leia mais

Utilização de Funções Estatísticas no Excel

Utilização de Funções Estatísticas no Excel Utilização de Funções Estatísticas no Excel Bráulio Alturas 1 O Excel e as estatísticas: Os princípios básicos O Excel e as estatísticas: Os princípios básicos Criar uma fórmula no Excel utilizando funções

Leia mais

Case Processing Summary

Case Processing Summary 17. O ficheiro Banco.sav encerra informação relativa a 474 empregados contratados por um banco, entre 1969 e 1971. Este banco esteve envolvido num processo judicial no âmbito da Igualdade de Oportunidade

Leia mais

Autores: Fernando Sebastião e Helena Silva

Autores: Fernando Sebastião e Helena Silva Apontamentos de Estatística Descritiva Unidade Curricular: Estatística Aplicada Área Científica: Matemática Ano Lectivo: 2007/2008 Curso: Contabilidade e Finanças Regime: Diurno + Pós-Laboral Escola: Superior

Leia mais

Appendices Booklet. João Diogo Sequeira Coelho #1502. Masters in Management

Appendices Booklet. João Diogo Sequeira Coelho #1502. Masters in Management Appendices Booklet João Diogo Sequeira Coelho #1502 Masters in Management January 2015 Index Appendix A Parent s Consent Form 2 Appendix B School Consent Request 3 Appendix C Packaging Designs 4 Appendix

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

ISCTE- IUL Instituto Universitário de Lisboa

ISCTE- IUL Instituto Universitário de Lisboa ISCTE- IUL Instituto Universitário de Lisboa Licenciatura em Gestão Exame de ª Época de Estatística II de Junho de 0 Duração: h +30m Nota: Não são prestados esclarecimentos durante a prova! Só é permitida

Leia mais

AULA TEÓRICA 11 Tema 7. Introdução ao Microsoft Access (cont.)

AULA TEÓRICA 11 Tema 7. Introdução ao Microsoft Access (cont.) AULA TEÓRICA 11 Tema 7. Introdução ao Microsoft Access (cont.) Ø Listas de pesquisa Ø Edição e formatação de tabelas Ø Ordenação de dados Ø Relações entre tabelas Ø Consultas Ø Relatórios Ø Formulários

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 2019 Estatística Descritiva e Análise Exploratória Etapas iniciais. Utilizadas para descrever e resumir os dados. A disponibilidade de uma grande quantidade

Leia mais

Gestão de Base de dados Tabelas e Chaves

Gestão de Base de dados Tabelas e Chaves Gestão de Base de dados Tabelas e Chaves Ano Letivo 2014/2015 Professora: Vanda Pereira Criar tabelas Considerações importantes: Os nomes das tabelas deverão ter por base as entidades que representam.

Leia mais

Excel - Funções Estatísticas

Excel - Funções Estatísticas Excel - Funções Estatísticas DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO 1 Descrição geral: Utilizar funções e fórmulas estatísticas Obtenha informações sobre como utilizar funções e fórmulas

Leia mais

Apostila Software de Análise Estatística Epi Info Índice

Apostila Software de Análise Estatística Epi Info Índice Instituto Fernandes Figueira FIOCRUZ Programa de Pós Graduação em Saúde da Criança e da Mulher Disciplina Bioestatística e Computação I 2009 Professores Responsáveis: Maria Virgínia Peixoto Dutra, Vania

Leia mais

Licenciatura em Fisioterapia Ano lectivo 2010/2011 4º Ano Seminário de Monografia I e II. Monografia Final de Curso

Licenciatura em Fisioterapia Ano lectivo 2010/2011 4º Ano Seminário de Monografia I e II. Monografia Final de Curso Licenciatura em Fisioterapia Ano lectivo 2010/2011 4º Ano Seminário de Monografia I e II Monografia Final de Curso Influência da Fisioterapia na Funcionalidade dos Utentes Internados em Unidades de Cuidados

Leia mais

Aula 3 Epi-Info 2000 e Epi-Info 6.04: Análises Estatísticas

Aula 3 Epi-Info 2000 e Epi-Info 6.04: Análises Estatísticas Universidade de São Paulo/Faculdade de Saúde Pública Curso de Saúde Pública Disciplina: HEP 147 - Informática Aula 3 Epi-Info 2000 e Epi-Info 6.04: Análises Estatísticas 1 Análises Estatísticas O Epi-Info

Leia mais

AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R

AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R AMOSTRAGEM COMPLEXA Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R 1 Conteúdo Nota introdutória... 3 1. Software SPSS... 4 2. Software R... 16 Referências [1] R

Leia mais

2. Abrir a folha I do ficheiro vendedores_a.xls. Obter as folhas II e III.

2. Abrir a folha I do ficheiro vendedores_a.xls. Obter as folhas II e III. 02-03-2006 Objectivos da disciplina e avaliação. Ambiente de trabalho. Primeira folha de cálculo. Deslocações na folha de cálculo,. Inserção de dados. Edição e manipulação de células. Gravar ficheiros.

Leia mais

Associação entre duas variáveis

Associação entre duas variáveis Associação entre duas variáveis Questões de interesse: Será que duas variáveis são independentes ou pelo contrário dependentes? E se forem dependentes, qual o tipo e grau de dependência? Existem diversas

Leia mais

UNIVERSIDADE DO ALGARVE Escola Superior de Gestão, Hotelaria e Turismo

UNIVERSIDADE DO ALGARVE Escola Superior de Gestão, Hotelaria e Turismo UNIVERSIDADE DO ALGARVE Escola Superior de Gestão, Hotelaria e Turismo APLICAÇÕES NO SPSS Disciplina de Estatística Gestão Disciplina de Estatística Gestão Hoteleira Disciplina de Estatística Descritiva

Leia mais

Tarefa Orientada 7 Consultas de selecção

Tarefa Orientada 7 Consultas de selecção Tarefa Orientada 7 Consultas de selecção Objectivos: Consultas de selecção O Sistema de Gestão de Bases de Dados MS Access Consultas As consultas (queries) permitem interrogar a base de dados, de acordo

Leia mais

PROGRAMA ANDAD. (Versão 7.10) Manual do utilizador

PROGRAMA ANDAD. (Versão 7.10) Manual do utilizador PROGRAMA ANDAD (Versão 7.10) Manual do utilizador CVRM Centro de Geosistemas do IST 1989-2002 MÉTODOS DE ANÁLISE DE DADOS MANUAL DO PROGRAMA ANDAD (Versão 7.10) OBJECTIVO O programa ANDAD está organizado

Leia mais

Módulo 19 - Análise Discriminante Geração de Tabelas

Módulo 19 - Análise Discriminante Geração de Tabelas Módulo 19 - Análise Discriminante Geração de Tabelas Situação Problema Um banco deseja classificar seus clientes de acordo com seu perfil de investimento: investidor conservador, investidor moderado ou

Leia mais

Variáveis bidimensionais

Variáveis bidimensionais Variáveis bidimensionais Muitas vezes, a análise estatística tem em vista o estudo, em simultâneo, de duas características de cada indivíduo dando origem a amostras bivariadas (ou bidimensionais). Assim,

Leia mais

UNIVERSIDADE DOS AÇORES Licenciatura em Sociologia. Análise de Dados

UNIVERSIDADE DOS AÇORES Licenciatura em Sociologia. Análise de Dados UNIVERSIDADE DOS AÇORES Licenciatura em Sociologia Análise de Dados Exame Data: 200 06 07 Duração: 2 horas Nota: Justifique todas as suas afirmações. Um investigador pretende saber se existem ou não diferenças

Leia mais

SPSS Statistical Package for the Social Sciences Composto por dois ambientes:

SPSS Statistical Package for the Social Sciences Composto por dois ambientes: Introdução ao SPSS Essa serie de aulas sobre SPSS foi projetada para introduzir usuários iniciantes ao ambiente de trabalho do SPSS 15, e também para reavivar a memória de usuários intermediários e avançados

Leia mais

Análise de Variância a um factor

Análise de Variância a um factor 1 Análise de Variância a um factor Análise de experiências com vários grupos de observações classificados através de um só factor (por exemplo grupos de indivíduos sujeitos a diferentes tratamentos para

Leia mais

ISCTE Instituto Superior de Ciências do Trabalho e da Empresa

ISCTE Instituto Superior de Ciências do Trabalho e da Empresa ISCTE Instituto Superior de Ciências do Trabalho e da Empresa Licenciatura em Gestão Exame de 2ª Época de Estatística II Duração: 2h +30m Nota: Não são prestados esclarecimentos durante a prova! Só é permitida

Leia mais

Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM Cronograma parcial DPS1037 Data Aula Conteúdo 10/ago 1 Introdução à Engenharia da

Leia mais

Bioestatística. Paulo Nogueira quarta-feira, 11 de Janeiro de 2012

Bioestatística. Paulo Nogueira quarta-feira, 11 de Janeiro de 2012 Bioestatística Paulo Nogueira quarta-feira, 11 de Janeiro de 2012 Bioestatística? Bioestatística Biologia + Estatística (Portmanteau) Biometria Estatística aplicada às ciências da saúde Para que serve

Leia mais

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV 69 'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV O presente capítulo objetiva entender o comportamento das séries de retorno financeiras para as carteiras de investimento elaboradas no capítulo anterior. Tal análise

Leia mais

BIOESTATÍSTICA. EXERCÍCIOS Folha 7 ANO LECTIVO: 2007/2008 ANOVA

BIOESTATÍSTICA. EXERCÍCIOS Folha 7 ANO LECTIVO: 2007/2008 ANOVA BIOESTATÍSTICA Departamento de Matemática EXERCÍCIOS Folha 7 ANO LECTIVO: 2007/2008 ANOVA 1. A anemia é uma doença que afecta muitas pessoas e que pode ter diversas origens. Pretendendo-se avaliar possíveis

Leia mais

ESCOLAS DE MANGUALDE

ESCOLAS DE MANGUALDE ESCOLAS DE MANGUALDE RETENÇÃO versus INDISCIPLINA e DESMOTIVAÇÃO Um estudo nos 1.º e 2.º Ciclos das Escolas de Mangualde Março de 2015 AGNELO FIGUEIREDO ESCOLAS DE MANGUALDE, www.escolasdemagualde.pt,

Leia mais

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame NOME:

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame NOME: DEPARTAMENTO DE MATEMÁTICA DA UNIVERSIDADE DE COIMBRA Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 29-06-10 NOME: Observação: A resolução completa das perguntas inclui a justificação

Leia mais

Como construir uma animação em Excel Proporcionalidade Directa. Gráfico da função y = k.x

Como construir uma animação em Excel Proporcionalidade Directa. Gráfico da função y = k.x Como construir uma animação em Excel Proporcionalidade Directa. Gráfico da função y = k.x Supõe que um carro viaja de Lisboa ao Porto (~300 km) a uma velocidade constante de 90 km/h. Neste caso a distância

Leia mais

Coeficiente de Assimetria

Coeficiente de Assimetria Coeficiente de Assimetria Rinaldo Artes Insper Nesta etapa do curso estudaremos medidas associadas à forma de uma distribuição de dados, em particular, os coeficientes de assimetria e curtose. Tais medidas

Leia mais

Importância da estatística 17. O que é a Estatística? 18

Importância da estatística 17. O que é a Estatística? 18 Índice MENSAGEM DO AUTOR 11 AGRADECIMENTOS 13 Capítulo 1 Introdução Importância da estatística 17 O que é a Estatística? 18 Escalas de medida 19 Escala de medida qualitativa ou não métrica 19 Escalas Nominais

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP Bioestatística UNESP Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP Perguntas iniciais para reflexão I - O que é Estatística? II - Com que tipo de informação (dados)

Leia mais

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes 1 Estatística População Características Técnicas de amostragem Amostra Análise descritiva Conclusões sobre as características da

Leia mais

Janelas de aplicação 18 Janela de execução de um comando 21. Construção de uma tabela de dados: Data Editor

Janelas de aplicação 18 Janela de execução de um comando 21. Construção de uma tabela de dados: Data Editor Índice Índice temático 11 Introdução 13 Capítulo 1 Apresentação do software SPSS Janelas de aplicação 18 Janela de execução de um comando 21 Capítulo 2 Construção de uma tabela de dados: Data Editor Definição

Leia mais

Outputs Resultados. Análise Descritiva. Índice de Precisão do Instrumento (Global) Índice de Precisão das Dimensões (Âncoras de Carreira)

Outputs Resultados. Análise Descritiva. Índice de Precisão do Instrumento (Global) Índice de Precisão das Dimensões (Âncoras de Carreira) Outputs Resultados Análise Descritiva Descriptive Statistics N Minimum Maximum Mean Std. Deviation TF 706 1,2 7,2 4,390,9441 GG 706 1,4 8,0 3,534,9137 706 1,4 7,6 3,509,9255 SE 706 1,0 8,4 3,696 1,0211

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de

Leia mais

Recursos B-on CURRENT CONTENTS. Saber usar. Novembro,2008

Recursos B-on CURRENT CONTENTS. Saber usar. Novembro,2008 Recursos B-on CURRENT CONTENTS Saber usar Novembro,2008 Bases de referência O que são? As bases de referência permitem-nos pesquisar as referências de um documento e desta forma obter a sua localização.

Leia mais

Associação entre duas variáveis

Associação entre duas variáveis Associação entre duas variáveis Questões de interesse: Será que duas variáveis são independentes ou pelo contrário dependentes? E se forem dependentes, qual o tipo e grau de dependência? Medir o grau de

Leia mais

Prof. Dr. Alfredo J Rodrigues. Departamento de Cirurgia e Anatomia Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

Prof. Dr. Alfredo J Rodrigues. Departamento de Cirurgia e Anatomia Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Bioestatística Básica RCA 5804 1. Experimentos no qual o sujeito recebe + de 1 tratamento 2. Alternativas para teste T e Análise de Variância 3. Correlação Prof. Dr. Alfredo J Rodrigues Departamento de

Leia mais

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015 CE001 Bioestatística Prof. Cesar Augusto Taconeli Curitiba-PR 2015 Parte 2 Estatística descritiva 2 A estatística descritiva compreende técnicas (tabelas, gráficos, medidas) que permitem resumir os dados.

Leia mais

Análise de dados, tipos de amostras e análise multivariada

Análise de dados, tipos de amostras e análise multivariada Les-0773: ESTATÍSTICA APLICADA III Análise de dados, tipos de amostras e análise multivariada AULA 1 12/05/17 Prof a Lilian M. Lima Cunha Maio de 2017 Introdução O que significa o termo estatística? No

Leia mais

ESTATÍSTICA. Tabelas e Gráficos. Elisabeti Kira - IME USP. Beti Kira (IME-USP) Estatística 18.abril.

ESTATÍSTICA. Tabelas e Gráficos. Elisabeti Kira - IME USP. Beti Kira (IME-USP) Estatística 18.abril. ESTATÍSTICA Tabelas e Gráficos Elisabeti Kira - IME USP betikira@ime.usp.br Beti Kira (IME-USP) Estatística 18.abril.2017 1 / 26 Visão geral Coletar dados censo, técnicas de amostragem, amostra aleatória,

Leia mais

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Técnicas Computacionais em Probabilidade e Estatística I. Aula I Técnicas Computacionais em Probabilidade e Estatística I Aula I Chang Chiann MAE 5704- IME/USP 1º Sem/2008 1 Análise de Um conjunto de dados objetivo: tratamento de um conjunto de dados. uma amostra de

Leia mais

Laboratório de Informática Avançada Automatização de Horários Manual do Professor

Laboratório de Informática Avançada Automatização de Horários Manual do Professor Faculdade de Engenharia da Universidade do Porto Licenciatura Informática e Computação Laboratório de Informática Avançada Automatização de Horários Manual do Professor João Braga http://www.fe.up.pt/~ei97027/lia.html

Leia mais

1 - Ambiente de desenvolvimento

1 - Ambiente de desenvolvimento Neste documento começa-se por apresentar o ambiente de desenvolvimento integrado do Visual Basic (menu bar, toolbars, toolbox, project explorer window, properties window, form designer e code editor window).

Leia mais

Folha de Cálculo. Manual de Apoio. Fórmulas e Gráficos

Folha de Cálculo. Manual de Apoio. Fórmulas e Gráficos Folha de Cálculo Manual de Apoio Fórmulas e Gráficos Copyright Copyright 2006 Escola Secundária Artística de Soares dos Reis, Carla Mansilha, Alexandre Martins. É permitido copiar, distribuir e/ou modificar

Leia mais

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

PARTE 1. Profa. Dra. Alessandra de Ávila Montini PARTE 1 Programa de Pós-graduação do Departamento de Administração PPGA Agenda 2 14:00 15:30 Fundamentação Teórica 15:30 15:45 Coffee break 15:45 17:00 Fundamentação Teórica 17:00 18:00 Exercícios de Fixação

Leia mais

MANUAL DE MICROSOFT EXCEL 2003 Sem bichos de sete cabeças

MANUAL DE MICROSOFT EXCEL 2003 Sem bichos de sete cabeças MANUAL DE MICROSOFT EXCEL 2003 Sem bichos de sete cabeças Trabalho realizado para Metodologia de Investigação I para a Professora M. Isabel Chagas por: Deolinda Canelo Dulce Mourato Sandra Gaspar Eugénia

Leia mais

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso MEDIDAS DE POSIÇÃO E DE DISPERSÃO Profª Andréa H Dâmaso Bioestatística e Delineamento Experimental - 2012 Tópicos da aula Medidas de tendência central e dispersão Variáveis contínuas: distribuição normal

Leia mais

Módulo 3: A pesquisa e o software Excel O software Excel; Introdução aos métodos estatísticos; Descrição e exploração dos dados; Variáveis

Módulo 3: A pesquisa e o software Excel O software Excel; Introdução aos métodos estatísticos; Descrição e exploração dos dados; Variáveis Módulo 3: A pesquisa e o software Excel O software Excel; Introdução aos métodos estatísticos; Descrição e exploração dos dados; Variáveis qualitativas (Tabela de frequências); Variáveis quantitativas

Leia mais

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame - Resolução

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame - Resolução DEPARTAMENTO DE MATEMÁTICA DA UNIVERSIDADE DE COIMBRA Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame - Resolução 13-06-11 Observação: A resolução completa das perguntas inclui

Leia mais

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico Tutorial SPSS Módulo 8 Análise de Cluster Módulo 8- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico Situação Problema Apresentamos novamente a situação problema

Leia mais

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 3 Distribuição Normal Multivariada

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 3 Distribuição Normal Multivariada ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11 EXERCÍCIOS PRÁTICOS - CADERO 3 Distribuição ormal Multivariada 22-02-11 3.1 3.1. Considere três variáveis bidimensionais (X 1, X 2 ) com distribuição normal

Leia mais

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva ESTATÍSTICA DESCRITIVA 2 Estatística Descritiva O que fazer com as observações que coletamos? Primeira etapa da análise: Resumo dos dados: organizar, descrever e resumir os dados coletados Estatística

Leia mais

Manual do Cibernauta

Manual do Cibernauta Faculdade de Engenharia da Universidade do Porto Licenciatura Informática e Computação Laboratório de Informática Avançada Manual do Cibernauta Versão 1.1 João Braga http://www.fe.up.pt/~ei97027/lia.html

Leia mais

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO SISTEMAS DE GESTÃO DE BASE DE DADOS FORMULÁRIOS

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO SISTEMAS DE GESTÃO DE BASE DE DADOS FORMULÁRIOS TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO SISTEMAS DE GESTÃO DE BASE DE DADOS FORMULÁRIOS Os constituem uma outra forma de visualizar os dados armazenados nas tabela ou disponibilizados numa consulta. Também

Leia mais

Módulo 16- Análise de Regressão

Módulo 16- Análise de Regressão Módulo 6 Análise de Regressão Módulo 6- Análise de Regressão Situação Problema Um grupo de investidores estrangeiros deseja aumentar suas atividades no Brasil. Considerando a conjuntura econômica de moeda

Leia mais

Intervalo de confiança. Intervalo de confiança. Inferência. Generalizar os resultados da pesquisa a todo o universo de eleitores margem de erro

Intervalo de confiança. Intervalo de confiança. Inferência. Generalizar os resultados da pesquisa a todo o universo de eleitores margem de erro Intervalo de confiança As pesquisas sobre intenção de voto antes das eleições. Intervalo de confiança Os resultados divulgados na mídia são acompanhados de uma margem de erro. Candidato A: 33% ± 3% Candidato

Leia mais

Conceito de Estatística

Conceito de Estatística Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir

Leia mais

UFCD 786 Instalação e configuração de sistemas de bases de dados

UFCD 786 Instalação e configuração de sistemas de bases de dados Pág 2 UFCD 786 Instalação e configuração de sistemas de bases de dados Formadora Elsa Almeida Índice 1 Introdução... 3 2 Formulários... 4 2.1 Criar Formulários... 4 2.2 Inserção de Novos Registos e Manipulação

Leia mais

Tabelas dinâmicas nos mapas TOConline

Tabelas dinâmicas nos mapas TOConline Tabelas dinâmicas nos mapas TOConline Tabelas dinâmicas nos mapas TOConline Saiba como criar Tabelas Dinâmicas sobre mapas excel TOConline O objetivo deste artigo, é de uma forma muito sucinta, ajudar

Leia mais