ESCOLA SUPERIOR AGRÁRIA INSTITUTO POLITÉCNICO DE CASTELO BRANCO SPSS - MANUAL DE UTILIZAÇÃO ARMANDO MATEUS FERREIRA

Transcrição

1 ESCOLA SUPERIOR AGRÁRIA INSTITUTO POLITÉCNICO DE CASTELO BRANCO SPSS - MANUAL DE UTILIZAÇÃO ARMANDO MATEUS FERREIRA Escola Superior Agrária de Castelo Branco, 1999

2 Índice ÍNDICE 1 - INTRODUÇÃO EDITOR DE DADOS CRIAR UM FICHEIRO DE DADOS DEFINIÇÃO DE VARIÁVEIS INTRODUÇÃO DOS VALORES GRAVAR O FICHEIRO DE DADOS ABRIR UM FICHEIRO DE DADOS EXISTENTE ACESCENTAR NOVOS CASOS A UM FICHEIRO DE DADOS ACRESCENTAR NOVAS VARIÁVEIS DEFINIR UMA VARIÁVEL EM FUNÇÃO DE OUTRAS ELIMINAR LINHAS E VARIÁVEIS IMPORTAÇÃO DE FICHEIROS EXTERNOS IMPORTAÇÃO DE FICHEIROS LOTUS E EXCEL IMPORTAÇÃO DE FICHEIROS DE DBASE IMPORTAÇÃO DE FICHEIROS EXCEL IMPORTAÇÃO DE FICHEIROS ACCESS RECODIFICAÇÃO DE VALORES SELECÇÃO DE CASOS ANÁLISE DE DADOS OBTER ESTATÍSTICAS DESCRITIVAS PROCEDIMENTO DESCRIPTIVES PROCEDIMENTO EXPLORE PROCEDIMENTO EXPLORE COM FACTORES PROCEDIMENTO FREQUENCIES GRÁFICOS GRÁFICOS STANDARDIZADOS GRÁFICO DE BARRAS HISTOGRAMA GRÁFICO DE EXTREMOS-E-QUARTIS GRÁFICO DE BARRA DE ERROS GRÁFICOS DE PROBABILIDADES GRÁFICO DE DISPERSÃO EDIÇÃO DOS GRÁFICOS STANDARDIZADOS GRÁFICOS INTERACTIVOS GRÁFICO DE BARRAS GRÁFICO DE DISPERSÃO EDIÇÃO DE GRÁFICOS INTERACTIVOS ESACB i

3 Índice 5 - TESTES T TESTE T PARA A MÉDIA DE UMA AMOSTRA TESTE T PARA DUAS AMOSTRAS INDEPENDENTES TESTE T PARA DUAS AMOSTRAS EMPARELHADAS ANÁLISE DE VARIÂNCIA ENSAIOS UNI-FACTORIAIS PROCEDIMENTO ONE-WAY ANOVA PROCEDIMENTO MEANS ENSAIOS MULTI-FACTORIAIS REGRESSÃO LINEAR INTRODUÇÃO REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR MÚLTIPLA AJUSTAMENTO DE MODELOS PRÉ-DEFINIDOS MANUSEAR OS RESULTADOS ANEXOS ESACB ii

4 1 - Introdução 1 - INTRODUÇÃO O pakage estatístico SPSS para Windows é um poderoso sistema de análises estatísticas e manuseamento de dados, num ambiente gráfico, em que a utilização mais frequente, para a maioria das análises a efectuar, se resume à selecção das respectivas opções em menus e caixas de diálogo. Contudo, o sistema dispõe de um editor de comandos, a que o utilizador mais avançado poderá recorrer a fim de realizar determinado tipo de análises mais complexas e elaboradas. De um modo muito sucinto, o sistema SPSS dispõe de: Data Editor: Editor de Dados: uma versátil folha de cálculo, que permite definir, introduzir, modificar, corrigir e visualizar a informação. O Data Editor abre automaticamente quando se entra no SPSS. Viewer: Janela de Resultados: Todos os resultados estatísticos, tabelas, gráficos, são visualizados numa janela designada por Viewer. Uma janela Viewer abre automaticamente na primeira vez que o utilizador executar uma tarefa que gera output. Na figura seguinte apresenta-se o aspecto da janela de resultados referentes ao cálculo das estatísticas elementares um conjunto de dados (variável com o nome fosfo). O Viewer é composto por duas janelas: à esquerda está um organigrama do output; à direita estão os resultados propriamente ditos. Neste exemplo, os resultados incluem as instruções necessárias à execução ESACB 1

5 1 - Introdução da tarefa: é o que se designa por Log 1, e que é composto pelas seguintes linhas de instruções: DESCRIPTIVES VARIABLES=fosfo /STATISTICS=MEAN SUM STDDEV VARIANCE RANGE MIN MAX SEMEAN KURTOSIS SKEWNESS. Estas instruções foram geradas, no caso, pela selecção de opções nos menus do programa; contudo, podem ser digitadas, como se de uma linguagem de programação se tratasse 2. Pivot Tables: Tabelas Dinâmicas: O programa dispõe de uma potente rotina de geração de tabelas dinâmicas (ou pivot tables), que permitem que o utilizador explore os dados, com o re-arranjo de colunas e linhas. Gráficos: O SPSS permite realizar todos os tipos de gráficos usuais em estatística, a fim de realçar as análises efectuadas. Acesso a Bases de Dados: O SPSS permite o acesso às bases de dados mais usuais, em formato SQL e ODBC, tais como ficheiros de dados criados em dbase, Access, Excel, Lotus, etc. A importação de ficheiros de texto, Access, Excel, é feita através de um assistente de importação (wizard). 1 2 O Log pode não estar visível; só aparece na janela Viewer se se tiver configurado o programa para mostrar este item. O utilizador pode escrever as suas próprias rotinas de análise; para tal, deve abrir o SPSS Syntax Editor, janela de edição de comandos do SPSS. ESACB 2

6 2 - Edição de Dados 2 - EDITOR DE DADOS O Data Editor do SPSS é um programa do tipo de folha de cálculo que permite facilmente criar ou editar ficheiros de dados. O Data Editor abre automaticamente quando se entra no SPSS. O aspecto inicial do editor é o seguinte: Muitas das características do data editor do SPSS são similares ás de qualquer folha de cálculo em ambiente Windows, tal como o Excel. As colunas correspondem às variáveis. Inicialmente, todas as colunas, ou variáveis, tem o mesmo nome genérico, var, tal como é mostrado na imagem. O utilizador irá dar os nomes às variáveis que definir. As linhas correspondem aos casos, ou indivíduos. Cada célula contém um valor ou observação de um indivíduo, em relação a uma determinada característica ou variável. As células podem apenas conter valores (numéricos ou alfanuméricos); não é possível, tal como se faz nas folhas de cálculo, definir fórmulas em células. O SPSS permite definir fórmulas, mas que afectam integralmente toda uma variável ou coluna. O ficheiro de dados é rigorosamente rectangular, sendo o seu tamanho definido pelo número de casos e de variáveis. O utilizador pode introduzir valores em células fora das ESACB 3

7 2 - Edição de Dados fronteiras actuais da folha de cálculo; contudo, o SPSS automaticamente acrescenta linhas e/colunas de modo a que essa nova observação fique incluída dentro da estrutura rectangular. A fim de ilustrar este aspecto, considere a seguinte imagem referente a um folha de dados do SPSS, em que existem duas variáveis (com os nomes x e y), com 6 casos ou observações. Repare na posição da célula activa. Se se introduzir um valor (por exemplo, 25) para esta célula, fora dos limites do ficheiro rectangular, o SPSS cria duas novas variáveis numéricas atribuindo-lhes automaticamente os nomes var00002 e var00003, e introduz valores em branco para as células, de modo a ficar um ficheiro rectangular, com 4 variáveis e 7 casos (repare que estas células têm o ponto decimal): Estas células, aparentemente vazias, são assumidas pelo SPSS como missing values, isto é, observações em falta para algumas variáveis. Contudo, e para já, estas células não afectam os cálculos estatísticos, caso se se trate de variáveis numéricas. Por exemplo, calculando a média da variável x obter-se-á o valor de 15, como é lógico, para os valores apresentados. ESACB 4

8 2 - Edição de Dados CRIAR UM FICHEIRO DE DADOS Vamos usar os seguintes dados a fim de ilustrar como se cria um ficheiro com o Data Editor do SPSS. Trata-se dos resultados de um ensaio, em que se registaram as produções (kg/ha) de arroz, em função da variedade (V1: IR8; V2: IR5; V3: C4-63) e de 5 níveis de adubação azotada (N0: 0 kg/ha; N1: 60 kg/ha; N2: 90 kg/ha; N3: 120 kg/ha; N4: 150 kg/ha). Para cada tratamento fizeram-se 4 repetições. Na imagem seguinte, capturada do Excel, estes dados estão perceptíveis para o leitor, e estão estruturados para algumas possíveis análises a executar na folha de cálculo; contudo, ao serem introduzidos para um ficheiro SPSS, dever-se-ão respeitar as normas deste programa, de modo a que os dados possam ser analisados. Repetição Variedade Azoto N N V1 N N N N N V2 N N N N N V3 N N N Como se referiu atrás, os dados deverão ser introduzidos para uma matriz rectangular, em que as colunas são as variáveis e as linhas os casos. Neste caso, as variáveis são a Variedade, o Azoto, a Repetição e a Produção DEFINIÇÃO DE VARIÁVEIS Vamos começar por definir estas variáveis no SPSS dando-lhes nomes válidos; as regras para os nomes das variáveis são: nome da variável tem no máximo, 8 caracteres; nome da variável deve começar por uma letra; os restantes caracteres podem ser letras (maiúsculas ou minúsculas são iguais), algarismos, ou os #, _, $. Não se podem usar espaços em branco, nem os seguintes caracteres:!,?,,, *, +, -, %, vírgula, ponto e vírgula, \, /, >, < Os nomes não podem terminar com ponto; Evitar terminar o nome com o caracter _ (underscore); Evitar usar caracteres acentuados ou com til. ESACB 5

9 2 - Edição de Dados No exemplo, vamos definir as seguintes variáveis: variedad Variável numérica inteira, cujos valores são 1, 2, 3, com as seguintes correspondências, a fim de facilitar a sua introdução: 1 : IR8; 2 : IR5; 3 : C4-64; azoto Variável inteira: 0: 0 kg/ha; 1: 60 kg/ha;... ; 4: 150 kg/ha; repete Variável inteira, com os valores 1, 2, 3, 4 producao Variável real, com duas casas decimais (por defeito). A fim de definir cada uma das variáveis, fazer o seguinte procedimento: Duplo click na célula do nome da variável (var) no topo da coluna, ou click em qualquer sítio da coluna para a variável e seleccionar no menu a opção Data, seleccionando depois a opção Define Variable... Igualmente pode fazer click com o botão direito na célula do nome da variável (var) no topo da coluna; aparece o menu: onde se selecciona a opção Define Variable... Na sequência de qualquer dos procedimentos anteriores aparece a seguinte caixa de diálogo de definição da variável: ESACB 6

10 2 - Edição de Dados No campo Variable Name escrever o nome da variável; no caso, variedad Seleccionar a opção No campo Decimal Places alterar o valor para 0 (casas decimais); e fazer. Seleccionar a opção No campo Value escrever o valor 1; no campo Value Label: escever IR8; fazer : ESACB 7

11 2 - Edição de Dados Repetir o processo de definição de Value e Value Label para os valores 2 (IR5) e 3 (C4-63); para cada valor, fazer : No final, fazer. A caixa serve para entrar uma breve descrição da variável, mais elucidativa que apenas o nome; é de preenchimento facultativo. Para aceitar estas alterações, e terminar a definição da variável variedad, na caixa de diálogo fazer OK: ESACB 8

12 2 - Edição de Dados De modo idêntico, definir as restantes variáveis; note-se que a opção Labels serve para fazer as correspondências, de modo que neste exemplo só é usada para as variáveis variedad e azoto; na definição da variável producao, não é necessário ir à opção Type porque, por defeito, as variáveis são numéricas reais (com duas casa decimais). Terminada a definição de variáveis, o Data Editor terá o seguinte aspecto: INTRODUÇÃO DOS VALORES Definidas as variáveis, introduzem-se os dados; o utilizador deve optar pela estratégia de introduzir os valores coluna a coluna, ou linha a linha, que lhe for mais favorável e menos propensa a erros. Para apagar um valor, colocar o cursor na célula respectiva e carregar a tecla DEL. Para alterar ou corrigir um valor errado numa das células, activa-se essa célula (levando o cursor para lá, ou simplesmente fazendo click) e digita-se o valor correcto, fazendo-o entrar com Enter ou deslocando para outra célula. O ficheiro ficará com o seguinte aspecto: ESACB 9

13 2 - Edição de Dados Usou-se a codificação dos valores das variáveis variedad e azoto, por um lado para facilitar a introdução dos valores, e por outro lado para ser menos propenso a erros. Contudo, podem visualizar-se o nome da variedade e o valor da adubação; para tal, no menu principal seleccionar a opção, e depois seleccionar a opção Value Labels: O ficheiro de dados toma agora o aspecto mais elucidativo acerca dos dados a analisar: ESACB 10

14 2 - Edição de Dados GRAVAR O FICHEIRO DE DADOS Tendo introduzido e corrigido os dados, grava-se o ficheiro com um nome válido (aplicamse as regras de nomes de ficheiros de MS-DOS). Para gravar, faz-se: Na caixa escreve-se o nome a dar ao ficheiro, por exemplo arroz; automaticamente é atribuída a extensão.sav típica dos ficheiros de dados do SPSS: Caso se pretenda guardar o ficheiro num disco ou directório que não do directório activo, abrir a caixa pretendido: e seleccionar o disco/directório ESACB 11

15 2 - Edição de Dados ABRIR UM FICHEIRO DE DADOS EXISTENTE Se se pretende abrir um ficheiro de dados, para introduzir mais dados, para alterar ou corrigir valores, ou para efectuar a análise desses dados, tem de se abrir o ficheiro. Para tal, efectua-se o seguinte procedimento: Se o ficheiro pretendido aparece na listagem, faz-se click sobre o nome do ficheiro, ou escreve-se na caixa, e de seguida fazse. Caso o nome do ficheiro não conste na listagem, é porque está guardado noutro directório que não o especificado na janela. Nesta situação, ter-se-á de encaminhar para a drive/directório onde se encontra. Para tal, abre-se a o caixa disco ou o directório pretendido:, e selecciona-se a o Como o SPSS apenas admite um ficheiro de dados aberto, ao abrir um ficheiro o programa encerra o ficheiro actual. Caso este não esteja gravado, após quaisquer alterações, o programa apresenta uma mensagem de aviso: ESACB 12

16 2 - Edição de Dados O utilizador deverá responder Sim ou Não, consoante queira guardar ou não as alterações efectuadas no ficheiro aberto (no caso da imagem, tinha-se aberto o ficheiro lambs.sav, em que se tinham efectuado alterações) ACESCENTAR NOVOS CASOS A UM FICHEIRO DE DADOS Para acrescentar um novo caso, após os dados já introduzidos, basta digitar o valor pretendido para a variável a acrescentar; automaticamente é acrescentado um caso a todas as variáveis. Se interessa introduzir um caso, não no final dos dados, mas entre duas observações, então ter-se-á de introduzir uma linha (caso) entre essas duas observações. Admitamos que foi esquecido um caso referente a hora=manhã; este caso deveria ser introduzido imediatamente antes da primeira observação da Tarde; para tal, faz-se duplo click sobre o indicador da linha 5, ou um click em qualquer parte da linha 5 e de seguida selecciona-se a opção no menu. Aparece a janela: Pode igualmente fazer click com o botão direito do rato sobre o indicador da linha, aparecendo o menu: ESACB 13

17 2 - Edição de Dados No menu anterior deve seleccionar. Automaticamente é aberta uma linha, onde se introduzem os valores respectivos das variáveis: ACRESCENTAR NOVAS VARIÁVEIS Para acrescentar uma nova variável ao ficheiro, basta colocar o cursor numa célula da primeira coluna não usada, e executar o procedimento de definição de variáveis atrás descrito. O programa cria a nova variável com tantas células (em branco ou missing values) quantos os casos das restantes variáveis. Após isto, só há que proceder à introdução dos valores. Se, por algum motivo, há que introduzir uma nova variável, não no final do ficheiro, mas entre duas variáveis já definidas, colocar o cursor na variável à direita da qual se pretende a nova variável, seleccionar a opção e de seguida. Pode igualmente fazer click com o botão direito do rato, aparecendo o menu: e seleccionar a opção. De seguida, definir esta variável, tal como descrito atrás. ESACB 14

18 2 - Edição de Dados DEFINIR UMA VARIÁVEL EM FUNÇÃO DE OUTRAS O programa SPSS permite criar novas variáveis como resultado de funções ou operações envolvendo as variáveis já existentes. Por exemplo, determinadas metodologias estatísticas (análise de variância, regressão, etc) baseiam-se no pressuposto de que os dados a analisar seguem a função de distribuição normal; ora, tal pressuposto, é muitas vezes violado (e, infelizmente para a validade das conclusões, não é testado). Nas situações em que se verificou a não normalidade, é frequente proceder a determinadas transformações dos dados (logaritmo, raíz quadrada, arc-seno são transformações usuais). Vamos ilustrar a criação de uma nova variável no ficheiro arroz.sav, com o nome ln_prod, definida como sendo o logaritmo neperiano dos valores da variável producao. Para tal, coloca-se o cursor na primeira célula da primeira coluna não ocupada, e faz-se: Aparece a seguinte caixa de diálogo: Na caixa Target Variable escreve-se o nome da variável a criar, ln_prod; transfere-se o cursor para a caixa Numeric Expression e na caixa das funções selecciona-se a função LN(numexpr); de seguida, fazer click sobre a variável argumento (producao). A janela fica com o seguinte aspecto: ESACB 15

19 2 - Edição de Dados Para calcular, basta fazer. O ficheiro fica com o seguinte aspecto: A variável ln_prod é visualizada com 2 casas decimais (por defeito), muito embora seja guardada com maior precisão. Caso haja interesse em visualizar mais casa decimais, proceder como descrito na definição de variáveis. As transformações de variáveis podem ser mais complexas que uma simples função; reparese que a caixa de definição das transformações apresenta o que se parece a uma máquina de calcular científica, que permite definir transformações várias, incluindo selecção condicional de casos (if), funções lógicas (e &; ou ; negação ~) comparações (<, <=, >, >=, =, ~=), etc ELIMINAR LINHAS E VARIÁVEIS Para eliminar linhas de valores (casos) ou colunas (variáveis), fazer click sobre o número da linha, à esquerda do ecran, ou sobre o nome da variável; a linha ou coluna, consoante o caso, ficam seleccionadas (sombreadas). Para a eliminar, seleccionar e de seguida (ou carregar na tecla DEL). ESACB 16

20 2 - Edição de Dados Pode também fazer click com o botão direito do rato sobre a identificação da linha ou coluna a eliminar, e fazer Cut ou Clear IMPORTAÇÃO DE FICHEIROS EXTERNOS O programa SPSS dispõe de uma rotina de importação de ficheiros criados noutras aplicações, nomeadamente folhas de cálculo (Lotus 123, Excel), bases de dados (dbase, Access), ficheiros ASCII (separados por tabulações, vírgula, espaços), etc. Vamos abordar a importação de ficheiros Excel e Access, por serem duas das aplicações actualmente mais usadas na constituição de bases de dados, e ficheiros ASCII, pois não havendo outra forma de transferir informação entre aplicações, todos os programas permitem exportar e importar ficheiros ASCII, sendo esta forma uma ponte comum entre as aplicações. É pressuposto que, qualquer que tenha sido a aplicação utilizada para criar os ficheiros, estes devem estar organizados de acordo com a estrutura dos ficheiros SPSS IMPORTAÇÃO DE FICHEIROS LOTUS E EXCEL 4.0 Se o ficheiro tiver sigo gravado em Excel 4, Lotus 123 (ou Quattro), o SPSS abre-o automaticamente. Para tal, executar o seguinte procedimento: File Open... Nesta janela deve especificar-se que o ficheiro é do tipo Excel (*.xls) [se se tratar de um ficheiro Lotus, selecciona-se a opção Lotus(*.w*)]; para tal, abrir a caixa Ficheiro do tipo e especificar Excel (*.xls): ESACB 17

21 2 - Edição de Dados Na caixa Procurar em deve especificar-se o directório onde se encontra o ficheiro: No campo Nome do ficheiro, especificar o nome do ficheiro a importar e fazer OK: Aparece de seguida a seguinte caixa de diálogo, onde se especifica se as primeiras células contêm os nomes das variáveis (se sim activar ) e o intervalo (rectangular) de células (no exemplo, A1:B11): O SPSS cria um ficheiro, com tantas variáveis quantas as colunas e tantos casos quantas as linhas do bloco especificado IMPORTAÇÃO DE FICHEIROS DE DBASE Dada a relevância da utilização do gestor de bases de dados dbase III, é natural que alguns utilizadores disponham de bases de dados organizadas neste programa, e que pretendam importá-las para o SPSS a fim de executar algumas análises estatísticas. Os ficheiros gerados pelo dbase III (*.dbf) obedecem tipicamente à estrutura dos ficheiros SPSS, de modo que a sua importação é extremamente fácil. Para tal, faz-se o seguinte procedimento: File Open... Na caixa de diálogo, deve definir-se o tipo de ficheiro [dbase (*.dbf)], o directório onde está guardado e o nome do ficheiro a importar, tal como se mostra na figura: ESACB 18

22 2 - Edição de Dados Ao fazer a importação processa-se automaticamente IMPORTAÇÃO DE FICHEIROS EXCEL Os ficheiros Excel 5.0 e Excel 97 são constituídos por diversas folhas de cálculo; a rotina de importação é ligeiramente diferente, e é assegurada pelo protocolo Open Database Connectivity (ODBC), que é um método padrão de partilha de dados entre bases de dados e outros programas. Os controladores ODBC utilizam a linguagem SQL (Structured Query Language) padrão para aceder a dados de origens exteriores. Pretende-se importar a seguinte folha de cálculo, criada em Excel 97: ESACB 19

23 2 - Edição de Dados Para tal, executar o seguinte procedimento: File Database Capture New Query... Aparece o seguinte assistente de importação de ficheiros: Especificar qual a origem do ficheiro (no caso ) e fazer. Na caixa de diálogo que se segue, especificar o disco, directório e o ficheiro a abrir: Aparece a seguinte janela: ESACB 20

24 2 - Edição de Dados Caso o ficheiro tenha diversas folhas de cálculo, será conveniente confirmar qual é que se pretende importar; para visualizar as variáveis de cada folha, click sobre o sinal + à esquerda da identificação: Tendo confirmado qual a folha a importar (neste caso, Folha1$), click sobre o nome da folha e arraste-o para campo Retrieve Fields : ESACB 21

25 2 - Edição de Dados Para executar a importação, click em Terminar IMPORTAÇÃO DE FICHEIROS ACCESS Os ficheiros de bases de dados criados em Microsoft Access são constituídos por diversas folhas ou tabelas (base de dados, consultas, formulários); a rotina de pelo protocolo Open Database Connectivity (ODBC), que é um método padrão de partilha de dados entre bases de dados e outros programas. Os controladores ODBC utilizam a linguagem SQL (Structured Query Language) padrão para aceder a dados de origens exteriores, e processase em tudo de modo semelhante à importação de ficheiros Excel, sendo guiada pelo mesmo assistente (wizard): File Database Capture New Query... Aparece o seguinte assistente de importação de ficheiros: Especificar qual a origem do ficheiro (no caso Seguinte. Depois, é prosseguir tal como descrito para o Excel. ) e fazer RECODIFICAÇÃO DE VALORES ESACB 22

26 2 - Edição de Dados Ao fazer a importação de ficheiros externos, acontece que variáveis alfanuméricas são importadas como tal, causando posteriormente problemas em determinadas análises. Isto acontece, por exemplo, quando se importam variáveis de agrupamento ou definição de classes, ou variáveis nominais, do género de variável sexo, que agrupa os casos em masculino e feminino. Em situações deste género, é natural que posteriormente haja necessidade de agrupar os casos por sexo (genericamente por classes), nomeadamente para comparar médias de sub-amostras. Para contornar esta questão, a fazer a importação destas variáveis, há que recodificá-las em variáveis nominais, com códigos numéricos, por exemplo masculino=1, feminino=2, à semelhança do que se fez na introdução das variáveis variedad e azoto. Vamos ilustrar usando o ficheiro pulso.sav, que se criou pela importação do ficheiro pulso.dbf do dbase. Neste ficheiro, as variáveis sexo (Homem, Mulher) e fuma (Fuma, Não Fuma) são alfanuméricas, mas nitidamente com uma conotação de agrupamento em classes. Vamos recodificar a variável sexo (Homem=1, Mulher=2) e fuma (Fuma=1, Não Fuma=2). Para tal, executar o seguinte procedimento (por variável a recodificar): Transform Recode Into Same Variable Na caixa de diálogo seguinte, seleccionar a variável a recodificar (sexo): Seleccionar. Na caixa de diálogo seguinte definir as recodificações, identificando em o valor antigo a recodificar, e em o novo valor a atribuir; fazer. ESACB 23

27 2 - Edição de Dados Repetir para o outro valor da variável (Mulher=2). No final, a caixa de diálogo mostra as recodificações a efectuar: No final, fazer e OK. As alterações são executadas. Seguidamente, deve alterar-se o tipo de variável para numérica, e definir as labels : 1=Homem; 2=Mulher, tal como já anteriormente explicado: ESACB 24

28 2 - Edição de Dados Fazer o mesmo procedimento para a outra variável a recodificar. No final, aparentemente não houve alterações: a variável sexo contém os valor Homem e Mulher, como anteriormente; só que, após esta transformação, estas variáveis têm a conotação de agrupamento de casos, coisa que não acontecia tal como resultaram da importação do ficheiro de dados externo ao SPSS SELECÇÃO DE CASOS Por vezes, há necessidade de proceder a análises sem a inclusão de todos os casos contidos nas variáveis em jogo. Uma situação típica é ter-se verificado que há valores outliers, isto é, valores extremos muito elevados ou muito baixos, que provavelmente são registos mal efectuados, ou eventualmente observações anómalas que, incluídas nas análises estatísticas, vão distorcer a validade das conclusões. Desta forma, poderá ser preferível excluí-las das análises, mas sem as eliminar do ficheiro de dados. A detecção de outliers será efectuada no procedimento EXPLORE (cap. 3). Vamos ilustrar com a exclusão do caso nº 6 do ficheiro pulso.sav, em que a observação correspondente à variável ritmod é 265, valor impossível para a característica em análise, sendo provável que tenha acontecido um lapso no acto de registo dos valores. Pretende-se excluir todo este caso das análises subsequentes, sem contudo o eliminar do ficheiro, pois poderá haver necessidade de posteriormente efectuar análises sobre as outras variáveis (por exemplo, ritmoa), cujo valor (96) é perfeitamente normal. Para tal, fazer: Data Select Cases... ESACB 25

29 2 - Edição de Dados Pretende-se excluir o caso nº 6 da análise, isto é, incluir na análise todos os casos com excepção do caso nº 6. Para tal, na caixa de diálogo seleccionar definir que se seleccionam para análise todos os cados diferenntes do caso nº 6:, e A indicação caso ~= 6 significa todos os casos excepto o caso 6. O Data Editor do SPSS criou automaticamente uma variável designada filter_$, em que indica quais os casos seleccionados e os não incluídos. Repare-se que a linha 6 está traçada, indicando que este caso está excluído de futuras análises: ESACB 26

30 2 - Edição de Dados A variável filter_$ é uma variável numérica, cujos valores são 0= Not Selected e 1= Selected. No ecran, aparecem visualizados as labels dos valores, caso se tenha optado por este modo de visualização. A fim de incluir novamente o caso 6 nas análises, fazer: Data Select Cases... ou digitar o valor 1 na célula 6 da variável filter_$. Por exemplo, querendo seleccionar os casos referentes aos homens (sexo=1) que fumam (fuma=1), dever-se-á fazer o seguinte procedimento: Data Select Cases... ESACB 27

31 2 - Edição de Dados Para definir a condição atrás referida, seleccionar a variável sexo, defini-la como sendo igual a 1; o operador lógico e (AND) é simbolizado pelo caracter &; seleccionar a variável fuma e defini-la igual a 1: Fazer para avançar. ESACB 28

32 3 - Análise de Dados 3 - ANÁLISE DE DADOS Vamos iniciar a utilização do SPSS a fim de efectuar diversas análises estatísticas. Antes de iniciar um processo de análise, os dados a analisar devem estar carregados na memória do computador. Vamos ilustrar utilizando o ficheiro arroz.sav que deverá estar carregado na memória do computador OBTER ESTATÍSTICAS DESCRITIVAS Esta rotina calcula as estatísticas elementares (média, moda, mediana, variância, etc) de uma variável numérica. No exemplo, a única variável susceptível de ser analisada é a variável producao PROCEDIMENTO DESCRIPTIVES Para obter as estatísticas elementares de uma variável numérica, fazer: Aparece a seguinte caixa de diálogo, onde se definem as variáveis a analisar; no presente caso, será apenas a variável producao: ESACB 29

33 3 - Análise de Dados Para seleccionar as variáveis a analisar, click sobre o nome da variável na listagem que aparece na caixa esquerda, e de seguida click no botão. Ficará com o seguinte aspecto:, obtendo- A fim de definir quais os parâmetros estatísticos a estimar, seleccionar se a seguinte caixa de diálogo: Inicialmente, estariam seleccionadas apenas a Mean (média), Std. deviation (desvio padrão), Minimum (mínimo) e Maximum (máximo); vamos seleccionar também a Sum ESACB 30

34 3 - Análise de Dados (soma de todas as observações), Variance (variância), Range (intervalo de variação), s S.E.mean (erro padrão da média: s x = ), Kurtosis (curtose ou achatamento), Skewness N (enviesamento ou assimetria). As opções Display Order só têm significado nos casos em que se procede ao cálculo de parâmetros de mais do que uma variável. No final, fazer e depois. O programa abre o Viewer (janela de resultados), com o aspecto: Na janela direita estão os resultados; como se pediu o cálculo de muitos parâmetros, o quadro de resultados demasiado largo para caber no ecran; use a barra de scroll para ler o quadro de resultados Caso tenha interesse em imprimir os resultados, o SPSS resolve o problema da largura, fraccionando o quadro em vários. Repare que ficou no SPSS Viewer; para voltar ao Data Editor do SPSS, onde está aberto o ficheiro arroz.sav, restaure a janela na barra Iniciar do Windows: O SPSS permite capturar os resultados visualizados no Viewer e colá-los por exemplo, no relatório que está a ser escrito no editor de texto Word; no processador de texto, pode seleccionar-se a tabela e fazer o ajuste automático, de modo a que o quadro, demasiado largo, caiba na largura do texto. Contudo, resulta mais elegante se não for necessário reduzir ESACB 31

35 3 - Análise de Dados muito a largura do quadro original. Para tal, a solução é obter menos parâmetros estatísticos, de modo que o quadro de resultados seja menos largo PROCEDIMENTO EXPLORE Em caso de necessidade de apresentar todos os parâmetros estatísticos, estes podem ser obtidos noutra rotina do SPSS, cujo quadro de resultados se desenvolve na vertical, sendo mais fácil inclui-los no relatório em Word. Vamos ilustrar esta opção. A opção EXPLORE calcula os parâmetros estatísticos, e elabora o gráfico caule-e-folhas (esquema de histograma) e o gráfico de extremos-e-quartis, muito útil para analisar a amostra em termos de concentração ou dispersão dos valores por intervalos quartílicos, bem como a sua simetria; além disso, é uma boa ferramenta de verificar se há observações outliers, isto é, observações extremas que se afastam muito da gama média dos valores da amostra. Opcionalmente, podem obter-se outras análises, como veremos. Na caixa de diálogo que se segue, selecciona-se a variável a analisar (producao) tal como descrito atrás. De seguida, seleccionar o botão ESACB 32

36 3 - Análise de Dados Seleccionando o botão, verifica-se que o cálculo das estatísticas descritivas está activado; pode-se optar por verificar analiticamente a existência de outliers, bem como calcular os percentis. A opção M-estimators destina-se ao cálculo de parâmetros estatísticos (média e variância) ponderados; geralmente esta opção só interessa em utilizações muito específicas. No final, fazer. Voltando à caixa de diálogo Explore, seleccionar a opção e fazer. ; seleccionar a opção Na janela Explore seleccionar a opção fazer para obter os resultados. ESACB 33

37 3 - Análise de Dados Note-se que os resultados vêm na sequência dos resultados obtidos anteriormente, de modo que durante a sessão de trabalho, os resultados vão-se acumulando, podendo o utilizador em qualquer momento seleccionar os que lhe interessam. Utilize a barra se scroll vertical para visualizar os resultados, ou na caixa do organigrama dos resultados, à esquerda, seleccione os que lhe interessa visualizar. Por exemplo, para ver os parâmetros estatísticos, click sobre : Esta opção, além dos parâmetros estatísticos obtidos no procedimento DESCRIPTIVES, calcula o intervalo de confiança para a média, e a média após eliminar as 5% observações inferiores e as 5% observações superiores (5% Trimmed Mean). De seguida apresentam-se o histograma, diagrama de caule-e-folhas (steam-and-leaf) e diagrama de extremos-e-quartis (Boxplot) referentes a esta análise. ESACB 34

38 3 - Análise de Dados 10 Histogram Frequency Std. Dev = Mean = N = Producao Producao Stem-and-Leaf Plot Frequency Stem & Leaf Stem width: Each leaf: 1 case(s) ESACB 35

39 3 - Análise de Dados N = 60 Producao PROCEDIMENTO EXPLORE COM FACTORES Os resultados anteriores referem-se à globalidade das produções, e têm o interesse que o utilizador pretender retirar deles. Numa situação como a que estamos a analisar, teria igualmente interesse executar estas análises, não para a globalidade das observações, mas sim repartidas por um ou mais dos factores. Vamos executar o procedimento EXPLORE, obtendo os resultados para cada uma das três variedades (poderia ser para os cinco níveis de azoto, ou para os dois factores em simultâneo). ESACB 36

40 3 - Análise de Dados Na caixa de diálogo que se segue, selecciona-se a variável a analisar (producao) tal como descrito atrás. Seleccionar a variável variedad para o campo Factor List: A partir deste ponto, o procedimento é análogo ao atrás descrito. Os resultados têm o seguinte aspecto: A seguir apresenta-se a listagem completa dos resultados do procedimento: ESACB 37

41 3 - Análise de Dados Descriptives Variedade Statistic Std. Error Producao IR8 Mean % Confidence Interval for Mean Lower Bound Upper Bound % Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis IR5 Mean % Confidence Interval for Mean Lower Bound Upper Bound % Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis C4-63 Mean % Confidence Interval for Mean Lower Bound Upper Bound % Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis O diagrama de extremos-e-quartis é apresentado agora para cada uma das três variedades: ESACB 38

42 3 - Análise de Dados Producao N = IR8 IR5 C4-63 Variedade Estes resultados podem começar a fornecer pistas para a análise dos dados, do género de que a variedade C4-63 apresenta uma produção mais homogénea PROCEDIMENTO FREQUENCIES O procedimento FREQUENCIES permite gerar tabelas de frequências (contagem de casos quer de variáveis alfanuméricas, quer de variáveis numéricas. Adicionalmente, pode calcular os parâmetros estatísticos calculados pelos procedimentos DESCRIPTIVES e EXPLORE, anteriormente vistos; pode igualmente gerar histogramas, com o ajustamento a uma função de distribuição de probabilidades. No caso de variáveis numéricas, em que se admite que seguem uma lei de distribuição normal (pressuposto quase obrigatório para a maioria das metodologias estatísticas usuais em ciências agrárias), a visualização do ajustamento do respectivo histograma à função de distribuição normal pode ser uma valiosa ferramenta para análises subsequentes. A fim de ilustrar, vamos executar dois procedimentos FREQUENCIES: gerar as tabelas de frequência das variáveis nominais azoto e variedad, e gerar a tabela de frequências da variável producao, neste caso com o respectivo histograma ajustado à fdp normal. Seleccionar: Statistics Summarize Frequencies... Na caixa de diálogo, seleccionar as variáveis variedad e azoto: ESACB 39

43 3 - Análise de Dados A opção permite seleccionar, facultativamente, quais os parâmetros estatísticos a calcular. No caso de variáveis nominais e alfanuméricas não têm significado. Os resultados obtidos, que são acrescentados ao Viewer, têm o seguinte aspecto: Repita-se o procedimento para a variável numérica producao: Statistics Summarize Frequencies... ESACB 40

44 3 - Análise de Dados Vá à opção seleccionar para calcular os decis (com a selecção da opção ), a média, mediana e variância. No final, fazer : De seguida, vá-se á opção função de distribuição normal: para seleccionar o histograma com ajustamento à ESACB 41

45 3 - Análise de Dados Fazer para avançar, e OK para calcular. Veja no Viewer os resultados. O histograma com o ajustamento à f.d.p. normal tem o seguinte aspecto, onde sobressai o enviezamento da amostra para a direita em relação à distribuição teórica, bem como um achatamento um pouco maior que o que seria de esperar (isto é, cerca de 75% da amostra está abaixo da curva, nomeadamente na zona central da distribuição): 10 Producao Frequency 2 0 Std. Dev = Mean = N = Producao ESACB 42

46 4 - Gráficos 4 - GRÁFICOS A representação gráfica dos dados é geralmente uma boa abordagem para as análises estatísticas a efectuar: a representação de variáveis numéricas em histograma permite inferir acerca da simetria, achatamento e normalidade da amostra em análise; o gráfico de barras representando contagens ou percentagens de valores de variáveis permite comparar visualmente diversas características amostrais; a representação gráfica de duas variáveis que se julgam correlacionadas num gráfico de pontos ou de dispersão permite definir uma abordagem prévia à metodologia de regressão; os gráficos de extremos-e-quartis facilitam a detecção de outliers, além de permitirem analisar a simetria e sub-intervalos de maior concentração da amostra; etc. Muitos dos procedimentos estatísticos do SPSS incluem já a elaboração de gráficos adequados às análises respectivas. Nesta secção, vamos abordar a criação de gráficos isolados de outros procedimentos. O programa SPSS permite definir os gráficos por duas vias: gráficos interactivos: disponíveis a partir do sub-menu Interactive do menu Graphs; a característica principal desta metodologia de gerar gráficos é a facilidade em intercambiar variáveis entre os eixos do gráfico, nomeadamente a partir da janela Viewer, após ter gerado o gráfico. A edição do gráfico faz-se directamente na janela Viewer. gráficos standardizados: esta metodologia permite definir os gráficos, a partir de submenus individualizados no menu Graphs; após criados, estes gráficos são menos dinâmicos que os gráficos interactivos. Para editar o gráfico, selecciona-se este na janela Viewer e abre-se uma janela de edição do gráfico. De seguida vão-se apresentar a definição de alguns tipos de gráficos, tendo como base de trabalho os dados do ficheiro pulso.sav (listagem em anexo). Vamos de seguida ilustrar a realização de alguns gráficos. Não se pretende fazer uma apresentação exaustiva de todos os tipos de gráficos; contudo, os procedimentos para qualquer outro tipo de gráfico são genericamente semelhantes, de modo que os gráficos descritos de seguida fornecem bases suficientes para que o utilizador explore e crie qualquer outro tipo de gráficos GRÁFICOS STANDARDIZADOS ESACB 44

47 4 - Gráficos GRÁFICO DE BARRAS Vamos ilustrar criando um gráfico com a contagem de casos de cada uma das idades do ficheiro pulso.sav. Para tal: Graphs Bar... Aparece a seguinte caixa de diálogo, onde se selecciona o tipo de gráfico de barras a executar (Simple: para representar uma única série de valores ou variável; Clustered: permite representar várias variáveis agrupadas; para cada valor de uma das variáveis são geradas barras para cada valor da outra variável; Stacked: permite representar várias variáveis em barras sobrepostas). Vamos iniciar por criar o gráfico de barras simples. Nesta caixa de diálogo selecciona-se também o tipo de dados (no caso, pretende-se representar a contagem das idades, isto é, um sumário contagem dos dados; para tal, selecciona-se a opção ). Para prosseguir, fazer. Na janela seguinte, selecciona-se a variável a representar no gráfico para o campo Category Axis, e define-se que as barras representam a contagem de casos (N of cases): ESACB 45

48 4 - Gráficos Para definir os títulos do gráfico, seleccionar. Escrever o título principal (Title - Line 1 e Line 2), sub-título (Subtitle) e notas de rodapé (Footnote Line 1 e Line 2). Qualquer destes títulos é facultativo: No final fazer. O gráfico tem o seguinte aspecto: ESACB 46

49 4 - Gráficos Distribuição das idades dos pacientes As idades estão expressas em anos completos Count IDADE Fonte: Abcde, Os gráficos de linhas (Line) e área (Area) dão a mesma informação; em vez de barras ou colunas, é desenhada uma linha unindo os pontos à altura da contagem do número de casos em cada categoria ou valor do eixo dos xx; no caso do gráfico de áreas, a área definida por essa linha e o eixo dos xx é preenchida. A definição destes gráficos tem os mesmos passos do gráfico de barras. A título de exemplo, apresenta-se de seguida o gráfico de área para a variável idade (o gráfico de linhas seria exactamente o mesmo, sem a área sombreada): 10 Distribuição das idades dos pacientes As idades estão expressas em anos completos Count IDADE Fonte: Abcde, ESACB 47

50 4 - Gráficos Poderá ter interesse ver a distribuição de idades por sexo, isto é, fazer a separação das idades por sexo; para tal, na janela Bars Chart selecciona-se a opção Clustered. Aparece a seguinte janela, onde se seleccionam a variável a representar em barras (idade) e a variável de agrupamento (sexo): Todo o restante procedimento é semelhante. O gráfico resultante é o seguinte: Distribuição das idades dos pacientes por sexo 5 As idades são expressas em anos completos Count SEXO Homem Mulher IDADE Fonte: Abcde, 1998 O gráfico de barras pode também usar-se para comparar visualmente a média (ou outro parâmetro estatístico) de duas ou mais variáveis da mesma natureza. Para exemplificar, vamos elaborar o gráfico de barras referente às médias das variáveis ritmoa e ritmod. Para tal: ESACB 48

51 4 - Gráficos Graphs Bar... Na janela de diálogo seguinte, seleccionar o tipo Simple (só uma série de barras) e a opção variável): (isto é, cada barra representa um parâmetro estatístico de uma Para prosseguir, fazer. Na janela seguinte, seleccionar as variáveis a representar: Veja-se que, por defeito, será representada a média (mean) das variáveis. Pretendendo representar outro parâmetro, fazer (seleccionando individualmente cada uma das variáveis, ou seleccionando todas as variáveis em simultâneo para tal, manter o botão esquerdo pressionado e arrastar sobre o nome das variáveis a seleccionar). Aparece a seguinte caixa de diálogo, onde se define o parâmetro a representar. Veja-se que pode seleccionar-se um parâmetro estatístico (primeiro bloco da janela), ou então o número (ou ESACB 49

52 4 - Gráficos percentagem) de casos acima ou abaixo de um valor a definir (bloco central), ou entre dois valores a definir (último bloco) 3 : Definir os títulos como referido previamente. O gráfico tem o seguinte aspecto: Ritmo cardíaco antes e após exercício físico 160 Valores médios Mean 60 RITMOA RITMOD Fonte: Abcde, HISTOGRAMA 3 opções. Os campos Value, Low, High só são activados após seleccionar uma opção do respectivo bloco de ESACB 50

53 4 - Gráficos O histograma é um gráfico parecido ao de barras, só que o eixo dos xx é escalar contínuo, representando classes de uma variável numérica, e não categorias como no caso do gráfico de barras. As barras representam as frequências absolutas registadas no intervalo ou classe definido no eixo dos xx. O histograma traduz a distribuição de frequências, sendo possível analisar a simetria e o achatamento da amostra. Para ilustrar a elaboração do histograma, vamos usar a variável ritmoa do ficheiro pulso.sav. Executar o seguinte procedimento: Graphs Histogram... Aparece a seguinte caixa de diálogo, onde se selecciona a variável numérica a representar no eixo dos xx do histograma: Seleccionando a opção ao histograma., é sobreposta a curva de distribuição normal Para definir os títulos do gráfico, seleccionar, tal como descrito anteriormente. ESACB 51

54 4 - Gráficos Histograma das frequências absolutas 14 Ritmo cardíaco Std. Dev = 9.54 Mean = N = RITMOA Fonte: Abcde, GRÁFICO DE EXTREMOS-E-QUARTIS O diagrama de extremos-e-quartis, ou caixa-com-bigodes, é uma útil representação gráfica dos dados na detecção de outliers, e na análise da simetria e de sub-intervalos de concentração da amostra de valores. O gráfico baseia-se na localização dos quartis (1º quartil, 2º quartil ou mediana, 3º quartil), que definem assim 4 sub-intervalos, cada um com 25% das observações: 1º intervalo quartílico, delimitado pelo x min e quartil 1 ; 2º intervalo quartílico, delimitado pelo quartil 1 e quartil 2 ; 3º intervalo quartílico, definido pelo quartil 2 e quartil 3 ; 4º intervalo quartílico, desde o quartil 3 ao x max. São considerados outliers as observações que fiquem abaixo do limite definido pela expressão q ( q3 q1 ) ou acima do limite q ( q3 q1 ); caso existam outliers, o limite do bigode do diagrama passa a ser a observação extrema que se situe dentro dos limites dos outliers atrás definidos. Para criar o diagrama de extremos-e-quartis, executar o seguinte procedimento (vamos usar a variável ritmoa do ficheiro pulso.sav): Graphs Boxplot... Na caixa de diálogo seguinte seleccionar a opção Simple, já que se trata de uma única variável, e a opção para criar um diagrama de extremos-equartis da variável ritmoa para cada categoria de uma outra variável (vamos usar a variável sexo para definir as categorias). Seleccionar a opção se se ESACB 52

55 4 - Gráficos pretender criar o gráfico com todos os dados da variável ritmoa, sem separar pelas categorias da variável sexo: Fazer para continuar. Na seguinte caixa de diálogo, seleccionar a variável numérica a representar no gráfico (ritmoa), e a variável para definir as categorias (sexo): O resultado é o seguinte: Case Processing Summary RITMOA SEXO Homem Mulher Cases Valid Missing Total N Percent N Percent N Percent % 0.0% % % 0.0% % ESACB 53

56 4 - Gráficos RITMOA N = Homem Mulher SEXO Repare-se que no caso dos homens, há duas observações outliers, que são assinaladas fora dos bigodes do diagrama; o bigode chega, neste caso, até à observação mais alta, mas que não seja outlier (valor 80). Repare-se que é indicado o número de observações para cada uma das categorias (N=22 para os homens; N=18 para as mulheres) GRÁFICO DE BARRA DE ERROS Um gráfico de barra de erros representa um intervalo de confiança para a média de uma variável numérica de uma amostra (ou sub-amostras definidas pelas categorias de uma variável categórica). O intervalo de confiança é definido por uma das seguintes expressões (entre parentesis são indicadas as respectivas opções a seleccionar durante a definição do gráfico ver à frente): s x ± t( α, N 1)., em que t( a, N 1) é o quantil α da distribuição t-student (opção N Confidence interval for mean); x ± k. s, em que x error of mean); s s x = é o erro padrão da média e k Ν (opção Standard N x ± zα. s, em que z α é o quantil α da distribuição normal reduzida N(0,1) (opção Standard deviation). Vamos ilustrar a criação deste tipo de gráfico usando a variável ritmoa do ficheiro pulso.sav, sub-dividida pelas duas categorias (Homem, Mulher) da variável sexo: ESACB 54

57 4 - Gráficos Graphs Error Bar... Na caixa de diálogo seguinte seleccionar a opção Simple, já que se trata de uma única variável, e a opção para um gráfico da variável ritmoa para cada categoria de uma outra variável (sexo). Seleccionar a opção se se pretender criar o gráfico com todos os dados da variável ritmoa, sem separar pelas categorias da variável sexo: Fazer para continuar. Na seguinte caixa de diálogo, seleccionar a variável numérica a representar no gráfico (ritmoa), e a variável para definir as categorias (sexo): Na caixa Bars Represent deve seleccionar-se o tipo de intervalo de confiança que se pretende (definidos anteriormente). Para pequenas amostras, o mais usual é o intervalo de confiança para a média (Confidence interval for mean). O nível de confiança é de 95% (o utilizador pode definir outro nível de confiança). ESACB 55

58 4 - Gráficos Para definir os títulos do gráfico, seleccionar. O gráfico tem o seguinte aspecto: Intervalo de confiança a 95% para a média do ritmo cardíaco 90 (por categoria sexo) 80 95% CI RITMOA N = Homem Mulher SEXO Fonte: Abcde, GRÁFICOS DE PROBABILIDADES Os gráficos de probabilidades (P-P: Probability Plots) visualizam graficamente o ajustamento de uma variável a uma função de distribuição de probabilidades. Este tipo de gráficos representa no eixo dos xx as frequências relativas acumuladas observadas na amostra (observed cummulative probability) e no eixo dos yy a função de distribuição de probabilidades esperada (expected cummulative probability). A diagonal do gráfico (x=y) representa um ajustamento perfeito da amostra à função de distribuição de probabilidades. Quanto mais os pontos se afastam da diagonal, ou se se distribuem segundo um determinado padrão, menor é o ajustamento da amostra à distribuição teórica. O SPSS pode fazer o gráfico P-P de ajustamento às seguintes distribuições: beta, chiquadrado, exponencial, gamma, Laplace, Logistic, Log-normal, normal, semi-normal, Pareto, t-student, Weibull e uniforme. Vamos ilustrar ajustando a variável ritmoa à distribuição de probabilidades normal, com 2 média x (parâmetro de localização) e variância s (parâmetro de escala), estimados a partir da amostra: Graphs P-P... ESACB 56

59 4 - Gráficos O campo permite seleccionar a distribuição teórica de probabilidades. As frequências acumuladas teóricas ou esperadas são calculadas por expressões matematicamente definidas, e todas relacionadas com o ranking das observações (isto é, com a ordem desde 0 correspondente a x min - a n correspondente a x max ), sendo o método Blom o mais usual. Quando há observações repetidas (ties), a sua ordem pode ser definida pela ordem da observação média ( ), ou pela ordem mais elevada (High) ou da observação mais baixa (Low) da observação repetida. O resultado é o seguinte: PPlot MODEL: MOD_3. Expected Normal quantiles calculated using Blom's proportional estimation formula and assigning the mean to ties. For variable RITMOA... Normal distribution parameters estimated: location=75.95 scale= ESACB 57

60 4 - Gráficos Normal P-P Plot of RITMOA Expected Cum Prob Observed Cum Prob Detrended Normal P-P Plot of RITMOA Deviation from Normal Observed Cum Prob O output inclui, além do gráfico de ajustamento à normal (onde se observa um afastamento com comportamento cíclico em relação à diagonal), um gráfico do ajustamento dos resíduos (y obs -y est ); se a amostra é perfeitamente normal, os resíduos distribuir-se-ão segundo uma faixa horizontal em torno do zero, sem denotar qualquer padrão de distribuição; no exemplo, é nítido um comportamento cíclico em torno do zero, denotando algum afastamento em relação à normal. ESACB 58

61 4 - Gráficos GRÁFICO DE DISPERSÃO O gráfico de dispersão (scatterplot) é um gráfico de pontos, representando num plano (x,y) N pares de valores numéricos escalares, que permite analisar a distribuição conjunta das duas variáveis. Este tipo de gráficos é muito útil como metodologia prévia de análise a problemas de regressão, quando se tenta ajustar uma função y=f(x), que estabelece uma relação de dependência entre as duas variáveis. Permite igualmente detectar observações outliers bi-variadas, isto é, observações que se afastam do contexto das restantes observações, mesmo que, analisadas isoladamente em relação a cada variável, não se suspeite desses outliers. No eixo dos xx representa-se a variável independente ou causal, e no eixo dos yy a variável dependente, resposta ou efeito. A fim de ilustrar, vamos usar as variáveis ritmoa (x) e ritmod (y), pensando a priori que o ritmo cardíaco após exercício físico está relacionado com o ritmo cardíaco em repouso do mesmo indivíduo. Graphs Scatter... Nesta janela, deve seleccionar-se o tipo de gráfico de dispersão a executar: Simple quando se pretende representar num plano xy uma série de observações bivariadas (x,y); se nessa série existem diferentes categorias, definidas por uma terceira variável categórica, podem identificar-se os pontos correspondentes a cada categoria com marcas diferentes; Overlay quando se pretende representar num mesmo plano (x,y) duas ou mais séries de observações bi-variadas (x,y) da mesma natureza; Matrix quando se pretendem representar os gráficos xy de todas as combinações possíveis de duas ou mais variáveis; isto é, dispondo de 3 variáveis genericamente identificadas por x,y,z, esta opção representa os seguintes gráficos: (x,y), (x,z), (y,z), bem como a imagem simétrica destes gráficos; este gráfico é útil para uma análise exploratória das associações entre diversas variáveis; 3-D representa o gráfico espacial a 3 dimensões definido pelos eixos (x,y,z). O tipo de gráfico mais usual é o Simple. Tendo seleccionado a opção pretendida, fazer para prosseguir. Na janela seguinte, definir as variáveis a usar em cada um dos ESACB 59

62 4 - Gráficos eixos (x: ritmoa; y: ritmod), bem como a variável categórica (sexo) de agrupamento (opcional): Definir os títulos como previamente descrito. O gráfico resultante tem o seguinte aspecto: Ritmo após exercício versus ritmo cardíaco em repouso 280 Os casos são identificados por sexo RITMOD SEXO Mulher Homem 100 RITMOA Fonte: Abcde, 1998 Nota-se que, aparte da observação no canto superior direito do gráfico, que é um outlier bivariado, todas as outras observações têm uma tendência mais ou menos linear ligeiramente crescente. Para ilustrar a matriz de gráficos, com as variáveis idade, ritmoa, ritmod, executar o procedimento: ESACB 60

63 4 - Gráficos Graphs Scatter... Matrix O gráfico resultante é o seguinte: Relação entre idade, ritmoa, ritmod Casos identificados por sexo IDADE RITMOA RITMOD SEXO Mulher Homem Fonte: Abcde, 1998 ESACB 61

64 4 - Gráficos EDIÇÃO DOS GRÁFICOS STANDARDIZADOS Quando o gráfico é criado e aparece na janela Viewer do SPSS pode não estar optimizado em relação a algumas características, nomeadamente cores e padrões de preenchimento (com particular ênfase se se pretende imprimir ou exportar para outras aplicações). Para editar o gráfico, a fim de fazer estes pequenos ajustamentos, seleccionar o gráfico (click sobre o gráfico) na janela Viewer do SPSS e abri-lo com um dos seguintes procedimentos: i) Edit SPSS Chart Object Open ii) Click com o botão direito do rato Aparece o seguinte menu: iii) Seleccionar SPSS Chart Object Open Duplo click com o botão esquerdo do rato Qualquer dos anteriores procedimentos abre o gráfico numa nova janela, com a designação SPSS Chart Editor, sobreposta ao Viewer, tal como se ilustra; o gráfico está sombreado na janela Viewer durante a edição; as alterações efectuadas são reflectidas automaticamente neste gráfico: ESACB 62

65 4 - Gráficos Para alterar um pormenor, por exemplo o padrão de preenchimento das barras, fazer click sobre uma barra (no Chart Editor); repare-se que automaticamente todas as barras ficaram seleccionadas (muito embora as marcas sejam colocadas em apenas algumas barras, todas elas estão seleccionadas): Para alterar o formato das barras, seleccionar o menu Format: ESACB 63

66 4 - Gráficos Neste menu, seleccionar uma das seguintes opções, conforme o objectivo; cada opção abre uma caixa de diálogo onde o utilizador selecciona a alteração a efectuar; para tomar efeito, fazer : Nota: A barra de ferramentas do SPSS Chart Editor tem os botões de atalho para as respectivas entradas no menu Format, tal como de seguida se apresentam: Fill Patern... ou Alterar o padrão de preenchimento; Color... ou Marker... ou Line Style... ou Bar Style... ou Alterar a cor; Alterar o tipo de marca ou ponto (no scatterplot); Alterar o tipo (contínua, pontuada) e espessura de linhas; Alterar o tipo de barras: ESACB 64

67 4 - Gráficos Text... ou Alterar as características (fonte e tamanho) do texto (só activo se se se seleccionou previamente uma região de texto, por exemplo os títulos) Cada uma das caixas de diálogo tem o botão ou, para fechar após aplicar a alteração. Para alterar os títulos ou notas de rodapé (ou defini-los, se não o foram durante o procedimento do elaboração do gráfico), faz-se o seguinte procedimento: Chart Title... (ou Footnote... se se trata de editar as notas de rodapé) Abre-se a seguinte janela de diálogo, onde o utilizador poderá alterar os títulos (se não foram previamente definidos os títulos, os respectivos campos aparecem vazios), e o respectivo alinhamento: No caso da edição das notas de rodapé, a janela de diálogo é a seguinte: Após ter efectuado as alterações pretendidas, fechar o Chart Editor para regressar ao Viewer; para tal, fazer File Close, ou click no botão GRÁFICOS INTERACTIVOS ESACB 65

68 4 - Gráficos Como referido no início do capítulo, o SPSS dispõe de uma rotina interactiva de definição de gráficos, em que a selecção e alteração do tipo de gráficos, variáveis a incluir, e pormenores, são mais facilmente editados. Para criar um gráfico interactivo, seleccionar: Graphs Interactive No menu seguinte, selecciona-se o tipo de gráfico a criar: Vamos ilustrar a criação de um gráfico de barras e de um gráfico de dispersão; para os restantes tipos, os procedimentos são análogos GRÁFICO DE BARRAS No menu Interactive selecciona-se a opção Bar..., aparecendo a seguinte janela de diálogo: ESACB 66

69 4 - Gráficos Esta janela é típica dos gráficos interactivos, e representa o esqueleto do gráfico, com um sistema de eixos ortogonais, cada um com um campo, para o qual se selecciona a variável a usar nesse eixo; alguns campos podem já conter uma variável 4 automaticamente assumida pelo programa; é o que acontece no eixo dos yy, em que o programa propõe representar o número de casos iguais, ou frequências absolutas (variável $count). O gráfico pode ser bi-dimensional, ou tri-dimensional; a selecção faz-se com os botões: gráfico bi-dimensional (plano xy) gráfico tri-dimensional (espaço xyz) No caso de um gráfico bi-dimensional, pode ser representado na vertical ( ) ou na horizontal ( ). Seleccionar para o eixo dos xx a variável a representar (sexo): 4 Aparte das variáveis definidas no ficheiro, nesta rotina o programa automaticamente define outras variáveis, nomeadamente a variável $count (contagem de casos), $pct (percentagem de casos), $case (número de ordem dos casos). Se a variável é precedida pelo ícon, trata-se de uma variável categórica; se é precedida pelo ícon, é uma variável numérica escalar do ficheiro; se o ícon é, trata-se de uma variável escalar definida pelo programa, e não constante no ficheiro. ESACB 67

70 4 - Gráficos Para definir os títulos, seleccionar o separador Titles: O gráfico resultante tem o seguinte aspecto: ESACB 68

71 4 - Gráficos Se se pretende visualizar a distribuição, dentro de cada um dos sexos, pela variável fuma, deve especificar-se esta divisão por categorias, no separador Assign Variables da janela Create Bar Chart, incluindo a variável para definir as categorias no campo Legend Variables Color; o que se está a fazeer, é instruir o programa para usar cores diferentes para cada uma das categorias da variável fuma: O gráfico resultante é o seguinte: ESACB 69

72 4 - Gráficos GRÁFICO DE DISPERSÃO Vamos ilustrar com a criação do gráfico que relaciona o ritmo cardíaco antes de exercício (ritmoa) com o ritmo cardíaco após exercício (ritmod). Para tal: Graphs Interactive Scatterplot... Na janela de diálogo seguinte, definir as variáveis para os eixos dos xx e dos yy; para identificar os casos por sexo, seleccionar a variável sexo para o campo Legend Variable Style (os casos de cada um dos sexos são identificados com uma marca distinta; se se incluir a variável em Color, para cada um dos sexos é usada uma cor distinta): ESACB 70

73 4 - Gráficos Para definir os títulos, seleccionar o separador Titles. O gráfico tem o seguinte aspecto: ESACB 71

74 4 - Gráficos O gráfico de dispersão interactivo tem a particularidade de poder ajustar uma equação de regressão linear aos pontos, na totalidade, sem diferenciação por categorias, ou então para os pontos de cada uma das categorias definidas por uma variável categórica. Para tal, na janela de diálogo Create Scatterplot, após identificar as variáveis x e y e a variável categórica (se se pretender uma equação para cada categoria), seleccionar o separador Fit: ESACB 72

75 4 - Gráficos No campo Method, seleccionar a opção Regression; no campo Fit lines for, seleccionar a opção se se pretende uma equação para cada um dos casos da variável sexo (a opção Total, que pode ser seleccionada isolada ou em conjunto com a opção Subgroups, destina-se a ajustar uma equação a toda a amostra). O resultado é o seguinte: ESACB 73

76 4 - Gráficos Para cada uma das sub-amostras definidas pela variável sexo, foi ajustada a equação de regressão linear, cujas equações, e o respectivo coeficiente de determinação R 2, são apresentadas na figura. Uma outra possibilidade é apresentar os gráficos por categorias isolados. Para tal, na janela Create Scatterplot, a variável categórica é seleccionada para o campo Panel Variables (e não para o campo Legend Variables): ESACB 74

77 4 - Gráficos Para ajustar, em cada um dos gráficos, a respectiva equação de regressão, seleccionar no separador Fit a opção (já que o ajustamento da equação é feito para cada um dos gráficos isoladamente). O resultado é o seguinte: EDIÇÃO DE GRÁFICOS INTERACTIVOS Para editar um gráfico criado com a rotina Interactive, seleccionar o gráfico a editar e fazer um dos seguintes procedimentos: i) Edit SPSS Interactive Graphic Object ii) Click no botão direito do rato; no menu seguinte: seleccionar SPSS Interactive Graphic Object iii) Duplo click com o botão esquerdo do rato sobre o gráfico O gráfico é editado na janela Viewer do SPSS, tomando o seguinte aspecto: ESACB 75

78 4 - Gráficos A área do gráfico em edição, assinalada na margem esquerda por uma seta, está no interior de uma bordadura tracejada. Não é permitido efectuar modificações em qualquer zona fora desta bordadura. Os ícons na borda do gráfico são botões de atalho para as tarefas de edição. Para editar um elemento do gráfico, deve seleccionar-se previamente, fazendo click sobre esse elemento. Seguidamente, utiliza-se o botão pretendido: Espessura de linhas; Estilo de linhas (contínuas, tracejadas); Tamanho de marcas ou pontos; Estilo (forma) de marcas ou pontos; Padrão de preenchimento de áreas; Estilo e cor das linhas de bordadura de áreas; Cor de preenchimento de áreas; Ferramenta para criar/editar uma caixa de texto; Ponteiro do rato para seleccção de elementos do gráfico; Abre a seguinte caixa de diálogo de selecção de variáveis, onde se podem mudar as variáveis a representar no gráfico: ESACB 76

79 4 - Gráficos Permite inserir elementos no gráfico (os elementos que se podem inserir dependem do tipo de gráfico, e natureza das variáveis em uso): Botão que permite desfazer a última modificação efectuada no gráfico; Selecciona a orientação horizontal ou vertical do gráfico; Dispõe automaticamente na área os elementos do gráfico; Definição da fonte e tamanho do texto, bold ou negrito, itálico (só está activo se previamente se tiver seleccionado um elemento de texto do gráfico). Além destes botões, que permitem efectuar a maior parte das modificações que o utilizador normal pretende efectuar no gráfico, os menus Edit, View, Format possibilitam executar ESACB 77

80 4 - Gráficos essas mesmas alterações através de menus, e outras modificações que não dispõem de botão de atalho. No final, para terminar a sessão de edição do gráfico, basta fazer click sobre uma área do ecran não pertencente à janela do gráfico. ESACB 78

81 5 - Testes T 5 - TESTES T As metodologias estatísticas que envolvem testes de hipóteses acerca de médias de hipótese designam-se genericamente por testes t. O SPSS dispõe de três tipos de testes t: Teste t para a média de uma amostra: compara a média de uma amostra com a média hipotética conhecida de uma população. São apresentados os parâmetros estatísticos da amostra em análise; igualmente é estabelecido um intervalo de confiança para ( x µ ). O teste de hipótese subjacente é: H : x = µ H 0 0 : x µ = 0 H H 1 1 : x µ : x µ 0 e a estatística de testes é x µ t = σ N Teste t para duas amostras independentes: Compara as médias de uma mesma variável ou característica observada sobre duas amostras independentes de indivíduos, com a condição de que os indivíduos sejam aleatoriamente atribuídos aos dois conjuntos em comparação (por exemplo, produção obtida sob um tratamento versus produção obtida sob outro tratamento diferente, ou de um modo genérico, controlo versus tratamento). São apresentados os parâmetros estatísticos das amostras em análise; é efectuado o teste de LEVENE para a homogeneidade das variâncias das duas amostras; são apresentadas as estatísticas de teste para as situações de variâncias homogéneas e não homogéneas; é estabelecido um intervalo de confiança para ( x1 x2 ). O teste de hipótese subjacente é: H : x = x H 0 0 : x 1 1 x 2 2 = 0 H H 1 1 : x : x 1 1 x x e a estatística de testes é t = s 2 x 1 x 1 N N O teste de Levene para decidir H 0 : s1 = s2 H1 : s1 s2 consiste numa análise de variância aos valores absolutos das diferenças entre os valores observados e a média de cada uma das amostras. ESACB 79

82 5 - Testes T Teste t para duas amostras emparelhadas: Compara as médias de duas variáveis ou características para uma mesma amostra de indivíduos (do género peso antes versus peso depois de um determinado tratamento). São apresentados os parâmetros estatísticos para as duas amostras em análise; é calculada a correlação entre as duas amostras; São apresentados os parâmetros estatísticos para as diferenças entre as duas amostras emparelhadas; é estabelecido um intervalo de confiança para ( x1 x2 ). O teste de hipótese subjacente é: H : x = x H 0 0 : x 1 1 x 2 2 = 0 H H 1 1 : x : x 1 1 x x e a estatística de testes é t = s 2 x 1 x 1 N N 2 A fim de ilustrar a realização destes testes vamos usar o ficheiro PULSO.SAV que foi criado por importação de um ficheiro dbase. Em anexo é fornecida uma impressão do ficheiro. Os dados consistem em 40 casos de pacientes (seleccionados aleatoriamente entre os alunos de uma universidade), homens e mulheres, alguns dos quais fumam e outros não fumam. Para cada um dos indivíduos foi medido o ritmo cardíaco antes (ritmoa) e após uma corrida de 1500 m (ritmod). Pretende-se, entre outros objectivos, verificar se há diferenças entre os ritmos cardíacos antes e após o exercício físico; se há diferenças de ritmo cardíaco entre homens e mulheres, entre fumadores e não fumadores. Pretende-se igualmente saber qual o valor indicativo do ritmo cardíaco médio da população dessa universidade. Antes de prosseguir para os testes t é aconselhado fazer uma análise exploratória dos dados, tal como foi ilustrado no capítulo 3. A seguir apresentam-se dois estratos desta análise, nomeadamente o diagrama de extremos-e-quartis e os valores extremos: ESACB 80

83 5 - Testes T N = 40 RITMOD Extreme Values Case Value Number RITMOA Highest Lowest a RITMOD Highest Lowest a Only a partial list of cases with the value 66 are shown in the table of lower extremes. ESACB 81

84 5 - Testes T Por esta análise pode concluir-se que o caso nº 6 constitui uma observação outlier no referente à observação ritmod: provavelmente, o observador queria registar o valor 165 e, por erro, introduziu 265, valor virtualmente impossível para o ritmo cardíaco de qualquer humano, mesmo que sujeito a condições in extremis. Contudo, como na realidade o estatístico não sabe ou que se passou, a melhor estratégia será ignorar este caso (indivíduo nº 6) sempre que tiver de utilizar a variável ritmod TESTE T PARA A MÉDIA DE UMA AMOSTRA Pretende-se verificar se se pode considerar que a média da variável ritmoa da população universitária em análise pode ser de 80 pulsações por minuto. Isto é, trata-se de dar resposta ao seguinte teste de hipóteses: H H 0 0 : x = µ : x µ = 0 H H 1 1 : x µ : x µ 0 Para tal, fazer Statistics Compare Means One-Sample T Test... Aparece a seguinte caixa de diálogo, onde se selecciona a variável a analisar (ritmoa), e o valor hipotético da média da população : ESACB 82

85 5 - Testes T De seguida, seleccionar a fim de difinir o nível de confiança para ( x µ ) : Por defeito, está definido (1-α)=0.95; se o desejar, o utilizador poderá alterar este nível de confiança. Fazer e depois OK: Para um nível de significância de 5%, deve rejeitar-se a hipótese nula de que o ritmo médio cardíaco da população, com base nesta amostra, possa ser de 80 (pois o p-value ou significance level da amostra é de 0.011<α=0.05, ou porque t calc =2.686 > t (0.05,39) =2.021). O intervalo de confiança para ( x µ ) [ 7.01, 1.00] TESTE T PARA DUAS AMOSTRAS INDEPENDENTES Pretende-se verificar se, em relação ao ritmo cardíaco antes do exercício físico, há ou não diferenças entre os fumadores e os não fumadores, isto é: H 0 : xritmoa xritmoa H1 Fumadores = : x não fumadres ritmoa Fumadores x ritmoa não fumadres ESACB 83

86 5 - Testes T Para tal, fazer Statistics Compare Means Independent Samples T Test...: Na caixa de diálogo seguinte, seleccionar a variável resposta a analisar (ritmoa); as duas amostras a comparar são dois sub-grupos desta variável, definidos pela variável fuma; para tal, seleccionar esta variável para o campo : Para definir os sub-grupos ou amostras, seleccionar ; usar os valores codificados da variável fuma (1=Fuma; 2=Não Fuma) para definir os grupos: ESACB 84

87 5 - Testes T No final, fazer. De seguida, seleccionar a fim de difinir o nível de confiança para a diferença entre médias: Fazer e depois OK: Group Statistics RITMOA FUMA Fuma Não Fuma N Std. Std. Error Mean Deviation Mean Independent Samples Test RITMOA Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amostras. No segundo quadro apresentam-se os testes de homogeneidade de variâncias (Levene) e o teste t-student de comparação das médias das duas amostras. Começa por analisar-se a homogeneidade das variâncias, isto é, verificar se se devem considerar homogéneas ou diferentea as variâncias dos dois sub-grupos: H : sritmoa = s 1 : Fuma ritmoa H s Não Fuma ritmoa s Fuma ritmoanão Fuma concluindo-se que se devem considerar as variâncias não homogéneas, pois p-value deste teste (0.006) é inferior a um valor α=5% ou mesmo α=1% (isto é, podemos fazer esta decisão com 99% de probabilidade de acertar). Também se pode decidir este teste, comparando o valor F calc =8.665 com um valor crítico da distribuição F de Snedecor (por exemplo, para α=5%, F (0.05; 1, 38) = ). 5 O teste de Levene é uma anova. Os graus de liberdade totais são N-1=39; pretendem-se comparar duas amostras, de modo que fica 1 grau de liberdade para as amostras, restando 38 graus de liberdade para o erro experimental. ESACB 85

88 5 - Testes T De seguida, faz-se a decisão do teste t-student, para a situação de variâncias não homogéneas, isto é: H 0 : xritmoa xritmoa H1 Fumadores = : x não fumadres ritmoa Fumadores x ritmoa não fumadres O valor da estatística de teste é t=0.394 < t (0.05; 23) = 2.069, ou p-value = > α=5%, concluindo-se assim que os ritmos cardíacos em repouso, destas duas amostras, são estatisticamente iguais, para um nível de significância de 5%. O intervalo de confiança a 95% para a diferença entre as médias é [-5.67, 8.34], podendo teoricamente a diferença ser nula TESTE T PARA DUAS AMOSTRAS EMPARELHADAS Pretende-se verificar se existem ou não diferenças significativas entre os ritmos cardíacos antes e depois de realização do exercício físico, isto é: H H 0 0 : x : x ritmoa ritmoa = x x rit mod rit mod = 0 H H 1 1 : x : x ritmoa ritmoa x x rit mod rit mod 0 Como anteriormente se fez notar, este teste deverá ser efectuando, sem incluir o indivíduo nº 6, por se suspeitar que o respectivo registo do ritmo cardíaco após exercício está errado. Para tal, fazer: Data Select Cases... ESACB 86

89 5 - Testes T Pretende-se excluir o caso nº 6 da análise, isto é, incluir na análise todos os casos com excepção do caso nº 6. Para tal, na caixa de diálogo seleccionar definir que se seleccionam para análise todos os cados diferenntes do caso nº 6:, e A indicação caso ~= 6 significa todos os casos excepto o caso 6. O Data Editor do SPSS criou automaticamente uma variável designada filter_$, em que indica quais os casos seleccionados e os não incluídos. Repare-se que a linha 6 está traçada, indicando que este caso está excluído de futuras análises: Note-se que este procedimento de seleccionar casos não é exclusivo nem obrigatório do procedimento da comparação de médias de duas amostras emparelhadas. É um procedimento geral a efectuar previamente a qualquer análise em que haja necessidade de seleccionar ou excluir casos. De seguida, passa-se então à comparação das médias das duas amostras emparelhadas. Tal como o nome indica, deve haver pares de observações, de modo que ambas as amostras têm o mesmo número de observações. Para tal, fazer Statistics Compare Means Paired Samples T Test...: ESACB 87

90 5 - Testes T Na caixa de diálogo seguinte, seleccionar as duas variáveis emparelhadas cujas médias se pretendem comparar: O botão serve para definir o intervalo de confiança para a diferença entre as duas médias (por defeito, (1-α)=0.95). Os resultados são os seguintes: Paired Samples Statistics Pair 1 RITMOA RITMOD Std. Std. Error Mean N Deviation Mean ESACB 88

91 5 - Testes T Paired Samples Correlations Pair 1 RITMOA & RITMOD N Correlation Sig Paired Samples Test Pair 1 RITMOA - RITMOD Paired Differences 95% Confidence Interval of the Std. Std. Error Difference Sig. Mean Deviation Mean Lower Upper t df (2-tailed) No primeiro quadro são apresentados alguns parâmetros estatísticos de cada uma das amostras. Repare-se que foram só levados em conta 39 observações em cada amostra. O quadro seguinte apresenta o valor do coeficiente de correlação de Pearson entre as duas variáveis (r=0.544). No último quadro é apresentado o valor de x ritmoa x rit mod = , o intervalo de confiança para a diferença entre médias ([-65.36, ]) e o valor da estatística de teste t-student t= , bem como os graus de liberdade do teste e o valor p-value ou verdaddeiro nível de significância (0.000). Como t calc = > t (0.05,38) =2.025 (ou p- value=0.000 < α=5%) conclui-se que as médias são significativamente diferentes. ESACB 89

92 6 - Anova 6 - ANÁLISE DE VARIÂNCIA ENSAIOS UNI-FACTORIAIS A análise de variância é uma metodologia estatística cujo objectivo é decidir se existem ou não diferenças significativas entre as médias de várias amostras de uma variável numérica, definidas por diferentes tratamentos ou níveis de influência de um factor. Esta metodologia é uma extensão do teste t-student para duas amostras independentes. Isto é: H 0: x1 = x2 = x3 =... = xt = µ H1 : Existem diferençassignificativas entreas médias De um modo muito resumido, a metodologia anova calcula a variabilidade total existente na característica ou variável em análise, e particiona esta variabilidade como sendo devida fundamentalmente a duas causas: uma causa determinista, que é o facto de as amostras serem sujeitas a tratamentos distintos (variabilidade entre tratamentos); causas aleatórias ou erro experimental, que engloba todas as restantes fontes de variabilidade, com excepção dos diferentes tratamentos (variabilidade residual ou erro experimental). Estas variabilidades são estimativas de variância (entre tratamentos, e residual, respectivamente). Isto é: Variabilidade Total = Variabilidade entre Tratamentos + Erro Experimental A estatística de teste é a estatística F, que é uma razão entre variâncias, que sob o pressuposto de que as observações têm distribuição normal, segue uma distribuição F de Snedecor: F Variância entretratamentos = Variância Re sidual ~ F ( α ; gl num ; gl den ) Se a estatística F é demasiado grande, então é porque a variância entre tratamentos é preponderante em relação à variância residual, isto é, os diferentes tratamentos a que a amostra foi sujeita conduz a resultados estatisticamente diferentes. Na sequência de uma análise de variância em que se conclua que existem diferenças significativas entre as médias dos diversos tratamentos em análise, faz-se um teste suplementar a fim de identificar quais são as médias estatisticamente diferentes. Os mais usuais são os testes LSD (Least Significant Difference, Diferença Mínima Significativa), HSD-Tuckey (Honnestly Significant Difference), Scheffé, Duncan. Vamos ilustrar a metodologia de análise de variância, usando os valores apresentados no quadro seguinte, referentes às produções obtidas num ensaio em que se pretende ESACB 90

93 6 - Anova estudar o efeito da densidade de sementeira, na cultura de arroz (variedade IR8). Definiram-se 6 densidades de sementeira (kg/ha de semente). Para cada densidade de fizeram-se 4 repetições. Todos os restantes factores de produção foram mantidos constantes no ensaio (adaptado de GOMEZ & GOMEZ, 1984). Densidade Repetições A anova simples (ensaios uni-factoriais) pode ser executada no SPSS com dois procedimentos: PROCEDIMENTO ONE-WAY ANOVA Este é o procedimento que conduz à elaboração típica da análise de variância, e no qual é possível definir a obtenção de mais resultados no âmbito desta metodologia estatística. A partir do menu principal do SPSS, seleccionar: Statistics Compare Means... One-Way ANOVA... Seleccionar para o campo o nome da variável que contém os valores da variável que contém os resultados a analisar (no exemplo, producao); no campo selecciona-se a variável que identifica os diferentes tratamentos (densidad). Seleccionar a opção para definir qual ou quais os testes de comparação de médias a efectuar na sequência da anova. Pode seleccionar-se apenas um ou mais testes. ESACB 91

94 6 - Anova No exemplo, pediram-se os testes LSD e Tuckey. O nível de significância é, por defeito, α=5%, podendo este valor ser definido pelo utilizador: Fazer, voltando à janela One-Way ANOVA, onde se pode seleccionar o botão a fim de definir cálculos adicionais; no caso, pediram-se o cálculo dos parâmetros estatísticos, a realização do teste de Levene para verificar se as variâncias dos diferentes tratamentos são homogéneas e representar graficamente as médias dos diferentes tratamentos: Os resultados são os seguintes: ESACB 92

95 6 - Anova Oneway Descriptives Produção (kg/ha) 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha Total N 95% Confidence Interval for Mean Std. Lower Upper Mean Deviation Std. Error Bound Bound Minimum Maximum Test of Homogeneity of Variances Produção (kg/ha) Levene Statistic df1 df2 Sig ANOVA Produção (kg/ha) Between Groups Within Groups Total Sum of Mean Squares df Square F Sig ESACB 93

96 6 - Anova Post Hoc Tests Multiple Comparisons Dependent Variable: Produção (kg/ha) Tukey HSD LSD (I) Densidade de sementeira 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha (J) Densidade de sementeira 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha *. The mean difference is significant at the.05 level. Mean 95% Confidence Interval Difference Lower Upper (I-J) Std. Error Sig. Bound Bound * * * * * * * * * * * * * * * * ESACB 94

97 6 - Anova Homogeneous Subsets Produção (kg/ha) Densidade de Subset for alpha =.05 sementeira N 1 2 Tukey HSD a 150 kg/ha kg/ha kg/ha kg/ha kg/ha kg/ha Sig Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = Means Plots Mean of Produção (kg/ha) kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha Densidade de sementeira O primeiro quadro de resultados contém a médias, desvio padrão e erro padrão da média e intervalo de confiança da média, mínimo e máximo para cada tratamento. De seguida é apresentado o teste de homogeneidade de variâncias de Levene: H = : s1 = s2 = s3 s4 H1 :As variânciasnão são homogéneas Como F=0.418 < F (0.05;5;18) =2.77, ou p-value=0.83 > α=0.05, conclui-se que as variâncias são homogéneas, isto é, dentro de cada um dos tratamentos a variabilidade é apenas devida a causas aleatórias. O quadro que se segue é a tabela da análise de variância, apresentando a variabilidade particionada entre os tratamentos (betwen groups) e residual (within groups). Como F=4.507 > F (0.05;5;18) =2.77, ou p-value=0.008 < α=0.05, conclui-se que existem diferenças significativas entre as produções médias das 6 densidades de sementeira, com um nível de significância de 5%. Contudo, este resultado não nos permite concluir qual ou quais densidades conduzem a produções médias significativamente diferentes de outras. Para concluir tal, há que proceder à comparação da média de cada um dos tratamentos com todas as restantes. esta comparação é feita em termos do valor absoluto das diferenças entre médias: se esta ESACB 95

98 6 - Anova diferença entre duas médias é pequena, então as médias não diferem; se a diferença é grande, então as duas médias são estatisticamente distintas. Este é o princípio de qualquer teste de comparações múltiplas. Contudo, há que fixar um critério que defina a fronteira entre o que é uma diferença grande e uma diferença pequena. Este critério é estabelecido por cada um dos testes (LSD, Scheffé, Tukey, etc), com base em expressões que relacionam a média das somas dos quadrados residual (calculada na tabela anova) e com base em funções de distribuição de probabilidades. No quadro dos resultados dos testes de comparações múltiplas são identificados com o símbolo * quais os tratamentos cujas médias diferem significativamente. Repare-se que ambos os testes acusam como conduzindo a produções médias diferentes densidades de 50 kg/ha e 150 kg/ha (diferença de 867 kg) e 75 kg/ha e 150 kg/ha (diferença de 926 kg). Contudo apenas o teste LSD acusa existirem diferenças entre as produções alcançadas com 25 e 150 kg/ha (diferença de kg), 50 e 125 kg/ha (diferença de kg), 75 e 100 kg/ha (diferença de kg). Isto é, o teste LSD acusa como diferentes tratamentos cujas médias estão menos afastadas do que o teste Tuckey, que dá, por assim dizer, maior margem de dúvida antes de imputar essas diferenças aos efeitos dos tratamentos. De seguida aparece um quadro complementar do teste Tukey em que agrupa os tratamentos em grupos homogéneos, sendo o critério de agrupamento o facto de não existirem diferenças significativas entre os médias dos tratamentos incluídos no mesmo grupo. O mesmo tratamento pode pertencer a mais do que um grupo, desde que não difira dos restantes tratamentos desse grupo. Assim, as densidades de sementeira de 150, 125, 100, 25 constituem um grupo de tratamentos, cujas produções médias são as mais baixas; as densidades de 125, 100, 25, 50, 75 constituem outro grupo, cujas produções são as mais altas. É claro que alguns dos tratamentos densidades de 125, 100, 25) pertencem aos dois grupos 6. Em termos absolutos, a densidade de sementeira que conduz a maior produção é a densidade de 75 kg/ha; contudo, a produção obtida com a densidade de 50 kg/ha não difere significativamente da anterior, e pode haver vantagens económicas em usar esta densidade. Contudo, estas são algumas reflexões de índole técnica que competem ao analista desenvolver, não cabendo propriamente no âmbito deste manual. No final aparece um gráfico representado as médias dos tratamentos, que pode ser útil explorar no sentido de compreender os resultados, e deles tirar o proveito no âmbito da aplicabilidade da Estatística ao delineamento de ensaios agrícolas PROCEDIMENTO MEANS A partir do menu principal do SPSS, seleccionar: 6 Deixa-se ao cuidado do leitor a explicação agronómica destas conclusões. ESACB 96

99 6 - Anova Statistics Compare Means... Means... Seleccionar para o campo o nome da variável que contém os valores da variável a analisar (no exemplo, producao); no campo selecciona-se a variável que identifica os diferentes tratamentos (densidad). Seleccionar o botão a fim de pedir a elaboração da tabela da análise de variância. Por defeito, são calculados os parâmetros média e desvio padrão; o utilizador pode seleccionar outras estatísticas a calcular: Os resultados são os seguintes: ESACB 97

100 6 - Anova Means Case Processing Summary Produção (kg/ha) * Densidade de sementeira Cases Included Excluded Total N Percent N Percent N Percent % 0.0% % Report Produção (kg/ha) Densidade de sementeira 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha Total Std. Mean N Deviation Produção (kg/ha) * Densidade de sementeira Between GWithin Groups Total (Combined) ANOVA Table Sum of Mean Squares df Square F Sig Measures of Association Produção (kg/ha) * Densidade de sementeira Eta Eta Squared A tabela da anova é idêntica à obtida no procedimento anterior. Contudo, este procedimento não permite a obtenção dos testes subsequentes que foram obtidos previamente. A estatística Eta-Squared é a proporção de variância da variável dependente que é SS H explicada pelas diferenças entre os tratamentos; é dado pela expressão (isto é, SST razão entre Soma dos Quadrados entre tratamentos (SS H ) e a Soma dos Quadrados total (SS T ). A designação de Eta adoptada pelo SPSS no contexto da anova destina-se a não fazer confusão com o coeficiente de determinação, R 2, usado no contexto da regressão linear, e que pode ser obtido a partir da tabela da anova da regressão pela expressão anterior. ESACB 98

101 6 - Anova ENSAIOS MULTI-FACTORIAIS Os organismos biológicos estão simultaneamente expostos a muitos factores de crescimento. A resposta de um organismo a um único factor de crescimento pode variar com o nível de outros factores; assim, os delineamentos uni-factoriais são criticados pelo seu pequeno leque de aplicabilidade. Na realidade, os resultados dos delineamentos uni-factoriais são apenas válidos para o caso particular (e extremamente difíceis de conseguir) de todos os restantes factores serem mantidos constantes. Neste sentido, quando se espera que a resposta a um factor de interesse varie sob diferentes níveis de outros factores, devem evitar-se os delineamentos uni-factoriais, e considerar um delineamento multi-factorial que permita estudar em simultâneo dois ou mais factores. Em ensaios factoriais, há a considerar os efeitos de cada um dos níveis de um dos factores, mantendo os níveis dos outros factores constantes (efeitos simples), os efeitos de cada um dos factores, abstraindo da presença dos outros factores (efeitos principais) e interacção entre os níveis dos diversos factores (interacção entre factores). Diz-se que existe interacção entre dois factores se a resposta a um dos factores varia consoante os níveis do outro factor. A fim de ilustrar o procedimento de cálculo da análise de variância multi-factorial, vamos usar o ficheiro arroz.sav, em que se pretende verificar a influência de três variedades (IR8, IR5, CA-63) e 5 níveis de adubação azotada (0, 60, 90, 120, 150 kg/ha) na produção de arroz. Statistics General Linear Model GLM General Factorial... Na caixa de diálogo seguinte, seleccionar a variável dependente a analisar (producao) e os factores de produção cuja influência se pretende analisar (variedad e adubacao): ESACB 99

102 6 - Anova De seguida, seleccionar a opção a fim de definir o modelo de anova a calcular. Por defeito, está seleccionada a opção, que especifica que a tabela da anova apresentará a os efeitos principais de cada factor, bem como as interacções entre factores. É a situação mais usual. Optando por o utilizador pode definir que a anova apresente apenas os efeitos principais, ou apenas algumas das interacções a definir. Por defeito, está definido o método de cálculo da soma de quadrados (tipo III); para delineamentos em que não haja missing-values deve definir-se esta metodologia de cálculo. ESACB 100

103 6 - Anova A opção deve ser seleccionada (por defeito, está activada). Caso se assuma que os dados passam pela origem dos eixos (isto é, caso a ausência dos factores em análise conduzam a valor zero da variável dependente), pode omitir-se esta opção. Da sua inclusão no modelo resulta a apresentação de mais uma linha inusitada na tabela da anova, que traduz a variabilidade associada à variável dependente para os níveis zero dos factores. As restantes linhas da tabela são as usuais. Fazer para regressar à janela GLM General factorial, onde se deve seleccionar para representar graficamente as médias de cada um dos factores e das interacções de factores: Para seleccionar o gráfico das médias de um factor, definir esse factor em ; fazer para adicionar esse gráfico; para definir o gráfico das interacções, seleccionar um factor para Horizontal Axis e outro factor para Separate Lines. Fazer para continuar. Optar por para definir os testes de comparações múltiplas: ESACB 101

104 6 - Anova Fazer para continuar. Seleccionar para seleccionar o cálculo de parâmetros estatísticos, teste de Levene de homogeneidade de variâncias e os intervalos de confiança para as médias: Os resultados deste procedimento são os seguintes: Univariate Analysis of Variance ESACB 102

105 6 - Anova Between-Subjects Factors Variedade Adubação Value Label N IR8 20 IR5 20 C kg/ha kg/ha kg/ha kg/ha kg/ha 12 Descriptive Statistics Dependent Variable: Produção Variedade Adubação Mean Std. Deviation N IR8 0 kg/ha kg/ha kg/ha kg/ha kg/ha Total IR5 0 kg/ha kg/ha kg/ha kg/ha kg/ha Total C kg/ha kg/ha kg/ha kg/ha kg/ha Total Total 0 kg/ha kg/ha kg/ha kg/ha kg/ha Total Levene's Test of Equality of Error Variances a Dependent Variable: Produção F df1 df2 Sig Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+VARIEDAD+AZOTO+VARIEDAD * AZOTO ESACB 103

106 6 - Anova Dependent Variable: Produção Source Corrected Model Intercept VARIEDAD AZOTO VARIEDAD * AZOTO Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Mean Squares df Square F Sig a E E E a. R Squared =.833 (Adjusted R Squared =.781) Estimated Marginal Means 1. Variedade Estimates Dependent Variable: Produção 95% Confidence Interval Variedade Mean Std. Error Lower Bound Upper Bound IR IR C Dependent Variable: Produção (I) Variedade IR8 IR5 C4-63 (J) Variedade IR5 C4-63 IR8 C4-63 IR8 IR5 Pairwise Comparisons Based on estimated marginal means *. The mean difference is significant at the.05 level. 95% Confidence Interval Mean for Difference a Difference Lower Upper (I-J) Std. Error Sig. a Bound Bound * * a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). ESACB 104

107 6 - Anova Dependent Variable: Produção Univariate Tests Sum of Squares df Mean Square F Sig. Contrast Error The F tests the effect of Variedade. This test is based on the linearly independent pairwise comparisons among the estimated marginal means. 2. Adubação Dependent Variable: Produção Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Estimates 95% Confidence Interval Lower Upper Mean Std. Error Bound Bound ESACB 105

108 6 - Anova Pairwise Comparisons Dependent Variable: Produção 95% Confidence Interval Mean for Difference a Difference Lower Upper (I) Adubação (J) Adubação (I-J) Std. Error Sig. a Bound Bound 0 kg/ha 60 kg/ha * kg/ha * kg/ha * kg/ha * kg/ha 0 kg/ha * kg/ha kg/ha * kg/ha * kg/ha 0 kg/ha * kg/ha kg/ha * kg/ha * kg/ha 0 kg/ha * kg/ha * kg/ha * kg/ha kg/ha 0 kg/ha * kg/ha * kg/ha * kg/ha Based on estimated marginal means *. The mean difference is significant at the.05 level. a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). Dependent Variable: Produção Univariate Tests Sum of Squares df Mean Square F Sig. Contrast Error The F tests the effect of Adubação. This test is based on the linearly independent pairwise comparisons among the estimated marginal means. ESACB 106

109 6 - Anova Dependent Variable: Produção Variedade IR8 IR5 C4-63 Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Post Hoc Tests Variedade Dependent Variable: Produção Tukey HSD 3. Variedade * Adubação 95% Confidence Interval Lower Upper Mean Std. Error Bound Bound Multiple Comparisons (I) Variedade IR8 IR5 C4-63 (J) Variedade IR5 C4-63 IR8 C4-63 IR8 IR5 Based on observed means. Mean 95% Confidence Interval Difference Lower Upper (I-J) Std. Error Sig. Bound Bound ESACB 107

110 6 - Anova Homogeneous Subsets Tukey HSD a,b Variedade IR8 IR5 C4-63 Sig. Produção Subset N Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = a. Uses Harmonic Mean Sample Size = b. Alpha =.05. Adubação Dependent Variable: Produção Tukey HSD Multiple Comparisons (I) Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha (J) Adubação 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha Based on observed means. *. The mean difference is significant at the.05 level. Mean 95% Confidence Interval Difference Lower Upper (I-J) Std. Error Sig. Bound Bound * * * * * * * * * * * * * * * * ESACB 108

111 6 - Anova Homogeneous Subsets Tukey HSD a,b Adubação 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Sig. Produção Subset N Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = a. Uses Harmonic Mean Sample Size = b. Alpha =.05. Profile Plots 5100 Estimated Marginal Means of Produção 5000 Estimated Marginal Means IR8 IR5 C4-63 Variedade ESACB 109

112 6 - Anova Estimated Marginal Means of Produção Estimated Marginal Means kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Adubação Estimated Marginal Means of Produção Estimated Marginal Means kg/ha 60 kg/ha 90 kg/ha 120 kg/ha Variedade IR8 IR5 C kg/ha Adubação ESACB 110

113 7 - Regressão Linear 7 - REGRESSÃO LINEAR INTRODUÇÃO Muitos estudos estatísticos têm como objectivo estabelecer uma relação, traduzida por uma equação, que permite estimar o valor de uma variável, em função de outra ou outras variáveis. O caso mais simples é traduzir esta relação pela equação de uma recta, quando o acréscimo de uma variável, designada por dependente e usualmente representada por y, varia linearmente com os acréscimos provocados noutra variável, designada por independente, representada por x. A equação que traduz esta relação é y = a + bx ou y = b0 + b1 x, em que os parâmetros ou coeficientes são a ordenada na origem, a (ou b o ), e o declive, b (ou b 1 ). Como regra, previamente ao cálculo da regressão linear, deve fazer-se uma análise gráfica aos dados (gráfico de dispersão ou scatterplot), a fim de ter uma percepção visual da existência ou não de uma tendência de dependência entre as variáveis, e como método de detectar possíveis observações outliers ou influentes, que distorçam os resultados. A representação gráfica dos dados, num gráfico de pontos (scatterplot) ajuda a identificar algumas situações em que a equação de regressão linear simples não tem um ajustamento perfeito. De seguida, ilustram-se algumas destas situações. Na situação 1, a observação assinalada é um outlier bi-variado, muito embora não o seja em relação a cada uma das variáveis, já que não é observação extrema. Contudo, o par (x,y) está deslocado do contexto geral das restantes observações. Em relação às restantes observações, o gráfico evidencia uma tendência segundo uma recta crescente. O utilizador deverá verificar os dados e corrigir eventuais registos erróneos, ou simplesmente desprezar esta observação e efectuar a regressão com os dados restantes. Note-se que a inclusão desta observação irá provocar uma acentuada variação no declive da recta. ESACB 111

114 7 - Regressão Linear 50 Situação Na situação 2 existe uma observação igualmente muito influente em termos do declive da recta ajustada. Neste caso, a observação assinalada tem tendência a ser outlier, quer bi-variado, quer em relação a cada uma das variáveis. Além disso, eliminando esta observação, resta uma nuvem de pontos, em que não é nítida qualquer tendência de relação entre as variáveis. 60 Situação Na situação 3, a variância da variável y não é uniforme, ao longo dos valores em x, isto é, tomando fatias verticais ao longo do eixo dos xx, a dispersão dos valores y vai aumentando para valores mais elevados de y. Muito embora a normalidade dos dados não seja um pressuposto obrigatório para a estimativa da regressão linear, é contudo necessário que os resíduos (y obs y est ) tenham distribuição normal e variância constante. Nesta situação, estes pressupostos são violados, invalidando as inferências que se façam a partir da equação estimada. ESACB 112

115 7 - Regressão Linear 50 Situação A situação 4 ilustra uma forte relação entre x e y, mas não de tipo linear, pelo que o ajustamento de uma recta para traduzir esta função de dependência é errada e sem significado. 12 Situação Na situação 5 recolheram-se observações apenas nas zonas extremas do intervalo de variação de x, não existindo dados para valores intermédios da variável x. A função de regressão linear nesta situação é fortemente influenciada pelos valores extremos, mas não traduz a relação que existe para todo o intervalo de x. Na recolha de dados, deve haver a preocupação de que a amostragem cubra todo o intervalo de variação de x, de modo a evidenciar o comportamento da relação no interior desse intervalo. 20 Situação ESACB 113

116 7 - Regressão Linear O objectivo da regressão linear é estabelecer a função y = a + bx desta recta, que de um modo muito aproximado permite estimar o valor de y para dado valor de x. O cálculo dos coeficientes de regressão faz-se pelo método dos mínimos quadrados, que minimiza 2 a soma dos quadrados dos resíduos, isto é, minimiza a função ( y obs ŷ), em que ŷ representa o valor estimado pela equação para dado valor x. No gráfico seguinte representam-se os valores de 24 pares de valores do tipo (x,y), em que no eixo dos xx está representada a variável % de sólidos insolúveis em água e nos yy se representa a % total de sólidos, duas características importantes em molho de tomate (adaptado de DERECK PIKE, 19??; os dados são apresentados em anexo): % sólidos no molho % insolúveis em água É evidente a tendência do decréscimo da % de sólidos no molho com o aumento da % de insolúveis em água, segundo uma relação aproximadamente linear. Pretende-se estabelecer esta relação entre as duas variáveis, com os objectivos de (i) descrever a relação entre as características para este tipo de molho, e (ii) poder estimar ou prever a % de sólidos do molho (característica bastante difícil de quantificar) mediante a % de insolúveis em água que o molho contém (característica relativamente fácil de determinar). A equação de regressão linear é uma estatística, e como tal, tem inerente a componente de erro estatístico. A fim de interpretar a equação estimada, são apresentados uma série de coeficientes e estatísticas suplementares, que de um modo geral permitem analisar o maior ou menor grau de rigor com que a equação de regressão traduz a relação entre as variáveis em estudo. Um dos coeficientes associados à equação é o coeficiente de correlação linear, representado por r, que representa, na escala ]-1, 1[, a correlação ou associação entre as ESACB 114

117 7 - Regressão Linear duas variáveis; o quadrado deste coeficiente constitui o coeficiente de correlação total, ou coeficiente de determinação, representado por R 2, que traduz, a % de variabilidade da variável dependente (y) que é explicada pela variável independente (x). É apresentado o coeficiente de determinação ajustado, que é um estimador não enviezado de R 2 (que tende a ser um estimador sobre-avaliado) definido a partir de R 2 pela expressão: 2 R a = R 2 2 p(1 R ) N p 1 em que p é o número de variáveis independentes; no caso da equação de regressão linear simples y = a + bx, p=1. São apresentados os intervalos de confiança para os coeficientes a e b, bem como os erros-padrão e as estatísticas dos seguintes testes de hipóteses: teste referente ao coeficiente a: H 0 : a = 0 H1 : a 0 teste referente ao coeficiente b: H b = 0 H : b 0 0 : 1 O output do procedimento do cálculo da equação de regressão apresenta a tabela da anova, que constitui um teste de hipóteses à existência ou não de uma relação de dependência: H 0 : y não dependede x H 0 : b = 0 H 1 : y dependede x H 1 : b 0 A estatística F tem um valor alto quando a variável independente ajuda a explicar a variabilidade da variável dependente. Além disso, a tabela da análise de variância fornece a média da soma dos quadrados dos resíduos, cuja raíz quadrada é o erro padrão da estimativa. A equação de regressão é tão mais ajustada aos dados, quanto menor for o erro padrão da estimativa, comparativamente com o desvio padrão da variável dependente REGRESSÃO LINEAR SIMPLES Para proceder ao cálculo da equação de regressão linear, executar o seguinte procedimento 7 : Statistics Regression 7 No exemplo usam-se os dados das características do molho de tomate, em que as variáveis são insoluve (% de insolúveis em água) e solidos (% total de sólidos no molho). ESACB 115

118 7 - Regressão Linear No menu anterior, seleccionar a opção. Aparece a seguinte caixa de diálogo, onde se define a variável dependente (solidos) e a variável independente (insoluve) para os respectivos campos: Seleccionar o botão, que abre a seguinte caixa de diálogo, onde se seleccionam as opções Confidence intervals e Descriptives; as opções Estimates e Model fit estão activadas por defeito: ESACB 116

119 7 - Regressão Linear Fazer : a fim de regressar à janela Linear Regression, onde se selecciona Nesta caixa de diálogo, deve seleccionar e para obter o histograma e o gráfico do ajustamento à normal dos resíduos, a fim de verificar se os resíduos seguem distribuição normal (pressuposto para a validade da regressão linear) para verificar a linearidade e a igualdade de variância dos resíduos, efectuar o gráfico dos resíduos, com os valores estimados standardizados (ZPRED) no eixo dos xx, e os resíduos standardizados (ZRESID) no eixo dos yy. No final, fazer a fim de regressar à janela Linear Regression. O botão dá acesso à seguinte caixa de diálogo, onde se podem definir critérios de seleccção ou remoção de variáveis independentes (só têm efeito em regressão múltipla): ESACB 117

120 7 - Regressão Linear Os resultados do procedimento são os seguintes: Regression Descriptive Statistics % sólidos no molho % insolúveis em água Std. Mean Deviation N Pearson Correlation Sig. (1-tailed) N Correlations % sólidos no molho % insolúveis em água % sólidos no molho % insolúveis em água % sólidos no molho % insolúveis em água % % sólidos insolúveis no molho em água Model 1 Variables Entered/Removed b Variables Variables Entered Removed Method % insolúveis em água a. Enter a. All requested variables entered. b. Dependent Variable: % sólidos no molho ESACB 118

121 7 - Regressão Linear Model 1 Model Summary b Std. Error Adjusted R of the R R Square Square Estimate.970 a a. Predictors: (Constant), % insolúveis em água b. Dependent Variable: % sólidos no molho Model 1 Regression Residual Total ANOVA b Sum of Mean Squares df Square F Sig a a. Predictors: (Constant), % insolúveis em água b. Dependent Variable: % sólidos no molho Model 1 (Constant) % insolúveis em água Unstandardized Coefficients a. Dependent Variable: % sólidos no molho Coefficients a Standardi zed Coefficien ts 95% Confidence Interval for B Lower Upper B Std. Error Beta t Sig. Bound Bound Residuals Statistics a Minimum Maximum Mean Std. Deviation N Predicted Value Residual E Std. Predicted Value Std. Residual a. Dependent Variable: % sólidos no molho ESACB 119

122 7 - Regressão Linear Charts Histogram Dependent Variable: % sólidos no molho Frequency Std. Dev =.98 Mean = 0.00 N = Regression Standardized Residual Normal P-P Plot of Regression Standardized Residual 1.00 Dependent Variable: % sólidos no molho.75 Expected Cum Prob Observed Cum Prob ESACB 120

123 7 - Regressão Linear Scatterplot 3 Dependent Variable: % sólidos no molho Regression Standardized Residual Regression Standardized Predicted Value A equação da recta estimada é yˆ = x, em que x é a % de insolúveis em água e y é a % de sólidos no molho. A análise e interpretação pormenorizadas dos resultados deixam-se a cargo do leitor. Chama-se apenas a atenção para o facto de os resíduos estarem ligeiramente desajustados da distribuição normal, como está evidenciado no histograma (nota-se um acentuado enviezamento à esquerda, bem como a falta de resíduos numa das classes centrais) e no gráfico de ajustamento à normal (um perfeito ajustamento é traduzido pela diagonal do gráfico; neste caso, os resíduos situam-se sistematicamente acima ou abaixo desta linha, em diferentes zonas do gráfico). No gráfico dos resíduos standardizados versus valores previstos standardizados nota-se uma tendência para que os resíduos se distribuam segundo uma curva ligeiramente côncava. Estas análise dos resíduos sugerem que o modelo linear ajustado (equação de uma recta) não é o melhor modelo para traduzir a relação entre estas variáveis; a distribuição dos resíduos indica que o ajustamento de um modelo linear polinomial de 2ª ordem, com 2 uma equação do tipo y = a + bx + cx aumentará a precisão da estimativa (que é traduzida pelo coeficiente de determinação R 2 =0.941). O ajustamento a uma equação de segundo grau será abordado no parágrafo seguinte REGRESSÃO LINEAR MÚLTIPLA Neste parágrafo será abordada a metodologia de cálculo da equação de regressão linear múltipla, do tipo y = b + b x + b x + b x b x n x, em que a variável resposta ou dependente é função de várias variáveis independentes. ESACB 121

124 7 - Regressão Linear Os coeficientes de regressão b 1, b 2,..., b n traduzem o declive ou acréscimo na variável dependente provocado pelo acréscimo unitário de cada uma das variáveis independentes, x 1, x 2,..., x n, respectivamente. A metodologia que se vai abordar serve igualmente para estimar uma equação de n regressão linear polinomial, do tipo y = b + b x + b x 2 + b x b x n, em que y depende, não de diversas variáveis independentes x 1, x 2,..., x n, mas de um polinómio da mesma variável independente x. Neste caso, previamente a efectuar o procedimento da regressão linear, devem gerar-se as variáveis correspondentes às potências x 2, x 3,..., x n a incluir no modelo. No parágrafo seguinte será abordada uma metodologia diferente que permite o ajustamento de equações de curvas polinomiais a uma amostra de dados (x,y). Quando se ajusta um modelo de regressão múltipla, pode acontecer que se justifique estatisticamente incluir na equação de regressão todas as variáveis independentes, ou que se incluam apenas algumas destas variáveis explanatórias. Esta decisão é tomada em função da significância do parâmetro de regressão de cada uma das variáveis, ou pelo acréscimo do coeficiente de determinação, R 2, provocado pela inclusão dessas variáveis. De um modo geral, existem duas estratégias a seguir: (i) começar por incluir todas as variáveis, e analisar a contribuição ou significância dos coeficientes de regressão de cada uma das variáveis independentes no modelo; eliminar a variável independente menos significativa, desde que a sua contribuição seja inferior a determinado limite (normalmente analisado em termos da estatística F associada a essa variável na tabela da anova); recalcular de novo o modelo sem esta variável e, se for caso disso, eliminar nova variável, e assim sucessivamente, até que todas as restantes variáveis independentes sejam significativas para a precisão do modelo. Este tipo de estratégia designa-se por processo backward ou stepback. (ii) começar por calcular um modelo de regressão simples, y = b0 + b1 x, incluindo, se for caso disso, apenas a variável independente cujo coeficiente de regressão é mais significativo em termos de precisão; analisar a significância da próxima variável independente mais significativa, e incluíla, se for caso disso; recalcular de novo o modelo; analisar a significância da próxima variável independente mais significativa, e incluí-la, se for caso disso, e assim sucessivamente até que mais nenhuma das variáveis independentes seja significativa. Este tipo de metodologia designa-se por processo stepwise ou forward. Pode acontecer que os modelos obtidos por estes dois tipos de metodologias, para a mesma amostra de valores, não sejam inteiramente coincidentes, nomeadamente quando alguma ou algumas das variáveis independentes estão muito próximas do limite que define a significância da sua inclusão ou não inclusão no modelo. Chama-se a atenção que, por vezes, a inclusão de muitas variáveis explanatórias no modelo pouco acréscimo trazem em termos de precisão do modelo, e este fica muito ESACB 122

125 7 - Regressão Linear pouco funcional e muito fictício ou artificial, isto é, muito bem ajustado à amostra particular de valores usados para o cálculo da equação, mas pouco adaptável à população. Para ilustrar o ajustamento de uma equação de regressão linear múltipla, vamos usar o seguinte conjunto de dados (adaptado de DRAPPER & SMITH, 1981), em que as variáveis independentes são a temperatura média mensal (graus Fahrenheit), a produção mensal (toneladas), o número de dias úteis de trabalho por mês e o número de empregados, e a variável dependente é o consumo de água (m 3 ), observados numa determinada empresa fabril: Temperatura (ºF) Produção mensal Dias úteis do mês Número de operários Consumo de água (m3) Pretende-se ajustar uma equação do tipo y = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 que permita estimar o consumo mensal de água nesta empresa, em função das variáveis independentes observadas. Para estimar uma equação de regressão múltipla executar o seguinte procedimento: Statistics Regression ESACB 123

126 7 - Regressão Linear No menu anterior, seleccionar a opção. Aparece a seguinte caixa de diálogo, onde se definem a variável dependente e as todas as variáveis independentes: No campo das variáveis independentes estão incluídas todas as variáveis explanatórias. O método de cálculo seleccionado é Enter, que obriga à inclusão de todas as variáveis independentes no modelo, sejam ou não significativas. Os outros métodos de cálculo são Stepwise e Forward (métodos de inclusão progressiva de variáveis independentes), Backward (método de eliminação progressiva de variáveis independentes) e Remove (método que calcula o modelo sem inclusão de qualquer variável independente, isto é, o modelo resume-se a y ˆ = y ): A fim de comparar diversos modelos de regressão, vamos começar por incluir todas as variáveis independentes, optando pelo método Enter; seguidamente, deve repetir-se a metodologia, e optar por outros métodos de cálculo, nomeadamente Stepwise e Backward. Seleccionar o botão, e tal como descrito para a regressão linear simples. Os resultados são os seguintes: ESACB 124

127 7 - Regressão Linear Regression Descriptive Statistics Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Mean Std. Deviation N Pearson Correlation Sig. (1-tailed) N Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Correlations Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Model 1 Variables Entered/Removed b Variables Variables Entered Removed Method Número de operários, Temperatura média mensal (ºF),. Enter Dias úteis no mês, Produção mensal (Ton) a a. All requested variables entered. b. Dependent Variable: Consumo mensal de água (m3) Model Summary b Model 1 Std. Error Change Statistics Adjusted R of the R Square Sig. F R R Square Square Estimate Change F Change df1 df2 Change.945 a Predictors: (Constant), Número de operários, Temperatura média mensal (ºF), Dias úteis no mês, Produção mensal (Ton) a. b. Dependent Variable: Consumo mensal de água (m3) ESACB 125

128 7 - Regressão Linear ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression a Residual Total a. Predictors: (Constant), Número de operários, Temperatura média mensal (ºF), Dias úteis no mês, Produção mensal (Ton) b. Dependent Variable: Consumo mensal de água (m3) Model 1 (Constant) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Unstandardized Coefficients a. Dependent Variable: Consumo mensal de água (m3) Standardi zed Coefficien ts Coefficients a 95% Confidence Interval for B Lower Upper B Std. Error Beta t Sig. Bound Bound Correlations Zero-order Partial Part E Residuals Statistics a Minimum Maximum Mean Std. Deviation N Predicted Value Residual E Std. Predicted Value Std. Residual a. Dependent Variable: Consumo mensal de água (m3) Charts Histogram 5 Dependent Variable: Consumo mensal de água Frequency Std. Dev =.87 Mean = 0.00 N = Regression Standardized Residual ESACB 126

129 7 - Regressão Linear Normal P-P Plot of Regression Standardized Residual Dependent Variable: Consumo mensal de água (m3) Expected Cum Prob Observed Cum Prob Scatterplot 2.0 Dependent Variable: Consumo mensal de água (m3) Regression Standardized Residual Regression Standardized Predicted Value A equação do modelo ajustado é: consumo= temperat producao dias-1.709operario sendo R 2 2 =0.893 e R = ajustado Repita-se o processo, optando pelo método de cálculo Stepwise. Neste caso, chegar-se-á ao modelo: ESACB 127

130 7 - Regressão Linear consumo= producao dias e R 2 2 =0.889 e R = ajustado Repare-se que se simplificou o modelo, sem contudo prejudicar a precisão deste como instrumento de estimativa da variável dependente. De seguida apresentam-se os resultados completos obtidos com o método stepwise, de modo a possibilitar a comparação com o modelo que inclui todas as variáveis independentes: Regression Descriptive Statistics Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Mean Std. Deviation N Pearson Correlation Sig. (1-tailed) N Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários Correlations Consumo mensal de água (m3) Temperatura média mensal (ºF) Produção mensal (Ton) Dias úteis no mês Número de operários ESACB 128

131 7 - Regressão Linear Model 1 2 Dias úteis no mês Variables Entered/Removed a Variables Entered Produção mensal (Ton) Variables Removed.. Method Stepwise (Criteria: Probability-of-F-to-e nter <=.050, Probability-of-F-to-re move >=.100). Stepwise (Criteria: Probability-of-F-to-e nter <=.050, Probability-of-F-to-re move >=.100). a. Dependent Variable: Consumo mensal de água (m3) Model Summary c Model 1 2 Std. Error Change Statistics Adjusted R of the R Square Sig. F R R Square Square Estimate Change F Change df1 df2 Change.901 a b a. Predictors: (Constant), Dias úteis no mês b. Predictors: (Constant), Dias úteis no mês, Produção mensal (Ton) c. Dependent Variable: Consumo mensal de água (m3) Model 1 2 Regression Residual Total Regression Residual Total ANOVA c Sum of Mean Squares df Square F Sig a b a. Predictors: (Constant), Dias úteis no mês b. Predictors: (Constant), Dias úteis no mês, Produção mensal (Ton) c. Dependent Variable: Consumo mensal de água (m3) Model 1 2 (Constant) Dias úteis no mês (Constant) Dias úteis no mês Produção mensal (Ton) Unstandardized Coefficients a. Dependent Variable: Consumo mensal de água (m3) Standardi zed Coefficien ts Coefficients a 95% Confidence Interval for B Correlations Lower Upper B Std. Error Beta t Sig. Bound Bound Zero-order Partial Part E ESACB 129

132 7 - Regressão Linear Model 1 2 Temperatura média mensal (ºF) Produção mensal (Ton) Número de operários Temperatura média mensal (ºF) Número de operários Excluded Variables c Beta In t Sig. a. Predictors in the Model: (Constant), Dias úteis no mês Partial Correlation Collinearit y Statistics Tolerance.032 a a a b b b. Predictors in the Model: (Constant), Dias úteis no mês, Produção mensal (Ton) c. Dependent Variable: Consumo mensal de água (m3) Residuals Statistics a Minimum Maximum Mean Std. Deviation N Predicted Value Residual E Std. Predicted Value Std. Residual a. Dependent Variable: Consumo mensal de água (m3) Charts Histogram Dependent Variable: Consumo mensal de água (m3) Frequency Std. Dev =.94 Mean = 0.00 N = Regression Standardized Residual ESACB 130

133 7 - Regressão Linear Normal P-P Plot of Regression Standardized Residual Dependent Variable: Consumo mensal de água (m3) Expected Cum Prob Observed Cum Prob Scatterplot Dependent Variable: Consumo mensal de água (m3) 2.0 Regression Standardized Residual Regression Standardized Predicted Value AJUSTAMENTO DE MODELOS PRÉ-DEFINIDOS O SPSS dispõe de uma rotina que permite o ajustamento de vários modelos prédefinidos a uma amostra de valores bi-variados (x,y). Tais modelos são: ESACB 131

134 7 - Regressão Linear Linear: y = b0 + b1. x 2 Quadrático: y = b0 + b1. x + b2. x 2 Cúbico: y = b0 + b1. x + b2. x + b3. x Logarítmico: y = b b ln x 0 + Inverso: b1 y = b0 + x Potência:. b1 y = b0 x ln y = ln b0 + b1. ln x x Composto (compound): y b 0 b 1 ln y = ln b0 + x. ln b1 b 1. 1 b0 + b x 1 Sigmoidal (S): y = e ln y = b0 + x Logístico: y ln = ln b0 + x. ln b1 1 x + b0 b1 u. y u (em que u é o limite assimptótico superior, u>0, u>y max ) b0 + b1. x Crescimento (growth): y = e ln y = b0 + b1. x b1. x Exponencial: y = b. e ln y = ln b0 + b1. x 3 = ( ) 0 Muitos destes modelos são frequentemente usados em modelos econométricos, em que a variável independente ou causal é o decurso do tempo. Se for este o caso, no menu apropriado o utilizador pode definir que x é o tempo (ver caixa de diálogo seguinte). Para exemplificar esta metodologia, vamos usar os dados referentes às características do molho de tomate (em anexo). Como anteriormente se viu, o gráfico denota uma ligeira curvatura na zona superior dos valores xx, que faz suspeitar que um modelo polinomial talvez seja melhor ajustado que o modelo linear simples. Para tal, fazer: Statistics Regression Neste menu, seleccionar a opção Curve Estimation... que dá acesso à seguinte caixa de diálogo, onde se definem as variáveis dependente (solidos) e independente (insoluve) e se seleccionam os modelos que se pretendem obter, e se define para apresentar a tabela da anova para cada um dos modelos calculados: ESACB 132

135 7 - Regressão Linear Por defeito, os modelos ajustados incluem a constante (coeficiente b 0 ), e é apresentado o gráfico com os modelos calculados. O utilizador pode seleccionar um ou mais modelos, com o objectivo de, pela análise dos resultados, nomeadamente R 2 e anova, seleccionar o modelo melhor ajustado. No exemplo, foi solicitado para calcular os modelos linear, quadrático e cúbico. Os resultados são os seguintes: MODEL: MOD_1. Dependent variable.. SOLIDOS Method.. LINEAR Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error Analysis of Variance: DF Sum of Squares Mean Square Regression Residuals F = Signif F = Variables in the Equation ESACB 133

136 7 - Regressão Linear Variable B SE B Beta T Sig T INSOLUVE (Constant) Dependent variable.. SOLIDOS Method.. QUADRATI Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error Analysis of Variance: DF Sum of Squares Mean Square Regression Residuals F = Signif F = Variables in the Equation Variable B SE B Beta T Sig T INSOLUVE INSOLUVE** (Constant) Dependent variable.. SOLIDOS Method.. CUBIC Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error Analysis of Variance: DF Sum of Squares Mean Square Regression Residuals ESACB 134

137 7 - Regressão Linear F = Signif F = Variables in the Equation Variable B SE B Beta T Sig T INSOLUVE INSOLUVE** (Constant) Variables not in the Equation Variable Beta In Partial Min Toler T Sig T INSOLUVE** E Notes: 9 Tolerance limits reached; some dependent variables were not entered. 60 % sólidos no molho Obs erved Linear Quadratic % insolúveis em água ESACB 135

138 7 - Regressão Linear Note-se que ao passar do modelo linear y = x, R 2 = para o modelo quadrático y = x x 2, R 2 =0.9729, há um acréscimo significativo do ajustamento (T b2 =4.983, significativo; F= significativo); contudo, ao passar para o modelo cúbico, a estatística T b3 = é não significativa, e nem sequer é calculado este modelo, sendo apresentados os resultados do modelo quadrático, o que significa que o melhor modelo (dos pedidos) é o modelo quadrático. ESACB 136

139 8 - Manusear os Resultados 8 - MANUSEAR OS RESULTADOS À medida que se vão executando tarefas com o SPSS, os resultados vão-se acumulando sucessivamente no Viewer do programa. A janela do organigrama apresenta a sequência de resultados, que começam na identificação ; cada rotina ou tarefa aparece identificada com uma marca identificativa dos resultados, e respectivo conteúdo; por exemplo, os resultados correspondentes à obtenção das estatísticas descritivas é identificado no organigrama pelo esquema. Cada conjunto de resultados começa pela identificação da rotina ou tarefa ( ) e com o respectivo conteúdo; esta rotina apresenta um título visível (repare que o livro está aberto), e que corresponde à linha Descriptives na janela à direita, um conjunto de notas que não estão visíveis no output (o livro está fechado), e as estatísticas descritivas visíveis na janela de output (o livro está aberto). Esta organização mantém-se para os resultados das tarefas seguintes. ESACB 136

140 8 - Manusear os Resultados Note que cada rotina tem um conjunto de notas, mas que não estão visualizadas; para as ver na janela de output, o utilizador só tem que fazer duplo click sobre, de modo a abrir o livro, e aparecerem as notas na janela à direita. Repare que as notas incluem a data e hora de obtenção dos resultados, a localização do ficheiro de dados usado, o número de linhas ou casos do ficheiro de dados, indicações sobre a existência e tratamento de missing values, e as instruções que originaram os resultados (o utilizador gerou estas instruções, ou programa, seleccionando ícons e janelas nos menus do programa; contudo, e para utilizações mais avançadas, o SPSS tem um editor de programas, em que o utilizador constrói as rotinas de análise, como se de uma linguagem de programação de tratasse). A última linha das notas indica o tempo de processamento que a CPU do computador levou a executar esta rotina (neste caso, 0.99 segundos). Para fechar o livro de notas, isto é, para que as notas não sejam visualizadas no output, fazer duplo click sobre. Para condensar a parte de organigrama correspondente a uma rotina de análise, fazer click sobre o botão - à esquerda da sua identificação; por exemplo, para condensar o organigrama das estatísticas descritivas, fazer click sobre O organigrama fica com o seguinte aspecto: ESACB 137

141 8 - Manusear os Resultados Esta condensação do organigrama tem a vantagem de permitir maior rapidez na localização de determinados conjuntos de resultados, pois o utilizador pode condensar as partes não relevantes do organigrama, ficando apenas aberta a parte relevante do organigrama. Para expandir, fazer duplo click sobre o botão + correspondente Para visualizar resultados subsequentes, o utilizador pode usar a barra de scroll vertical da janela de resultados, ou simplesmente fazer clik no item respectivo do organigrama. Para ter acesso imediato ao diagrama de extremos-e-quartis referente a todos is valores, fazer click sobre o item Além da visualização, o utilizador pode copiar este gráfico (ou qualquer outro conjunto de resultados) para outra aplicação em Windows (por exemplo, processador de texto). ESACB 138

142 8 - Manusear os Resultados Para tal, localizar o bloco de resultados pretendido (tal como descrito); Fazer Edit Copy (ou CTRL-C), para capturar uma imagem do bloco seleccionado para o clipboard (área de transferência) do Windows; colocar-se na aplicação pretendida (poor exemplo, num documento do Word) e fazer a colagem da imagem (Edit Past, ou CTRL-V). Se se efectuou uma análise e se chegou à conclusão que está repetida, ou que pura e simplesmente não interessa, pode eliminar-se do Viewer. No exemplo seguinte, repetiuse a rotina Descriptives, de modo que os resultados estão em duplicado. Podem acrescentar-se caixas de texto com comentários aos resultados, por exemplo algumas análises que se considerem pertinentes. Para incluir o comentário O histograma evidencia uma tendência assimétrica após o histograma, seleccionar o item Histogram: e fazer Insert New Text ou fazer click no botão. Na janela de resultados é aberta uma caixa de texto, onde se esccrevem os comentários pretendidos: ESACB 139

143 8 - Manusear os Resultados Para eliminar um dos conjunto de resultados da rotina Descriptives, fazer click sobre o item respectivo no organigrama: e de seguida fazer Edit Cut, ou CTRL-X, ou simplesmente carregar na tecla DEL. Podem guardar-se os resultados em ficheiro, de modo que posteriormente o utilizador possa recuperá-los sem ter de os recalcular. Para gravar os resultados contidos no Viewer do SPSS, estando colocado nesta janela, fazer: File Save Aparece a seguinte caixa de diálogo, onde se selecciona o disco/directório onde se pretende gravar; na caixa escreve-se o nome a dar ao ficheiro (sem extensão); o programa automaticamente acrescenta a extensão.spo típica dos ficheiros Viewer do SPSS. ESACB 140

Exibir mais