ANÁLISE DE DADOS ANÁLISE PARCIAL DOS RESULTADOS DOS EXAMES NACIONAIS DO ENSINO SECUNDÁRIO DE Sérgio Sobral Nunes

Documentos relacionados
Centro de Tratamento de Águas para Plantas

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

Exame Final de Métodos Estatísticos

Descrição do Método de Análise de Clusters

PROCESSOS ESTOCÁSTICOS

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE STICA

Estatística descritiva

Analise discriminante rácios Económico - Financeiros - VI Page 1

Estatística Aplicada à Administração II

Exame de Recorrência de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico

ANÁLISE DE CONGLOMERADOS E OS INDICADORES DE GOVERANÇA MUNDIAL

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME:

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Métodos Experimentais em Ciências Mecânicas

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA Ano Lectivo 2018/2019

UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

ENADE Exame Nacional de Desempenho de Estudantes. Instituições do Ensino Superior do Município de São Paulo

4 Análise Exploratória

Estatística Aplicada a Negócios

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Autores: Fernando Sebastião e Helena Silva

Projeto de Experimentos

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2017/2018

Exame de Recurso de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:

Estimação e Testes de Hipóteses

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA Ano Lectivo 2013/2014

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

UNIVERSIDADE DE SÃO PAULO

5. APRESENTAÇÃO DOS RESULTADOS

Discriminant Rácios de Altman Output Created Comments Missing Value Handling

Modelos de Análise de Variância

Testes de Hipóteses. : Existe efeito

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126

Apostila de estatística básica R Commander Organizador: Daniel Magalhães Lima. Autores:

Case Processing Summary

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Bioestatística Básica

Regression and Clinical prediction models

Análise de Agrupamento. Cluster Analysis

Unidade III Medidas Descritivas

Construção da base de dados

Apostila de estatística básica Minitab Organizador: Daniel Magalhães Lima. Autores:

Mais Informações sobre Itens do Relatório

Correlação e Regressão

Análise Multivariada Aplicada à Contabilidade

REGRESSÃO LOGÍSTICA E INDICADORES DE GOVERNANÇA GLOBAL

1) Como vou comparar 3 grupos realizo uma Anova one way:

Aula 4: Medidas Resumo

Análise de Dados da Avaliação II

PLANIFICAÇÃO. 2007/2008 Matemática Aplicada às Ciências Sociais 1º ano. Blocos previstos

Análise de dados em Geociências

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2013/2014

REGRESSÃO MÚLTIPLA. constantes predeterminadas, sem erro;

ESTATÍSTICA MULTIVARIADA. 2º. Semestre 2006/07

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

MAE Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA

4 Apresentação e Análise dos Resultados

Exploração e Transformação de dados

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Especialização em Engenharia de Processos e de Sistemas de Produção

Métodos Quantitativos Aplicados

Análise de Variância a um factor

Ficha da Unidade Curricular (UC)

ANO LECTIVO DE Prova Época Recurso. 26 de Janeiro de 2010 Duração: 2h30m (150 minutos)

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2014/2015

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE E TRATAMENTO DE DADOS Ano Lectivo 2018/2019

Stela Adami Vayego DEST/UFPR

ISCTE Instituto Superior de Ciências do Trabalho e da Empresa

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2017/2018

Trabalho de Estatística Multivariada

Aplicação da análise descritiva e espacial em dados de capacidade de troca de cátions

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

Métodos Estatísticos sticos Aplicados à Engenharia de Software Experimental

ESCOLA SECUNDÁRIA MANUEL DA FONSECA, SANTIAGO DO CACÉM GRUPO DISCIPLINAR: 1.º Matemática PROGRAMA-A ANO: 10º ANO LECTIVO : 2008 /2009 p.

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA Ano Lectivo 2012/2013

PROJETO ORIBER. TEMA: Bem Estar e Qualidade de Vida ANÁLISE DISCRIMINANTE

([DPHGH5HFRUUrQFLDGH0pWRGRV(VWDWtVWLFRV

Técnicas Computacionais em Probabilidade e Estatística I. Aula III

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração

Análise de dados em Geociências

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2013/2014

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame - Resolução

Análise Discriminante

MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO, EDUCAÇÃO E SUAS RELAÇÕES COM AS CONDIÇÕES DE NATALIDADE NOS DISTRITOS DE SÃO PAULO.

SHOW. [DataSet1] C:\Documents and Settings\Tito\Ambiente de trabalho\almas\dadostodoscomresiduos.sav

Estatística Descritiva

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Transcrição:

ANÁLISE DE DADOS ANÁLISE PARCIAL DOS RESULTADOS DOS EXAMES NACIONAIS DO ENSINO SECUNDÁRIO DE 2001 Sérgio Sobral Nunes Análise de Dados Mestrado em Gestão de Informação, Setembro de 2002

Índice 1 DESCRIÇÃO DOS DADOS... 4 2 ESTATÍSTICAS DESCRITIVAS... 6 2.1 MEDIDAS DE LOCALIZAÇÃO... 6 2.2 MEDIDAS DE ASSIMETRIA E ACHATAMENTO... 7 2.3 ANÁLISE DA CORRELAÇÃO... 9 2.4 ANÁLISE DE FACTORES/COMPONENTES PRINCIPAIS... 11 2.5 SELECÇÃO DAS VARIÁVEIS... 13 3 TESTES...14 3.1 TESTE DE KOLMOGOROV-SMIRNOV... 14 3.2 TESTE ANOVA... 16 3.3 TESTE DE KRUSKAL-WALLIS... 18 4 CLASSIFICAÇÃO DE DADOS...20 4.1 FORWARD STEPWISE... 20 4.2 BACKWARD STEPWISE... 21 5 AGLOMERAÇÃO DE DADOS...23 5.1 AGLOMERAÇÃO HIERÁRQUICA... 23 5.2 ALGORITMO DAS C-MÉDIAS... 25 6 CONCLUSÃO...27 7 REFERÊNCIAS...28 8 BIBLIOGRAFIA...29 2

Índice de Gráficos GRÁFICO 1. DIAGRAMA DE EXTREMOS-E-QUARTIS... 7 GRÁFICO 2. HISTOGRAMA DA VARIÁVEL PTA_INTERNOS_ME... 8 GRÁFICO 3. HISTOGRAMA DA VARIÁVEL MAT_EXTERNOS_ME... 9 GRÁFICO 4. SCATTERPLOT: MAT_INTERNOS_ME VS MAT_EXTERNOS_ME... 9 GRÁFICO 5. SCATTERPLOT: MAT_INTERNOS_MCIF VS QUI_INTERNOS_MCIF... 10 GRÁFICO 6. SCATTERPLOT: MAT_INTERNOS_MCIF VS PTB_INTERNOS_MCIF... 10 GRÁFICO 7. REPRESENTAÇÃO GRÁFICA DOS EIGENVALUES... 12 GRÁFICO 8. TESTE K-S PARA A VARIÁVEL MAT_INTERNOS_ME (POR DISTRITO)... 14 GRÁFICO 9. DIAGRAMA DE EXTREMOS-E-QUARTIS PARA A VARIÁVEL BIO_INTERNOS_MCIF (POR DISTRITO)... 17 GRÁFICO 10. DIAGRAMA DE EXTREMOS-E-QUARTIS PARA A VARIÁVEL HIS_EXTERNOS_ME (POR DISTRITO)18 GRÁFICO 11. DIAGRAMA DE EXTREMOS-E-QUARTIS PARA A VARIÁVEL BIO_INTERNOS_ME (POR DISTRITO)19 GRÁFICO 12. AGLOMERAÇÃO DAS ESCOLAS USANDO O CRITÉRIO DE WARD... 23 GRÁFICO 13. AGLOMERAÇÃO DAS VARIÁVEIS USANDO O CRITÉRIO DE WARD... 24 GRÁFICO 14. C-MÉDIAS: GRÁFICO DAS MÉDIAS PARA CADA AGLOMERADO... 25 Índice de Tabelas TABELA 1. ESTATÍSTICAS DESCRITIVAS PARA AS VARIÁVEIS CONTÍNUAS... 6 TABELA 2. COEFICIENTES DE ASSIMETRIA E ACHATAMENTO... 8 TABELA 3. EIGENVALUES... 11 TABELA 4. ANÁLISE DE FACTORES (8)... 13 TABELA 5. TESTES DE NORMALIDADE (K-S E L)... 15 TABELA 6. ANÁLISE DE VARIÂNCIA (ANOVA)... 16 TABELA 7. TESTE LSD PARA A VARIÁVEL BIO_INTERNOS_MCIF (POR DISTRITO)... 17 TABELA 8. TESTE LSD PARA A VARIÁVEL HIS_EXTERNOS_ME (POR DISTRITO)... 17 TABELA 9. TESTE DE KRUSKAL-WALLIS - SUMÁRIO... 18 TABELA 10. TESTE DE KRUSKAL-WALLIS PARA A VARIÁVEL BIO_INTERNOS_ME (POR DISTRITO)... 19 TABELA 11. VARIÁVEIS INCLUÍDAS NO MODELO USANDO SELECÇÃO SEQUENCIAL EM FRENTE... 20 TABELA 12. VARIÁVEIS EXCLUÍDAS DO MODELO USANDO SELECÇÃO SEQUENCIAL EM FRENTE... 21 TABELA 13. MATRIZ DE CLASSIFICAÇÃO (SELECÇÃO SEQUENCIAL EM FRENTE)... 21 TABELA 14. VARIÁVEIS EXCLUÍDAS DO MODELO USANDO SELECÇÃO SEQUENCIAL PARA TRÁS... 22 TABELA 15. C-MÉDIAS: ANÁLISE DE VARIÂNCIA... 26 3

1 Descrição dos Dados Os dados correspondem aos resultados dos exames nacionais do ensino secundário de 2001 e foram obtidos junto do Departamento do Ensino Secundário do Ministério da Educação 1 em Abril de 2002. Os dados originais são referentes às duas chamadas e estão agrupados por escola (cerca de 600) e por exame (14 no total). Por razões de tempo fez-se uma selecção dos dados a analisar. Foram escolhidas as escolas pertencentes a um conjunto de distritos da região norte (Porto, Braga, Viana do Castelo e Aveiro) e aquelas onde se realizaram grande parte de um conjunto de exames seleccionados (Biologia, História, Matemática, Português A, Português B, Psicologia e Química). Obtivemos desta forma uma matriz densamente povoada. As situações em que uma escola não tinha um nota foram definidos como missing data (MD). No final obtivemos um conjunto de 154 casos (escolas) com 24 variáveis. As 3 primeiras variáveis são discretas e representam o código da escola (Código), o distrito (Distrito) e o conselho (Conselho). As restantes variáveis são contínuas e correspondem às médias das notas, numa escala de 0-200, por disciplina e tipo de prova. Assim, para cada disciplina temos 3 variáveis: a média no exame final dos alunos internos 2 (DISCIPLINA_Internos_ME), a média da classificação interna final dos alunos internos (DISCIPLINA_Internos_MCIF) e a média no exame final dos alunos externos 3 (DISCIPLINA_Externos_ME). Concluindo, temos as seguintes variáveis para cada disciplina: BIO_Internos_ME BIO_Internos_MCIF BIO_Externos_ME HIS_Internos_ME HIS_Internos_MCIF HIS_Externos_ME MAT_Internos_ME MAT_Internos_MCIF MAT_Externos_ME PTA_Internos_ME PTA_Internos_MCIF PTA_Externos_ME Biologia História Matemática Português A 1 http://www.des.min-edu.pt 2 Alunos que fazem o exame na escola que frequentaram durante o ano lectivo. 3 Alunos que fazem o exame numa escola diferente da que frequentaram durante o ano lectivo. 4

PTB_Internos_ME PTB_Internos_MCIF PTB_Externos_ME PSI_Internos_ME PSI_Internos_MCIF PSI_Externos_ME QUI_Internos_ME QUI_Internos_MCIF QUI_Externos_ME Português B Psicologia Química Os casos estão classificados por distrito, freguesia e autonomia: pública ou privada (colégios, cooperativas, externatos, etc). Ao longo dos exercícios usámos a classificação natural por distritos. 5

2 Estatísticas Descritivas 2.1 Medidas de Localização Na Tabela 1 apresenta-se a Média, a Mediana, o Mínimo, o Máximo e o Desvio Padrão para as variáveis contínuas. Mean Median Minimum Maximum Std.Dev. BIO_Internos_ME 105,2596 107,1250 70,0000 144,3333 15,37757 BIO_Internos_MCIF 141,6125 139,7260 121,5385 174,0000 9,44697 BIO_Externos_ME 95,0810 92,0000 36,3333 188,0000 25,09101 HIS_Internos_ME 108,7740 110,0455 50,0000 151,4737 17,23664 HIS_Internos_MCIF 132,4849 131,4286 112,8571 164,6154 9,20085 HIS_Externos_ME 86,5906 87,2727 22,3333 155,0000 25,13483 MAT_Internos_ME 78,5226 77,5908 27,2727 126,2000 16,87082 MAT_Internos_MCIF 126,4156 126,3220 110,0000 160,0000 7,09491 MAT_Externos_ME 39,7191 38,0977 16,0000 115,7500 12,50662 PTA_Internos_ME 113,1319 112,1667 70,0000 162,6190 16,30197 PTA_Internos_MCIF 127,0916 126,2500 110,0000 168,0000 9,14128 PTA_Externos_ME 92,6846 94,6667 21,3333 149,2857 19,27026 PTB_Internos_ME 121,2358 120,6850 91,6222 167,4615 12,32612 PTB_Internos_MCIF 127,0890 126,0698 110,3571 157,8571 7,67409 PTB_Externos_ME 99,4769 97,5942 65,0000 168,0000 15,44219 PSI_Internos_ME 115,2270 114,3911 79,3333 154,5714 13,17569 PSI_Internos_MCIF 140,9433 139,7895 120,0000 175,0000 10,28220 PSI_Externos_ME 98,5183 96,7789 33,0000 171,0000 19,08968 QUI_Internos_ME 113,5665 115,1250 65,5882 156,8889 18,63589 QUI_Internos_MCIF 137,7782 137,7143 112,5000 170,0000 9,47334 QUI_Externos_ME 92,4824 90,6114 31,8571 186,5000 26,86567 Tabela 1. Estatísticas descritivas para as variáveis contínuas Com base nesta tabela podemos fazer as seguintes afirmações: As médias da classificação interna final (MCIF) por disciplina são superiores às médias de exame (ME). As MCIF apresentam as variações mais baixas. Os alunos externos têm, com a excepção na matemática, uma maior dispersão nas classificações por disciplina. A média mais baixa é dos alunos externos no exame de matemática. A média mais alta é aquela obtida na classificação interna final (CIF) na disciplina de biologia. 6

O Gráfico 1 apresenta o diagrama de extermos-e-quartis para todas as médias. Recorrendo a este gráfico podemos avaliar a forma da distribuição dos dados e, sobretudo, comparar as diversas disciplinas. 200 Diagrama Extremos-e-Quartis 180 160 140 120 100 80 60 40 20 0 BIO_Internos_ME BIO_Internos_MCIF BIO_Externos_ME HIS_Internos_ME HIS_Internos_MCIF HIS_Externos_ME MAT_Internos_ME MAT_Internos_MCIF MAT_Externos_ME PTA_Internos_ME PTA_Internos_MCIF PTA_Externos_ME PTB_Internos_ME PTB_Internos_MCIF PTB_Externos_ME PSI_Internos_ME PSI_Internos_MCIF PSI_Externos_ME QUI_Internos_ME QUI_Internos_MCIF QUI_Externos_ME Median 25%-75% Non-Outlier Range Outliers Extremes Gráfico 1. Diagrama de extremos-e-quartis A observação deste gráfico permite confirmar as observações feitas anteriormente no que diz respeito à dispersão dos dados. Repare-se na existência de vários outliners e extremos. 2.2 Medidas de Assimetria e Achatamento Como vimos pela análise anterior os dados apresentam variações significativas. Procuramos agora caracterizar com maior detalhe as dispersões, calculando o coeficiente de assimetria ( skewness ) e o coeficiente de achatamento ou kurtosis (Tabela 2). Skewness Kurtosis BIO_Internos_ME 0,069443-0,466732 BIO_Internos_MCIF 0,740482 0,867869 BIO_Externos_ME 0,607394 1,179176 7

HIS_Internos_ME -0,565531 1,023818 HIS_Internos_MCIF 0,589599 0,188628 HIS_Externos_ME 0,273747 0,261604 MAT_Internos_ME 0,283999 0,376489 MAT_Internos_MCIF 1,024081 3,263339 MAT_Externos_ME 1,827731 8,409937 PTA_Internos_ME -0,089998 0,013581 PTA_Internos_MCIF 1,192468 3,339116 PTA_Externos_ME -0,335088 1,693517 PTB_Internos_ME 0,654972 1,052748 PTB_Internos_MCIF 1,242791 2,310658 PTB_Externos_ME 0,978093 3,720082 PSI_Internos_ME 0,122973 0,705108 PSI_Internos_MCIF 0,762923 0,687328 PSI_Externos_ME 0,829326 3,226119 QUI_Internos_ME -0,189541-0,068470 QUI_Internos_MCIF 0,203681 0,308535 QUI_Externos_ME 0,414437 0,440930 Tabela 2. Coeficientes de assimetria e achatamento De uma forma geral as variáveis aproximam-se da distribuição normal. Sendo a PTA_Internos_ME (Gráfico 2) aquela que fica mais próxima e a MAT_Externos_ME (Gráfico 3) mais afastada, apresentando-se ligeiramente assimétrica à direita e leptocúrtica. 90 Histograma: PTA_Internos_ME K-S d=,05137, p>.20; Lilliefors p>.20 Expected Normal 80 70 60 50 40 30 20 10 0 60 80 100 120 140 160 180 Gráfico 2. Histograma da variável PTA_Internos_ME 8

110 Histograma: MAT_Externos_ME K-S d=,10545, p<,10 ; Lilliefors p<,01 Expected Normal 100 90 80 70 60 50 40 30 20 10 0 0 20 40 60 80 100 120 2.3 Análise da Correlação Gráfico 3. Histograma da variável MAT_Externos_ME Devido ao número elevado de variáveis vamos procurar eliminar aquelas que apresentam correlações entre si. Depois de analisar a matriz de correlações identificámos os caso mais significativos, que apresentamos nos gráficos seguintes. 120 Scatterplot: MAT_Internos_ME vs MAT_Externos_Me MAT_Externos_ME = 8,2775+0,4003*MAT_Internos_ME Correlação: r = 0,5421 100 MAT_Externos_ME 80 60 40 20 0 20 40 60 80 100 120 140 MAT_Internos_ME Gráfico 4. Scatterplot: MAT_Internos_ME vs MAT_Externos_ME 9

180 Scatterplot: MAT_Internos_MCIF vs QUI_Internos_MCIF QUI_Internos_MCIF = 43,8104 + 0,7424 * MAT_Internos_MCIF Correlação: r = 0,5459 170 160 QUI_Internos_MCIF 150 140 130 120 110 100 110 120 130 140 150 160 170 MAT_Internos_MCIF Gráfico 5. Scatterplot: MAT_Internos_MCIF vs QUI_Internos_MCIF 160 Scatterplot: MAT_Internos_MCIF vs PTB_Internos_MCIF PTB_Internos_MCIF = 52,2259 + 0,5922 * MAT_Internos_MCIF Correlação: r = 0,5475 150 140 130 PTB_Internos_MCIF 120 110 100 100 110 120 130 140 150 160 170 MAT_Internos_MCIF Gráfico 6. Scatterplot: MAT_Internos_MCIF vs PTB_Internos_MCIF 10

2.4 Análise de Factores/Componentes Principais Com a análise de factores ( Factor Analysis ) procurou-se avaliar a estrutura interna das variáveis por forma a reduzir o número de variáveis do nosso caso. Depois de obter a matriz de correlações foram calculados os eigenvalues (Tabela 3). Eigenvalue % Total Cumulative Cumulative 1 4,982433 21,66275 4,98243 21,6628 2 2,120810 9,22091 7,10324 30,8837 3 1,683378 7,31903 8,78662 38,2027 4 1,536273 6,67945 10,32289 44,8821 5 1,340458 5,82808 11,66335 50,7102 6 1,327675 5,77250 12,99103 56,4827 7 1,145290 4,97952 14,13632 61,4622 8 1,019451 4,43239 15,15577 65,8946 9 0,927630 4,03318 16,08340 69,9278 10 0,849197 3,69216 16,93260 73,6200 11 0,802632 3,48970 17,73523 77,1097 12 0,727514 3,16310 18,46274 80,2728 13 0,617813 2,68614 19,08055 82,9589 14 0,603043 2,62192 19,68360 85,5809 15 0,562496 2,44564 20,24609 88,0265 16 0,506121 2,20053 20,75221 90,2270 17 0,483894 2,10389 21,23611 92,3309 18 0,387538 1,68495 21,62365 94,0159 19 0,355800 1,54695 21,97945 95,5628 20 0,323166 1,40507 22,30261 96,9679 21 0,264859 1,15156 22,56747 98,1194 22 0,229573 0,99814 22,79704 99,1176 23 0,202957 0,88242 23,00000 100,0000 Tabela 3. Eigenvalues Como se pode observar, a partir do 8º factor, os eigenvalues apresentam valores menores do que 1. No entanto, apenas conseguem explicar 65,9% da variância, o que não é significativo. O recurso a um gráfico dos eigenvalues (Gráfico 7) permite clarificar os resultados. 11

5,5 Plot of Eigenvalues 5,0 4,5 4,0 3,5 Value 3,0 2,5 2,0 1,5 1,0 0,5 0,0 Number of Eigenvalues Gráfico 7. Representação gráfica dos eigenvalues De acordo com o critério de Kaiser escolheríamos 8 factores e, de acordo com o teste de scree (proposto por Cattell), escolheríamos 13 (ponto a partir do qual as contribuições dos eigenvalues começam a ser reduzidas). No entanto, é importante referir a característica atípica dos nossos dados: existe um elevado número de variáveis e não parece haver nenhuma tendência clara. Assim, realizamos experiências com diferentes valores para o número de factores a usar, nomeadamente: 8 (Tabela 4), 13 e 14. 12

Tabela 4. Análise de factores (8) Como se pode observar pela tabela correspondente à análise com 8 factores, os resultados são demasiado dispersos para se conseguir identificar qualquer padrão. Resultados igualmente dispersos foram obtidos com 13 e 14 factores. 2.5 Selecção das Variáveis Nesta secção procurámos avaliar as relações entre as diversas variáveis, por forma a reduzir o número total de variáveis. No entanto, quer os resultados da análise de correlação, quer os resultados da análise de factores não revelaram nenhuma dependência significativa entre as variáveis. Assim, optámos por prosseguir o trabalho usando todas as variáveis iniciais. 13

3 Testes 3.1 Teste de Kolmogorov-Smirnov Este é um teste de qualidade de ajuste que permite ajuizar do grau de concordância entre uma distribuição observada e uma dada distribuição teórica. É um teste não paramétrico que não assume à partida qualquer forma conhecida de distribuição. (Marques de Sá, 1993) No nosso caso vamos realizar o teste às 21 variáveis correspondentes às médias, categorizando por distrito. Por exemplo, no Gráfico 8 apresenta-se o teste para a variável MAT_Internos_ME: Formulação das Hipóteses: H 0 : F(x) = F 0 (x) (a variável MAT_Internos_ME segue a distribuição normal) H 1 : F(a) F 0 (x) α = 5% (nível de significância do teste) 24 22 20 18 16 14 12 10 8 6 4 2 0 Histogram (Exames.sta 24v*154c) Distrito: Braga MAT_Internos_ME = 32*10*normal(x; 75,8853; 16,963) Distrito: Porto MAT_Internos_ME = 73*10*normal(x; 77,8803; 17,1305) Distrito: Viana do Castelo MAT_Internos_ME = 17*10*normal(x; 81,6222; 15,5415) Distrito: Aveiro MAT_Internos_ME = 32*10*normal(x; 80,9784; 17,0627) 10 20 30 40 50 60 70 80 90 100 110 120 130 140 10 20 30 40 50 60 70 80 90 100 110 120 130 140 24 22 20 18 16 14 12 10 8 6 4 2 0 Distrito: Braga 10 20 30 40 50 60 70 80 90 100 110 120 130 140 Distrito: Porto 10 20 30 40 50 60 70 80 90 100 110 120 130 140 Distrito: Viana do Castelo MAT_Internos_ME Distrito: Aveiro Gráfico 8. Teste K-S para a variável MAT_Internos_ME (por distrito) 14

Distrito: Braga MAT_Internos_ME: D = 0,0985277312, p < n.s., Lilliefors-p < 1 Distrito: Porto MAT_Internos_ME: D = 0,0988045169, p < n.s., Lilliefors-p < 0,100000001 Distrito: Viana do Castelo MAT_Internos_ME: D = 0,181757685, p < n.s., Lilliefors-p < 0,150000006 Distrito: Aveiro MAT_Internos_ME: D = 0,114146601, p < n.s., Lilliefors-p < 1 Observando os resultados vemos que a hipótese nula não é rejeitada em nenhum dos distritos, pelo que a variável MAT_Internos_ME segue uma distribuição Normal. Na Tabela 5 apresentamos os resultados dos testes para todas as outras variáveis. Variáveis Braga Porto Viana do Castelo Aveiro p p p p D 5 D D D K-S 6 L 7 K-S L K-S L K-S L H 4 BIO_Internos_ME 0,073 <n.s. 8 <1 0,101 <n.s. <0,1 0,153 <n.s. <1 0,159 <n.s. <0,05 H 1 BIO_Internos_MCIF 0,144 <n.s. <0,15 0,081 <n.s. <1 0,146 <n.s. <1 0,124 <n.s. <1 H 0 BIO_Externos_ME 0,079 <n.s. <1 0,095 <n.s. <0,1 0,078 <n.s. <1 0,158 <n.s. <0,05 H 1 HIS_Internos_ME 0,135 <n.s. <0,2 0,111 <n.s. <0,05 0,154 <n.s. <1 0,101 <n.s. <1 H 1 HIS_Internos_MCIF 0,099 <n.s. <1 0,095 <n.s. <0,15 0,13 <n.s. <1 0,115 <n.s. <1 H 0 HIS_Externos_ME 0,09 <n.s. <1 0,075 <n.s. <1 0,19 <n.s. <0,15 0,087 <n.s. <1 H 0 MAT_Internos_ME 0,099 <n.s. <1 0,099 <n.s. <0,1 0,182 <n.s. <0,15 0,114 <n.s. <1 H 0 MAT_Internos_MCIF 0,109 <n.s. <1 0,104 <n.s. <0,1 0,094 <n.s. <1 0,102 <n.s. <1 H 0 MAT_Externos_ME 0,222 <0,1 <0,01 0,075 <n.s. <1 0,2 <n.s. <0,1 0,146 <n.s. <0,1 H 1 PTA_Internos_ME 0,12 <n.s. <1 0,05 <n.s. <1 0,13 <n.s. <1 0,143 <n.s. <0,15 H 0 PTA_Internos_MCIF 0,115 <n.s. <1 0,098 <n.s. <0,1 0,138 <n.s. <1 0,139 <n.s. <0,15 H 0 PTA_Externos_ME 0,127 <n.s. <1 0,099 <n.s. <0,1 0,128 <n.s. <1 0,138 <n.s. <0,15 H 0 PTB_Internos_ME 0,166 <n.s. <0,05 0,086 <n.s. <1 0,121 <n.s. <1 0,145 <n.s. <0,1 H 1 PTB_Internos_MCIF 0,21 <0,1 <0,01 0,108 <n.s. <0,05 0,22 <n.s. <0,05 0,154 <n.s. <0,1 H 1 PTB_Externos_ME 0,165 <n.s. <0,05 0,071 <n.s. <1 0,149 <n.s. <1 0,087 <n.s. <1 H 1 PSI_Internos_ME 0,143 <n.s. <0,15 0,086 <n.s. <1 0,095 <n.s. <1 0,123 <n.s. <1 H 0 PSI_Internos_MCIF 0,17 <n.s. <0,05 0,089 <n.s. <0,2 0,183 <n.s. <0,15 0,117 <n.s. <1 H 1 PSI_Externos_ME 0,133 <n.s. <0,2 0,152 <0,1 <0,01 0,155 <n.s. <1 0,131 <n.s. <0,2 H 1 QUI_Internos_ME 0,103 <n.s. <1 0,054 <n.s. <1 0,161 <n.s. <1 0,137 <n.s. <0,15 H 0 QUI_Internos_MCIF 0,124 <n.s. <1 0,068 <n.s. <1 0,113 <n.s. <1 0,074 <n.s. <1 H 0 QUI_Externos_ME 0,084 <n.s. <1 0,09 <n.s. <1 0,168 <n.s. <1 0,139 <n.s. <0,15 H 0 Tabela 5. Testes de normalidade (K-S e L) No total das 21 variáveis analisadas, em 9 delas foi rejeitada a hipótese nula (distribuição normal) com 95% de confiança. 4 Hipótese: H 0 Aceite, segue a distribuição normal; H 1 Rejeitada, não segue a distribuição normal. 5 Desvio máximo (max F 0 (x) F(x) ). 6 Valor de p no Teste de Kolmogorov-Smirnov. 7 Valor de p no Teste de Lillefors. 8 Não significativo. 15

De seguida vamos aplicar o teste ANOVA às variáveis cuja a hipótese 0 não foi rejeitada e o teste de Kruskal-Wallis às restantes. 3.2 Teste ANOVA Recorrendo ao teste de Análise de Variância (ANOVA) para categorias fixas e usando uma variável de classificação (Distrito), podemos inferir sobre a igualdade das médias em cada uma das populações (distritos). Assim, temos a seguinte hipótese nula: H 0 : µ Braga = µ Porto = µ Viana = µ Aveiro H1: ~H 0 α = 5% (nível de significância do teste) Na Tabela 6 são apresentados os resultados do teste. SS df MS SS df MS F p BIO_Internos_MCIF 1192,447 3 397,482 12015,9 145 82,8680 4,796571 0,003241 HIS_Internos_MCIF 424,002 3 141,334 12359,0 148 83,5067 1,692488 0,171133 HIS_Externos_ME 6137,120 3 2045,707 81045,7 135 600,3385 3,407588 0,019521 MAT_Internos_ME 608,994 3 202,998 42938,5 150 286,2570 0,709146 0,547977 MAT_Internos_MCIF 68,977 3 22,992 7632,7 150 50,8847 0,451852 0,716364 PTA_Internos_ME 581,216 3 193,739 38750,4 145 267,2442 0,724950 0,538654 PTA_Internos_MCIF 340,568 3 113,523 12026,8 145 82,9432 1,368680 0,254755 PTA_Externos_ME 164,376 3 54,792 54051,7 143 377,9839 0,144958 0,932767 PSI_Internos_ME 217,122 3 72,374 25996,3 148 175,6505 0,412034 0,744596 QUI_Internos_ME 217,349 3 72,450 51877,1 147 352,9056 0,205295 0,892603 QUI_Internos_MCIF 115,007 3 38,336 13346,6 147 90,7934 0,422231 0,737331 QUI_Externos_ME 1487,195 3 495,732 107499,2 148 726,3460 0,682501 0,564082 Tabela 6. Análise de variância (ANOVA) Observa-se que para as variáveis BIO_Internos_MCIF e HIS_Externos_ME a hipótese nula é rejeitada com 95% de confiança, isto é, as médias não são igual em todos os distritos. Para as restantes variáveis as médias são iguais nos 4 distritos (a hipótese nula não é rejeitada). Usando o teste LSD (equivalente ao t-test para amostras independentes e baseado no número de elementos de cada grupo), é possível identificar as diferenças mais significativas entre os distritos. No caso da variável BIO_Internos_MCIF (Tabela 7) verificámos que as principais diferenças são ao nível do Braga e Porto, enquanto que a 16

variável HIS_Externos_ME (Tabela 8) apresenta diferenças significativas nos distritos de Viana e Aveiro. {1} M=140 {2} M=144,4 {3} M=141,3 {4} M=137,4 Braga {1} 0,025606 0,626391 0,264628 Porto {2} 0,025606 0,210681 0,000437 Viana do Castelo {3} 0,626391 0,210681 0,154611 Aveiro {4} 0,264628 0,000437 0,154611 Tabela 7. Teste LSD para a variável BIO_Internos_MCIF (por Distrito) {1} M=77,9 {2} M=84,8 {3} M=100,4 {4} M=91,9 Braga {1} 0,204801 0,004422 0,029093 Porto {2} 0,204801 0,028009 0,191296 Viana do Castelo {3} 0,004422 0,028009 0,275358 Aveiro {4} 0,029093 0,191296 0,275358 Tabela 8. Teste LSD para a variável HIS_Externos_ME (por Distrito) Os gráficos de extremos-e-quartis permitem confirmar visualmente estas afirmações (Gráfico 9 e Gráfico 10). 148 Categ. Box & Whisker Plot: BIO_Internos_MCIF 146 144 BIO_Internos_MCIF 142 140 138 136 134 Braga Viana do Castelo Porto Aveiro Distrito Mean ±SE ±1,96*SE Gráfico 9. Diagrama de extremos-e-quartis para a variável BIO_Internos_MCIF (por Distrito) 17

120 Categ. Box & Whisker Plot: HIS_Externos_ME 110 HIS_Externos_ME 100 90 80 70 60 Braga Viana do Castelo Porto Aveiro Distrito Mean ±SE ±1,96*SE Gráfico 10. Diagrama de extremos-e-quartis para a variável HIS_Externos_ME (por Distrito) 3.3 Teste de Kruskal-Wallis O teste de Kruskal-Wallis é uma versão não paramétrica do ANOVA para dados independentes, é o mais potente dos testes não paramétricos para dados independentes. A hipótese nula é a das medianas de c populações serem iguais. (Marques de Sá, 1993) Por outras palavras, com este teste verifica-se a hipótese das diferentes amostras terem sido obtidas a partir da mesma distribuição, ou a partir de distribuições com a mesma mediana. Na Tabela 9 apresenta-se um sumário dos resultados do teste para as 9 variáveis. BIO_Internos_ME H ( 3, N= 149) =16,38118 p =,0009 BIO_Externos_ME H ( 3, N= 153) =7,960567 p =,0468 HIS_Internos_ME H ( 3, N= 152) =1,396456 p =,7064 MAT_Externos_ME H ( 3, N= 152) =,6068055 p =,8949 PTB_Internos_ME H ( 3, N= 154) =,9824999 p =,8055 PTB_Internos_MCIF H ( 3, N= 154) =1,398851 p =,7058 PTB_Externos_ME H ( 3, N= 148) =1,505012 p =,6811 PSI_Internos_MCIF H ( 3, N= 152) =1,497226 p =,6829 PSI_Externos_ME H ( 3, N= 152) =1,417075 p =,7015 Tabela 9. Teste de Kruskal-Wallis - Sumário 18

O resultado do teste para a variável BIO_Internos_ME apresenta um nível de significância muito elevado (p=,0009), no caso da variável BIO_Externos_ME a hipótese nula também é rejeitada (0,0468<0,05). Para as restantes variáveis a hipótese nula não é rejeitada. O teste de Kruskal-Wallis (Tabela 10) e o diagrama de Extremos-e-quartis (Gráfico 11) para a variável BIO_Internos_ME é apresentado de seguida. Code Valid Sum of Braga 101 31 2180,500 Porto 102 69 5660,500 Viana do Castelo 103 17 640,000 Aveiro 104 32 2694,000 Tabela 10. Teste de Kruskal-Wallis para a variável BIO_Internos_ME (por Distrito) 150 Boxplot by Group Variable: BIO_Internos_ME 140 130 BIO_Internos_ME 120 110 100 90 80 70 60 Braga Viana do Castelo Porto Aveiro Distrito Median 25%-75% Min-Max Gráfico 11. Diagrama de extremos-e-quartis para a variável BIO_Internos_ME (por Distrito) Concluindo, as variáveis BIO_Internos_ME e BIO_Externos_ME apresentam valores diferentes em função do distrito, sendo isso mais evidente na primeira. 19

4 Classificação de Dados Nesta secção procuramos, recorrendo a técnicas de classificação estatística, discriminar em classes (distritos) os casos (escolas), observando as características destes. Vamos procurar identificar as variáveis que melhor caracterizam cada escola tendo em vista a discriminação por distritos. Experimentámos técnicas de selecção sequencial em frente e para trás. 4.1 Forward Stepwise Na selecção sequencial em frente, vão sendo acrescentadas, uma a uma, por ordem crescente de capacidade discriminante as características seleccionadas para análise. O algoritmo termina quando é identificada a primeira característica que não tem capacidade discriminante. Os resultados são apresentados na Tabela 11 e Tabela 12. Wilks' Partial F-remove p-level Toler. 1-Toler. BIO_Internos_ME 0,585392 0,912080 3,438106 0,019503 0,857519 0,142481 BIO_Internos_MCIF 0,558319 0,956308 1,629544 0,186851 0,814358 0,185641 HIS_Externos_ME 0,571097 0,934911 2,483148 0,064776 0,871930 0,128070 BIO_Externos_ME 0,576309 0,926456 2,831298 0,041839 0,773826 0,226174 PTA_Internos_MCIF 0,589597 0,905575 3,718975 0,013703 0,661824 0,338176 HIS_Internos_MCIF 0,588865 0,906701 3,670101 0,014570 0,795323 0,204677 MAT_Internos_ME 0,566340 0,942763 2,165385 0,096368 0,719479 0,280521 PTA_Internos_ME 0,557803 0,957192 1,595096 0,194876 0,760908 0,239092 PSI_Internos_MCIF 0,561593 0,950732 1,848282 0,142824 0,717756 0,282244 QUI_Internos_MCIF 0,549733 0,971243 1,056036 0,371038 0,671531 0,328469 Tabela 11. Variáveis incluídas no modelo usando selecção sequencial em frente Wilks' Partial F to p-level Toler. 1-Toler. HIS_Internos_ME 0,523055 0,979643 0,734232 0,533852 0,690700 0,309300 MAT_Internos_MCIF 0,523531 0,980534 0,701468 0,553216 0,518591 0,481409 MAT_Externos_ME 0,531797 0,996015 0,141351 0,934990 0,573698 0,426302 PTA_Externos_ME 0,526584 0,986252 0,492527 0,688223 0,746668 0,253331 PTB_Internos_ME 0,523277 0,980059 0,718919 0,542838 0,805274 0,194726 PTB_Internos_MCIF 0,533495 0,999196 0,028450 0,993495 0,609796 0,390204 PTB_Externos_ME 0,525946 0,985057 0,535991 0,658622 0,882641 0,117360 PSI_Internos_ME 0,530170 0,992969 0,250206 0,861033 0,738744 0,261256 20

PSI_Externos_ME 0,530291 0,993196 0,242074 0,866802 0,864109 0,135891 QUI_Internos_ME 0,532396 0,997137 0,101452 0,959020 0,629441 0,370559 QUI_Externos_ME 0,532662 0,997634 0,083778 0,968750 0,746404 0,253596 Tabela 12. Variáveis excluídas do modelo usando selecção sequencial em frente Avaliando o modelo criado, verificamos que a capacidade de classificação é baixa (Tabela 13). Em relação ao distrito do Porto, apenas 67,8% dos casos foram correctamente classificados e para os restantes distritos a taxa de sucesso fica abaixo dos 50%. Percent Braga Porto Viana do Castelo Aveiro Braga 37,50000 9 11 0 4 Porto 67,79661 3 40 6 10 Viana do Castelo 40,00000 4 3 6 2 Aveiro 48,27586 4 11 0 14 Total 54,33071 20 65 12 30 Tabela 13. Matriz de classificação (selecção sequencial em frente) Concluindo, não foi possível obter um classificador com resultados satisfatórios. 4.2 Backward Stepwise No método de selecção sequencial para trás, vão sendo retiradas, uma a uma, por ordem decrescente de capacidade discriminante as características seleccionadas para análise. O algoritmo termina quando é identificada a primeira característica sem capacidade discriminante. Seguindo este algoritmo, nenhuma variável foi seleccionada. Podemos observar, na tabela com os valores não incluídos (Tabela 14) (neste caso todos), os elevados valores de Wilk s lambda (muito próximos de 1), o que traduz o fraco poder discriminatório das variáveis. Wilks' Partial F to p-level Toler. 1-Toler. QUI_Internos_ME 0,990779 0,990779 0,359883 0,782081 1,000000 0,00 PTB_Internos_MCIF 0,984243 0,984243 0,619033 0,604052 1,000000 0,00 PSI_Externos_ME 0,991142 0,991142 0,345578 0,792407 1,000000 0,00 MAT_Externos_ME 0,981486 0,981486 0,729373 0,536486 1,000000 0,00 QUI_Externos_ME 0,991520 0,991520 0,330701 0,803158 1,000000 0,00 PSI_Internos_ME 0,995234 0,995234 0,185156 0,906310 1,000000 0,00 PTA_Externos_ME 0,986073 0,986073 0,546102 0,651745 1,000000 0,00 21

PTB_Externos_ME 0,972907 0,972907 1,076778 0,361830 1,000000 0,00 MAT_Internos_MCIF 0,991703 0,991703 0,323505 0,808359 1,000000 0,00 PTB_Internos_ME 0,980482 0,980482 0,769706 0,513242 1,000000 0,00 HIS_Internos_ME 0,949325 0,949325 2,064022 0,108810 1,000000 0,00 QUI_Internos_MCIF 0,995450 0,995450 0,176751 0,911960 1,000000 0,00 PSI_Internos_MCIF 0,979706 0,979706 0,800942 0,495784 1,000000 0,00 PTA_Internos_ME 0,977521 0,977521 0,889173 0,449030 1,000000 0,00 MAT_Internos_ME 0,971783 0,971783 1,122738 0,342874 1,000000 0,00 BIO_Internos_MCIF 0,915626 0,915626 3,563081 0,016415 1,000000 0,00 HIS_Externos_ME 0,924338 0,924338 3,165085 0,027169 1,000000 0,00 BIO_Externos_ME 0,904847 0,904847 4,066166 0,008691 1,000000 0,00 HIS_Internos_MCIF 0,941373 0,941373 2,408093 0,070690 1,000000 0,00 PTA_Internos_MCIF 0,943406 0,943406 2,319561 0,079012 1,000000 0,00 BIO_Internos_ME 0,887661 0,887661 4,893490 0,003070 1,000000 0,00 Tabela 14. Variáveis excluídas do modelo usando selecção sequencial para trás Concluindo, neste caso, não foi possível produzir nenhum modelo. 22

5 Aglomeração de Dados 5.1 Aglomeração Hierárquica Aplicámos os mecanismos de aglomeração hierárquica nos 154 casos utilizando as 21 variáveis associadas às médias nas disciplinas (todas na mesma escala 0-200). Foram testados vários critérios na aplicação dos algoritmos de aglomeração hierárquica, nomeadamente: Single e Complete Linkage Unweighted e Weighted pair-group average Unweighted e Weightef pair-group centroid Ward Depois de analisar cada um dos resultados, optamos por seleccionar o critério de Ward com distâncias Euclidianas (Gráfico 12). Tree Diagram for 120 Cases Ward`s method Euclidean distances 0 200 400 600 800 1000 Linkage Distance Gráfico 12. Aglomeração das escolas usando o critério de Ward Apesar de ser possível identificar no gráfico alguns agrupamentos, uma análise detalhada não revelou nenhum padrão coerente. Procurámos semelhanças ao nível da 23

localização geográfica (conselho/distrito, litoral/interior), no tipo de autonomia da escola (pública, privada), nas médias nas disciplinas, mas não identificamos nenhuma característica comum nos casos agrupados. De notar que, mesmo isolando as características mais discriminantes (identificadas na secção anterior), os resultados são semelhantes a estes. Depois de aplicar a aglomeração hierárquica aos casos, procurámos estudar as relações entre as variáveis usando este método. Os resultados da aplicação do critério de Ward, usando distâncias Euclidianas, às variáveis associadas às médias, são apresentados no Gráfico 13. BIO_Internos_ME HIS_Internos_ME QUI_Internos_ME PTA_Internos_ME PTB_Internos_ME PSI_Internos_ME BIO_Externos_ME HIS_Externos_ME MAT_Internos_ME QUI_Externos_ME PTA_Externos_ME PTB_Externos_ME PSI_Externos_ME MAT_Externos_ME BIO_Internos_MCIF PSI_Internos_MCIF QUI_Internos_MCIF HIS_Internos_MCIF MAT_Internos_MCIF PTB_Internos_MCIF PTA_Internos_MCIF Tree Diagram for Variables Ward`s method Euclidean distances 0 500 1000 1500 2000 Linkage Distance Gráfico 13. Aglomeração das variáveis usando o critério de Ward Neste caso é possível identificar com grande clareza a lógica dos agrupamentos. As médias foram agrupadas de acordo com a natureza do aluno (interno/externo) e da classificação (exame ou interna final). Destacam-se duas situações anormais : as médias de matemática dos alunos internos e dos alunos externos. Em particular a variável MAT_Externos_ME encontra-se relativamente afastada do seu grupo natural. 24

5.2 Algoritmo das C-Médias De acordo com os resultados anteriores, experimentámos vários valores para o número de clusters a criar pelo algoritmo das C-Médias, nomeadamente: 2, 3 e 4. Os resultados mais satisfatórios foram aqueles obtidos com 2 clusters (Gráfico 14). É possível constatar que o cluster 2 apresenta notas mais elevadas do que o cluster 1, de uma forma consistente (apenas duas excepções). 180 Plot of Means for Each Cluster 160 140 120 100 80 60 40 20 0 BIO_Internos_MCIF HIS_Internos_ME HIS_Externos_ME MAT_Internos_MCIF PTA_Internos_ME PTA_Externos_ME Variables PTB_Internos_MCIF PSI_Internos_ME PSI_Externos_ME QUI_Internos_MCIF Cluster 1 Cluster 2 Gráfico 14. C-Médias: Gráfico das médias para cada aglomerado Between df Within df F signif. BIO_Internos_ME 922,58 1 25442,46 118 4,27884 0,040774 BIO_Internos_MCIF 38,87 1 9319,33 118 0,49215 0,484351 BIO_Externos_ME 4820,23 1 64335,57 118 8,84095 0,003572 HIS_Internos_ME 2317,84 1 33003,69 118 8,28713 0,004742 HIS_Internos_MCIF 662,52 1 8642,29 118 9,04593 0,003218 HIS_Externos_ME 7819,00 1 64736,29 118 14,25231 0,000252 MAT_Internos_ME 10382,38 1 23571,24 118 51,97523 0,000000 MAT_Internos_MCIF 881,41 1 3164,71 118 32,86435 0,000000 MAT_Externos_ME 3005,20 1 9267,65 118 38,26366 0,000000 PTA_Internos_ME 3099,22 1 23717,40 118 15,41942 0,000145 PTA_Internos_MCIF 277,84 1 6850,17 118 4,78604 0,030663 25

PTA_Externos_ME 7505,48 1 27436,74 118 32,27958 0,000000 PTB_Internos_ME 2619,12 1 9365,53 118 32,99935 0,000000 PTB_Internos_MCIF 277,40 1 3411,39 118 9,59517 0,002438 PTB_Externos_ME 3819,24 1 21612,34 118 20,85248 0,000012 PSI_Internos_ME 2106,81 1 14088,98 118 17,64522 0,000052 PSI_Internos_MCIF 576,37 1 9108,98 118 7,46643 0,007253 PSI_Externos_ME 1185,30 1 27575,13 118 5,07215 0,026163 QUI_Internos_ME 13393,81 1 24034,20 118 65,75922 0,000000 QUI_Internos_MCIF 1804,17 1 7482,99 118 28,45007 0,000000 QUI_Externos_ME 24423,77 1 46720,45 118 61,68615 0,000000 Tabela 15. C-Médias: Análise de variância A observação das escolas seleccionadas para cada cluster não revela nenhuma característica comum entre elas. Analisando a variância associada a cada variável (Tabela 15), é possível afirmar que as variáveis mais determinantes para a criação dos clusters foram: MAT_Internos_ME, QUI_Internos_ME e QUI_Externos_ME, pois apresentam os valores mais elevados de F. 26

6 Conclusão A principal conclusão que advém do nosso trabalho é o facto de não haver diferenças significativas entre as escolas em função dos distritos, freguesia ou autonomia. Verificou-se que não é possível fazer uma discriminação tendo por base as médias das diversas disciplinas e tipos de alunos. Pode afirmar-se que as escolas, nos distritos seleccionados e observando as médias, não apresentam diferenças significativas entre elas. Por outro lado, é possível identificar diferenças significativas nas médias em função do tipo de aluno e exame. Os ensaios de aglomeração nas variáveis separaram as médias em três grupos: as dos alunos internos no exame, as dos alunos internos na classificação interna final e as dos alunos externos. É interessante verificar que os alunos externos apresentam médias mais baixas que os alunos internos para o mesmo exame. Observando o caso dos alunos internos, verifica-se que a média do exame final é inferior à média da CIF. Isto é, na mesma disciplina, os alunos têm notas mais baixas no exame nacional do que na escola no final do ano lectivo. Foi também possível identificar a situação de excepção do exame de matemática, cuja média se situa (sobretudo nos alunos externos) significativamente abaixo do esperado. Outra situação interessante é a elevada variância que se observa nas médias a cada disciplina. Em relação aos objectivos da disciplina, este trabalho permitiu aplicar num caso concreto as técnicas exploradas durante as aulas de Análise Matemática e aprofundar os conhecimentos sobre a aplicação STATISTICA. Foi possível, desta forma, confirmar as potencialidades da ferramenta na análise de dados. 27

7 Referências Marques de Sá, J. P. Análise de Dados. DEEC (1993). Sebenta da disciplina com o mesmo nome do Mestrado em Gestão de Informação da FEUP, edição 2001-2002. 28

8 Bibliografia Campos Guimarães, R., Sarsfield Cabral, J. Estatística. McGraw-Hill (1998). 29