RECOLHA, TRATAMENTO E APRESENTAÇÃO DE DADOS: elementos chave Carla Patrocínio Núcleo de Estatística e Prospectiva
INTRODUÇÃO À TEMÁTICA apenas discutir alguns aspetos essenciais sobre recolha e apresentação de dados sensibilizar para a interpretação do universo de números que nos rodeia diariamente com exemplos práticos em nada substitui a aprendizagem académica e cientifica sobre a estatística 2
INTRODUÇÃO À TEMÁTICA O nosso mundo é repleto de números, estatísticas, dados As estatísticas são um instrumento poderoso de conhecimento da sociedade, essenciais à tomada de decisão, à definição e avaliação de estratégias e até ao próprio debate político Aníbal Cavaco Silva, Presidente da República, 2007 mas podem ser (in)devidamente usadas A fronteira para o terreno da manipulação é mínima e, pior, na maioria dos casos é, também, invisível. António Gomes Mota, Artigo de Opinião no Diário Económico de 28/05/2009 Exemplo (banal): uma família tem um frango, outra não tem nenhum em média cada uma tem meio frango e 50% tem 1 frango 3
INTRODUÇÃO À TEMÁTICA Neste workshop vamos: Sensibilizar para a necessidade do conhecimento do assunto sobre o qual vamos falar, estudar, apresentar Discutir a razão pela qual a recolha e o tratamento de dados é essencial e tipicamente uma das partes de um trabalho que demora tanto tempo a realizar! Genericamente perceber que tipos de dados com que usualmente nos confrontamos e alternativas para os tratar Por fim, debater um pouco alternativas para apresentação de resultados e a forma como elas influenciam a mensagem a transmitir No fim deste workshop, vamos tentar ser mais críticos sobre o tsunami de números que fazem parte da nossa vida 4
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Quando o nosso trabalho (profissional/académico) envolve a análise, tratamento e apresentação de resultados é essencial o conhecimento do assunto que vamos tratar Porque razão é tão importante este conhecimento? 5
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Exemplo 1: Taxa de desemprego por sexo (%) 6
7
Fonte: PORDATA (http://www.pordata.pt/) Análise prévia da forma como são calculadas e as mudanças ocorridas no tempo na forma de apuramento, permite explicar descontinuidades das series em análise 8
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Exemplo 2: ainda o desemprego. Dados sobre a taxa de desemprego e o nº de desempregados vêm todas da mesma fonte? São comparaveis? Aprofundamento dos vários conceitos sobre a mesma temática é essencial 9
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Exemplo 3:? 10
Nº Publicações Científicas A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Exemplo 4: A (cor)relação entre variáveis Indicador Fontes de Dados: Fonte: Última atualização: Publicações científicas DGEEC/MEC a partir de Thomson Reuters - InCitesTM, Thomson Reuters (2013) INE - Estatísticas de Casamentos Casamentos PORDATA 21-02-2014 PORDATA 30-04-2013 Nº Casamentos 11
Nº Casamentos A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Exemplo 5: A (cor)relação entre variáveis (cont.) Indicador Fontes de Dados: Fonte: Última atualização: Gasolina Super com Chumbo ou Aditiva (Euro/litro) Casamentos DGEG/MEE PORDATA 11-03-2014 INE - Estatísticas de Casamentos PORDATA 30-04-2013 Nem todas as variáveis aparentemente correlacionadas estão de facto relacionadas, e só com um conhecimento efetivo do tema e dos eventos subjacentes se podem selecionar as variáveis adequadas (e explicáveis ) e perceber o que faz ou sentido. Preço Gasolina Super com Chumbo ou Aditiva (Euro/litro) 12
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Exemplo 6: Nº Alunos do IST 2012/13 Nº Alunos do IST de 1º e 2º ciclo com vista à obtenção de um grau 10143 Nº Alunos do IST de 1º-3º ciclo (incluindo alunos em programas de intercâmbio) 11778? 10689 Nº Alunos do IST de 1º e 2º ciclo (incluindo alunos em programas de intercâmbio) 11232 Nº Alunos do IST de 1º, 2º e 3º ciclo com vista à obtenção de um grau 13
A IMPORTÂNCIA DA DEFINIÇÃO DO OBJETO DE ESTUDO E DOS OBJETIVOS A ALCANÇAR Em suma, é necessário (ESSENCIAL) conhecermos bem o assunto sobre o qual vamos nos vamos debruçar, não só para podermos explicar as descontinuidades e justificarmos as inflexões (ou a estabilidade das séries), como também para pedirmos os dados que efetivamente precisamos e chegarmos à confirmação ou infirmação da nossa hipótese de trabalho (ou meramente para ganharmos uma discussão entre amigos!) 14
MECANISMOS DE RECOLHA DE DADOS E FONTES DE INFORMAÇÃO Hoje em dia vivemos na era da informação e com o acesso facilitado a dados, a informação A internet permite rapidamente aceder a um conjunto vasto de informação, a bases de dados bastante completas A grande questão hoje em dia consiste em selecionar a informação que se pretende (se já existe), estabelecer mecanismos de relacionar as várias fontes de informação, e como complementar, se possível, os elementos que dispomos 15
MECANISMOS DE RECOLHA DE DADOS E FONTES DE INFORMAÇÃO Fontes de informação devem ser oficiais e fidedignas. Exemplos mais genéricos: INE Instituto Nacional Estatística DGEEC - Direcção-Geral de Estatísticas da Educação e Ciência DGES - Direção-Geral de Ensino Superior PORDATA Eurostat Eurydice Network OECD - Organisation for Economic Co-operation and Development. Podemos usar outras Fontes de informação (e.g. dados recolhidos nos websites das instituições), mas apenas para controle da nossa informação oficial e perceber as variações possíveis 16
MECANISMOS DE RECOLHA DE DADOS E FONTES DE INFORMAÇÃO Relação entre as várias fontes de informação: idealmente ter um identificador único que permita estabelecer essa ligação (numérico ou alfanumérico e sem espaços) Por exemplo: Existe um identificador do concelho (código)????? Dados Exames Português por Concelho (JNE) É o mesmo em ambas as fontes???? E se não for ou não existir?? Podemos relacionar através do nome? Densidade Populacional e Nº Escolas por Concelho (INE) Então e os acentos? Espaços? Mais que um concelho com o mesmo nome Não tendo.conforme a dimensão das bases de dados e tempo/recursos disponíveis relacionar manualmente! ( particular atenção com o volume de erros de imputação associado ) 17
MECANISMOS DE RECOLHA DE DADOS E FONTES DE INFORMAÇÃO Forma complementar de recolher informação: inquérito Existem vários tipos de inquérito, várias formas de conduzir os inquéritos, as quais não são objeto deste workshop, mas em qualquer formato adotado existem aspetos chave: Definir o público-alvo e a viabilidade de obtenção da base de dados dos contactos (e, por conseguinte, a viabilidade de aplicabilidade do inquérito) Definir muito claramente os objetivos do inquérito e se o seu conteúdo responde na integra às hipóteses de trabalho em análise (se nos esquecermos de uma pergunta, não vamos voltar a aplicar um inquérito só com essa questão) Caso existam outras fontes de informação, avaliar se poderemos posteriormente relacionar com a informação que estamos a recolher via inquérito, ou se esta pode servir de base para reduzir o tamanho do inquérito (anonimato, aumento taxa de resposta) Independentemente do mecanismo de aplicação do inquérito (online, papel, entrevistas), é importante salvaguardar a correta imputação dos dados recolhidos mas sobre isto falaremos mais adiante! 18
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA INFORMAÇÃO Tipos de dados e tratamento a fazer. Tipos mais comummente usados: Quantitativas: discretas, contínuas Qualitativas: nominais/categóricas e ordinais O tipo de dados deve determinar o tratamento e os indicadores a construir: As variáveis discretas deve ter-se algum cuidado com os indicadores a construir (vamos ver um exemplo mais adiante) As variáveis contínuas têm um leque maior de indicadores possíveis, podendo inclusive ser agregadas para facilitar a apresentação do seu conteúdo (embora se perca a riqueza da informação disponível) Se as variáveis foram nominais/categóricas, mesmo codificadas com um código numérico, não se devem calcular algumas medidas No caso das ordinais e tratando-se de uma escala de likert com vários pontos por vezes usa-se a média como apoio à interpretação, mas requer algum cuidado (especialmente em trabalhos de investigação) Em qualquer uma das situações é extremamente importante saber a escala de cada variável, não só para perceber potenciais erros na análise ou na prévia imputação dos dados, como também um melhor entendimento dos resultados 19
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA INFORMAÇÃO Vários softwares tratamento dados (SPSS, R, SAS, STATA, Excel, etc.), consoante as necessidades, alguns podem ser mais uteis ou potentes Em qualquer um dos softwares existem alguns aspetos a ter cuidado: sort s (sem incluir todas as colunas), filtros, imputação de dados, find/replace s Um ponto que é independente do software usado é a importância de uma análise exploratória de todas as variáveis envolvidas na análise. Deteção de erros imputação de dados, outliers, compreensão e explicação do fenómeno em estudo 20
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA INFORMAÇÃO Exemplo 1: Estudar os resultados das aprovações em 3 exames da mesma disciplina Indicadores Exame 1 Exame 2 Exame 3 Escala dos resultado s: [10;20] Minimo 10 10 10 Máximo 20 20 20 Média 16 16 16 Mediana 17 15 16 Desvio padrão 2,0 1,9 2,7 Exame 2 Exame 3 Exame 1 21
Tempo (em minutos) demorado no trajeto entre salas de aula TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA INFORMAÇÃO Exemplo 2: Analisar a distribuição da variável (fictícia) Tempo (em minutos) demorado no trajeto entre salas de aula Curso A Curso B 22
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA INFORMAÇÃO Exemplo 3: Analisar os resultados de um questionário com 3 perguntas Escala dos Resultados em cada pergunta: 1 - Pouco Satisfeito 2 Satisfeito 3 - Muito satisfeito Indivíduo Pergunta 1 Pergunta 2 Pergunta 3 A1 1 1 3 A2 1 1 2 A3 2 2 1 A4 2 2 1 A5 2 2 1 A6 5 2 1 A7 3 2 3 A8 3 3 1 A9 3 3 1 A10 3 3 3 N 10 10 10 Minimo 1 1 1 Máximo 5 3 3 Média 2,5 2,1 1,7 Mediana 2,5 2 1 Desvio Padrão 1,1 0,7 0,9 Moda 3 2 1 % Pouco Satisfeito 20% 20% 60% % Satisfeito 30% 50% 10% % Muito Satisfeito 40% 30% 30% 23
TIPOS DE DADOS E METODOLOGIAS DE TRATAMENTO DA INFORMAÇÃO Os cuidados a ter com os dados com os quais vamos trabalhar revelam-se de elevada importância, assim como o tratamento que lhe fazemos 24
APRESENTAÇÃO DE RESULTADOS Existem muitas formas de apresentar os resultados As mais comuns: gráficos e tabelas! As tabelas tipicamente são mais monótonas do ponto de vista do grafismo, e não permitem facilmente analisar tendências Os gráficos, quando bem construídos, podem ser importantes para apresentar uma tendência, ou evidenciar um resultado, ou simplesmente uma forma mais atrativa de apresentar resultados Qualquer uma destas formas pode influenciar/manipular a interpretação dos resultados 25
APRESENTAÇÃO DE RESULTADOS Exemplo 1: Analisar a % mulheres praticantes em cada desporto Modalidade % Mulheres Modalidade Total Praticantes Nº Mulheres % Mulheres Desporto 1 33% Desporto 2 0% Desporto 3 80% Desporto 4 7% Desporto 5 100% Desporto 6 100% Desporto 1 15 5 33% Desporto 2 3 0 0% Desporto 3 150 120 80% Desporto 4 30 2 7% Desporto 5 50 50 100% Desporto 6 1 1 100% Tamanho bolha = Nº Mulheres 26
APRESENTAÇÃO DE RESULTADOS Exemplo 2: Análise Satisfação Utentes de um serviço com base em 6 perguntas, ao qual responderam 180 participantes 27
APRESENTAÇÃO DE RESULTADOS Exemplo 3: Inquérito sobre o Algarve, com 250 respondentes Pergunta 7 - Escolha de entre as seguintes opções as razões para fazer férias no Algarve Nº respostas 7.1 - Tempo 15 7.2 - i nfraestruturas hoteleiras 60 7.3 - Acessos 150 7.4 - Praias 250 7.5 - Hospitalidade 100 28
APRESENTAÇÃO DE RESULTADOS Exemplo 4: População média anual residente entre os 15 e 24 anos 29
APRESENTAÇÃO DE RESULTADOS A forma como apresentamos os conteúdos do nosso trabalho influencia significativamente a mensagem a transmitir 30
RECOLHA, TRATAMENTO E APRESENTAÇÃO DE DADOS: elementos chave MUITO OBRIGADA PELA VOSSA ATENÇÃO Carla Patrocínio: carla.patrocinio@tecnico.ulisboa.pt Núcleo de Estatística e Prospectiva: http://nep.tecnico.ulisboa.pt/