Les-0773: ESTATÍSTICA APLICADA III Análise de dados, tipos de amostras e análise multivariada AULA 1 12/05/17 Prof a Lilian M. Lima Cunha Maio de 2017
Introdução O que significa o termo estatística? No conceito comum, trata da coleta e apresentação de dados em tabelas ou gráficos ou, mais especificamente, da organização e apresentação de contagens e medições. Conjunto de técnicas que ajudam na tomada de decisão quando prevalecem condições de incerteza. Os dados coletados precisam ser organizados e interpretados.
REVISÃO... ANÁLISE DOS DADOS (classificação das variáveis)
Medidas Métricas Mensuração de razão/proporção e de intervalo VARIÁVEIS Nominais e ordinais Medidas Não-Métricas
TIPOS DE VARIÁVEIS Quantitativa (métricas) Discreta Contínua Variável Qualitativa ou categórica (não métricas) Nominal (rótulos) Ordinal
TIPOS DE VARIÁVEIS - EXEMPLOS Qualitativa ou categórica (não métricas) classificação em um número de categorias mutuamente exclusivas (se pertencer a uma não pertence a outra). Levantamento de um grupo de pessoas que consome determinado produto, podemos distribuir a resposta em duas classes: -Não consome -Consome Nominal (rótulos): os dados são distribuídos em um número de categorias mutuamente exclusivas Ex.: sexo, religião, naturalidade. Ordinal : os dados são classificados em um número de categorias mutuamente exclusivas que podem ser ordenadas - maior do que, mais difícil do que, superior a. Ex.: carreira militar, status sócioeconômico. É comum associar números inteiros às categorias (apenas a ordem dos dados tem significado)
TIPOS DE VARIÁVEIS - EXEMPLOS Quantitativa (métricas) são expressas por números; número de pessoas, salário, preço, etc. Discretas: só podem assumir um número finito de diferentes valores dentro de um intervalo finito. Dados de contagem são sempre variáveis discretas. Assim tem-se, por exemplo, que o número de funcionários em uma empresa, numero de alunos em uma sala ou escola, etc. Contínuas: podem assumir um número infinito de diferentes valores dentro de um intervalo finito. As variáveis medidas em unidades monetárias como, preço e salário. São também variáveis contínuas: a área dos estabelecimentos agrícolas, peso de objetos e pessoas, etc. exibem dados que utilizam escala intervalar ou de proporção
EXEMPLOS Rótulos usados para identificar onde ações das empresas são negociadas (Nyse, Amex e OTC) Chevrolet envia um questionário aos usuários a fim de obter dados sobre a qualidade de seu serviço de mecânica nas revisões dos automóveis. Os dados obtidos referentes à satisfação do consumidor são classificados em excelente, bom e ruim. Cores solidas de automóveis disponíveis para compra em uma concessionária Pontuações de um exame Qualitativa - Nominal Qualitativa - Ordinal Qualitativa - Nominal Quantitativa Continua (escala intervalar) Numero de mulheres que trabalham nas universidades publicas do Estado de São Paulo Valores de IPVA pagos por veículos leves nos estados de SP e PR. O percentual cobrado em SP é o dobro do percentual do PR Quantitativa Discreta Quantitativa Continua (escala de proporção)
CENSO Processo de realização de uma pesquisa para coletar dados correspondentes à população inteira PESQUISA AMOSTRAL Processo de realização de uma pesquisa para coletar dados correspondentes a uma amostra INFERÊNCIA ESTATÍSTICA Processo onde a estatística usa dados de uma amostra para fazer estimativas e testar hipóteses a respeito de característica de uma população
INFERÊNCIA ESTATÍSTICA População Conjunto de todos os elementos de interesse de determinado estudo Amostra Subconjunto da população População: todas as concessionárias de automóveis no Brasil; Amostra: concessionárias do Estado de São Paulo ou 50 concessionárias no país.
INFERÊNCIA ESTATÍSTICA Descobrir características da população a partir da amostra Tipos de amostra (simples e estratificada) Visto em Estatistica Aplicada I
SELEÇÃO DA AMOSTRA Amostra Aleatória Simples(AAS) -selecionar os elementos de forma que cada um deles tenha a mesma chance de ser selecionado; -Sorteio - Supor interesse em levantar dados de comercialização de um produto (preços e quantidades): listagem dos estabelecimentos que vendem o produto em questão, numerar esses estabelecimentos e depois fazer um sorteio utilizando fichas.
SELEÇÃO DA AMOSTRA Amostra estratificada (estratos) -garantia de que da amostra façam parte tipos diferentes de estabelecimentos (supermercados, armazéns, quitandas, etc); -Dividir os estabelecimentos em grupos de acordo com o tipo, e depois fazer uma amostragem por sorteio (amostra aleatória simples) para cada um desses grupos; -Recomendável que a amostragem estratificada seja feita de forma proporcional. Por ex., se a população é composta de 100 estabelecimentos dos quais 20 são supermercados (20%), 30 são armazéns (30%) e 50 são quitandas (50%), em uma amostra de 30 elementos devemos selecionar 6 supermercados (20%), 9 armazéns (30%) e 15 quitandas (50%).
SELEÇÃO DA AMOSTRA Outros tipos: Amostra por conglomerados, amostra sistemática, amostra por conveniência, por julgamento, etc.
TIPOS DE DADOS SECUNDÁRIOS: quando utilizamos em nossas análises dados levantados e divulgados por instituições públicas ou privadas PRIMÁRIOS: quando usamos dados levantados por nós para um estudo específico.
Fases do Método da Estatística Descritiva Identificação do problema a ser estudado Planejamento: Envolve a definição da forma como serão coletados os dados. Coleta de dados: Levantamento através de questionário ou entrevista junto à população de interesse (dados primários) ou através de publicações (dados secundários). Selecionar tipo de amostragem. Apuração dos dados estatísticos: Trata de reunir os dados das fichas antes de se elaborar o resumo desses dados. Essa fase é pertinente só ao uso de dados primários. Apresentação dos dados (números-resumo): Os dados coletados sobre as características da população através de um recenseamento ou de uma amostra que devem ser resumidos para que possam ser interpretados. Análise e interpretação dos dados (gráficos de frequência, histogramas, etc)
Depois de reunir os dados das fichas, deve-se apresentá-los de forma resumida. Podemos fazer isso através de uma tabela de Distribuição de Freqüência. METODOS DE ESTATÍSTICA DESCRITIVA Visto em Estatistica Aplicada I
Estatística 3 blocos de conhecimento Estatística Descritiva Levantamento e resumo de dados Medidas associadas a variáveis quantitativas Análise bidimensional Visto em Estatistica Aplicada I Probabilidades Propriedades Probabilidade condicional e independência Teorema de Bayes V.A discretas, contínuas e multidimensionais Visto em Estatistica Aplicada I Inferência Estatística Inferência: população e amostra Estimação Testes de hipótese Visto em Estatistica Aplicada I e II TÉCNICAS ESTATÍSTICAS Será visto em Estatistica Aplicada III
ANÁLISE MULTIVARIADA Técnicas estatísticas que focalizam e apresentam com destaque a estrutura de relações simultâneas entre 3 ou mais fenômenos ** **(Cooper & Schindler, 2003)
ANÁLISE MULTIVARIADA Técnicas de Dependência: se as variáveis de critério e predição estão presentes na questão de pesquisa = suposição de dependência. Exemplos: Regressão linear múltipla, análise de variância multivariada (MANOVA) e análise de discriminante. Técnicas de Interdependência: variáveis são interrelacionadas sem se designar algumas como dependentes e outras como independentes; então pode-se assumir interdependência das variáveis. Exemplos: Análise fatorial, análise de aglomerados e escalonamento multidimensional.
ANÁLISE MULTIVARIADA - Interdependência Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada que visa reunir objetos, baseando-se nas características dos mesmos. Classifica objetos (ex. respondentes, produtos, etc), segundo aquilo que cada elemento tem de similar em relação a outros pertencentes a determinado grupo, considerando um critério de seleção pré-determinado. Between-cluster variation Within-cluster variation O grupo resultante dessa classificação deverá exibir: - Alto grau de homogeneidade interna. - Alto grau de heterogeneidade externa.
Dados originais Dois clusters Quatro clusters Seis clusters
Indicadores do Desenvolvimento Exemplo:
SC no contexto brasileiro: análise por cluster
SC e as características dos grupos em 2010 SC e o grupo 3 Região com renda alta (elevada % das indústrias) e baixa incidência de pobreza e sem remuneração, o que sugere uma melhor distribuição de riqueza homicídios de jovens em melhor situação e Escolaridade entre melhores niveis V05 = analfabetismo e V06 = homicídios de jovens Mais positivo = maior incidência Mais negativo = menor incidencia
TESTES NÃO-PARAMÉTRICOS Interessantes para análise de dados qualitativos. Fácil aplicação. Não exigem normalidade. Usados em situações que violem os pressupostos de procedimentos paramétricos. Não possuem parâmetros o que dificulta comparações quantitativas entre populações. VEREMOS: SINAIS E WILCOXON
TESTES NÃO-PARAMÉTRICOS Testes Qui-Quadrado Assume observações de frequência de variáveis categóricas. Dados do teste estão representados em tabelas de contingência 2x2 (pode ser maior)
REFERENCIAS BIBLIOGRÁFICAS ANDERSON, D. R.; SWEENEY, D. J.; Williams, T. Estatística Aplicada à Administração e Economia. Pioneira Thompson Learning, 2005. CAP 1. COOPER, D.R.; SCHINDLER, P.S. Métodos de pesquisa em administração. Ed Bookman, 2003. 640p. Cap 19.