Técnicas Estatísticas de Agrupamento

Tamanho: px
Começar a partir da página:

Download "Técnicas Estatísticas de Agrupamento"

Transcrição

1 Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Disciplina: EAD 351 Técnicas Estatísticas de Agrupamento

2 Avisos

3 Prova 1 21 de Setembro Trabalho Entrega até 24 de novembro Atividade em dupla Prova 2 Unificada 30 de novembro Pesos das Avaliações Prova 1 30 % ; Prova 2 50 % ; Exercícios 10 % ; Trabalhos 10 % 3

4 Trabalho As duplas devem obter uma base de dados com pelo menos 4 variáveis e 20 elementos. A entrega será feita por envio do trabalho até as 23:00 hs do dia 24 de novembro para um o estat.turma2@gmail.com. Deverá ser enviada a base de dados em Excel e o trabalho em Word.

5 Faltas As faltas serão abonadas somente com atestado médico do HU. O atestado será aceito desde que entregue ao professor até 7 dias após o retorno às aulas. 5

6 Turma 1 15h20 17h00 Turma 2-13h30 15h10 Horário das Aulas Para a entrada na aula será considerada uma tolerância de 15 minutos. Após a tolerância não será permitida a entrada. 6

7 Programa da Disciplina

8 Programa da Disciplina Introdução Revisão análise exploratória de dados Análise de Cluster Análise Fatorial

9 Análise de Cluster

10 Introdução

11 O que significa fazer um agrupamento?

12 Por que fazer agrupamento? Atender melhor as necessidades dos clientes / consumidores; Lançar produtos de acordo com a necessidade dos clientes / consumidores; Redução de custo; Controle de estoque; Controle de logística;

13 Análise estratégica para tomada de decisão Definição do Problema Análise Exploratória da Base de Dados Padronização das Variáveis Análise de Cluster Tomada de Decisão Empresarial

14 Objetivo

15 O objetivo da análise de cluster é agrupar as observações em grupos de tal forma que dentro de cada grupo as observações são semelhantes e distintas entre os grupos. Dentro de cada grupo a variabilidade deve ser mínima e a variabilidade entre os grupos deve ser máxima. GRUPO 1 GRUPO 2 GRUPO 3

16 Exemplos

17 Exemplos Agrupar países de acordo com as variáveis sócio demográficas.

18 Exemplos Agrupar municípios dentro de um país por meio de variáveis como: distribuição de renda, pib, população, importações, exportações dentre outras.

19 Exemplos Agrupar pessoas segundo hábitos alimentares semelhantes.

20 Exemplos Agrupar alimentos de acordo com as calorias.

21 Exemplos Agrupar clientes de acordo com o hábito de consumo. Alguns clientes adquirem mais produtos eletrônicos, outros adquirem cosméticos, viagem etc.

22 Métodos de Agrupamento

23 Métodos de Agrupamentos Método Hierárquico Método das K médias

24 Análise Exploratória de Dados

25 Tipos de Variáveis Qualitativas Ordinal (Nível de escolaridade) Nominal (Sexo) Quantitativas Discreta (Número de cursos de aperfeiçoamento realizados nos últimos 3 anos) Contínua (Salário anual) 25

26 Distribuição Simétrica Quantidade de cursos de aperfeiçoamento % 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0, Dias de Uso do Cheque Especial 26

27 Distribuição Assimétrica à Direita Quantidade de cursos de aperfeiçoamento 35,0 30,0 25,0 % 20,0 15,0 10,0 5,0 0, Dias de Uso do Cheque Especial 27

28 Distribuição Assimétrica à Esquerda Quantidade de cursos de aperfeiçoamento 35,0 30,0 25,0 % 20,0 15,0 10,0 5,0 0, Dias de Uso do Cheque Especial 28

29 Distribuições 29

30 Resumo dos Dados Tabela de Freqüência Salário Anual Amostra Salário Anual 1 R$ ,00 2 R$ ,70 3 R$ ,30 4 R$ , R$ ,00 Salário anual Freqüência Freqüência Absoluta Relativa ,00 a ,99 2 0, ,00 a , , ,00 a , , ,00 a , , ,00 a , , ,00 a , , ,00 a , , ,00 a , , ,00 a ,99 6 0,012 Total

31 Resumo dos Dados Histograma Distribuição de Probabilidade do Salário Anual 31

32 Medidas de Posição Média Aritmética Moda Mediana Quartil Medidas de Dispersão Variância Desvio Padrão Amplitude Coeficiente de Variação 32

33 Medidas de Posição

34 Média Aritmética

35 A média aritmética é obtida a partir da soma das observações dividindo-se pelo total de observações. A média aritmética será denotada por X

36 Exemplo Considere os salários anuais dos quatro analistas apresentados na tabela A média aritmética para o salário dos analistas é dada por: X

37 Moda

38 Moda É a realização mais freqüente do conjunto de valores observados Valor Freqüência

39 Mediana

40 Mediana É a realização que ocupa a posição central da série de observações arranjadas na ordem ascendente (classificação do menor valor para o maior). n ímpar ,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 33,8 Quando o n for par a mediana é a média aritméticas das observações centrais. n par ,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 35,8 37,0 Mediana = (31,3 + 31,4)/2 =31,35 40

41 Quartis

42 Primeiro quartil ( Q1 ) Percentil 25 % - valor da amostra tal que 25 % das observações são menores do que ele; Segundo quartil ( Q2 ) Percentil 50 % - valor da amostra tal que 50 % das observações são menores do que ele (mediana); Terceiro quartil ( Q3 ) Percentil 75 % - valor da amostra tal que 75 % das observações são menores do que ele; 42

43 Box-plot

44 Como saber se em sua base de dados existe alguma observação muito diferente das demais?

45 As observações muito diferente das demais são denominadas ponto fora da curva ou OUTLIER

46 O Gráfico apresentado é denominado Box-plot. O objetivo do Box-plot é deteminar se existe na base de dados alguma observação muito diferentes das demais (OUTLIER). 46

47 O primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3) são apresentados no Box-plot. Q1 Q3 Q2 47

48 A fronteira inferior é dada por: Q1-1,5(Q3-Q1) A fronteira superior é dada por: Q3 + 1,5(Q3-Q1) Fronteira inferior Fronteira superior 48

49 O valor mínimo do conjunto de observações e valor máximo do conjunto de observações são destacados no Box-plot. mínimo máximo 49

50 Quando o valor mínimo for superior a fronteira inferior e o valor máximo for inferior a fornteira supeior não existe OUTLIER, ou seja, não existe nenhuma observação fora do padrão. mínimo máximo 50

51 Quando o valor mínimo for inferior a fronteira inferior existe OUTLIER, ou seja, existe uma ou mais observações fora do padrão. Todas as observações inferiores a fronteira inferior são denominadas outlier. 51

52 Quando o valor máximo for superior a fronteira superior existe OUTLIER, ou seja, existe uma ou mais observações fora do padrão. Todas as observações superiores a fronteira superior são denominadas outlier. 52

53 O Box-plot contém as fronteiras que aparecem pontilhadas e deve-se ter atenção ao mínimo, máximo, primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3). Q1-1,5(Q3-Q1) Q1 Q3 Q3+1,5(Q3-Q1) Q mínimo máximo 53

54 Medidas de Dispersão

55 Desvio

56 O desvio é a distância de cada observação à média. 56

57 Variância Amostral e Desvio Padrão Amostral

58 A variância amostral, denotada por S 2, é obtida por meio da soma dos desvios elevados ao quadrado dividindo-se pelo total de observações menos um. A variância amostral é dada por: S 2 (2000) 2 (0) 2 ( 2000) 3 2 (0) ,66 58

59 Como a variância amostral está na unidade ao quadrado, para retornar a unidade original deve-se obter a raiz quadrada da variância amostral. O desvio padrão amostral, denotado por S, é a raiz quadrada da variância amostral. S ,

60 Coeficiente de Variação

61 O Coeficiente de Variação é uma medida de dispersão relativa. O Coeficiente de Variação é obtido por meio da divisão do desvio padrão pela média multiplicando-se por 100. Desvio Padrão CV = x 100 Média 61

62 Exemplo Considere os salários anuais de quatro analistas e de quatro gerentes apresentados na tabela. O coeficiente de variação é obtido por meio da divisão do desvio padrão pela média multiplicando-se por 100. CV = Desvio Padrão x 100 Média Analista Gerente Média Desvio Padrão Coef. de Variação 3,3 16,3 62

63 Como o coeficiente de variação para o grupo de gerentes é maior do que o coeficiente de variação do grupo de analistas há evidência de que a variabilidade de salários no grupo de gerentes é maior do que a variabilidade no grupo de analistas. Analista Gerente Média Desvio Padrão Coef. de Variação 3,3 16,3 63

64 O grupo com o maior Coeficiente de Variação é considerado o grupo com maior variabilidade. Média Desvio Padrão Coeficiente de Variação Maior Variabilidade Menor Variabilidade 64

65 Padronização de variável

66 Para padronizar uma variável deve-se subtrar da variável original o valor da média e dividir o resultado pelo desvio padrão. A variável padronizada é denominada Z. Z (X S X) X: variável aleatória com média e desvio padrão S X Z: variável aleatória padronizada com média 0 e variância 1. 66

67 Exercício 1 Considere um executivo realizou uma pesquisa de preço para a compra de um computador. Com base nos preços obtidos com 5 fornecedores calcule as medidas descritivas. Qual foi o valor médio? Qual foi o valor mediano? Preço R$ 5.800,00 R$ 6.300,00 R$ 5.900,00 R$ 5.400,00 R$ 6.200,00 Obtenha o desvio padrão amostral. Obtenha o coeficiente de variação.

68 Medidas de Similaridade e Dissimilaridade

69 Na análise de cluster as observações são agrupadas de acordo com medidas de similaridade ou dissimilaridade. Existem várias formas de medir similaridade ou dissimilaridade depende do critério a ser considerado.

70 A leoa é mais parecida com a gata ou com a cadela?

71 Para determinar se a leoa é mais parecida com a gata ou com a cadela é necessário definir um critério de similaridade. Considere como critério de similaridade o porte do animal. Neste caso a leoa será mais parecida com a cadela.

72 Considere agora como critério de similaridade o formato da orelha. Neste caso a leoa será mais parecida com a gata.

73 Medidas de Similaridade: Quanto maior for a medida de similaridade maior será a semelhança entre os elementos. O coeficiente de correlação linear de Pearson é uma medida de similaridade. Medidas de Dissimilaridade: Quanto maior for a medida de dissimilaridade menor será a semelhança entre os elementos. A distância euclidiana e a distância euclidiana ao quadrado são medidas de dissimilaridade.

74 Exemplo 1 Banco de Dados: dados1.xls

75 Considere o exemplo de uma analista de gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos.

76 Tempo na empresa anterior O Gráfico de dispersão apresenta os valores das variáveis para os cinco candidatos. Candidato 4 Candidato 3 Candidato 1 Candidato 5 Candidato 2 Tempo de formação

77 Tempo na empresa anterior Como a analista de gestão de pessoas deseja agrupar os candidatos em três grupos considerando duas variáveis o gráfico apresenta uma sugestão de agrupamento. Os candidatos foram agrupados de acordo com um critério. Candidato 4 Grupo 2 Candidato 3 Candidato 1 Grupo1 Candidato 2 Grupo 3 Candidato 5 Tempo de formação

78 Tempo na empresa anterior O grupo 1 é formado por candidatos com pouco tempo de formação e pouco tempo na empresa anterior. O grupo 2 é formado por candidatos com tempo de formação superior a 7 anos e com tempo na empresa anterior superior a 11 anos. O grupo 3 é formado por um candidato com 12 anos de formação e 2 anos na empresa anterior. Candidato 4 Grupo 2 Candidato 3 Candidato 1 Grupo1 Candidato 2 Grupo 3 Candidato 5 Tempo de formação

79 Tempo na empresa anterior Um critério de dissimilaridade que pode ser considerado para agrupar observações é a distância Euclidiana. A distância Euclidiana entre os candidatos 2 e 4 é dada pela reta vermelha. Candidato 4 Candidato 3 Candidato 1 Candidato 5 Candidato 2 Tempo de formação

80 A distância Euclidiana ao Quadrado entre os candidatos 2 e 4 é dada por: D A distância Euclidiana entre os candidatos 2 e 4 é obtida por meio da raiz quadrada positiva da distância Euclidiana ao Quadrado. D

81 Tempo na empresa anterior A distância Euclidiana entre os candidatos 1 e 2 é dada pela reta vermelha. Candidato 4 Candidato 3 Candidato 1 Candidato 5 Candidato 2 Tempo de formação

82 A distância Euclidiana ao Quadrado entre os candidatos 1 e 2 é dada por: D A distância Euclidiana entre os candidatos 1 e 2 é obtida por meio da raiz quadrada positiva da distância Euclidiana ao Quadrado. D 5 2,23

83 A matriz de distância Euclidiana ao Quadrado é uma matriz simétrica. As distâncias Euclidianas ao Quadrado, entre todos os elementos, localizadas acima da diagonal principal são apresentadas na matriz.

84 A distância Euclidiana é obtida por meio da raiz quadrada da distância Euclidiana ao quadrado. A matriz de distância Euclidiana é uma matriz simétrica. As distâncias Euclidianas, entre todos os elementos, localizadas acima da diagonal principal são apresentadas na matriz.

85 EXERCÍCIO Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 Quais os dois lanches mais parecidos?

86 EXERCÍCIO Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 Quais os dois lanches mais parecidos?

87 EXERCÍCIO Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 Quais os dois lanches mais parecidos?

88 Técnicas de Agrupamento Vizinho mais Próximo (Nearest Neighbor )

89 Para a realização dos agrupamentos considerando como técnica de agrupamento o vizinho mais próximo pode-se partir da matriz de distância Euclidiana entre todos os candidatos.

90 Passo 1 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 1 e 2 possuem as menores distâncias elas serão agrupadas no passo 1. Calcula-se a distância entre as observações 1 e 2 e as demais observações. Distância entre 1 e 3 = 14,14 Distância entre 2 e 3 = 12,04 A menor distância é 12,04. Distância entre 1 e 4 = 15,23 Distância entre 2 e 4 = 13,0 A menor distância é 13,0. Distância entre 1 e 5 = 10,0 Distância entre 2 e 5 = 9,22 A menor distância é 9,22. 90

91 Passo 1 Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas.

92 Passo 2 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 3 e 4 possuem as menores distâncias elas serão agrupadas no passo 2. Calcula-se a distância entre as observações 3 e 4 e as demais observações. Distância entre 3 e (1+2) = 12,04 Distância entre 4 e (1+2) = 13,00 A menor distância é 12,04. Distância entre 3 e 5 = 10,00 Distância entre 4 e 5 = 14,56 A menor distância é 10,00 92

93 Passo 2 Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas.

94 Passo 3 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações (1+2) e 5 possuem as menores distâncias elas serão agrupadas no passo 3. Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. Distância entre (1+2) e (3+4)= 12,04 Distância entre 5 e (3+4) = 10,00 A menor distância é 10,00.

95 Passo 3 Elabora-se a matriz de distância final.

96 Técnicas de Agrupamento Vizinho mais Próximo (Nearest Neighbor ) Dendograma

97 O dendograma é um gráfico que tem como objetivo representar graficamente os passos realizados em um agrupamento feito por um método hierárquico. Com base na análise do dendograma é possível determinar o número de grupos para o conjunto de observações.

98 Distância Euclidiana Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. Dendrograma 10,00 9,220 5,657 2,

99 O elemento 1 foi agrupado ao elemento 2 na distância 2,236. Distância Euclidiana O elemento 3 foi agrupado ao elemento 4 na distância 5,657. O grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. O grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00. 10,00 9,220 Dendrograma 5,657 2,

100 Distância Euclidiana Por meio do dendograma pode-se sugerir o número de grupos a serem considerados. Em geral, observa-se quando o próximo agrupamento é realizado em uma distância muito superior ao agrupamento anterior. 10,00 9,220 Dendrograma 5,657 2,

101 Os elementos 1 e 2 foram agrupados a uma distância de 2,236, os elementos 3 e 4 foram agrupados a uma distância de 5,657. O próximo agrupamento ocorreu na distância 9,220. Como distância entre 9,220 e 5,657 é grande pode-se sugerir separar os grupos em uma distância superior a 5,657 e inferior a 9,220. A linha vermelha representa a separação. Distância Euclidiana 10,00 9,220 Dendrograma 5,657 2,236 Profa. Dra. 1 Alessandra 2 5 de Ávila 3 Montini 4

102 Distância Euclidiana Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. 10,00 9,220 Dendrograma 5,657 2,

103 Distância Euclidiana Caso o objetivo do problema seja separar os elementos em 2 grupos pode-se considerar a linha vermelha como a separação. Nota-se que os elementos 1, 2 e 5 formam um grupo e os elementos 3 e 4 formam o outro grupo. 10,00 9,220 Dendrograma 5,657 2,

104 EXERCÍCIO 5 Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas.

105 EXERCÍCIO 6 Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas.

106 EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas.

107 Técnicas de Agrupamento Vizinho mais Distante (Furthest neighbor )

108 Para a realização dos agrupamentos considerando como técnica de agrupamento o vizinho mais distante deve-se partir da matriz de distância Euclidiana entre todos os candidatos.

109 Passo 1 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 1 e 2 possuem as menores distâncias elas serão agrupadas no passo 1. Calcula-se a distância entre as observações 1 e 2 e as demais observações. Distância entre 1 e 3 = 14,14 Distância entre 2 e 3 = 12,04 A maior distância é 14,14. Distância entre 1 e 4 = 15,23 Distância entre 2 e 4 = 13,0 A maior distância é 15,23. Distância entre 1 e 5 = 10,0 Distância entre 2 e 5 = 9,22 A maior distância é 10,

110 Passo 1 Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas ,14 15,23 10,00 3 5,66 10, ,56 5

111 Passo 2 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 3 e 4 possuem as menores distâncias elas serão agrupadas no passo ,14 15,23 10,00 3 5,66 10, ,56 5 Calcula-se a distância entre as observações 3 e 4 e as demais observações. Distância entre 3 e (1+2) = 14,14 Distância entre 4 e (1+2) = 15,23 A maior distância é 15,23. Distância entre 3 e 5 = 10,00 Distância entre 4 e 5 = 14,56 A maior distância é 14,56 111

112 Passo 2 Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas.

113 Passo 3 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações (1+2) e 5 possuem as menores distâncias elas serão agrupadas no passo 3. Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. Distância entre (1+2) e (3+4)= 15,23 Distância entre 5 e (3+4) = 14,56 A maior distância é 15,23.

114 Passo 3 Elabora-se a matriz de distância final.

115 Técnicas de Agrupamento Vizinho mais Distante (Furthest neighbor ) Dendograma

116 Distância Euclidiana Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. 15,23 Dendrograma Dendrograma 10,00 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

117 Considerando a linha vermelha como a separação dos grupos notase que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Distância Euclidiana 15,23 Dendrograma Dendrograma 10,00 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

118 EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos.

119 Grupo 1 Grupo 2 Grupo 3 Média - Valor Energético Média - Carboidratos Lanches Caracterização dos grupos :

120 EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos.

121 Caracterização dos grupos :

122 EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos.

123 Caracterização dos grupos :

124 Técnicas de Agrupamento Método da Centróide (Centroid clustering)

125 Exemplo 2

126 Dada a matriz de distância agrupe os elementos por meio do método da centróide e construa o dendograma ,24 14,14 15,23 10, ,04 13,00 9,22 3 5,66 10, ,

127 Como a menor distância é entre os elementos 1 e 2 eles serão agrupados no passo ,24 14,14 15,23 10, ,04 13,00 9,22 3 5,66 10, ,

128 Passo 1 Os elementos 1e 2 eles serão agrupados no passo1. Os elementos que serão agrupados são denominados p e q A novo grupo (p+q) é denominado t ,24 14,14 15,23 10, ,04 13,00 9,22 3 5,66 10, ,56 5 Neste caso p = 1, q = 2 e t = (1+2)

129 Os elementos que serão agrupados são denominados p e q A novo grupo (p+q) é denominado t. A distância entre o novo grupo t e o elemento/grupo r é dada por S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S Em que, Np é o número de observações no grupo p, Nq é o número de observações no grupo q, Sp,r é a distância entre p e r, Sq,r é a distância entre q e r, Sp,q é a distância entre p e q.

130 Cálculo da distância do grupo 1+2 para o elemento 3

131 ,24 14,14 15,23 10, ,04 13,00 9,22 3 5,66 10, ,56 5 p = 1 e q=2 t = (1+2) r = 3 S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N N * N ( 1 2),3 S1,3 S2,3 S 2 1,2 N1 N2 N1 N2 N1 N2 N 1 1 1*1 ( 1 2),3 S1,3 S2,3 S1,2 0,5*14,14 0,5*12,04 (0,25)*2,24 12,

132 Cálculo da distância do grupo 1+2 para o elemento 4

133 ,24 14,14 15,23 10, ,04 13,00 9,22 3 5,66 10, ,56 5 p = 1 e q=2 t = (1+2) r = 4 S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N N * N ( 1 2),4 S1,4 S2,4 S 2 1,2 N1 N2 N1 N2 N1 N2 N 1 1 1*1 ( 1 2),4 S1,4 S2,4 S1, 0,5*15,23 0,5*13,00 (0,25)*2,24 13, S 2

134 Cálculo da distância do grupo 1+2 para o elemento

135 ,24 14,14 15,23 10, ,04 13,00 9,22 3 5,66 10, ,56 5 p = 1 e q=2 t = (1+2) r = 5 S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N N * N ( 1 2),5 S1,5 S2,5 S 2 1,2 N1 N2 N1 N2 N1 N2 N 1 1 1*1 ( 1 2),5 S1,5 S2,5 S1, 0,5*10,00 0,5*9,22 (0,25)*2, S 2 9,05

136 Matriz de distância após agrupar os elementos 1 e ,53 13,56 9,05 3 5,66 10, ,56 5

137 Passo 2 Os elementos 3 e 4 eles serão agrupados no passo ,53 13,56 9,05 3 5,66 10, ,56 5

138 Cálculo da distância do grupo 3+4 para o grupo (1+2)

139 ,53 13,56 9,05 3 5,66 10, ,56 5 p = 3 e q=4 t = (3+4) r = (1+2) S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N * N ( 3 4),(1 2) S3,(1 2) S4,(1 2) S 2 3,4 N3 N4 N3 N4 N3 N4 N N 1 1 1*1 ( 3 4),(1 2) S3,(1 2) S4,(1 2) S3, 0,5*12,53 0,5*13,56 (0,25)*5,66 11, S 4

140 Cálculo da distância do grupo 3+4 para o elemento

141 ,53 13,56 9,05 3 5,66 10, ,56 5 S t,r N p N p N q S p,r N p N q N p = 3 e q=4 t = (3+4) q r = 5 S q,r N 2 p, q N N p p * N q q S S N N * N ( 3 4),5 S3,5 S4,5 S 2 3,4 N3 N4 N3 N4 N3 N4 N 1 1 1*1 ( 3 4),5 S3,5 S4,5 S3, 0,5*10,00 0,5*14,56 (0,25)*5,66 10, S 4

142 Matriz de distância após agrupar os elementos 3 e ,63 9, ,86 5

143 Passo 3 Os elementos (1+2) e 5 eles serão agrupados no passo ,63 9, ,86 5

144 Cálculo da distância do grupo (1+2)+5 para o grupo (3+4)

145 ,63 9, ,86 5 p = (1+2) e q=5 t = (1 + 2) + (5) r = (3+4) S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N (1 2) 5 (1 2) 5 ( 1 2) 5,(3 4) S(1 2),(3 4) S5,(3 4) S N(1 2) N5 N(1 2) N5 (1 2) 5 N N * N 2 (1 2), 5 N N 2 1 2*1 ( 1 2) 5,(3 4) 11,63 10,87 9, S 2 9,36

146 Matriz de distância final ,23 3+4

147 Técnicas de Agrupamento Método da Centróide (Centroid clustering) Dendograma

148 Distância Euclidiana Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. 15,23 Dendrograma Dendrograma 9,05 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

149 Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Distância Euclidiana 15,23 Dendrograma Dendrograma 9,05 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

150 Exercício Pokémon

151 HP (hit points) Representam a quantidade de vida, ou saúde do Pokémon e a quantidade de dano que ele consegue levar antes de ser liquidado. Quanto maior o HP, mais vida o Pokémon terá e, portanto, mais difícil será liquidá-lo. Attack (Ataque) Determina a quantidade de dano que um Pokémon pode infligir no outro usando um movimento de ataque físico. Quanto maior o ataque, mais dano o Pokémon pode infligir em seu adversário. Defense (Defesa) Mostra a capacidade do Pokémon se defender quando recebe um ataque físico. Quanto maior a Defense (defesa), menor dano ele receberá quanto atacado fisicamente.

152 Pokemon HP Attack Defense HP Attack Defense Chansey ,50-1,47-1,33 Snorlax ,39 0,42 0,00 Dragonite ,46 0,85 0,66 Rhydon ,29 0,78 1,22 Pikachu ,15-0,57-0,55 Média 128,2 86,8 65 Desvio Padrão 81,32 55,53 45,14

153

154

155

156

157 Exercício 1

158 Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda. Vendedor Venda SP Venda RJ

159 a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais

160 b - Obtenha todas as matrizes de agrupamentos e faça o dendograma.

161 Exercício 2

162 Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda. Vendedor Venda SP Venda RJ

163 a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais

164 b - Obtenha todas as matrizes de agrupamentos e faça o dendograma.

165 Exercício 3

166 Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda.

167 a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais

168 b - Obtenha todas as matrizes de agrupamentos e faça o dendograma.

169 Aplicação no PASW Statistics

170 Exemplo 3

171 Considere o exemplo de uma analista de gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos.

172 Neste exemplo será utilizado o software PASW Statistics versão 18.

173 Importar a Base de Dados

174 Para importar um arquivo clicar em File, localizar o arquivo no computador e clicar em open.

175 Caso a primeira linha do arquivo a ser importado tiver o nome das variáveis deixar a opção que está marcada selecionada e clicar em OK.

176 O PASW Statistics importou de forma adequada a a base de dados.

177 Clicar em Variable View para verificar o tipo de cada variável.

178 A variável candidato é uma string e não uma variável numérica. Para trocar o tipo de variável clicar em TYPE, selecionar o tipo desejado e clicar em OK.

179 Agora a variável candidato é uma string.

180 Cluster Hierárquico

181 Selecionar Analyze, Classify e Hierarchical Cluster

182 Selecionar as variáveis que deverão ser utilizadas para formar os grupos e selecionar a variável Label.

183 As variáveis que deverão ser utilizadas para formar os grupos e a variável Label foram selecionadas.

184 No menu Statistics, Fazer estas seleções :

185 No menu Plots. Fazer estas seleções :

186 No menu Method, Selecionar um dos métodos de agrupamento

187 Neste exemplo selecionar o vizinho mais próximo (Nearest Neighbor )

188 No menu Method, Selecionar uma das medidas

189 Neste exemplo selecionar a Distância Euclidiana

190 Após a seleção das opções clicar em ok

191 O PASW Statistics gera um output com todos os resultados.

192 Número de elementos da base de dados e a matriz com as distâncias Euclidianas.

193 O PASW Statistics mostra quais os elementos que foram agrupados e em que distância. No estágio 1, o elemento 1 foi agrupado ao elemento 2 na distância 2,236. No estágio 2, o elemento 3 foi agrupado ao elemento 4 na distância 5,657. No estágio 3, o grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. No estágio 4, o grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00.

194 O PASW Statistics gera o dendograma. Neste dendograma o PASW Statistics não apresenta no eixo vertical as distâncias euclidianas originais. O PASW Statistics faz uma mudança de escala. Dendrograma

195 Exemplo 4 Banco de Dados: MCDONALDS.xls

196 Neste exemplo pretende-se agrupar os lanches do Mcdonalds de acordo com as variáveis apresentadas.

197 Método Hierárquico

198 As variáveis que deverão ser utilizadas no cluster foram selecionadas e a variável Label foi selecionada.

199 No menu Statistics, Fazer estas seleções :

200 No menu Plots, Fazer estas seleções :

201 Método Hierárquico Vizinho mais próximo (Nearest neighbor)

202 Selecionar: Cluster Method: Vizinho mais próximo (Nearest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas).

203 A variável padronizada é denominada Z. Z (X S X) X X: variável aleatória com média e desvio padrão S Z: variável aleatória padronizada com média 0 e variância 1.

204 Dendrograma

205 Método Hierárquico Vizinho mais distante (Furthest neighbor)

206 Selecionar: Cluster Method: Vizinho mais distante (Furthest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas

207 Dendrograma

208 Método Hierárquico Centróide

209 Selecionar: Cluster Method: Centróide (Centroid clustering) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas

210 Dendrograma

211 Como pode ser observado os dendogramas gerados pelos métodos vizinho mais próximo, vizinho mais distante e centróide são diferentes. Para exemplificar os agrupamentos considere o método do vizinho mais distante.

212 Dendrograma

213 Exercício 1 base de dados: MCdonalds1.xls

214 Considerando as variáveis padronizadas, o método da centróide e a matriz de distância Euclidiana, faça o dendograma. Obtenha 5 grupos com a base de dados: MCdonalds1.xls 1 Quais os lanches estão em cada grupo. Responder com o numero do lanche e não com o nome. Considerar a formação da esquerda para a direita: Grupo 1: Grupo 2: Grupo 3: Grupo 4: Grupo 5:

215 Exercício 2 base de dados: POKEMON1.xls

216 Todas as variáveis devem estar como : ESCALA.

217 Considerando as variáveis padronizadas, o método do vizinho mais distante e a matriz de distância Euclidiana, faça o dendograma. Obtenha 4 grupos com a base de dados: POKEMON1.xls. Considerar a formação da esquerda para a direita: 1 Complete a tabela abaixo e caracterize os grupos.

218 Método das k médias

219 No método das K médias é necessário definir, a priori, o número de grupos (clusters). 219

220 Padronização da Base de Dados

221 Antes de iniciar o método das K médias deve-se padronizar as variáveis. Para padronizar as variáveis, selecionar Analyze, Descriptive Statistics e Descriptives.

222 Selecionar todas as variáveis que serão utilizadas para realizar o agrupamento

223 O PASW Statistics gera colunas novas com as variáveis padronizadas.

224 Método das K médias

225 Para fazer os agrupamentos pelo método das k médias, selecionar Analyze, Classify e K-Means Cluster.

226 As variáveis padronizadas que deverão ser utilizadas no cluster foram selecionadas, a variável Label foi selecionada e foi determinado o número de grupos desejados (neste exemplo 3 grupos). 226

227 Na opção Iterate, Colocar 100 iterações.

228 Na opção Save, Fazer esta seleção.

229 Na opção options, Fazer estas seleções.

230 O PASW Statistics gera um output com todos os resultados.

231 Método das K médias Análise de Variância

232 O PASW Statistics gera um output com todos os resultados. Esta tabela gerada faz uma comparação das médias das variáveis entre os grupos.

233 Teste F para comparação de médias H 0 : as médias da variável são iguais para todos os grupos; H 1 : as médias da variável são diferentes em pelo menos um grupo; A variável Zscore:Valor energético é a variável Valor energético padronizada (com média zero e desvio padrão 1). A hipótese testa se a média dessa variável para o grupo 1 é igual a média dessa variável para o grupo 2 e é igual a média dessa variável para o grupo 3.

234 Teste F para comparação de médias Considere o teste F feito para a variável: Zscore:Valor energético A estatística do teste possui distribuição F com 2 e 22 graus de liberdade.

235 Teste F para comparação de médias O valor da estatística do teste é 86,075. A área a direita da estatística do teste é denominada nível descritivo (Sig). Distribuição F Nível descritivo 86,075

236 Teste F para comparação de médias H 0 : as médias da variável são iguais para todos os grupos; H 1 : as médias da variável são diferentes em pelo menos um grupo; Regra de decisão: Quando o Sig (Nível descritivo do teste) for menor do que α (0,10) rejeitamos H 0, ou seja, há evidência de que as médias da variável são diferentes em pelo menos um grupo

237 Como o Sig associado `a variável Zscore: Fibra Alimentar é maior do que 0,10 há evidência de que as médias dessa variável são iguais para todos os grupos. Desta forma esta variável não é importante para a formação dos grupos. Como o Sig associado as demais variáveis são inferiores a 0,10 as demais variáveis são importantes.

238 Ajusta-se novamente a análise de cluster pelo método das k médias sem a variável Zscore: Fibra Alimentar. Como o Sig associado as variáveis são inferiores a 0,10 todas essas variáveis são importantes.

239 Método das K médias Número de Observações nos Grupos

240 O PASW Statistics gera um output com o número de observações em cada grupo. Agora é necessário caracterizar os grupos.

241 O PASW Statistics coloca na base de dados o grupo relacionado a cada elemento. Esta nova variável é denominada:

242 Análise Exploratória dos Grupos Box-plot

243 Para obter o Box-plot de cada um dos grupos para cada variável deve-se selecionar Graphs, Legacy Dialogs e Box-plot.

244 Fazer esta seleção.

245 Selecionar a variável, colocar a variável grupo em category Axis e colocar a variável com o nome dos lanches em label.

246 Box-plot da variável Valor Energéticos para cada um dos grupos.

247 Análise Exploratória dos Grupos Split File

248 Para obter um análise para cada grupo deve-se partir o banco de dados por grupo. Selecionar Data e Split File.

249 Selecionar Organize output by groups e colocar a variável grupo.

250 Análise Exploratória dos Grupos Medidas Descritivas

251 Para obter as estatísticas descritivas selecionar Analyze, Descriptive Statistics e Descriptives. cv

252 Selecionar as variáveis originais.

253 Selecionar as medidas descritivas desejadas.

254 O PASW Statistics gera uma tabela com as medidas descritivas selecionadas para cada grupo.

255 Análise Exploratória dos Grupos Caracterização dos Grupos

256 Com base nas medidas descritivas geradas no PASW Statistics pode-se obter a seguinte tabela com as médias das variáveis para cada grupo. Adicionalmente pode-se obter uma tabela similar para cada medida descritiva. Variável Grupo 1 Grupo 2 Grupo 3 Valor Energético 408,24 855,67 567,40 Ferro 2,76 5,33 8,88 Colesterol 44,41 129,33 77,40 Calcio 113,35 257,00 216,20 Proteínas 23,35 48,67 29,20 Carboidratos 39,53 52,67 40,80 Gorduras Saturadas 5,08 22,00 13,80 GordurasTrans 0,28 1,70 1,00 Sódio 1073, , ,00 GordurasTotais 17,30 50,00 32,00 OBS: a cor vermelho representa o grupo de maior média para a variável, a cor cinza representa o grupo com a segunda maior média para a variável e a cor verde representa Profa. o Dra. grupo Alessandra de menor de média Ávila para Montini a variável.

257 Nota-se que o grupo 1 apresenta as menores médias para todas as variáveis. O grupo 2 apresenta as maiores médias para todas as variáveis (exceto para o ferro). O grupo 3 apresenta valores médios intermediários (próximos do grupo 2) para as variáveis e maior valor médio para a variável ferro. Variável Grupo 1 Grupo 2 Grupo 3 Valor Energético 408,24 855,67 567,40 Ferro 2,76 5,33 8,88 Colesterol 44,41 129,33 77,40 Calcio 113,35 257,00 216,20 Proteínas 23,35 48,67 29,20 Carboidratos 39,53 52,67 40,80 Gorduras Saturadas 5,08 22,00 13,80 GordurasTrans 0,28 1,70 1,00 Sódio 1073, , ,00 GordurasTotais 17,30 50,00 32,00

258 Grupo 1 - apresenta as menores médias para todas as variáveis. Chicken Club Crispy Chicken Club Grill Chicken Bacon Crispy Chicken Classic Crispy McChicken Chicken Lemon Crispy Chicken Classic Grill Chicken Bacon Grill Chicken Lemon Grill McFish Wrap Crispy Maionese Wrap Grill Maionese Wrap Crispy Lemon McChicken Jr Cheeseburger Wrap Grill Lemon Hamburger

259 Grupo 2 Colesterol médio e sódio médio muito maior que os demais grupos. Grupo 2

260 Grupo 3 maior valor médio para a variável ferro

261 Exercício 1

262 1- PADRONIZAR AS VARIÁVEIS

263

264 VARIÁVEIS PADRONIZADAS

265 Obter 8 grupos pelo método das K médias

266 1. Obter um Box plot para cada variável original considerando os 8 grupos. 2. Completar a tabela abaixo com as médias e caracterizar os 8 grupos.

267 3. Completar a tabela abaixo com o valor mínimo e caracterizar os 8 grupos. 4. Completar a tabela abaixo com o valor máximo e caracterizar os 8 grupos.

268 Exercício 2

269 Considere o dendograma realizado por meio da técnica de agrupamento do vizinho mais distante e considere a matriz de distância Euclidiana. Suponha que o objetivo seja separar os lanches em três grupos.

270 Considere o agrupamento em três grupos e considere o grupo do lanche Quarteirão. Obtenha a média, o desvio padrão e o coeficiente de variação para a variável valor energético para os lanches do grupo do lanche Quarteirão. ValorEnergético Carboidratos Proteínas Angus Deluxe Angus Bacon Big Tasty CBO Mcnifico Bacon Chicken Club Crispy Quarterão Chicken Club Grill Chicken Bacon Crispy Cheddar McMelt Big Mac a) Média: ; b) Desvio padrão: ; c) Coeficiente de Variação ;

271 Exercício 3

272 Considere um colecionador de motos que deseja agrupar as motos de acordo com algumas variáveis. A tabela apresenta a ANOVA. Marque as variáveis que você acha adequado utilizar na análise de clusters considerando o método das k médias. Considerar α = 0,10. ( ) Cilindrada ( ) Potencia ( ) Torque ( ) Cambio ( ) Velocidade ( ) Aceleração Cluster Error Mean Square Df Mean Square df F Sig. Cilindrada , , ,640,003 Potencia 11173, , ,154,000 Torque 63, , ,863,003 Cambio 8, , ,400,133 velocidade 9842, , ,552,008 aceleracao 36, , ,514,122

Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo. Disciplina: EAD 351. Técnicas Estatísticas de Agrupamento

Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo. Disciplina: EAD 351. Técnicas Estatísticas de Agrupamento Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Disciplina: EAD 351 Técnicas Estatísticas de Agrupamento Análise Fatorial Tem o objetivo de obter um número menor de variáveis

Leia mais

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

PARTE 1. Profa. Dra. Alessandra de Ávila Montini PARTE 1 Programa de Pós-graduação do Departamento de Administração PPGA Agenda 2 14:00 15:30 Fundamentação Teórica 15:30 15:45 Coffee break 15:45 17:00 Fundamentação Teórica 17:00 18:00 Exercícios de Fixação

Leia mais

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor MÉTODOS QUANTITATIVOS APLICADOS Prof. Danilo Monte-Mor Métodos Quantitativos Aulas 1 e 2 Análise Exploratória de Dados 2 Danilo Soares Monte Mor Currículum Vitae Prof. Dr. e especialista em Métodos Quantitativos

Leia mais

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CURTA DURAÇÃO ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,

Leia mais

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada MBA ANALYTICS OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de decisão com base nas

Leia mais

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de

Leia mais

APLICAÇÕES DE ESTATÍSTICA PARA TOMADA DE DECISÃO

APLICAÇÕES DE ESTATÍSTICA PARA TOMADA DE DECISÃO CURTA DURAÇÃO APLICAÇÕES DE ESTATÍSTICA PARA TOMADA DE DECISÃO CARGA HORÁRIA: 92 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS O curso tem como objetivo apresentar algumas técnicas

Leia mais

APONTAMENTOS DE SPSS

APONTAMENTOS DE SPSS Instituto de Ciências Biomédicas de Abel Salazar APONTAMENTOS DE SPSS Rui Magalhães 2010-1 - - 2 - Menu DATA Opção SPLIT FILE Permite dividir, de uma forma virtual, o ficheiro em diferentes ficheiros com

Leia mais

Cap. 6 Medidas descritivas

Cap. 6 Medidas descritivas Estatística Aplicada às Ciências Sociais Sexta Edição Pedro Alberto Barbetta Florianópolis: Editora da UFSC, 2006 Cap. 6 Medidas descritivas Análise descritiva e exploratória de variáveis quantitativas

Leia mais

Estatística 1. Resumo Teórico

Estatística 1. Resumo Teórico Estatística 1 Resumo Teórico Conceitos do Curso 1. Tipos de Variáveis e Representações Gráficas a. Tipos de Variáveis b. Distribuição de Frequências c. Histograma 2. Estatística Descritiva Medidas Estatísticas

Leia mais

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte 4.3 Medidas de posição 4.4 Medidas de dispersão 4.5 Separatrizes Prof. franke 2 Vimos que a informação contida num conjunto de dados pode ser resumida

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Medidas Descritivas de Posição, Tendência Central e Variabilidade Medidas Descritivas de Posição, Tendência Central e Variabilidade Prof. Gilberto Rodrigues Liska UNIPAMPA 29 de Agosto de 2017 Material de Apoio e-mail: gilbertoliska@unipampa.edu.br Local: Sala dos professores

Leia mais

Prof. Estevam Martins

Prof. Estevam Martins Análise Exploratória de Dados Prof. Estevam Martins "O único lugar onde o sucesso vem antes do trabalho, é no dicionário" Albert Einstein Introdução O principal objetivo de uma análise exploratória é extrair

Leia mais

Estatística

Estatística Estatística 1 2016.2 Sumário Capítulo 1 Conceitos Básicos... 3 MEDIDAS DE POSIÇÃO... 3 MEDIDAS DE DISPERSÃO... 5 EXERCÍCIOS CAPÍTULO 1... 8 Capítulo 2 Outliers e Padronização... 12 VALOR PADRONIZADO (Z)...

Leia mais

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva ESTATÍSTICA DESCRITIVA 2 Estatística Descritiva O que fazer com as observações que coletamos? Primeira etapa da análise: Resumo dos dados: organizar, descrever e resumir os dados coletados Estatística

Leia mais

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA 1) Um pesquisador que ordena uma lista de cidades segundo o ritmo de vida, do mais lento para o mais acelerado, está operando no nível de medida: (A)

Leia mais

Unidade III Medidas Descritivas

Unidade III Medidas Descritivas Unidade III Medidas Descritivas Medidas separatrizes Quantis Medidas de dispersão Amplitude total Desvio Médio Variância Desvio Padrão Coeficiente de Variabilidade Desvio Interquartílico Na aula anterior...

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz Estatística Aplicada UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz Estatística Descritiva A estatística descritiva preocupa-se com a forma pela qual podemos apresentar um conjunto de dados

Leia mais

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito) Exercício 1. (2,0 pontos). Um pesquisador pretende comparar o tempo de reação (segundos) para dois tipos diferentes de estímulos visuais, A e B. Na tabela abaixo, esses tempos foram obtidos para 20 e 19

Leia mais

Bioestatística Básica

Bioestatística Básica Bioestatística Básica Curso de Pós-Graduação RCA 5804 PROF. DR. ALFREDO J RODRIGUES DEPARTAMENTO DE CIRURGIA E ANATOMIA FACULDADE DE MEDICINA DE RIBEIRÃO PRETO UNIVERSIDADE DE SÃO PAULO alfredo@fmrp.usp.br

Leia mais

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente Resumindo numericamente Para resumir numericamente dados quantitativos o objetivo é escolher medidas apropriadas de locação (``qual o tamanho dos números envolvidos?'') e de dispersão (``quanta variação

Leia mais

Lista 8 - Introdução à Probabilidade e Estatística

Lista 8 - Introdução à Probabilidade e Estatística UNIVERSIDADE FEDERAL DO ABC Lista 8 - Introdução à Probabilidade e Estatística Estatística Descritiva 1 Dena amostra e população. 2 Dena parâmetro e estatística. 3 Classique cada uma das variáveis seguintes

Leia mais

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas

Leia mais

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Medidas Descritivas de Posição, Tendência Central e Variabilidade Medidas Descritivas de Posição, Tendência Central e Variabilidade Prof. Gilberto Rodrigues Liska UNIPAMPA 27 de Março de 2017 Material de Apoio e-mail: gilbertoliska@unipampa.edu.br Sumário 1 Introdução

Leia mais

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE 1 Medidas de síntese TERCEIRA maneira de resumir um conjunto de dados referente a uma variável quantitativa. Separatrizes Locação x % x % x % x % Dispersão Forma

Leia mais

André Arruda e Rafael Medeiros

André Arruda e Rafael Medeiros 1. ESTATÍSTICA DESCRITIVA 01. Assinale a opção que expresse a relação entre as médias aritmética (X), geométrica (G) e harmônica (H), para um conjunto de n valores positivos (X1, X2,..., Xn): a) G H X,

Leia mais

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico Tutorial SPSS Módulo 8 Análise de Cluster Módulo 8- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico Situação Problema Apresentamos novamente a situação problema

Leia mais

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo: 6 ESQUEMA DO CAPÍTULO Estatística Descritiva 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS

Leia mais

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Técnicas Computacionais em Probabilidade e Estatística I. Aula I Técnicas Computacionais em Probabilidade e Estatística I Aula I Chang Chiann MAE 5704- IME/USP 1º Sem/2008 1 Análise de Um conjunto de dados objetivo: tratamento de um conjunto de dados. uma amostra de

Leia mais

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 ANÁLISE DE AGRUPAMENTOS É uma técnica analítica pra identificar

Leia mais

Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico

Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico Tutorial SPSS Módulo 18 Análise de Cluster 1 Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico Situação Problema Uma varejista de

Leia mais

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc. Estatística I Aula 3 Prof.: Patricia Maria Bortolon, D. Sc. Estatística: Prof. André Carvalhal Dados quantitativos: medidas numéricas Propriedades Numéricas Tendência Central Dispersão Formato Média Mediana

Leia mais

SS714 - Bioestatística

SS714 - Bioestatística SS714 - Bioestatística Silvia Shimakura silvia.shimakura@ufpr.br Página da disciplina: http://www.leg.ufpr.br/doku.php/disciplinas:ss714 ESTATÍSTICA DESCRITIVA Organização Descrição Quantificação de variabilidade

Leia mais

Análise Descritiva de Dados

Análise Descritiva de Dados Análise Descritiva de Dados Resumindo os dados de variáveis quantitativas Síntese Numérica Descrição e Apresentação de Dados Dados 37 39 34 34 30 35 38 32 32 30 46 36 40 31 39 33 33 35 29 27 39 Ferramentas

Leia mais

Estatística Descritiva

Estatística Descritiva Estatística Descritiva ESQUEMA DO CAPÍTULO 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS

Leia mais

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana. Tendência Central É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média mediana moda Análise exploratória de dados Histograma Simétrico Uniforme Média = Mediana Assimétrico

Leia mais

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados. ESTATÍSTICA Termo vem de status Aspectos de um país (tamanho da população, taxas de mortalidade, taxas de desemprego, renda per capita). Estatística é o conjunto de métodos para a obtenção, organização,

Leia mais

Estatística para Cursos de Engenharia e Informática

Estatística para Cursos de Engenharia e Informática Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 3 Análise exploratória de dados APOIO: Fundação de Apoio

Leia mais

Conceito de Estatística

Conceito de Estatística Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir

Leia mais

Medidas de Posição ou Tendência Central

Medidas de Posição ou Tendência Central Medidas de Posição ou Tendência Central Medidas de Posição ou Tendência Central Fornece medidas que podem caracterizar o comportamento dos elementos de uma série; Possibilitando determinar se um valor

Leia mais

ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA ESTATÍSTICA DESCRITIVA Organização Descrição Quantificação de variabilidade Identificação de valores típicos e atípicos Elementos básicos: Tabelas Gráficos Resumos numéricos Coleta de dados Há várias maneiras

Leia mais

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA Prof.ª Sheila Regina Oro Projeto Recursos Educacionais Digitais Autores: Bruno Baierle e Maurício Furigo ESTATÍSTICA DESCRITIVA A Estatística Descritiva

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 2019 Estatística Descritiva e Análise Exploratória Etapas iniciais. Utilizadas para descrever e resumir os dados. A disponibilidade de uma grande quantidade

Leia mais

INE 7001 Estatística para Administradores I Turma Prática 1 15/08/2016 GRUPO:

INE 7001 Estatística para Administradores I Turma Prática 1 15/08/2016 GRUPO: INE 7001 Estatística para Administradores I Turma 02301 - Prática 1 15/08/2016 No arquivo Prática_em_planilhas.xlsx, procurar pela planilha Prática1. Usando o primeiro conjunto de dados (dados sobre os

Leia mais

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso MEDIDAS DE POSIÇÃO E DE DISPERSÃO Profª Andréa H Dâmaso Bioestatística e Delineamento Experimental - 2012 Tópicos da aula Medidas de tendência central e dispersão Variáveis contínuas: distribuição normal

Leia mais

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística Bioestatística Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva Ciências biológicas a USP ESALQ LR Nakamura Estatística ESALQ 1 / 67 Estatística e o método científico Circularidade do método

Leia mais

CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008

CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008 CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008 Observações: O objetivo desse material não é apresentar todas as opções disponíveis no SPSS, mas sim apresentar alguns comandos básicos mais utilizados

Leia mais

Introdução à Probabilidade e Estatística I

Introdução à Probabilidade e Estatística I Introdução à Probabilidade e Estatística I População e Amostra Medidas resumo Prof. Alexandre G Patriota Sala: 298A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota Passos iniciais O primeiro

Leia mais

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017 Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada

Leia mais

Estatística Descritiva

Estatística Descritiva Estatística Descritiva Cristian Villegas clobos@usp.br Departamento Ciências Exatas, ESALQ (USP) Agosto de 2012 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 1 1 Medidas de tendência central

Leia mais

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MEAU- MESTRADO EM ENGENHARIA AMBIENTAL URBANA ENG C 18 Métodos de Pesquisa Quantitativos e Qualitativos AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Leia mais

Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE STICA

Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE STICA Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE BIOSTATÍSTICA STICA Prof a. Lilian Pinto da Silva Faculdade de Fisioterapia Universidade Federal de Juiz de Fora lilian.pinto@ufjf.edu.br

Leia mais

Análise de dados multivariados I

Análise de dados multivariados I Análise de dados multivariados I Tópico: Análise de Conglomerados ou Agrupamentos (ou ainda, Cluster Analysis) Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 199

Leia mais

ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA ESTATÍSTICA DESCRITIVA Organização Descrição Quantificação de variabilidade Identificação de valores típicos e atípicos Elementos básicos: Tabelas Gráficos Resumos numéricos CONCEITOS BÁSICOS Variável

Leia mais

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3. 3 - MEDIDAS RESUMO 3.1 - Medidas de Posição 3.2 - Medidas de Dispersão 3.3 - Quantis Empiricos 3.4 - Box-plots 3.5 - Graficos de simetria 3.6 - Transformações 1/17 3.1 - Medidas de Posição Muitas vezes

Leia mais

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Coleta de Dados Experimento planejado, Possiveis

Leia mais

CURTA DURAÇÃO APLICAÇÕES DE ESTATÍSTICA

CURTA DURAÇÃO APLICAÇÕES DE ESTATÍSTICA CURTA DURAÇÃO APLICAÇÕES DE ESTATÍSTICA OBJETIVO O curso tem como objetivo apresentar algumas técnicas de estatística aplicada utilizar a na análise de dados. PERFIL DO ALUNO Destina-se a executivos das

Leia mais

PARTE 3. Profª. Drª. Alessandra de Ávila Montini

PARTE 3. Profª. Drª. Alessandra de Ávila Montini PARTE 3 Profª. Drª. Alessandra de Ávila Montini Distribuições Contínuas 2 Conteúdo Principais Distribuições de Probabilidade para Variáveis Quantitativas Contínuas: Exponencial Normal T de Student Qui-quadrado

Leia mais

Métodos Quantitativos II

Métodos Quantitativos II Métodos Quantitativos II MEDIDAS DE VARIABILIDADE O que significa Variabilidade? As medidas de tendência central nos dão uma ideia da concentração dos dados em torno de um valor. Entretanto, é preciso

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:

Leia mais

Correlação e Regressão

Correlação e Regressão Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe

Leia mais

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO AULA UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO As tabelas estatísticas, geralmente, condensam informações de fenômenos que necessitam da coleta de grande quantidade de dados numéricos. No caso

Leia mais

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos, 1 Exercício 1 Variável Salário: Quantitativa contínua Para construir os histogramas solicitados temos, Tabela 1: Distribuição de frequências da variável salário Classe de Salário n i f i Amplitude i Densidade

Leia mais

2. Estatística Descritiva

2. Estatística Descritiva 2. Estatística Descritiva ESTATÍSTICA Conjunto de técnicas e ferramentas que descreve, organiza, resume e interpreta as informações a partir dos dados coletados Estatística descritiva Conjunto de técnicas

Leia mais

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos Notas de Aula Estatística Elementar 10ª Edição by Mario F. Triola Tradução: Denis Santos Slide 1 Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados 3-1 Visão Geral 3-2 Medidas de

Leia mais

Módulo 19 - Análise Discriminante Geração de Tabelas

Módulo 19 - Análise Discriminante Geração de Tabelas Módulo 19 - Análise Discriminante Geração de Tabelas Situação Problema Um banco deseja classificar seus clientes de acordo com seu perfil de investimento: investidor conservador, investidor moderado ou

Leia mais

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DE POSIÇÃO E DISPERSÃO Departamento de Estatística Luiz Medeiros Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos.

Leia mais

Lista de Exercícios Cap. 2

Lista de Exercícios Cap. 2 Lista de Exercícios Cap. 2 ) Considere os dados de Sexo e Raça para os dados abaixo: Sexo F M M F M F F F M M M M M M F F F M F F F F M M F M M Raça B B B B B B B B B B B B B B B B B P B B B A B B B B

Leia mais

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná aanjos@ufpr.br Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->

Leia mais

Introdução à probabilidade e estatística I

Introdução à probabilidade e estatística I Introdução à probabilidade e estatística I Medidas resumo para tabelas de frequências Prof. Alexandre G Patriota Sala: 298A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota Medidas resumo para

Leia mais

Estatística Descritiva (I)

Estatística Descritiva (I) Estatística Descritiva (I) 1 O que é Estatística Origem relacionada com a coleta e construção de tabelas de dados para o governo. A situação evoluiu: a coleta de dados representa somente um dos aspectos

Leia mais

Fernando de Pol Mayer

Fernando de Pol Mayer Fernando de Pol Mayer Laboratório de Estatística e Geoinformação (LEG) Departamento de Estatística (DEST) Universidade Federal do Paraná (UFPR) Este conteúdo está disponível por meio da Licença Creative

Leia mais

PROCESSOS ESTOCÁSTICOS

PROCESSOS ESTOCÁSTICOS PROCESSOS ESTOCÁSTICOS PNV 2452 TRATAMENTO E ANÁLISE DE DADOS 2015 MOTIVAÇÃO PARA A ANÁLISE DE DADOS Data Summary Number of Data Points = 30000 Min Data Value = 0.00262 Max Data Value = 982 Sample Mean

Leia mais

Seção 2.1. Distribuições de freqüência e seus gráficos

Seção 2.1. Distribuições de freqüência e seus gráficos Seção 2.1 Distribuições de freqüência e seus gráficos Distribuições de freqüência Minutos gastos ao telefone 102 124 108 86 103 82 71 104 112 118 87 95 103 116 85 122 87 100 105 97 107 67 78 125 109 99

Leia mais

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados 3-1 Visão Geral 3-2 Medidas de Centro 3-3 Medidas de Dispersão 3-4 Medidas de Forma da Distribuição 3-5 Análise Exploratória de

Leia mais

Apontamentos de Introdução às Probabilidades e à Estatística

Apontamentos de Introdução às Probabilidades e à Estatística i Índice 1. Introdução 1 1.1. Enquadramento e objectivos 2 1.2. Organização 5 1.3. Noções base da Estatística 7 1.3.1. Distinção entre população e amostra 8 1.3.2. Amostragem 10 1.3.3. Unidade estatística

Leia mais

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015 CE001 Bioestatística Prof. Cesar Augusto Taconeli Curitiba-PR 2015 Parte 2 Estatística descritiva 2 A estatística descritiva compreende técnicas (tabelas, gráficos, medidas) que permitem resumir os dados.

Leia mais

Estatística Aplicada à Administração II

Estatística Aplicada à Administração II Estatística Aplicada à Administração II Tópico: Análise Discriminante (No SPSS e no Minitab) Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 1992 L.J. Corrar; E. Paulo;

Leia mais

Medidas resumo numéricas

Medidas resumo numéricas Medidas descritivas Medidas resumo numéricas Tendência central dos dados Média Mediana Moda Dispersão ou variação em relação ao centro Amplitude Intervalo interquartil Variância Desvio Padrão Coeficiente

Leia mais

Estatística Descritiva (I)

Estatística Descritiva (I) Estatística Descritiva (I) O que é Estatística Para muitos, a Estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são as pessoas que coletam esses dados. A Estatística originou-se

Leia mais

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3 Excel INTERMEDIÁRIO Prof. Cassiano Isler 2017.1 - Turma 3 s s Prof. Cassiano Isler Excel INTERMEDIÁRIO - Aula 4 2 / 29 s COSTA NETO, P. L. O.. 2. ed. São Paulo: Edgard Blücher (2002). GÓMEZ, Luis Alberto.

Leia mais

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Prof. Lorí Viali, Dr.   Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. viali@mat.ufrgs.br http://www.ufrgs.br/~viali/ Coleção de números n estatísticas sticas O número n de carros vendidos no país aumentou em 30%. A taxa de desemprego atinge, este mês,

Leia mais

Seminário de Análise Multivariada

Seminário de Análise Multivariada Seminário de Análise Multivariada Capítulo 1 - Introdução Conteúdo 1 Introdução 1 11 Aplicações de Técnicas Multivariadas 2 12 Organização de Dados 3 121 Arranjos 3 122 Exemplo 11 - Seleção de recibos

Leia mais

AGRUPAMENTO DE ESCOLAS DE VILA VIÇOSA GRUPO DE MATEMÁTICA ANO LECTIVO 2018 / 2019 MATEMÁTICA APLICADA ÀS CIÊNCIAS SOCIAIS 10º ANO

AGRUPAMENTO DE ESCOLAS DE VILA VIÇOSA GRUPO DE MATEMÁTICA ANO LECTIVO 2018 / 2019 MATEMÁTICA APLICADA ÀS CIÊNCIAS SOCIAIS 10º ANO AGRUPAMENTO DE ESCOLAS DE VILA VIÇOSA DGestE Direção Geral de Estabelecimentos Escolares Escola Sede: Escola Secundária Públia Hortênsia de Castro Código: 135483 GRUPO DE MATEMÁTICA ANO LECTIVO 2018 /

Leia mais

Distribuição de frequências:

Distribuição de frequências: Distribuição de frequências: Uma distribuição de frequências é uma tabela que reúne o conjunto de dados conforme as frequências ou as repetições de seus valores. Esta tabela pode representar os dados em

Leia mais

Estatística Computacional Profª Karine Sato da Silva

Estatística Computacional Profª Karine Sato da Silva Estatística Computacional Profª Karine Sato da Silva karine.sato.silva@gmail.com Introdução Quando analisamos uma variável qualitativa, basicamente, construímos sua distribuição de frequências. Ao explorarmos

Leia mais

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL Estatística e Probabilidade CH: 40 h/a Classificação de variáveis, Levantamento de Dados: Coleta; Apuração; Apresentação; e Análise de resultados. Séries Estatísticas.

Leia mais

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE: A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE: ESELAW 09 MARCOS ANTÔNIO P. & GUILHERME H. TRAVASSOS) 1 Aluna: Luana Peixoto Annibal

Leia mais

Medidas de Dispersão ou variabilidade

Medidas de Dispersão ou variabilidade Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou

Leia mais

Medidas de dispersão. 23 de agosto de 2018

Medidas de dispersão. 23 de agosto de 2018 23 de agosto de 2018 Dispersão de dados A representação feita pelas medidas centrais, ao mesmo tempo que permite uma visualização rápida das informações acaba levando ao embaralhamento do conjunto. A média

Leia mais

(a) Use cinco intervalos e construa um histograma e o polígono de frequência. (b) Determine uma medida de posição central e uma medida de dispersão.

(a) Use cinco intervalos e construa um histograma e o polígono de frequência. (b) Determine uma medida de posição central e uma medida de dispersão. Universidade Federal Fluminense Instituto de Ciências Exatas Departamento de Matemática 1 a Lista de Exercícios de Probabilidade e Estatística Prof a : Marina Sequeiros 1. Contou-se o número de erros de

Leia mais

Exploração e Transformação de dados

Exploração e Transformação de dados Exploração e Transformação de dados A DISTRIBUIÇÃO NORMAL Normal 99% 95% 68% Z-score -3,29-2,58-1,96 1,96 2,58 3,29 Normal A distribuição normal corresponde a um modelo teórico ou ideal obtido a partir

Leia mais

Elementos de Estatística

Elementos de Estatística Elementos de Estatística Lupércio F. Bessegato & Marcel T. Vieira UFJF Departamento de Estatística 2013 Medidas Resumo Medidas Resumo Medidas que sintetizam informações contidas nas variáveis em um único

Leia mais

MEDIDAS DE TENDÊNCIA CENTRAL

MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE TENDÊNCIA CENTRAL Professor Jair Wyzykowski Universidade Estadual de Santa Catarina Média aritmética INTRODUÇÃO A concentração de dados em torno de um valor pode ser usada para representar todos

Leia mais

Capítulo 1. Análise Exploratória de Dados

Capítulo 1. Análise Exploratória de Dados Capítulo 1 Análise Exploratória de Dados Introdução A finalidade da Análise Exploratória de Dados (AED) é examinar os dados previamente à aplicação de qualquer técnica estatística. Desta forma o analista

Leia mais

Estatística Descritiva

Estatística Descritiva Probabilidade e Estatística Prof. Dr.Narciso Gonçalves da Silva http://paginapessoal.utfpr.edu.br/ngsilva Estatística Descritiva Distribuição de frequência Para obter informações de interesse sobre a característica

Leia mais

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico MAIS SOBRE MEDIDAS RESUMO Medidas de Tendência Central (1) média (aritmética) * só para variáveis quantitativas exceção: variável qualitativa nominal dicotômica, com categorias codificadas em 0 e 1; neste

Leia mais