Probabilidade e Estatística Prof. Dr. Jhames Sampaio
Medidas de Posição Moda observação mais frequente
Medidas de Posição Moda observação mais frequente Vamos considerar a pesquisa do Twitter onde foram computados os Emojis mais utilizados para se referir a programas de t v americanas em 2014
Medidas de Posição Moda observação mais frequente Vamos considerar a pesquisa do Twitter onde foram computados os Emojis mais utilizados para se referir a programas de t v americanas em 2014
Medidas de Posição Moda observação mais frequente Vamos considerar a pesquisa do Twitter onde foram computados os Emojis mais utilizados para se referir a programas de t v americanas em 2014 Moda
Medidas de Posição Moda Média observação mais frequente soma ponderada dos valores observados
Medidas de Posição Moda Média observação mais frequente soma ponderada dos valores observados Mediana separa metade dos dados para cada lado
Medidas de Posição Moda Média observação mais frequente soma ponderada dos valores observados Mediana separa metade dos dados para cada lado Es tatís t ic as c alculadas à part ir de populaçõe s são ch am ad as e s t atís t ic as populacionais ou parâmetros
Medidas de Posição Moda Média observação mais frequente soma ponderada dos valores observados Mediana separa metade dos dados para cada lado Es tatís t ic as c alculadas à part ir de populaçõe s são ch am ad as e s t atís t ic as populacionais ou parâmetros Estatísticas calculadas à partir de amostras são ch am adas e s t atís t ic as amostrais ou estimativas
Medidas de Posição Moda Média observação mais frequente soma ponderada dos valores observados Mediana separa metade dos dados para cada lado Es tatís t ic as c alculadas à part ir de populaçõe s são ch am ad as e s t atís t ic as populacionais ou parâmetros µ Média populacional x Média amostral Estatísticas calculadas à partir de amostras são ch am adas e s t atís t ic as amostrais ou estimativas
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda:?
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda:?
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69 Média:?
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69 Média: 75+69+88+93+95+54+87+88+69+27+69+73+54 13
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69 Média: 75+69+88+93+95+54+87+88+69+27+69+73+54 = 72,34 13
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69 Média: 75+69+88+93+95+54+87+88+69+27+69+73+54 = 72,34 13 Mediana:?
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69 Média: 75+69+88+93+95+54+87+88+69+27+69+73+54 = 72,34 13 Mediana: 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95
Exemplo Notas dos exames de 13 alunos: 75, 69, 88, 93, 95, 54, 87, 88, 69, 27, 69, 73, 54 Moda: 69 Média: 75+69+88+93+95+54+87+88+69+27+69+73+54 = 72,34 13 Mediana: 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95
Média Se denotarmos um conjunto de dados por (x1, x2,..., xn ) podemos escrever a média como: x1 + + xn = n n X i=1 xi n
Média Por outro lado, podemos olhar apenas para as observações únicas e salvar tempo computacional: 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95
Média Por outro lado, podemos olhar apenas para as observações únicas e salvar tempo computacional: 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95
Média Por outro lado, podemos olhar apenas para as observações únicas e salvar tempo computacional: 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95 Média: 27+2 X 54+3 X 69+73+75+87+2 X 88+93+95 = 72,34 13
Média Seguindo esse raciocínio, nós dividimos os dados em k categorias de obser vações únicas: (x1, x2,..., xk )
Média Seguindo esse raciocínio, nós dividimos os dados em k categorias de obser vações únicas: (x1, x2,..., xk ) Observado n1 vezes Observado nk vezes
Média E a fórmula da média pode ser escrita como n1 x 1 nk x k n1 x 1 + + nk x k = + + x= n n n
Média E a fórmula da média pode ser escrita como n1 x 1 nk x k n1 x 1 + + nk x k = + + x= n n n = f1 x1 + + fk xk = k X i=1 fi xi
Média E a fórmula da média pode ser escrita como n1 x 1 nk x k n1 x 1 + + nk x k = + + x= n n n = f1 x1 + + fk xk = Frequências relativas k X i=1 fi xi
Mediana Outra questão que pode surgir é como calcular a mediana quando o conjunto de dados tem uma quantidade par de elementos
Mediana Outra questão que pode surgir é como calcular a mediana quando o conjunto de dados tem uma quantidade par de elementos Vamos adicionar o valor 100 ao nosso conjunto de dados original 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95, 100
Mediana Outra questão que pode surgir é como calcular a mediana quando o conjunto de dados tem uma quantidade par de elementos Vamos adicionar o valor 100 ao nosso conjunto de dados original 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95, 100
Mediana Outra questão que pode surgir é como calcular a mediana quando o conjunto de dados tem uma quantidade par de elementos Vamos adicionar o valor 100 ao nosso conjunto de dados original 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95, 100 Mediana 73+75 2 = 74
Medidas de Dispersão Considere os conjuntos de dados abaixo X = {5, 5, 5, 5, 5} Y = {3, 4, 5, 6, 7} Z = {1, 3, 5, 7, 9}
Medidas de Dispersão Considere os conjuntos de dados abaixo X = {5, 5, 5, 5, 5} Y = {3, 4, 5, 6, 7} Média = 5 Z = {1, 3, 5, 7, 9} Todos possuem a mesma média, mas não estão igualmente distribuídos
Medidas de Dispersão Considere os conjuntos de dados abaixo X = {5, 5, 5, 5, 5} Y = {3, 4, 5, 6, 7} Média = 5 Z = {1, 3, 5, 7, 9} Todos possuem a mesma média, mas não estão igualmente distribuídos 5 X 3 4 5 6 7 Y Z 1 3 5 7 9
Medidas de Dispersão Precisamos de uma medida que seja capaz de compreender a dispersão dos dados Uma boa ideia seria verificarmos o quão distante cada elemento do conjunto está afastado da média n X i=1 xi x n Desvio absoluto n X i=1 (xi x) 2 n Variância Populacional n X i=1 (xi n x) 1 Variância Amostral 2
Variância Utilizamos duas notações particulares para a variância 2 Variância Populacional Variância Amostral S 2
Variância Utilizamos duas notações particulares para a variância 2 Variância Populacional Variância Amostral S 2 Supondo que nossos dados anteriores são populacionais, a variância do terceiro conjunto de dados é 2 2 2 2 2 (1-5) +(3-5) +(5-5) +(7-5) +(9-5) 5 = 8
Variância Por meio de contas análogas, a variância para o primeiro e segundo conjunto de dados são, respectivamente, 2 2 2 2 2 (5-5) +(5-5) +(5-5) +(5-5) +(5-5) 5 2 2 2 2 2 (3-5) +(4-5) +(5-5) +(6-5) +(7-5) 5 = 0 = 2
Variância A variância é preferível por algumas razões: Pontos negativos e positivos não se cancelam Pontos mais distantes recebem peso maior
Variância A variância é preferível por algumas razões: Pontos negativos e positivos não se cancelam Pontos mais distantes recebem peso maior Um ponto negativo da variância está no fato da medida não ser calculada na dimensão original dos dados
Variância A variância é preferível por algumas razões: Pontos negativos e positivos não se cancelam Pontos mais distantes recebem peso maior Um ponto negativo da variância está no fato da medida não ser calculada na dimensão original dos dados Podemos resolver este problema tomando a raiz da variância
Variância A variância é preferível por algumas razões: Pontos negativos e positivos não se cancelam Pontos mais distantes recebem peso maior Um ponto negativo da variância está no fato da medida não ser calculada na dimensão original dos dados Podemos resolver este problema tomando a raiz da variância A este valor chamaremos Desvio Padrão
Desvio Padrão Utilizamos duas notações particulares para o desvio padrão Desvio Padrão Populacional Desvio Padrão Amostral S
Desvio Padrão Utilizamos duas notações particulares para o desvio padrão Desvio Padrão Populacional Desvio Padrão Amostral S Aos três conjuntos de dados anteriores teríamos os seguintes desvios padrões aproximados 0 1,41 2,82
Quantis De forma geral, um quantil de ordem p é o valor que separa 100p% dos dados à sua esquerda, onde 0<p<1 Utilizamos a notação q(p) Em especial, três quantis específicos nos serão úteis
Quantis De forma geral, um quantil de ordem p é o valor que separa 100p% dos dados à sua esquerda, onde 0<p<1 Utilizamos a notação q(p) Em especial, três quantis específicos nos serão úteis q(0,25) = q1 Primeiro quartil q(0,50) = q2 Mediana q(0,75) = q3 Terceiro quartil
Quantis Vamos calcular os quantis para as notas dos exames dos alunos 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95
Quantis Vamos calcular os quantis para as notas dos exames dos alunos 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95 Mediana
Quantis Vamos calcular os quantis para as notas dos exames dos alunos 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95 Mediana q1 54+69 = 61,5 2 88+88 = 88 2 q3
Quantis Adicionando o valor 100 aos dados de modo a termos um conjunto par de valores teríamos 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95, 100
Quantis Adicionando o valor 100 aos dados de modo a termos um conjunto par de valores teríamo 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95, 100 Mediana
Quantis Adicionando o valor 100 aos dados de modo a termos um conjunto par de valores teríamo 27, 54, 54, 69, 69, 69, 73, 75, 87, 88, 88, 93, 95, 100 Mediana q1 q3
Quantis De posse dos três quantis principais, nós definimos abaixo a distância interquantil dq = q3 - q1
Quantis De posse dos três quantis principais, nós definimos abaixo a distância interquantil dq = q3 - q1 50% dos dados estão contidos no inter valo determinado pela distância interquantil
Quantis De posse dos três quantis principais, nós definimos abaixo a distância interquantil dq = q3 - q1 50% dos dados estão contidos no inter valo determinado pela distância interquantil A distância interquantil nos permite criar um dos gráficos que traz mais informação à respeito da distribuição dos dados de uma variável quantitativa: o BoxPlot
B O X P L O T LS = q3 + Maior valor menor que LS 3 d 2 q q3 x = q2 Distância Interquantil dq q1 Menor valor maior que LI L I = q1 3 2 dq
Quantis Vamos analisar as notas dos alunos do segundo semestre de 2015 no curso de Probabilidade e Estatística do período noturno Foram 64 alunos que obtiveram notas numéricas variando de 0 a 10 As medidas resumo foram: Mínimo: 1,00 Primeiro quartil: 4,98 Mediana: 5,94 Média: 5,34 Terceiro quartil: -6,73 Máximo: -9,47 Também poderíamos analisar as menções, mas estamos interessados em construir um BoxPlot Para ajudar a análise também iremos const ruir um histograma
Quantis Histograma das Notas Finais BoxPlot das Notas Finais 7.5 Nota Frequência 15 10 5.0 5 2.5 0 0 3 6 Notas 9 20 40 Alunos 60
Medidas Robustas Nós definimos estatísticas robustas como sendo medidas estatísticas que são fracamente afetadas por obser vações extremas Média vs Mediana dados média mediana 1, 2, 3, 4, 5, 6 3,5 3,5
Medidas Robustas Nós definimos estatísticas robustas como sendo medidas estatísticas que são fracamente afetadas por obser vações extremas Média vs Mediana dados média mediana 1, 2, 3, 4, 5, 6 3,5 3,5 1, 2, 3, 4, 5, 6, 1000 169 4
Medidas Robustas Nós definimos estatísticas robustas como sendo medidas estatísticas que são fracamente afetadas por obser vações extremas Média vs Mediana dados média mediana 1, 2, 3, 4, 5, 6 3,5 3,5 1, 2, 3, 4, 5, 6, 1000 169 4 Não robusta Robusta
Medidas Robustas Nós definimos estatísticas robustas como sendo medidas estatísticas que são fracamente afetadas por obser vações extremas Média vs Mediana dados média mediana 1, 2, 3, 4, 5, 6 3,5 3,5 1, 2, 3, 4, 5, 6, 1000 169 4 Não robusta Robusta A média foi carregada" à direita pelo valor extremo 1000
Medidas Robustas Assimétrica à esquerda Simétrica Stable Assimétrica à direita Normal Gamma 0.4 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0.0 0.0 0.0 5 0 5 4 2 0 2 4 0 2 4 6 8