Aula 2 Planejamento e Análise de Experimentos Professores Miguel Antonio Sovierzoski, Dr. miguelaso@utfpr.edu.br; Vicente Machado Neto, Dr. vmachado@utfpr.edu.br;
Revisão da aula anterior Fatores níveis - tratamentos Formas de conhecimento População e amostra Média e Desvio Padrão Coeficiente de Variação Erro Padrão Tamanho da amostra Histograma Discussão sobre os trabalhos a serem desenvolvidos na disciplina, fatores, níveis,tratamentos.
Fatores - níveis - tratamentos Fator: É uma das variáveis cujos efeitos estão sendo estudados no experimento. Pode ser: Quantitativo Ex temperatura em C, tempo em minutos, etc... Qualitativo Ex. diferentes operadores, diferentes máquinas, ligado ou desligado etc... Nível do Fator É o valor do fator examinado no experimento. Fator quantitativo cada valor escolhido constitui um nível. (por exemplo, se o experimento for realizado com 3 tempos diferentes, cada tempo é um nível e o fator tempo tem 3 níveis); Fator qualitativo cada condição diferente escolhida para cada fator constitui um nível. (por exemplo, se o experimento for realizado com 2 máquinas operadoras por 3 operadores, o fator máquina tem 2 níveis, e o fator operador, 3 níveis.)
Fatores - níveis - tratamentos Tratamento - É um nível único assinalado para um fator durante um experimento. Exemplo: Temperatura a 450 C. Combinação do tratamento É um conjunto de níveis para todos os fatores num determinado experimento. Exemplo: Experimento usando operador João, máquina A, temperatura de 450 C. Exemplo Experimento com 2 fatores (operador e máquina), com os seguintes níveis e tratamentos: Operador (4 níveis) tratamentos: 1) Operador João; 2) Operador Tiago; 3) Operador Márcio; 4) Operador Odete; Máquina (2 níveis) tratamentos: 1) Máquina marca PXTO; 2) Máquina marca LAMP
Passos para construção de um Histograma Passo 1: ordenar o conjunto de dados, ou seja colocar os dados em ordem crescente de grandeza; Passo 2: Determinar o número de classes da tabela. De modo geral não deverá ser inferior a 5 e nem superior a 15, orientada para os objetivos do trabalho. k = número de classes; n = número de observações; log = logaritmo de base 10.
Passos para construção de um Histograma Passo 3: determinar a amplitude do intervalo i: Es Ei = extremo superior extremo inferior Arredondar o número de classes (k) ou da amplitude do intervalo (i) sempre para cima.
Passos para construção de um Histograma Passo 4: Construir os intervalos de classe. O limite inferior de primeira classe será sempre o menor valor do conjunto de dados (Ei) e o limite superior será o limite inferior acrescido do valor da amplitude do intervalo de classe (i). Na sequência, o limite inferior da segunda classe será o limite superior da primeira classe e o limite superior da segunda classe será este acrescido da amplitude do intervalo. E assim sucessivamente. Obs: os intervalos são inclusivos à esquerda.
Passos para construção de um Histograma Obs: os intervalos são inclusivos à esquerda.
120 Histograma de uma distribuição Normal contínua Frequência de valores nas classes 100 80 60 40 20 0 Classes de valores
Histograma de uma distribuição Normal contínua com suavização de linhas
Histograma de uma distribuição Normal Pela simulação feita no excel podemos verificar que: Observar que 1 s para cima e para baixo corresponde aproximadamente a 68% das amostras. E 2s para cima e para baixo a aproximadamente 95% das amostras.
Histograma de uma distribuição Normal Pela simulação feita no excel podemos verificar Frequência de cada uma das classes; Frequência acumulada das classes.
Histograma de múltiplas distribuições
Tipos de variáveis Até agora simulamos distribuições de probabilidade de variáveis contínuas, uma vez que o nosso gerador de números aleatórios construído gera infinitos valores. Podemos ter outros tipos de variáveis, tais como categóricas e variáveis numéricas discretas.
Variáveis categóricas Para melhor entender o que é uma variável categórica, nada melhor que um exemplo: Suponhamos que desejamos ter uma avaliação da disciplina de PAE, para isto estabelecemos 4 conceitos; ruim, médio, bom e ótimo. Uma vez estabelecidos os conceitos vamos fazer a pesquisa entre 60 alunos: 12 responderam ruim; 27 médio; 15 bom e 6 ótimo.
Variáveis categóricas Classe Freq da classe Freq Acum Prop classe Prop Acum Ruim 12 12 0,2 0,2 Médio 27 39 0,45 0,65 Bom 15 54 0,25 0,9 Ótimo 6 60 0,1 1 Total 60 1 30 25 20 15 10 5 0 Ruim Médio Bom Ótimo
Variáveis numéricas discretas Para melhor entender o que é uma variável numérica discreta: Consideremos agora que a variável em estudo seja o número de animais portadores de brucelose em 350 propriedades rurais.
Variáveis numéricas discretas Temos os seguintes dados: Número de animais com brucelose por propriedade j Classe Freq da classe Freq Acum Perc da Classe Perc Acumulado 1 0 55 55 0,157142857 0,157142857 2 1 60 115 0,171428571 0,328571429 3 2 112 227 0,32 0,648571429 4 3 82 309 0,234285714 0,882857143 5 4 31 340 0,088571429 0,971428571 6 5 8 348 0,022857143 0,994285714 7 6 2 350 0,005714286 1 350 1
Variáveis numéricas discretas Número de animais com brucelose por propriedade j Classe Freq da classe Freq Acum Perc da Classe Perc Acumulado 1 0 55 55 0,157142857 0,157142857 2 1 60 115 0,171428571 0,328571429 3 2 112 227 0,32 0,648571429 4 3 82 309 0,234285714 0,882857143 5 4 31 340 0,088571429 0,971428571 6 5 8 348 0,022857143 0,994285714 7 6 2 350 0,005714286 1 350 1 120 100 Número de animais com brucelose por propriedade 1,2 1 Frequência Acumulada de animais infectados por proprieda 80 0,8 60 0,6 40 0,4 20 0 0 1 2 3 4 5 6 0,2 0 0 1 2 3 4 5 6
Medidas descritivas As medidas descritivas têm o objetivo de reduzir um conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve fornecer toda a informação relevante a respeito desses dados. Estas medidas são funções dos valores observados e podem ser classificadas em quatro grupos:
Medidas descritivas - Medidas de localização, também denominadas medidas de tendência central ou medidas de posição: indicam um ponto central onde, em muitas situações importantes, está localizada a maioria das observações; - Medidas separatrizes: indicam limites para proporções de observações em um conjunto, podendo ser utilizadas para construir medidas de dispersão;
Medidas descritivas - Medidas de variação também denominadas medidas de dispersão: informam sobre a variabilidade dos dados; - Medidas de formato: informam sobre o modo como os valores se distribuem. Compreendem as medidas de assimetria, que indicam que a maior proporção de valores está no centro ou mas extremidades, e as medidas de curtose, que descrevem grau de achatamento da distribuição.
Medidas de localização Medidas de localização: ii=1 xx ii Já falamos sobre a média nn Devemos ter cuidado com a média, principalmente quando temos valores extremos ou outliers Em estatística, outlier, valor atípico, valor aberrante, é uma observação que apresenta um grande afastamento das demais da série (que esta "fora" dela), ou que é inconsistente. xx = nn
Medidas de localização Moda: a moda corresponde ao dado que tem maior frequência, ou seja, que mais ocorre. Se existirem dois valores com igual número de ocorrência, diz-se que a distribuição é bimodal, para mais de dois valores, tem-se uma distribuição multimodal.
Medidas de localização Mediana: é o ponto que divide a amostra em duas metades. Por exemplo, tendo-se um conjunto de observações, tal qual: 10, 50, 25, 60 e 45, a mediana é igual a 45, depois de rearranjar em ordem crescente os dados. O número 45 divide ao meio a amostra.
Medidas de localização xx = nn ii=1 nn xx ii
Medidas de localização
Medidas de localização
Medidas separatrizes As medidas separatrizes delimitam proporções de observações de uma variável ordinal. Como a mediana divide o conjunto em duas metades, é razoável pensar numa medida separatriz que efetue uma divisão adicional: dividir cada metade em duas metades. Essas medidas separatrizes são denominadas quartis.
Medidas separatrizes De modo semelhante, é possível encontrar valores que delimitem porções expressas em percentagem de dados em um conjunto ordenado. Esses valores são denominados percentis. Entretanto, de todas essas medidas separatrizes, teremos interesse particular na mediana, e nos quartis.
Medidas separatrizes De modo semelhante, é possível encontrar valores que delimitem porções expressas em percentagem de dados em um conjunto ordenado. Esses valores são denominados percentis. Entretanto, de todas essas medidas separatrizes, teremos interesse particular na mediana, e nos quartis.
Quartis Os quartis dividem um conjunto de dados ordenado em quatro partes iguais. São elas: -Primeiro quartil Q1: 25% dos valores ficam abaixo e 75% ficam acima desta medida. - Segundo quartil Q2: 50% dos valores ficam abaixo e 50% ficam acima desta medida, corresponde à mediana (Q2=Md). - Terceiro quartil Q3: 75% dos valores ficam abaixo e 25% ficam acima desta medida.
Quartis Observa-se facilmente que o primeiro quartil é o percentil 0,25, a mediana é o percentil 0,5 e o terceiro quartil é o percentil 0,75.
Quartis Para determinar os quartis: 1º caso: quanto n é impar
Exemplo Quartil n impar 10
Quartis no Minitab O Minitab calcula os valores dos quartis de forma um pouco diferente, dependendo da situação isto pode levar a resultados distintos.
Quartis no Minitab
Quartis no Minitab Para obtermos os quartis acima como o Minitab calcula, usamos a fórmula QQ ii = ii 4 (NN + 1). QQ 1 = 1 4 10 + 1 = 2,75, o valor 2,75 está entre 9 e 16, pega-se a parte fracionária do 2,75 (0,75) e multiplica-se pelo intervalo entre 9 e 16 (7), e soma-se ao 9, assim, (16-9)=7x0,75=5,25+9=14,25. Da mesma forma obtemos QQ 2 ee QQ 3. QQ 2 = 2 4 10 + 1 = 5,5 o valor 5,5 está entre 39 e 45; (45-39)=6x0,5=3+39=42. QQ 3 = 3 4 10 + 1 = 8,25 o valor 8,25 está entre 46 e 48; (48-46)=2x0,25=0,5+46=46,5. A amplitude interquatílica é dada pela diferença (46,50-14,25)=32,25.
Medidas de variação ou dispersão As medidas de variação ou dispersão complementam as medidas de localização ou tendência central, indicando quanto as observações diferem entre si ou o grau de afastamento das observações em relação à média.
Medidas de variação ou dispersão As medidas de variação mais utilizadas são: a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Desvio padrão: σσ xx = nn ii=1 ( xx ii xx) 2 nn 1 Coeficiente de variação: CCCC = (SS xx). 100 Amplitude total: aa tt = EE SS EE II EE SS = eeeeeeeeeeeeee ssssssssssssssss dddd cccccccccccccccc dddd dddddddddd oooooooooooooooo; EE II = eeeeeeeeeeeeee iiiiiiiiiiiiiiii dddd cccccccccccccccc dddd dddddddddd oooooooooooooooo;
Medidas de formato As medidas de formato são um aspecto importante de uma distribuição. Embora mudanças em uma medida de variação também provoquem alterações no aspecto visual, o formato de uma distribuição se relaciona com as ideias de simetria e curtose.
Medidas de formato Momentos denotados por mr, são medidas calculadas com o propósito de estudar a distribuição. O momento de ordem r centrado num valor a é dado por : mm rr = ( xx ii aa) rr nn Quando aa = xx, temos os momentos de ordem r centrados na média e apresentados por mm rr. Assim temos pppppppp rr = 1, tttttttttt: mm 1 = (xx ii xx ) nn pppppppp rr = 3, tttttttttt: mm 3 = (xx ii xx ) 3 nn mm rr = (xx ii xx ) rr nn pppppppp rr = 2, tttttttttt: mm 2 = (xx ii xx ) 2 nn pppppppp rr = 4, tttttttttt: mm 4 = (xx ii xx ) 4 nn
Coeficiente de assimetria Entre as várias medidas de assimetria que devem informar se a maioria dos valores se localiza à esquerda, ou à direita, ou se estão uniformemente distribuídos em torno da média aritmética, temos o coeficiente de assimetria, denotado por aa 3. aa 3 = mm 3 mm 2 mm 2
Coeficiente de assimetria - Se aa 3 < 0, a distribuição é classificada como assimétrica negativa, indicando que a maioria dos valores são maiores ou se localizam à direita da média aritmética. - Se aa 3 = 0, a distribuição é classificada como simétrica, indicando que a maioria dos valores estão uniformemente distribuídos em torno da média aritmética.
Coeficiente de assimetria Se aa 3 > 0, a distribuição é classificada como assimétrica positiva, indicando que a maioria dos valores são menores ou se localizam à esquerda da média aritmética.
Coeficiente de assimetria
Coeficiente de curtose As medidas de curtose indicam o grau de achatamento de uma distribuição. O coeficiente de curtose, denotado por aa 4, é calculado a partir de: aa 4 = mm 4 mm 2 2
Coeficiente de curtose - Se aa 4 < 3, a distribuição é classificada como platicúrtica, indicando que ocorre baixa concentração de valores no centro, tornando a distribuição mais achatada que a distribuição normal. - Se aa 4 = 3, a distribuição é classificada como mesocúrtica, indicando que a concentração das observações ocorre de forma semelhante à distribuição normal.
Coeficiente de curtose aa 4 > 3 - Se, a distribuição é classificada como leptocúrtica, indicando que ocorre alta concentração de valores no centro, o que provoca um pico maior que o da distribuição normal.
Coeficiente de curtose
Resumo de cinco números O resumo de cinco números descreve o conjunto de dados através de cinco valores: a mediana (Md), os quartis, primeiro (Q1) e terceiro (Q3), e os extremos, inferior (Ei) e superior (Es). A partir desses valores, podemos calcular: a amplitude interquartílica (aq), obtida pela diferença entre os quartis;
Resumo de cinco números a dispersão inferior (Di), obtida pela diferença entre a mediana e o extremo inferior; e a dispersão superior (Ds), diferença entre o extremo superior e a mediana. aa qq = QQ 3 QQ 1 DD II = MM dd EE II DD SS = EE ss MM dd
Resumo de cinco números Para uma distribuição ser considerada simétrica temos que ter as duas condições: (QQ 1 EE II EE SS QQ 3 ) (MM dd QQ 1 QQ 3 MM dd ) aa qq = QQ 3 QQ 1 DD II = MM dd EE II DD SS = EE ss MM dd
Resumo de cinco números Se uma dessas duas condições não for atendida, então, a distribuição será assimétrica. (MM (QQ 1 EE II EE SS QQ 3 ) dd QQ 1 QQ 3 MM dd )
Identificação de valores discrepantes Um critério objetivo para identificação de valores discrepantes num conjunto de dados utiliza medidas denominadas cerca inferior (Ci) e cerca superior (Cs). Calculas pelas seguintes fórmulas: CC II = QQ 1 1,5aa qq ee CC SS = QQ 3 + 1,5aa qq São considerados discrepantes os valores que estiverem fora do seguinte intervalo: QQ 1 1,5aa qq ; QQ 3 + 1,5aa qq
Identificação de valores discrepantes CC II = QQ 1 1,5aa qq ee CC SS = QQ 3 + 1,5aa qq QQ 1 1,5aa qq ; QQ 3 + 1,5aa qq Os valores menores que a cerca inferior são denominados discrepantes inferiores e os valores maiores que a cerca superior são denominados discrepantes superiores.
Gráfico em caixa (box plot) A informação dada pelo resumo de cinco números pode ser apresentada em forma de um gráfico em caixa, que agrega uma série de informações a respeito da distribuição, tais como localização, dispersão, assimetria, caudas e dados discrepantes.
Gráfico em caixa (box plot) Antes de construir o gráfico precisamos definir o que são valores adjacentes. São adjacentes o menor e o maior valores não discrepantes de um conjunto de dados, ou seja, o maior valor que não ultrapassa a cerca superior e o menor valor que não ultrapassa a cerca inferior. Se num conjunto de dados nenhum valor é considerado discrepante, os valores adjacentes são os próprios extremos.
Gráfico em caixa (box plot) Para construir o box plot, consideramos um retângulo onde estarão representados os quartis e a mediana.
Gráfico em caixa (box plot) A partir do retângulo, para cima e para baixo, seguem linhas, denominadas bigodes, que vão até os valores adjacentes. Os valores discrepantes recebem uma representação individual através de uma letra ou símbolo.
Gráfico em caixa (box plot) A posição central dos valores é dada pela mediana e a dispersão pela amplitude interquartílica (aq). As posições relativas da mediana e dos quartis e o formato dos bigodes dão uma noção da simetria e do tamanho das caudas da distribuição.
Gráfico em caixa (box plot) Vale lembrar que quando encontramos um valor discrepante num conjunto de dados, a sua origem deve ser investigada. Muitas vezes, os valores discrepantes, de fato, fazem parte do conjunto de dados, reforçando a característica assimétrica da distribuição.
Gráfico em caixa (box plot) Mas, eventualmente, estes valores podem ser oriundos de erros na aferição ou no registro dos dados. Em geral, distribuições com caudas longas (indicadas por bigodes longos no gráfico), característica comum de distribuições assimétricas, apresentam uma tendência maior de produzir valores discrepantes. Bigodes de diferentes tamanhos indicam distribuições assimétricas.
Gráfico em caixa (box plot)
Gráfico em caixa (box plot) - Outliers Boxplot comparação de diversos materiais quanto a resíduos de OE - Com Outliers 500 400 PPM de OE 300 200 100 0 Cateter OE Prol Silicone OE Prol Latex OE Gase OE Inst Inox OE
Gráfico em caixa (box plot) - Outliers Gráfico com as médias considerando todos os pontos
Gráfico em caixa (box plot) - Outliers Boxplot comparação de diversos materiais quanto a resíduos de OE - Sem Outliers 50 40 PPM de OE 30 20 10 0 Cateter OE Prol Silicone OE Prol Latex OE Gase OE Inst Inox OE
Gráfico em caixa (box plot) - Outliers
Gráfico em caixa (box plot) - Outliers Análise dos dados com os outliers
Gráfico em caixa (box plot) - Outliers Análise dos dados sem os outliers
Exercício Utilize o software Minitab para as análises.
Exercício Utilize o software Minitab para as análises.
Exercício Utilize o software Minitab para as análises.
Exercício Utilize o software Minitab para as análises.
Exercício Utilize o software Minitab para as análises.
Exercício Utilize o software Minitab para as análises.
Exercício para casa Pegue dados de um artigo ou que você tenha disponível dos seus experimentos e faça um Box Plot, explicando os respectivos parâmetros da distribuição resultante. Utilize o software Minitab para as análises.