1 CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA 1. Coceitos Básicos de Probabilidade Variável aleatória: é um úmero (ou vetor) determiado por uma resposta, isto é, uma fução defiida em potos do espaço amostral. Uma variável aleatória pode ser discreta (como o laçameto de um dado) ou cotíua (como a medição de temperatura). Valor esperado (expectativa,sigificado): é a média poderada dos possíveis valores de X, cada valor poderado por sua probabilidade. É represetada por E(X) ou µ x, sedo defiida por E(X) = x f(x ) + x f(x ) +...+ x f(x ) 1 1 E(X) = Σ xp(x = x i i i ), para i=1,,...,. Variâcia: é uma medida da dispersão de X. É represetada por Var(X) e por defiida por [ ] ( ) = Σ ( µ ) ( ) = ( µ ) Var X x f x E X ou Var X ( ) E( X ) = i µ x i e é Desvio padrão: é a raiz quadrada ão-egativa da variâcia. É represetado por. Variável aleatória padroizada: seja x a variável aleatória com sigificado µ e desvio z = x µ. padrão. A variável aleatória padroizada (z), que correspode à x é defiida por ( ) Uma variável padroizada tem valor esperado igual a 0 e variâcia igual a 1 (desvio padrão igual a 1). Teste amostral simples: costitui-se de uma sucessão de leituras tomadas sob codições idêticas (mesmo observador e mesmo istrumeto de medição), exceto o tempo. Teste multiamostral: ocorre quado são feitas medições repetidas de uma quatidade, utilizado diferetes istrumetos de medição e diferetes observadores. As trocas, tato de observador como de istrumeto, causam mudaças a distribuição dos erros e, cosequetemete, tem-se um cojuto de variáveis aleatórias. Distribuição multivariada: é a distribuição cojuta de duas ou mais variáveis aleatórias defiidas o mesmo espaço amostral, própria de um teste multiamostral. Um exemplo é a distribuição associada com a observação simultâea de temperatura, pressão, direção e velocidade do veto. A fução distribuição de uma distribuição bivariada é: P(X x,y y) e é, usualmete, simbolizada por F ( x y) X, Y, 1
Valor verdadeiro de uma variável: é aquele que seria obtido a medição se ão houvesse característica estocástica (aleatória) associada com a medição. Erro aleatório: é um erro que represeta a difereça etre o valor medido da variável aleatória e seu valor verdadeiro. Erro sistemático: é um erro itroduzido cotiuamete, devido, por exemplo, a erro de calibração, desvios istrumetais, erro de técica e, também, devido à represetação iadequada de um processo (como a ão-cosideração da ocorrêcia de vazametos, depósitos). Variáveis aleatórias idepedetes: um úmero fiito de variáveis aleatórias X, Y,..., Z, um espaço amostral defiido, são cosideradas idepedetes se: ( X = x, Y = y,..., Z = z ) = P( X = x ) P( Y = y )...P( Z z ) P = i j para quaisquer valores de xi, y j,..., zk. Elas têm as seguites propriedades: i)e(xy) = E(X) E(Y) ii)var(x+y) = Var(X) + Var(Y) iii)cov(x,y) = 0 ode Cov(X,Y) = covariâcia. k i j k Covariâcia: é o coceito que relacioa duas variáveis aleatórias, X e Y, defiidas um mesmo espaço amostral, represetada por Cov(X,Y). É defiida por ou equivaletemete, [ ] (, ) = ( µ x )( µ y ) Cov X Y E X Y Cov( X, Y ) = E( XY) µ xµ y Coeficiete de correlação: forece a correlação etre duas variáveis aleatórias, X e Y, defiidas um mesmo espaço amostral, represetada por ρ X, Y. É defiido por ρ ( ) X, Y = Cov X, Y x y Autocovariâcia: ao lidar com o registro cotíuo da temperatura X(t) em fução do tempo, pode-se estar iteressado a relação etre X(t) os tempos t 1 e t.a covariâcia etre
variáveis aleatórias X(t 1 ) e X(t ), que represetam potos sobre um mesmo camiho, mas em diferetes tempos, é chamada de autocovariâcia. Covariâcia cruzada: é a covariâcia etre dois processos estocásticos cotíuos, sedo que um deles é referete a um poto o tempo X(t 1 ) e o outro a um poto e tempo possivelmete diferetes, Y(t ). 3. A Variâcia e a Distribuição de Erros Aleatórios Se uma medição experimetal é repetida um úmero de vezes, os valores registrados das quatidades medidas diferem, quase sempre, us dos outros. A dispersão de medições sucessivas de uma quatidade x é comumete expressa em termos da variâcia ou do desvio padrão do cojuto de medidas. Essas quatidades são defiidas de forma que sejam úteis a estimativa da probabilidade de ocorrêcia de erros aleatórios de itesidade defiida as medidas. A variâcia da amostra é simplesmete o desvio ao quadrado médio, de valores medidos de x, em relação à média da amostra x: a Σ = ( x x ) (1) ode a média (x ) é obtida por x x = Σ () O desvio padrão é obtido através da variâcia: a = a (3) 3
4 Na defiição da variâcia das Eq.(1), desvios positivos e egativos em toro da média ão se cacelam us aos outros. A última forma desta equação, que defie a variâcia, é a mais coveiete, quado cálculos reais estão sedo feitos. O valor da variâcia se tora mais cofiável quato mais medições forem obtidas e a exatidão real do procedimeto de medição é idicada pelo valor da variâcia, calculada a partir de uma quatidade muito grade de dados. Quado o úmero de potos experimetais obtido se torar ifiito, o cojuto ifiito é chamado uma população de valores. Para tal população, a média da população (µ) é defiida como: µ = lim Σ x (4) e a variâcia da população é defiida como Σ( x µ ) = lim (5) O desvio padrão da população é a raiz quadrada ão-egativa da variâcia da população. A média da população é o melhor, ou mais provável, valor de x, desde que as variações de x sejam resultates de efeitos pequeos, aleatórios, idepedetes e aditivos. Se, etretato, erros de método e/ou erros ão-aleatórios forem ieretes às medidas, etão a média pode diferir substacialmete do valor verdadeiro de x. Se em um cojuto ifiito de dados, as variações de x forem aleatórias, diz-se que a distribuição de valores de x em toro da média é uma Distribuição Normal ou Gaussiaa. 3.1 Distribuição Normal ou Gaussiaa. As distribuições de feômeos observados assumem, frequetemete, uma forma simétrica em toro da média. Uma fução desse tipo, de extrema importâcia em estatística, é chamada de Distribuição Normal ou Distribuição de Gauss, que é descrita pela fução F ( x ) = 1 exp π 1 ( x µ ) De forma abreviada, se a variável aleatória x apreseta distribuição ormal, com média µ e variâcia, diz-se, simplesmete, x = N( µ, ) 4
5 Do exame da fução desidade, verifica-se que: i) ela é simétrica em toro do eixo vertical que passa por µ; ii) o valor máximo de F(x) ocorreu quado x = µ; iii) tem por assítota o eixo das abscissas; iv) tem potos de iflexão em x = µ ±. Quado a variável aleatória x é padroizada, ela passa a ter uma Distribuição Normal Padroizada, que tem média zero e desvio padrão uitário, ou equivaletemete, uma distribuição N(0,1). Os valores desta fução distribuição são tabelados e com eles se tem um meio de obter as probabilidades associadas a qualquer variável ormal, cohecidos a média e o desvio padrão e a defiição de variável aleatória padroizada (z), 5
6 ( µ ) z = x Cosiderado, agora, o cojuto de variáveis aleatórias idepedetes (x 1, x,..., x ), cada uma ormalmete distribuída, com mesma média (µ) e mesma variâcia ( ). Etão, a média de uma amostra de elemetos, extraída de uma população N(µ, ), represetada por x = x1 + x +... + x é ormalmete distribuída, com média µ e variâcia /. Este resultado é muito importate e é chamado de Teorema do Limite Cetral. Em cosequêcia, x z = µ tem uma distribuição ormal padroizada. Esta situação correspode a um teste amostral simples. A variâcia da população, defiida pela Eq..5, é baseada uma amostra hipotética, cotedo um úmero ifiito de replicatas de uma medida. Todavia, para objetivos práticos, é ecessário lidar com um úmero fiito de valores da quatidade em questão. A média da amostra (x ) é a melhor estimativa da média da população (µ). Etretato, a variâcia da amostra ( a ) ão é a melhor estimativa da variâcia da população ( ). A melhor estimativa da variâcia da população é dada por, s Σ = Σ x x Σ = = a (6) 1 1 1 ( x x) Cosiderado, agora um teste multiamostral evolvedo variáveis aleatórias X 1, X,..., X, que são ormalmete distribuídas, com suas médias µ 1, µ,..., µ e variâcias 1,,...,, respectivamete. A variável aleatória Z é uma combiação liear dessas variáveis Z = a X + a X + + a X 1 1... Na hipótese de Z ser ormalmete distribuída, sua média µ z é a média poderada das médias das variáveis aleatórias idividuais, que podem ou ão ser idepedetes, que é dada por ( a a a ) µ = µ + µ + + µ z 1 1... A variâcia é dada por z i i i= 1 i j ( ) = a + a a Cov X, X i j i j 6
7 ode a Cov(X i, X j ) é zero, se as variáveis X i e X j são idepedetes uma da outra. Os chamados testes odal e de medida, muito utilizados para detectar e idetificar fotes de erros grosseiros, são testados cotra uma distribuição ormal padroizada. 3.. Distribuição Qui-quadrado A variável aleatória, formada pela soma dos quadrados de variáveis aleatórias idepedetes Z i, defiida por tem uma distribuição χ. ( i ( )) χ = Z i, Z = N 0, 1 i O valor é também cohecido como o úmero de graus de liberdade da χ. A média e a variâcia dessa distribuição são expressas em graus de liberdade, sedo iguais, respectivamete, a e. A fução desidade de probabilidade qui-quadrado é represetada por χ ν, ode ν desiga o úmero de graus de liberdade da χ. Se ν observações de uma variável são idepedetes, etão o úmero de graus de liberdade é igual a ν. Etretato, um grau de liberdade é perdido para cada restrição sobre as ν observações. 7
8 A fução distribuição F( χ α ) dispoíveis a maioria dos livros de estatística, para os quais ( α, ν ) P χ χ = α é tabulada de forma a forecer valores χ α, ν, que são ode α é a probabilidade de somas dos quadrados iguais ou superiores ao valor correspodete tabelado. O ível de sigificâcia α é, geralmete, fixado em toro do valor 0,05. Quato maior α, maior é o risco de rejeitar hipóteses boas; iversamete, o risco de aceitar hipóteses falsas aumeta, a medida que o valor de α dimiue. Se o valor calculado da variável aleatória χ for maior do que o valor tabelado χ α ν,, rejeitase a hipótese de que as variáveis Z i sejam aleatórias, etretato, se ele for meor ou igual, a hipótese é aceita. 8
Esta distribuição é usada para a detecção de erros grosseiros em dados de processo, ode se verifica se a variável aleatória costituída pela soma poderada (pelo iverso das variâcias) dos quadrados dos erros da variáveis idividuais segue uma distribuição qui-quadrado. Se isto for verdade, é válida a hipótese de que os erros de medida são variáveis aleatórias ormalmete distribuídas e, portato, o cojuto de medidas testadas ão cotém erro sistemático. Caso isto ão seja verdade, deve(m) ser idetificada(s) a(s) medida(s) que coté(ê)m erros grosseiros, submetedo-se o cojuto resultate ao teste em questão. Para realizar o teste, deve-se calcular o valor de χ e compará-lo com valores tabelados, uma vez defiido um ível de sigificâcia α, que exprime a probabilidade de somas dos quadrados iguais ou superiores ao valor correspodete da tabela. Se o valor calculado for maior do que o valor tabelado, rejeita-se a hipótese e se for meor ou igual ao valor tabelado, aceita-se a hipótese.a distribuição qui-quadrado é usada o chamado teste global de Almásy e Sztaó (1975) e também o teste do desbalaço odal de Romagoli et al.(1980). 9 4. Testes de Hipóteses Um teste de hipóteses estatístico é um procedimeto para decidir se deve ser aceita ou rejeitada a hipótese H 0 cotra uma ou mais hipóteses alterativas. Cohecida a fução desidade de probabilidade F de uma estimativa (que é uma estimativa ão-tedeciosa de θ, uma variável aleatória qualquer), faz-se a suposição de que a represetação desta variável aleatória θ por F( $ θ ) é correta e que a média (ou valor esperado) de θ é θ 0. Coloca-se, etão a seguite questão: Se é verdadeira a hipótese de que θ = θ 0, por quato θ pode diferir de θ 0, ates que esta hipótese seja rejeitada por parecer errada? Se a hipótese θ = θ 0 for verdadeira, E(θ) = θ 0 e a probabilidade de que o valor de $ θ seja meor ou igual a θ α é ( θ α ) P θ $ α = e devido à simetria da curva da Distribuição Normal ( 1 α ) P θ $ α θ = Para tomar uma decisão cocerete à hipótese, selecioa-se um valor de α, que é chamado ível de cofiaça para o teste. Por exemplo, α pode ser 0,01 ou 0,05. 9
Etão, a amostra é coletada e θ $ é calculado. Se θ $ for maior do que θ 1 α ou meor do que θ α, a hipótese é rejeitada. Caso cotrário, ela é aceita. 10 H 0 : θˆ = θ 0 α = 0,05 em 5 % dos casos H 0 será rejeitada (decisão errada) A faixa de valores de $ θ em que a hipótese é rejeitada é chamada região de rejeição; a faixa de $ θ em que a hipótese é aceita é chamada de região de aceitação. O teste descrito é um teste de dois lados, também chamado bilateral ou bicaudal. Um teste uilateral pode ser baseado em duas possibilidades, sedo que uma delas θ $ seria maior do que algum θ 1 α, ode a hipótese seria rejeitada, se θ $ fosse de fato maior do que θ 1 α ; a outra seria supor que θ $ seja meor do que θ α. Himmelblau (1978) observa que a rejeição da hipótese ão implica um resultado defiitivo, mas idica que os dados e o procedimeto experimetal devem ser submetidos a um exame cauteloso para averiguar se ocorreu alguma coisa errada com a coleta de medidas ou com a istrumetação. A estrutura de teste mais simples é imagiar que haja uma dicotomia de estado para as variáveis aleatórias: i) H o : x é o valor verdadeiro da variável aleatória (que é a hipótese ula); ii) H 1 : x ão é o valor verdadeiro da variável (que é a hipótese alterativa). No teste de hipóteses, a decisão é tomada da seguite forma: com base a suposição de que a hipótese ula é verdadeira, se a estatística calculada a partir da amostra experimetal aleatória 10
cair fora da região de aceitação, a hipótese ula é rejeitada e a hipótese alterativa é aceita. Caso cotrário, a hipótese H o é aceita e H 1 é rejeitada. Podem-se distiguir dois tipos de erros ao testar uma hipótese: i) Erro Tipo I, que é o risco de declarar falsa uma hipótese verdadeira; ii) Erro Tipo II, que é o risco de ão rejeitar uma hipótese, quado ela é falsa. Isto pode ser resumido o esquema abaixo, ode a hipótese que está sedo testada é a hipótese H. Hipótese Aceitar H Rejeitar H H é verdadeira Decisão correta Erro do Tipo I H é falsa Erro do Tipo II Decisão correta Certamete, o erro do Tipo I existe porque α é selecioado para ser um valor ão-zero. Quado a hipótese é verdadeira e α = 0,05, por exemplo, em 5 % dos testes a hipótese será rejeitada, o que é uma decisão errada. A probabilidade β é a probabilidade de ão rejeitar uma difereça quado ela existe. Existem curvas, chamadas curvas de operação características, para determiar a probabilidade β. A probabilidade (1-β) é chamada potêcia do teste e represeta a probabilidade de tomar-se a decisão correta (rejeitar a hipótese), quado ela é realmete errada. Quado a difereça etre as médias (δ) aumeta, (1-β) aumeta e β dimiue. A seguir, apreseta-se de forma resumida um exemplo: 11 Se Probabilidade de cocluir que µ = µ A µ µ µ = µ A 1-α α µ = µ A + δ β 1-β A Himmelblau (1978) relata que, pela descrição dos dois tipos de erros, pode-se observar que a tetativa de dimiuir um tipo de erro resulta em um aumeto o outro tipo de erro. O úico modo de dimiuir os dois tipos de erro, simultâeamete, é aumetar o tamaho da amostra, o que pode ser caro, a prática. Observa que talvez um tipo de erro teha cosequêcias meos sérias do que o outro e, este caso, há alguma decisão adequada referete à seleção de valores de α e ao úmero de observações a ser feito. A experiêcia leva em cota os istrumetos, o projeto do processo e os custos, de modo a tomar-se uma decisão ecoômica para α e β. Em geral, os estudos descritos a literatura para detecção e idetificação de erros grosseiros, a recociliação de dados de processo, cosideram a probabilidade de ocorrêcia de erro Tipo I. Um teste de hipótese é usado a recociliação de dados para testar a hipótese ula: 11
1 H 0 : ão há erro grosseiro os dados de processo, versus a hipótese alterativa: H 1 : existe pelo meos um erro grosseiro os dados de processo, ou, especificamete, H 1j : existe um erro grosseiro a medição j 1