INTRODUÇÃO... 4 CAPÍTULO CAPÍTULO CAPÍTULO CAPÍTULO

Transcrição

1 1 ÍNDICE INTRODUÇÃO... 4 CAPÍTULO INTRODUÇÃO... 6 Tpos de erros... 8 Erros aleatóros e sstemátcos em análses ttrmétrcas Manpulando erros sstemátcos... 1 CAPÍTULO ERROS EM ANÁLISES CLÁSSICAS Méda e desvo padrão Dstrbução de erros A dstrbução de médas amostradas... Lmtes de confança da méda... 3 Apresentação dos resultados... 7 Outros usos dos lmtes de confança... 8 Propagação de erros aleatóros... 9 Propagação de erros sstemátcos CAPÍTULO TESTES DE SIGNIFICÂNCIA Comparação entre uma méda expermental e um valor conhecdo Comparação das médas de duas amostras Teste t pareado TESTES MONO E BI-CAUDAIS TESTES F PARA A COMPARAÇÃO DE DESVIOS PADRÕES CAPÍTULO PONTOS FORA DA CURVA ( OUTLIERS ) ANÁLISE DE VARIÂNCIA... 5 Comparação de váras médas Varações dentro da amostra... 54

2 Varação entre amostras A artmétca dos cálculos da ANOVA CAPÍTULO TESTE CHI-QUADRADO... 6 Teste para dstrbução normal CONCLUSÕES SOBRE OS TESTES DE SIGNIFICÂNCIA CONTROLE DE QUALIDADE E AMOSTRAGEM Amostragem Separação e estmatva de varâncas usando ANOVA CAPÍTULO ANÁLISES COLABORATIVAS Introdução Gráfcos de duas amostras Preparando uma Análse Colaboratva Cálculos em Análses Colaboratvas Cartas de controle CAPÍTULO Erros em Análse Instrumental: Regressão e Correlação... 9 Coefcente de Correlação Produto-Momento A Lnha de Regressão de Y em X Erros na Tangente e no Intercepto da Curva de Regressão Cálculos de uma Concentração CAPÍTULO Lmtes de Detecção O Método das Adções Padrão Uso de Retas de Regressão Para Comparar Métodos Analítcos CAPÍTULO Retas de Regressão Ponderadas... 1 Regressão Curvlnear Introdução Ajuste de Curvas

3 3 CAPÍTULO MÉTODOS NÃO-PARAMÉTRICOS E MÉTODOS ROBUSTOS Introdução A medana - análse ncal dos dados O teste do snal O teste de séres Wald-Wolfowtz O teste de Wlcoxon das séres das ordens assnaladas Os métodos de Wlcoxon de ordem somada e outros relaconados Testes não-paramétrcos em mas de duas amostras Métodos não-paramétrcos de regressão Métodos robustos ANEXOS

4 4 INTRODUÇÃO A Químca, assm como a Físca, é uma cênca predomnantemente expermental. Todas as suas teoras, das mas complexas, como a Teora Quântca, às mas smples, como os modelos de gases, requerem, ncondconalmente, uma constatação expermental. Podemos postular a exstênca de uma partícula fundamental para defnr os elementos químcos, o átomo, porém, além de postular, precsamos medr o seu tamanho, sua massa, seus componentes, etc.. Podemos observar a ocorrênca de uma reação químca em um frasco de laboratóro, porém, para caracterzá-la convenentemente, necesstamos conhecer a velocdade da reação e, assm, medr o tempo em que certa quantdade de reagente se transforma em produto. Desta manera, não é possível escapar da necessdade de se trabalhar com números. É fundamental, para se trabalhar na área da Químca, ler escalas numércas em dferentes nstrumentos e assocar os números mostrados com outras quantdades. Este procedmento não é assm tão dreto como pode parecer. Ao ler os dígtos que nformam o peso de uma dada amostra em uma balança analítca, por exemplo, há que se saber nterpretar os números mostrados, de acordo com a sensbldade do nstrumento, os erros cometdos na letura e na apresentação dos números, etc.

5 5 Da mesma manera, ao se comparar os resultados obtdos com aqueles mostrados na lteratura, é necessáro um conhecmento extra, para não se correr o rsco de comparar bananas com maçãs. Aqu, a toda poderosa matemátca, de repente, se mostra lmtada. É claro que suas aplcações e operações contnuam sempre váldas e ndspensáves. Entretanto, vamos mostrar, no decorrer do curso, que nem sempre é menor que 3, como assumdo pelos matemátcos. Vamos mostrar quando podemos conclur que um número obtdo em um expermento pode ser consderado maor do que o valor obtdo em outro laboratóro ou por outras técncas expermentas.

6 6 CAPÍTULO 1 INTRODUÇÃO A Químca Analítca moderna tem um caráter essencalmente quanttatvo. Uma resposta quanttatva, a qualquer análse executada é mas ndcada do que uma qualtatva. A pessoa que precsou da análse pode, com os resultados quanttatvos em mãos, julgar se a concentração do analto em uma determnada matrz (por exemplo, de pestcdas em uma amostra de almentos ou de água potável) é sufcentemente elevada para se tornar nocvo e exge alguma provdênca ou não. Em alguns casos, apenas uma resposta quanttatva tem algum valor. Por exemplo, em uma análse de colesterol em amostra de sangue. Vrtualmente todo o soro sanguíneo humano tem colesterol, a dúvda só podera ser quanto. É mportante consderar que, mesmo quando uma resposta qualtatva é solctada, métodos quanttatvos têm de ser usados para obtê-la. Na realdade, um químco analítco nunca pode dzer smplesmente que encontrou / não encontrou boro numa amostra de água. Ele deve empregar um método quanttatvo, capaz de detectar, por exemplo, 1,0 µg ml -1 de boro. Se o teste tver resultado negatvo, ele pode dzer apenas que esta amostra contém menos que 1,0 µg ml -1 de boro. Se o teste for postvo, ele relatará que encontrou pelo menos 1,0 µg ml -1 de boro. Procedmentos muto mas complexos podem ser necessáros. Por exemplo: para comparar as característcas de dferentes amostras de solo, ou de substratos de ros ou lagos, as amostras podem sofrer, ncalmente, uma seleção de partículas, por exemplo, por meo de separação em peneras com 10 tamanhos de malhas dferentes. Cada amostra deverá, então, ser caracterzada dentro dessas 10 dstrbuções. Procedmentos bastante complexos

7 7 de análses poderão então ser empregados para se obter uma conclusão quanttatva sobre as smlardades das amostras e se estmar a probabldade delas terem uma orgem comum. Assm, os estudos quanttatvos serão os determnantes nesse curso, e deve-se acetar que os erros que ocorrem nesses estudos são de extrema mportânca. Portanto, deveremos ter sempre em mente, um postulado da estatístca aplcada à químca: Nenhum resultado quanttatvo tem qualquer valor, a menos que ele seja acompanhado de alguma estmatva dos erros nerentes. Vejamos um exemplo: um químco sntetza um reagente que acredta que seja completamente novo. Ele o estuda com uma técnca de espectrometra e o composto dá um valor de 104 (undade arbtrára). Ao checar a lteratura, ele encontra que nenhum composto prevamente descoberto deu snal maor que 100, quando estudado pelo mesmo método, nas mesmas condções expermentas. A questão que surge naturalmente é: será que o químco ctado descobru mesmo um composto nteramente novo? A resposta a esta pergunta está condconada ao grau de confança que se pode depostar no valor encontrado, 104. Quas erros são assocados com ele? Se novos estudos mostrarem que esse valor é correto dentro da faxa de duas undades, sso é o valor verdadero provavelmente se encontra na faxa de 104 ±, então um novo composto fo, provavelmente, sntetzado. Entretanto, se as novas meddas mostrarem que o erro expermental é maor, talvez 10 undades, (104 ± 10), então o valor real provavelmente é menor que 100 e para se caracterzar um novo composto anda serão necessáras mutas análses adconas. Em outras palavras, pode-se dzer que um conhecmento dos erros expermentas é crucal para a nterpretação nequívoca dos resultados.

8 8 Tpos de erros Um analsta trabalhando em sua rotna dára, em um laboratóro de químca está, normalmente, sujeto a três tpos de erros. Esses erros podem ser classfcados como: grosseros, aleatóros e sstemátcos. Erros grosseros são faclmente reconhecdos. Eles são erros tão séros que não dexam alternatvas a não ser refazer todo o expermento. Exemplos ncluem a quebra do equpamento, contamnação de reagentes, erros na adção de alíquotas, etc. Nesse curso serão dscutdos apenas os erros aleatóros e sstemátcos. Para defnrmos esses tpos de erros, analsaremos o segunte exemplo: quatro estagáros (A-D) estão fazendo um teste para efetvação em um laboratóro de análses. Para sto, eles fzeram, cada um, uma análse na qual uma solução padrão contendo exatamente 10,00 ml de NaOH exatamente 0,1 mol L -1 é ttulado com HCl exatamente 0,1 mol L -1. Cada canddato executou cnco ttulações repetdas. Os resultados são mostrados na Tabela 1. Tabela 1. Erros sstemátcos e aleatóros. Canddato Resultado (ml) Canddato Resultado (ml) 10,08 10,19 10,11 9,79 A 10,09 C 9,69 10,10 10,05 10,1 9,78 9,88 10,04 10,14 D 9,98 B 10,0 10,0 9,8 9,97 10,1 10,04 Também são chamados de erros ndetermnados.

9 9 Os resultados obtdos pelo canddato A apresentam duas característcas mportantes. Prmero, eles são todos muto próxmos, todos estão entre 10,08 e 10,1 ml. Pode-se dzer que esses resultados são muto reprodutíves. A segunda característca é que todos eles são muto altos. Nesse expermento (de qualquer forma pouco usual), sabe-se a resposta certa com antecedênca, ou seja, 10,00 ml. É evdente que dos tpos dstntos de erros ocorreram com as ttulações desse estudante. Prmero, exstem erros aleatóros que fazem com que cada resultado ndvdual esteja ao redor do valor médo (10,10 ml). Os estatístcos dzem que erros aleatóros afetam a precsão ou a reprodutbldade de um expermento. No caso do canddato A é claro que os erros aleatóros são pequenos, assm se dz que os resultados são precsos. Também exstem erros sstemátcos, que fazem com que todos os valores determnados sejam acma do valor real. Erros sstemátcos também são conhecdos como bas, que afetam a exatdão, sso é, a proxmdade do valor real. Em mutos expermentos, os erros aleatóros e sstemátcos não são tão faclmente dstnguíves pelos resultados, eles podem ter orgens muto dferentes em termos de técncas expermentas e equpamentos. O canddato B obteve resultados bastante dstntos daqueles do A. A méda dos cnco valores (10,01 ml) é muto próxma do valor real, assm se pode caracterzar esse conjunto de dados como exato, ou seja, sem erros sstemátcos consderáves. A varação dos resultados, entretanto, é muto grande, ndcando uma pobre precsão e a presença de erros aleatóros substancas. Uma comparação de ambos conjuntos de dados mostra que erros aleatóros e sstemátcos ocorrem de manera ndependente, uns dos outros. Esta conclusão é reforçada pelos resultados obtdos pelos canddatos C e D. O trabalho do canddato C não é precso (ntervalo entre 9,69 e 10,19 ml) nem exato (méda de 9,90 ml). O canddato D encontrou ambos, exatdão (méda de 10,01 ml) e precsão (ntervalo de 9,97 e 10,04 ml). Essas dferenças estão sntetzadas na Fgura 1.

10 10 A Precso e nexato B Exato e sem precsão C Sem exatdão e precsão D 9,70 10,00 10,30 Exato e precso Fgura 1. Exatdão e precsão. Uma observação muto mportante é necessára. É precso notar que, no contexto desse curso, as palavras precsão e exatdão têm sgnfcados completamente dferentes na teora de erros. Por outro lado, elas são mutas vezes utlzadas ndscrmnadamente na vda cotdana. Além dsso, a convenção moderna exge uma dstnção cudadosa dos termos reprodutbldade e repetbldade. A repetbldade refere-se a expermentos fetos de manera consecutva, em condções de laboratóro dêntcas e na mesma vdrara. Já reprodutbldade refere-se a expermentos fetos em das dferentes, com outro conjunto de vdrara e com condções lgeramente dferentes. Não é surpresa que, no últmo caso, os resultados apresentem uma dspersão de valores maor. Erros aleatóros e sstemátcos em análses ttrmétrcas Uma análse ttrmétrca pode ser consderada como tendo os seguntes passos:. Elaboração de uma solução padrão de um dos reagentes. (pesar, transferr e dssolver);.. Transferr uma alíquota da solução padrão para o frasco de ttulação, com uma ppeta; Ttular o líqudo do frasco com uma outra solução, adconada à bureta.

11 11 Mesmo uma análse elementar desse tpo envolve de 7 a 10 passos separados, que devem ser repetdos váras vezes. Em prncípo, deve-se examnar cada passo separadamente, para determnar os erros sstemátcos e aleatóros envolvdos no processo. Isso sgnfca avalar corretamente os erros acetáves em procedmentos de pesagem e de calbração de vdrara volumétrca. Valores para a tolerânca de erros expermentas são publcados por organsmos como a Brtsh Standards Insttuton (BSI) e pela Amercan Socety for Testng and Materals (ASTM). A tolerânca de uma pesagem com o maor grau de precsão, de 100 g, pode ser tão baxa quanto ± 0,5 mg. Entretanto, para uma pesagem rotnera, ela pode ser até cerca de quatro vezes maor. Smlarmente, uma medda de alto grau de precsão para um volume de 50 ml pode ser de ± 0,1 ml. Se uma balança analítca ou uma vdrara volumétrca estver dentro dos lmtes de tolerânca, mas não no valor exato de pesagem ou medda de volume, um erro sstemátco surge na medda. Por exemplo, se um frasco volumétrco apresentar um volume de 49,95 ml, esse erro terá reflexo nos resultados de todos os expermentos que o utlzar. A repetção do expermento não revelará o erro, em cada repetção o volume será assumdo como 50 ml quando, de fato, será menor que sso. Se os resultados desse expermento forem comparados com aqueles obtdos em outros laboratóros, fetos com outros frascos, então os respectvos erros sstemátcos serão evdentes. Procedmentos de pesagem são, normalmente, assocados com erros aleatóros muto pequenos. A utlzação de uma balança analítca de quatro casas, comum em laboratóros de análses, mplca em um erro menor que ± 0,0001-0,000 g, ou seja, de apenas 0,0%. Erros sstemátcos em pesagens são numerosos e se orgnam de váras fontes bem conhecdas. Entre elas, a adsorção de umdade pela amostra, falha em permtr que recpentes com amostra em altas temperaturas se resfrem completamente, assm como a nfluênca do empuxo da atmosfera, na pesagem. Esse últmo efeto pode ser muto sgnfcatvo. Por exemplo, Skoog e West mostraram que uma amostra de um líqudo

12 1 orgânco, com densdade de 0,9 g ml -1, que pesa 1,100 g no ar, devera pesar 1,114 g no vácuo, um erro maor que 0,1%. Para sanar, em parte, esse tpo de erro sstemátco, costuma-se efetuar o procedmento de pesagem pela dferença entre duas massas (do recpente com amostra menos a do recpente vazo), de tal forma que a subtração mnmze os erros sstemátcos nerentes. Com essas precauções sendo segudas, os erros de pesagem durante o procedmento de ttulação serão, provavelmente, desprezíves em relação àqueles causados pela vdrara volumétrca. Assm, métodos gravmétrcos são normalmente utlzados para a calbração da vdrara volumétrca, pesando a água que esta vdrara contém. Fnalmente, uma outra fonte mportante de erro em análses volumétrcas é aquela assocada ao ndcador. Erros do ndcador são bastante consderáves talvez maores do que os erros aleatóros numa análse ttrmétrca típca. Por exemplo, na ttulação de HCl 0,1 mol L -1 com NaOH 0,1 mol L -1 se espera que o ponto fnal seja ndcado num ph de 7,0. Na prátca, entretanto, pode-se, erroneamente, estmar o ponto de vrada, usando-se um ndcador como o alaranjado de metla, que muda de coloração na faxa de ph entre três e quatro. Assm, ao se adconar base ao ácdo, um ponto de vrada aparente é encontrado antes do ponto real. Se, por outro lado, a ttulação acma for feta adconando-se ácdo na base, o ponto de vrada será ndcado após o seu valor real. Em quasquer procedmentos analítcos, clásscos ou nstrumentas, é possível consderar e estmar as fontes de erros aleatóros e sstemátcos, relaconadas com cada etapa do expermento. Em mutas análses, o erro total na prátca é relaconado com o erro em uma etapa únca: esse ponto será mas bem dscutdo no decorrer do curso. Manpulando erros sstemátcos Uma grande parte do curso será dedcada aos erros aleatóros, que podem ser estudados com uma grande varedade de métodos estatístcos. Na maora dos casos deverse-á assumr, por convenênca, que os erros sstemátcos estão ausentes (nclusve métodos de testes de ocorrênca de erros sstemátcos serão dscutdos). Assm, antes de os dexarmos de lado, é necessáro dscutr um pouco sobre os erros sstemátcos.

13 13 No exemplo da ttulação, dscutdo anterormente, mostrou-se que erros sstemátcos podem fazer que o valor médo se afaste do valor real. Deve-se consderar que, ao contráro dos erros aleatóros, os erros sstemátcos não podem ser revelados meramente pela repetção dos expermentos. Além dsso, a menos que o resultado real da análse possa ser conhecdo com antecedênca (o que é muto raro), erros sstemátcos relatvamente muto grandes podem ocorrer, mas serem completamente não detectados. Uma classe de erro sstemátco muto comum ocorre quando falsas suposções são acetas sobre a exatdão dos nstrumentos analítcos. Por exemplo, analstas experentes estão cansados de saber que os monocromadores dos espectrômetros fogem gradualmente do ajuste e, assm, que erros de város nanômetros nos comprmentos de onda não são raros. Entretanto, mutas análses fotométrcas são fetas sem que os aparelhos sejam checados quanto à sua exatdão. Mutos equpamentos smples como vdraras volumétrcas, cronômetros, phmetros e termômetros podem apresentar erros sstemátcos consderáves, mas mutos analstas usam regularmente esses nstrumentos sem atentar se os mesmos se encontram perfetamente exatos. Os erros sstemátcos não surgem apenas dos equpamentos, mas podem ser de responsabldade humana. Alguns expermentalstas podem sofrer de astgmatsmo ou de daltonsmo, o que pode ntroduzr erros nas leturas dos nstrumentos de meddas. Mutos autores relatam uma sére de outras bas em relação a números, por exemplo, uma tendênca a favorecer um número par sobre um ímpar, ou os dígtos zero e cnco, no relatóro dos resultados. Assm, sso aparenta que erros sstemátcos são um rsco constante, e mutas vezes ocultos, para os analstas, de forma que se deve tomar cudado para mnmzá-los. Mutas maneras dferentes para soluconar esse problema estão dsponíves e váras ou todas elas devem ser consderadas em cada procedmento analítco. Uma lnha de defesa mportante contra erros sstemátcos é o planejamento cudadoso de cada passo do expermento. Já fo vsto que pesar por dferenças mnmza erros gravmétrcos sstemátcos. Outro exemplo de planejamento expermental raconal é o das meddas de comprmento de onda pelo espectrômetro.

14 14 Se a concentração de uma substânca smples deve ser determnada por espectrometra de absorção, dos procedmentos são possíves. No prmero, a amostra é analsada numa célula de 1,0 cm de camnho ótco, num comprmento de onda defndo, como 400 nm, e a concentração do analto é determnada pela equação de Lambert-Beer: A εcl (1) Onde A é a absorção, o coefcente de absortvdade molar, c a concentração do analto em solução e l o camnho ótco do fexe de luz. Alguns erros sstemátcos podem se orgnar nesse procedmento. O comprmento de onda pode estar deslocado, devdo à falta de exatdão do monocromador, para 405 nm, por exemplo, e assm o valor de ε utlzado é nadequado; o valor de ε pode ser aproxmado; a escala de absorbânca do espectrômetro pode estar deslocada; o camnho ótco da célula pode não ser exatamente 1,0 cm. Alternatvamente, o analsta pode tomar uma sére de soluções da substânca teste, de concentrações conhecdas, e medr a absorbânca de cada uma em 400 nm (uma dessas soluções de calbração deve ser um branco). Os resultados devem então ser utlzados para construr uma curva de calbração, para ser utlzada na medda da solução teste, exatamente nas mesmas condções expermentas. Esse procedmento muto mportante, para a análse nstrumental, será detalhado durante o curso. Quando esse segundo procedmento é utlzado, não se necessta do valor de ε, e os erros devdos aos desvos no comprmento de onda, erros de absorbânca e de camnho ótco podem ser cancelados. A proteção mas efcente contra erros sstemátcos consste no emprego de materas e metodologa padrões de referênca para a calbração préva do equpamento a ser utlzado. Antes de o expermento começar, cada parte do aparato expermental é calbrado com um procedmento aproprado.

15 15 Apesar de se ter dferencado cudadosamente os erros sstemátcos dos erros aleatóros, é aparente que, nas meddas analítcas cotdanas, esta dferencação pode ser, de certa manera, nebulosa. Sempre que um procedmento ou nstrumento é checado para a presença de erros sstemátcos, os própros procedmentos de checagem podem ser sujetos a erros aleatóros e, assm, os erros sstemátcos podem não ser perfetamente dentfcados e / ou corrgdos. Essa combnação de erros tornou-se conhecda na lteratura moderna como as ncertezas dos resultados analítcos. Tem-se um complcado conceto para tratar; apesar de erros aleatóros terem uma dstrbução conhecda e de se combnarem numa manera prevsível num expermento de múltplos passos, o mesmo não é váldo para os erros sstemátcos. Assm, dar uma estmatva quanttatva para a ncerteza total de um resultado está longe de ser uma tarefa smples. Apesar desse problema, a mportânca do conceto de ncerteza é clara, e justfca o esforço que será desenvolvdo durante o curso.

16 16 CAPÍTULO ERROS EM ANÁLISES CLÁSSICAS Méda e desvo padrão No capítulo anteror dscutram-se os város tpos de erros, que foram lustrados pela análse dos resultados obtdos em cnco expermentos de ttulação, fetos por quatro estagáros (Tabela 1). Dos crtéros foram utlzados, para se fazer uma análse comparatva desses resultados, o valor médo e o grau de dspersão. O valor médo utlzado era a méda artmétca, x, que é normalmente abrevado para méda, a soma de todos os valores obtdos dvdda pelo número de meddas. X n X j j () A defnção mas útl para a dspersão dos dados expermentas é o desvo padrão, s. Ele é defndo pela equação: s X X n 1 j (3) Para os estagáros A, B, C e D (Tabela 1) o cálculo do desvo padrão de suas respectvas meddas fornece um suporte quanttatvo para o que fo dscutdo no capítulo anteror. Os desvos padrões obtdos pelos alunos estão na Tabela. Mutas calculadoras ou computadores podem calcular dos valores dferentes para o desvo padrão, um calculado com a equação acma e outro usando n, no lugar de (n - 1) no denomnador desta equação. A razão para essas duas formas dferentes será dscutda a

17 17 segur. Obvamente, para grandes valores de n, a dferença é desprezível. O cudado a se tem que tomar é que, mutas vezes, as calculadoras arredondam os números de tal forma que valores ncorretos (até zero) podem ser encontrados. O quadrado de s é uma grandeza estatístca muto mportante, chamada varânca. Sua mportânca será mas bem compreendda quando se dscutr a propagação de erros. Também freqüentemente utlzado é o conceto de coefcente de varação (CV), também conhecdo como desvo padrão relatvo (RSD), que é dado por: RSD 100s X (4) O RSD, cuja undade é, obvamente, porcentagem, é um exemplo de erro relatvo, sso é, um erro estmado dvddo por uma estmatva do valor absoluto da quantdade medda. Erros relatvos são freqüentemente usados na comparação da precsão de resultados que têm dferentes undades ou magntudes, e são também mportantes no estudo da propagação de erros. Tabela. Valores de desvo padrão obtdos pelos estagáros A, B, C e D (do exemplo). Estudante Valor de s obtdo A 0,016 B 0,17 C 0,1 D 0,033 Dstrbução de erros O desvo padrão é uma medda da dspersão de um conjunto de resultados em torno de um valor médo, entretanto, ele não ndca a manera como os valores estão dstrbuídos. Para lustrar esta dstrbução, necessta-se de um número bem maor de meddas, como aquele mostrado na Tabela 3. Esses resultados são referentes a 50 repetções de determnações voltamétrcas de dopamna em uma amostra partcular, dados com dos algarsmos sgnfcatvos. Os valores podem ser agrupados, como mostrado na Tabela 4.

18 18 Tabela 3. Resultados de 50 determnações da concentração dopamna (μg L -1 ) 0,51 0,51 0,51 0,50 0,51 0,49 0,5 0,53 0,50 0,47 0,51 0,5 0,53 0,48 0,49 0,50 0,5 0,49 0,49 0,50 0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,49 0,51 0,47 0,51 0,51 0,51 0,48 0,50 0,47 0,50 0,51 0,49 0,48 0,51 0,50 0,50 0,49 0,5 0,5 0,50 0,50 0,51 0,51 Tabela 4. Freqüênca das meddas da concentração de dopamna Concentração dopamna (μg L -1 ) Freqüênca 0,46 1 0,47 3 0,48 5 0, , , ,5 5 0,53 3 A Tabela 4 mostra que, na Tabela 3, o valor 0,46 µg L -1 aparece apenas uma vez, o valor 0,47 µg L -1 aparece três vezes e assm adante. O valor mas comum nestas determnações é o 0,51 µg L -1. Com estes resultados, pode-se calcular o valor médo deste conjunto como sendo 0,500 µg L -1 e o desvo padrão como 0,0165 µg L -1. A esses valores foram atrbuídos, de manera arbtrára, três algarsmos sgnfcatvos. Uma dscussão sobre esse mportante aspecto da apresentação dos resultados será feta posterormente. A dstrbução desses resultados pode ser mas bem percebda, colocando-os em um hstograma, como mostrado na Fgura.

19 freqüênca ,46 0,47 0,48 0,49 0,50 0,51 0,5 0,53 valores meddos Fgura. Hstograma das meddas de concentração da dopamna. É evdente que a dstrbução dos valores meddos é, a grosso modo, smétrca em relação à méda, com os valores se agrupando na regão central. Esse conjunto de 50 meddas é uma amostra de um número muto grande (teorcamente nfnto) de meddas da dopamna que podem ser fetas. O conjunto de meddas possíves é chamado de população. Se não houver erros sstemátcos, a méda desta população, chamada de μ, é o valor real da concentração de dopamna, na matrz de onde a amostra fo retrada. A méda, x, da amostra, dá uma estmatva de μ. Da mesma manera, a população tem um desvo padrão, denotado por σ. O valor do desvo padrão da amostra, s, dá uma estmatva de σ. O uso da equação: s X X n 1 j (5)

20 0 Fornece uma estmatva, sem erros sstemátcos, de σ. Se n for usado no denomnador, no lugar de (n - 1), o valor de s encontrado tende a superestmar o valor de σ. As meddas de concentração de dopamna dadas na Tabela 4 tem apenas certos valores dscretos, devdo às lmtações no método de análse. Na teora, a concentração pode assumr qualquer valor, assm para descrever a forma da população da qual a amostra fo tomada, uma curva contínua é necessára. O modelo matemátco usualmente utlzado é a dstrbução normal ou gaussana, que é descrto pela equação: E sua forma é mostrada na Fgura 3. x exp y (6) y x Fgura 3. A dstrbução normal. A méda é ndcada por μ. A curva é smétrca em relação ao valor de µ, e quanto maor o valor de s, maor a largura da curva (maor dspersão dos pontos), como mostrado na Fgura 4.

21 1 y s = 1 > s = x Fgura 4. Dstrbuções normas com o mesmo valor de méda (μ), mas com valores dferentes de desvo padrão (σ). Uma análse mas detalhada mostra que, sejam quas forem os valores de µ e de s, aproxmadamente 68% da população stua-se entre ± 1 s da méda, aproxmadamente 95% está entre ± s e que aproxmadamente 99,7% stua-se entre ± 3 s da méda. Isso sgnfca que, se as concentrações de dopamna dadas na Tabela 4 forem segur uma dstrbução normal, 33 dos 50 resultados (66%) estarão entre 0,483 e 0,517, 49 (98%) estarão entre 0,467 e 0,533 e todos os resultados estarão entre 0,450 e 0,550, mostrando uma excelente concordânca com o modelo teórco. A dstrbução normal não é aplcada apenas a repetções de meddas da mesma espéce. Ela também é freqüentemente utlzada para resultados obtdos quando a mesma espéce é medda em materas dferentes, de fontes smlares. Por exemplo, ao se medr a concentração de albumna no soro sanguíneo de humanos adultos e saudáves; será encontrado que os resultados seguem, aproxmadamente, uma dstrbução normal. Entretanto, nesse segundo tpo de população,.e., em uma únca medda de cada um de uma

22 espéce, outras dstrbuções são comuns. Em partcular, a assm chamada dstrbução normal logarítmca. Nessa dstrbução, os logartmos das concentrações (ou de outras característcas), quando grafcados em função da freqüênca dá uma curva de dstrbução normal. Neste capítulo, fo ntroduzda a palavra amostra, usada no sentdo estatístco de um grupo de objetos seleconados a partr de uma população de todos os objetos. Por exemplo: uma amostra de 50 meddas de concentração de dopamna da população (nfnta) de todas as meddas possíves, ou a amostra de humanos adultos saudáves escolhdos de toda a população para ter a concentração de albumna avalada no soro do sangue. A dstrbução de médas amostradas Já fo vsto que a méda de valores de uma amostra de meddas ( x ) fornece uma estmatva do valor real, μ, da quantdade que se está tentando medr. Entretanto, como as meddas ndvduas estão dstrbuídas em torno do valor real com certa dspersão, que depende da precsão, é pouco provável que a méda da amostra seja, exatamente, gual ao valor real. Por esta razão, é mas útl estabelecer um ntervalo de valores no qual nós estamos quase certos de que se encontra o valor real. A ampltude desse ntervalo depende de dos fatores: O prmero é a precsão das meddas ndvduas, que, por sua vez, depende da varânca da população. O segundo é o número de meddas na amostra. O smples fato de que se repetram as meddas mplca em que se tem mas confança na méda de város valores do que nos valores ndvduas. Mutas pessoas pensam que, quanto mas valores se têm, mas confável é a estmatva de μ. Para explorar esses concetos, é necessáro voltar nas meddas de concentração de dopamna. Na prátca, é muto pouco usual fazer 50 meddas repetdas. Um número de meddas mas comum é cnco e será mostrado como as médas de amostras desse tamanho estão espalhadas em torno de µ, tratando os resultados da Tabela 3 como dez amostras, cada uma contendo cnco resultados.

23 3 Tomando cada coluna como uma amostra, os valores das médas serão: 0,506; 0,504; 0,50; 0,496; 0,50; 0,49; 0,506; 0,504; 0,500 e 0,486. É óbvo que esses valores de méda estão menos dspersos que os valores orgnas. Como as meddas orgnas são uma amostra de uma população nfnta de meddas possíves esses valores de médas são uma amostra das médas possíves de amostras de cnco meddas tradas de toda a população. A dstrbução desses valores de méda é chamada de dstrbução de médas amostradas. O desvo padrão dessa amostra de médas é chamado de erro padrão da méda (s.e.m. standard error of the mean). Há uma relação matemátca exata entre o desvo padrão, σ, da dstrbução das meddas ndvduas, e o s.e.m: s.e.m. σ n (7) Como era ntutvamente esperado, quanto maor o n, menor a dspersão das médas amostradas em relação ao μ. Esse termo unversalmente utlzado, erro padrão da méda, pode dar orgem a uma falsa nterpretação, ao se pensar que possa estar relaconado N com a dferença entre 0 e µ. Isso não é assm, dá uma medda da ncerteza envolvda N ao se estmar µ a partr de x, como será vsto adante. Uma outra propredade da dstrbução das médas amostradas é que, mesmo se a população orgnal não for normal, a dstrbução das médas amostradas tende a ser uma dstrbução normal quando n aumenta. Esse resultado é conhecdo como o teorema do lmte central, de elevada mportânca porque mutos testes estatístcos são fetos na méda e assumem uma dstrbução normal. Lmtes de confança da méda Agora que se conhece a forma da dstrbução das médas amostradas, pode-se retornar ao problema de se usar uma amostra para defnr um ntervalo dentro do qual se pode razoavelmente assumr que contenha o valor real (é bom que ao se fazer sso, assumese a ausênca de qualquer erro sstemátco). Tal ntervalo é conhecdo como ntervalo de

24 4 confança e os valores extremos desse lmte são conhecdos como lmtes de confança. O termo confança mplca que se pode assegurar com um certo grau de confança,.e. com certa probabldade, que o ntervalo de confança nclu o valor real. O tamanho do ntervalo de confança depende, obvamente, em quão certo que se quer que ele nclua o valor real. Quanto maor a certeza, maor o ntervalo requerdo. A Fgura 5 mostra uma dstrbução de médas amostradas para amostra de tamanho n. y 95% 1, 96 N x 1, 96 N Fgura 5. A dstrbução amostral da méda, mostrando a varação dentro de 95%. Assumndo, de agora em dante, esta dstrbução normal, então 95% da amostragem de médas estará no ntervalo dado por: 1,96 x 1, 96 n n (8) (O valor exato 1,96 é usado nessa equação no lugar do valor dos, freqüentemente utlzado). Na prátca, entretanto, usualmente se tem uma amostra de méda conhecda, e se quer um ntervalo para µ, o valor real. Assm, a equação acma pode ser rearranjada para: x 1,96 x 1,96 n n (9) Essas equações dão um lmte de confança de 95%. Smlarmente, se for requerdo um lmte de 99,7%, tem-se:

25 x 5,97 x,97 n n (10) Anda, um ntervalo comumente usado é o de 99%, que é dado por: x,58 x,58 (11) n n A equação ncal pode ser usada para calcular a concentração dos íons ntrato com um lmte de confança de 95%. Tem-se 0 = 0,500 e n = 50. A únca grandeza na equação, que não se conhece é s. Para amostras grandes, como esta, s dá uma estmatva sufcentemente precsa de s e pode substtuí-lo. Assm, para um ntervalo de confança de 95% para a concentração de íons ntrato é: 0,0165 0,0165 0,500 1,96 0,500 1, (1) Resultando num lmte de confança de μ = 0,500 ± 0,0046 μg ml -1. Quando o tamanho da amostra se torna menor, a ncerteza ntroduzda ao se usar s para estmar σ aumenta. Para consderar esse fato, a equação usada para calcular os lmtes de confança é modfcada para: x t s n (13) O valor aproprado de t depende tanto de (n - 1), que é conhecdo como número de graus de lberdade (usualmente abrevado por υ) e do grau de confança requerda. O termo graus de lberdade refere-se ao número de desvos ndependentes (x - 0) que é usado para calcular s. Nesse caso, o número é (n - 1) porque quando (n - 1) desvos são conhecdos, o últmo pode ser deduzdo usando a expressão óbva:

26 6 ( x x) 0 (14) Os valores de t são dados na Tabela 5. Tabela 5. Valores de t para ntervalos de confança 95 e 99%. Graus de lberdade Valores de t no ntervalo de confança 95% 99% 1 1,71 63,66 4,30 9,9 3 3,18 5,84 4,78 4,60 5,57 4,03 10,3 3,17 0,09,85 30,04,75 50,01, ,98,63 Pode ser vsto que para tamanhos de amostras maores que 50, os valores de t são muto próxmos aos valores 1,96 e,58, usados nas equações acma. Isso confrma a proposção usada para calcular os lmtes de confança para a concentração de ntrato. O uso dos dados dessa tabela pode ser lustrado por meo de um exemplo: o conteúdo de íons sódo de uma espéce de urna fo determnada usando um eletrodo íon-seletvo. Os seguntes valores foram obtdos: 10, 97, 99, 98, 101 e 106 mmol L -1. Quas são os lmtes de confança para 95% e 99% de confança da concentração dos íons sódo? A méda e o desvo padrão desses valores são 100,5 mmol L -1 e 3,7 mmol L -1, respectvamente. Há ses meddas e, portanto, cnco graus de lberdade. A partr da Tabela 5, o valor de t para calcular o lmte de confança a 95% é,57 e a partr da equação: x t s n (15) O lmte de confança para 95% é μ = 100,5 ± 3,4 mmol L -1. Smlarmente, para 99% de confança: μ = 100,5 ± 5,4 mmol L -1.

27 7 Apresentação dos resultados Como já fo comentado, nenhum resultado quanttatvo expermental é de qualquer valor, a menos que seja acompanhado por uma estmatva dos erros envolvdos na sua medda. Uma prátca comum na lteratura da químca analítca é cotar a méda como a estmatva da quantdade medda e o desvo padrão como uma estmatva da precsão. Menos freqüentemente, o erro padrão da méda é, às vezes, cotado, no lugar do desvo padrão, ou o resultado é dado na forma de lmtes de confança da méda de 95%. Um aspecto relaconado da apresentação de resultados é o arredondamento do resultado. O prncípo mportante aqu é que o número de algarsmos sgnfcatvos dá ndcação da precsão do expermento. É um absurdo, por exemplo, dar o resultado de uma análse ttrmétrca como sendo 0, mol L -1. Nenhum analsta pode encontrar a precsão mplícta de 0,00001 em aproxmadamente 0,1, sso é 0,001%. Na prátca, é usual contar como algarsmos sgnfcatvos todos os dígtos que são precsos, mas o prmero ncerto. Por exemplo, a méda dos valores 10,09; 10,11; 10,09 e 10,1; que é 10,10 e o desvo padrão é 0, Claramente é uma ncerteza na segunda casa decmal; os resultados são todos 10,1 mas uma casa decmal, mas são dscordantes na segunda casa. Usando o método sugerdo, o resultado deve ser cotado como: x 10,10 0,01( n 5) (16) Se for observado um arredondamento nacetável do desvo padrão, então o resultado pode ser dado como: x s 10,10 0,013 ( n 5) (17) Onde o uso do subscrto ndca que o dgto dado é apenas para evtar a perda da nformação. O letor deve decdr se ele é útl ou não. Da mesma manera, quando os lmtes de confança são calculados, não há razão para dar o valor de t s com mas de duas N

28 8 casas sgnfcatvas. O valor de x deve ser dado com o número correspondente de casas decmas. O número de algarsmos sgnfcatvos cotados é, algumas vezes, utlzado no lugar de uma estmatva específca da precsão de um resultado. Por exemplo, 0,1046 mol L -1 é usado para sgnfcar que os algarsmos nas três prmeras casas decmas são seguros, mas há dúvdas sobre o quarto. Entretanto, como a ncerteza na últma casa pode ser qualquer cosa entre 0,00005 e 0,0005, esse método dá uma estmatva pobre da precsão e não pode ser recomendado. Algumas vezes a ncerteza na últma casa é enfatzada pela utlzação das formas 0,104 6 ou 0,1046 mol L -1, mas contnua preferível dar uma estmatva específca da precsão, como o desvo padrão. Outro problema a ser consderado é se o número cnco deve ser arredondado para cma ou para baxo. Por exemplo, se 9,65 deve ser arredondado para uma casa decmal, ele se torna 9,7 ou 9,6? É evdente que os resultados serão supervalorzados se o cnco for sempre arredondado para cma. Essa supervalorzação pode ser evtada arredondando o cnco para o número par mas próxmo, dando, nesse caso 9,6. De manera análoga, 4,75 deve ser arredondado para 4,8. Outros usos dos lmtes de confança Os lmtes de confança podem ser utlzados como um teste para erros sstemátcos, como mostrados no exemplo segunte: A escala de absorbânca de um espectrômetro é testada num comprmento de onda partcular com uma solução padrão que tem uma absorbânca dada como 0,470. Dez meddas de absorbânca com o espectrômetro resultaram em méda = 0,461 e s = 0,003. Encontra-se o ntervalo de confança a 95% para a absorbânca méda e decde-se se um erro sstemátco está presente. Os lmtes de confança a 95% para as meddas de absorbânca são dados por:

29 9 x t s n (18) Cujo valor fnal é 0,461 ± 0,00. (O valor de t fo obtdo da Tabela 6, mas completa que aquela dscutda anterormente). Tabela 6. A dstrbução t. Valor de confança de t para: 90% 95% 98% 99% Valores de P: 0,10 0,05 0,0 0,01 1 6,31 1,71 31,8 63,66,9 4,30 6,96 9,9 3,35 3,18 4,54 5,84 4,13,78 3,75 4,60 5,0,57 3,36 4,03 6 1,94,45 3,14 3,71 7 1,89,36 3,00 3,50 8 1,86,31,90 3,36 9 1,83,6,8 3,5 10 1,81,3,76 3,17 1 1,78,18,68 3, ,76,14,6, ,75,1,58,9 18 1,73,10,55,88 0 1,7,09,53, ,70,04,46, ,68,01,40,68 Infnto 1,64 1,96,33,58 Como esse ntervalo de confança não nclu a absorbânca conhecda de 0,470, deve haver um erro sstemátco envolvdo. Propagação de erros aleatóros No trabalho expermental, a quantdade a ser determnada é, freqüentemente, calculada a partr de uma combnação de quantdades observadas. Já fo vsto, por exemplo, que mesmo uma operação relatvamente smples, como a análse ttrmétrca, envolve mutos passos, cada um sujeto aos seus própros erros. O cálculo fnal pode envolver uma

30 30 operação de soma, dferença, produto ou quocente de duas ou mas quantdades ou a elevação de uma quantdade medda a qualquer potênca. É muto mportante observar que os procedmentos para combnar erros aleatóros e sstemátcos são completamente dferentes. Isso ocorre, porque erros aleatóros, num certo grau, cancelam-se uns aos outros, enquanto que erros sstemátcos acumulam-se. Supõe-se, por exemplo, que o resultado fnal de um expermento, x, é dado por x = a + b. Se a e b tverem, cada um, um erro sstemátco de + 1, é claro que o erro sstemátco em x será +. Se, entretanto, a e b tverem um erro randômco de ± 1, o erro randômco em x não será ±. Isso porque, em alguns casos, o erro em a será negatvo enquanto que o erro em b será postvo e vce-versa. Combnações lneares Nesse caso, o valor fnal, y, é calculado a partr de uma combnação lnear das quantdades meddas a, b, c, etc. por: y k k a k b k c... a b c (19) Onde k são constantes. A varânca (defnda como o quadrado do desvo padrão) apresenta uma mportante propredade, ou seja, a varânca de uma soma ou dferença de quantdades ndependentes é gual à soma de suas varâncas. Pode-se mostrar que, se σ a, σ b, σ c, etc. são os desvos padrões de a, b, c, etc., o desvo padrão de y, σ y, é dado por: ( k ) ( k ) ( k )... (0) y a a b b a a Exemplo: numa ttulação a letura ncal da bureta é 3,51 ml e a letura fnal é 15,67 ml, ambos com um desvo padrão de 0,0 ml. Qual é o volume do ttulante e qual é o seu desvo padrão? Volume utlzado = 15,67-3,51 = 1,16 ml. O desvo padrão gual a 0,08 ml.

31 31 Esse exemplo lustra o ponto muto mportante de que o desvo padrão para o resultado fnal é maor do que aqueles para as leturas ndvduas da bureta, mesmo quando o volume é calculado por uma dferença, mas é menor que a soma dos desvos padrões. Expressões multplcatvas Se y é calculado de uma expressão do tpo: kab y (1) cd Onde a, b, c e d são quantdades meddas ndependentes e k uma constante, então há uma relação entre os quadrados dos desvos padrões relatvo: y y a a b b c c... () equação: Exemplo: o rendmento quântco de fluorescênca, Φ, é calculado a partr da k c l I f (3) I 0 Onde as grandezas envolvdas são defndas abaxo, juntamente com uma estmatva dos seus desvos padrões relatvos (sendo k uma constante do aparelho): Intensdade de luz ncdente (I 0 ) = 0,5%; Intensdade de fluorescênca (I f ) = %; Absortvdade molar (ε) = 1%; Concentração (c) = 0,%;

32 3 Camnho óptco (l) = 0,%. O desvo padrão de Φ é dado por: RSD (0,5) () (1) (0,) RSD 0, ,04 0,04 5,33,3% (0,) Pode-se observar que o desvo padrão relatvo no resultado fnal não é muto maor que o maor dos desvos padrões utlzados no cálculo (sso é, % para I f ). Isso é uma conseqüênca maor da elevação ao quadrado dos desvos padrões relatvo e lustra um ponto mportante: qualquer esforço para melhorar a precsão do expermento deve ser dreconado para a melhora da precsão dos valores menos precsos. Como um coroláro para sso, não há qualquer vantagem em tentar aumentar a precsão dos valores mas precsos. Isso não deve ser encarado como se erros pequenos não sejam mportantes. Pequenos erros em mutos passos da análse, como a análse ttrmétrca dscutda anterormente, produzrão um erro aprecável no resultado fnal. É mportante ressaltar que, quando uma quantdade é elevada a uma potênca, por exemplo, b 3, então o erro não é calculado como uma multplcação, sso é, bbb, porque as quantdades não são ndependentes. Se a equação for: n y b (4) Então, o desvo padrão de y e b são relaconados por: Outras funções Se y for uma função geral de x: y n b y b (5) y f (x) (6)

33 Então o desvo padrão de x e de y são relaconados por: 33 dy y x (7) dx Exemplo: a absorbânca A, de uma solução é dada por: A logt (8) Onde T é a transmtânca. Se o valor meddo de T é 0,501, com um desvo padrão de 0,001, calcule o seu desvo padrão. Tem-se: A log 0,501 0,300 E também: da (log e) 0, 434 dt T T Assm, da equação (7) acma: A T log e T,0434 0,001 0,501 0, Propagação de erros sstemátcos três grupos. As normas para combnação de erros sstemátcos também podem ser dvddas em

34 34 Combnações lneares Se y é calculado para as quantdades meddas com o uso da equação: y k k a k b k c... a b c (9) E os erros sstemátcos em a, b, e, etc., são Δa, Δb e Δc, etc., então o erro sstemátco em y, Δy, é calculado a partr de: y k k a k b k c... a b c (30) É mportante lembrar que os erros sstemátcos podem ser tanto postvos quanto negatvos e que esses snas devem ser ncluídos no cálculo de Δy. Expressões multplcatvas Se y é calculado, a partr de quantdades meddas, com a equação: Então o erro sstemátco relatvo é: kab y (31) cd y y a a b b c c d d (3) Quando uma quantdade é elevada a alguma potênca, então a equação: y n y b (33) b

35 sstemátcos. 35 É usada sem o módulo e com os desvos padrões substtuídos pelos erros

36 36 CAPÍTULO 3 TESTES DE SIGNIFICÂNCIA Umas das propredades mas mportantes de um método analítco é que ele deve ser sento de erros sstemátcos, sso é, o valor calculado pelo método deve ser o valor real. Entretanto, erros aleatóros fazem com que o valor meddo raramente seja exatamente gual ao valor real. Para decdr se a dferença entre o valor meddo e o valor padrão pode ser atrbuída a esses erros aleatóros, um teste estatístco, conhecdo como teste de sgnfcânca, pode ser empregado. Comparação entre uma méda expermental e um valor conhecdo Ao se fazer um teste de sgnfcânca, está se testando a valdade de uma hpótese conhecda como hpótese nula. Por exemplo: anterormente adotou-se uma hpótese nula de que um método analítco não deve conter erros sstemátcos. O termo nulo é utlzado para sgnfcar que não há qualquer outra dferença entre o valor observado e conhecdo, a não ser aquela atrbuída a erros aleatóros. Assumndo a valdade dessa hpótese, uma teora estatístca pode ser usada para calcular a probabldade de que a dferença observada entre a méda da amostra, x, e o valor verdadero, µ, seja orgnada apenas de erros aleatóros. Usualmente, a hpótese nula é rejetada se a probabldade de tal dferença for menor que uma em 0 (ou seja, 0,05 ou 5%). Nesse caso, a dferença é dta sgnfcante no nível de 0,05 (ou 5%). Usando esse nível de sgnfcânca, há uma probabldade de uma em 0 de que tenhamos que rejetar uma em 0 a hpótese nula, quando de fato ela é verdadera. Para se ter maor certeza de se fazer a escolha correta, um nível mas elevado de sgnfcânca deve ser usado, usualmente 0,01 ou 0,001 (1% ou 0,1%).

37 37 O nível de sgnfcânca é ndcado por P (sso é, probabldade) = 0,05 e 0,05, e dá a probabldade de se rejetar uma hpótese nula verdadera. Deve-se ressaltar que, se a hpótese nula é mantda, não fo provado que ela seja verdadera, apenas não se demonstrou que ela seja falsa. Adante será dscutda a probabldade de se manter uma hpótese nula falsa. Para se decdr quando a dferença entre µ e x é sgnfcante, a equação: x t s n (34) É reescrta como: t ( x ) n s (35) E um valor de t é calculado. Se t exceder um certo valor crítco, então a hpótese nula deverá ser rejetada. O valor crítco de t para um nível de sgnfcânca partcular é encontrado na Tabela 6. Exemplo: em um método para determnar mercúro por absorção atômca os seguntes valores foram encontrados para um materal de referênca contendo 38,9% de mercúro: 38,9%, 37,4% e 37,1%. Há alguma evdênca de erro sstemátco? A méda desses valores é 37,8% e o desvo padrão é 0,964%. Adotando a hpótese nula que não há erro sstemátco, sso é, µ = 38,9% e usando a equação acma, tem-se: t 3 ( 37,8 38,9) 1,98 0,964 Da Tabela 6, para dos graus de lberdade, o valor crítco de t é 4,3 (P = 0,05).

38 38 Como se observou um valor muto menor de t, a hpótese nula é mantda, não há evdênca de erro sstemátco. Repare, novamente, que sso não sgnfca que não haja erro sstemátco, apenas não se provou que há. Comparação das médas de duas amostras Uma outra manera na qual os resultados de uma nova metodologa analítca podem ser testados é pela comparação com aqueles obtdos usando uma segunda metodologa (talvez uma metodologa de referênca). Nesse caso, têm-se duas médas amostras, x 1 e x. Tomando a hpótese nula, de que os dos métodos dão o mesmo resultado, será precso testar se x ) é sgnfcatvamente dferente de zero ou não. ( 1 x Se as duas amostras têm desvos padrões que não são sgnfcatvamente dferentes, uma estmatva assocada do desvo padrão pode ser calculada a partr de dos desvos padrões s 1 e s, usando a equação: ( n 1) s ( n 1 ( n ) 1) s 1 1 s (36) n Pode-se então mostrar que t será dado por: t s ( x 1 1 n x 1 ) 1 n (37) Onde t tem n 1 + n graus de lberdade. Exemplo: numa comparação entre dos métodos para a determnação de boro em amostras de plantas, os seguntes resultados foram obtdos em μg ml -1 (Tabela 7). Tabela 7. Resultados de dos métodos na determnação de boro (do exemplo). Método espectrofotométrco Método fluormétrco Méda 8,0 Méda 6,5 Desvo padrão 0,3 Desvo padrão 0,3

39 39 Dez determnações foram fetas para cada método. A hpótese nula adotada é que as médas obtdas pelos dos métodos são guas. Da equação anteror, o valor combnado de desvos padrões é dado por: s (9 0,3 90,3 18 ) s 0,67 Da equação de t: t (8,0 6,5) 0, t 14,7 Exstem 18 graus de lberdade, assm, da Tabela 6, o valor crítco de t (P = 0,05) é,1. Como o valor expermental de t é maor do que esse valor, a dferença entre os dos resultados é sgnfcante no nível de cnco e a hpótese nula é rejetada. De fato, como o valor crítco de t para P = 0,001 é cerca de 3,9, a dferença é sgnfcante mesmo no nível de 0,1%. Em outras palavras, se a hpótese nula for verdadera, a probabldade de tão grande dferença surgr por acaso é menor que um em Outra aplcação para esse teste é lustrada no próxmo exemplo, onde ele é usado para decdr se uma mudança nas condções expermentas afeta o resultado. Exemplo: numa sére de expermentos para a determnação de estanho em comdas enlatadas, as amostras eram fervdas com ácdo hdro clorídrco sob refluxo por tempos dferentes. Alguns resultados são apresentados na Tabela 8: Tabela 8. Resultados fnas na determnação de estanho em dferentes tempos de refluxo (do exemplo). Tempo de refluxo (mn) Estanho (mg kg -1 )

40 40 As médas encontradas de estanho dferem sgnfcatvamente com o tempo de fervura? As médas e varâncas (desvos padrões elevado ao quadrado) para os dos tempos estão na Tabela 9: Tabela 9. Médas e varâncas de dos métodos na determnação de estanho em dferentes tempos de refluxo (do exemplo). Tempo (mn) x s 30 57,00, ,83,57 A hpótese nula adotada é que o tempo de ebulção não tem efeto na quantdade determnada de estanho. O valor combnado para a varânca é dado por: s 5,80 5,57 s 1,64 10 Assm, t é calculado da equação conhecda: 57,00 57,83 t t 0, , Há 10 graus de lberdade e, assm, o valor crítco de t é,3 (P = 0,05). O valor observado de t é menor que o valor crítco, assm a hpótese nula é mantda. Não há evdêncas de que o tempo de fervura afete a taxa de recuperação. Se o postulado da gualdade dos desvos padrões das populações não for verdadero, é precso modfcar a equação de t para: t ( x 1 x ) s 1 n 1 s n (38)

41 E calcular o nº de graus de lberdade com: 41 s1 s 1 n n GL (39) s 1 s n1 n n1 1 n 1 Arredondando-se o resultado para o número ntero mas próxmo. Exemplo: a Tabela 10 apresenta os resultados da concentração de tol no sangue de dos grupos de voluntáros, o prmero grupo sendo normal e o segundo sofrendo de artrte reumatóde. Tabela 10. Resultados da concentração de tol no sangue de dos grupos de voluntáros (do exemplo). Ensaos Normal Reumatóde 1 1,84,81 1,9 4,06 3 1,94 3,6 4 1,9 3,7 5 1,85 3,7 6 1,91 3,76 7,07 Não realzado N 7 6 s 0,076 0,440 x 1,91 3,465 Novamente, a hpótese nula é adotada de que a concentração méda de tol é a mesma para os dos grupos. Substtundo-se na equação acma, obtém-se t = 8,5 e da outra equação obtém-se 5 graus de lberdade. O valor crítco de t (P = 0,01) é 4,03 e assm a hpótese nula tem que ser rejetada: as concentrações de tol são dferentes para os dos grupos. Teste t pareado Dos métodos de análses dferentes podem ter que ser comparados pelo estudo de amostras contendo quantdades dferentes da espéce-teste. Exemplo: a Tabela 11 mostra

42 concentrações de chumbo (µg ml -1 ) determnadas por dos métodos dferentes para cada uma das quatro amostras. 4 Tabela 11. Concentrações de chumbo (µg ml -1 ) determnadas por dos métodos dferentes (do exemplo). Solução Oxdação úmda Extração dreta Os dos métodos dão valores médos de chumbo que varam de manera sgnfcatva? O teste de comparação das duas médas não pode ser aplcado nesse caso, porque qualquer varação devda ao método sera dsfarçada pelo efeto da dferença entre as porções-teste. A melhor manera de conclur se exste dferença sgnfcante entre as duas amostras é analsando a dferença entre cada par de resultados, um de cada método. Adotando a hpótese nula de que não há dferença entre as médas de concentrações pelos dos métodos, pode-se testar se as dferenças são sgnfcatvamente dferentes de zero. Para os pares de valores acma, as dferenças são -5, -7, e 3. A dferença méda, x d, é -1,75 e o desvo padrão para a dferença, s d, é 4,99. Como µ d = 0, a equação para calcular t torna-se: t x d s d n (40) Onde t tem (n - 1) graus de lberdade. Substtundo os valores na equação acma, obtém-se t = -0,70. O valor crítco de t é 3,18 (P = 0,05) e como o valor calculado de t é menor que sso, a hpótese nula é mantda. O método não deu dferença sgnfcatva para os valores médos da concentração de chumbo. Exstem crcunstâncas nas quas é necessáro planejar um expermento no qual cada analto é analsado por dos métodos e os resultados são naturalmente pareados. Alguns exemplos:

43 43. A quantdade de qualquer uma das espéces-teste é sufcente para uma únca determnação por método... Os métodos serão comparados usando uma grande varedade de amostras de dferentes fontes com dferentes concentrações. As espéces-teste podem ser de um longo ntervalo de tempo e é necessáro remover os efetos sazonas (temperatura, pressão, etc.). Como os métodos analítcos têm, constantemente, que ser aplcados a uma faxa grande de concentrações, qualquer novo método deve ser comparado a um método padrão pela análse de amostras nas quas a concentração do analto pode varar em ordens de grandeza. Nesse caso é naproprado usar o teste-t pareado, pos sua valdade depende da afrmação que qualquer erro, aleatóro ou sstemátco, é ndependente da concentração. Assm, em amplas faxas de concentrações, não se pode mas fazer tal afrmação. TESTES MONO E BI-CAUDAIS Os métodos descrtos até aqu analsados foram desenvolvdos para testar as dferenças entre dos valores de méda em ambas as dreções. Por exemplo, o método descrto na seção 1 testa a exstênca de uma dferença sgnfcatva entre o resultado expermental e o valor conhecdo, ndependentemente do snal da dferença. Na maora das stuações desse tpo, o expermentador não tem qualquer déa pré-concebda, antes dos resultados expermentas, se uma dferença sgnfcante eventual entre as médas expermentas e os valores de referênca será postva ou negatva. Ele, então, necessta de um teste que cubra ambas possbldades. Tal teste é chamado b-caudal (ou blateral). Entretanto, em poucos casos, um tpo específco de teste pode ser aproprado. Consderar, por exemplo, um expermento no qual se espera um aumento na velocdade da reação pela adção de um catalsador. Nesse caso, é claro, antes do expermento, que apenas os resultados que ndquem um aumento no valor da constante de velocdade em relação à anteror são de nteresse. Assm, apenas um aumento deve ser testado para a sgnfcânca. Esse tpo de teste é chamado de mono-caudal (ou unlateral).

44 44 Para um dado valor de n e para um nível de probabldade partcular, o valor crítco para um teste mono-caudal dfere daquele para um teste b-caudal. Em um teste mono-caudal para um ncremento, o valor crítco de t (no lugar de t ) para P = 0,05 é aquele valor que é exceddo com uma probabldade de 5%. Como a dstrbução da amostra da méda é assumda ser smétrca, essa probabldade é metade da probabldade que é obtda num teste b-caudal. O valor aproprado para um teste mono-caudal é, assm, encontrado na coluna P = 0,10 tabelado (ANEXO B: VALORES CRÍTICOS DE F (P = 0,05)). De manera smlar, para um teste mono-caudal, com P = 0,01, o valor da coluna P = 0,05 deverá ser utlzado. Para um teste mono-caudal onde se espera uma dmnução no valor da méda, o valor crítco de t será de gual magntude, mas com um snal negatvo. Exemplo: suspeta-se que um método ttrmétrco ácdo-base tem um erro sgnfcatvo no ndcador e, assm, tende a resultar num erro sstemátco postvo (sso é, numa bas postva). Para verfcar esse fato, fo utlzada uma solução de ácdo exatamente 0,1 mol L -1 para ttular 5,00 ml de uma solução alcalna exatamente 0,1 mol L -1, com os seguntes resultados (ml): 5,06 5,18 4,87 5,51 5,34 e 5,41. Para esses resultados tem-se: méda = 5,8 ml e desvo padrão = 0,38 ml. Adotando a hpótese nula de que não há bas, sso é, µ = 5,00 ml, e usando a equação de t: ( x ) n t s (5,8 5,00) t 0,38 6 t,35 O valor crítco de t para 5 graus de lberdade é,0 (P = 0,05, teste mono-caudal, ver na págna 166). Como o valor de t observado é maor que o valor crítco, a hpótese nula deve ser rejetada e há evdêncas para bas postva. É nteressante notar que se um teste b-caudal for feto no exemplo acma, ( t =,57), a hpótese nula não deve ser rejetada. Esta contradção aparente é explcada pelo fato da decsão de se fazer um teste mono ou b-caudal depender no grau de conhecmento prévo, nesse caso uma suspeta de bas postva.

45 TESTES F PARA A COMPARAÇÃO DE DESVIOS PADRÕES 45 Os testes de sgnfcânca descrtos anterormente são usados para comparar valores de médas, e assm detectar erros sstemátcos. Também é mportante, em mutos casos, comparar os desvos padrões, sso é, os erros aleatóros de dos conjuntos de dados. Como nos testes com médas, esta comparação pode tomar duas formas. Tanto se pode querer testar se o método A é mas precso que o método B (sso é, um teste mono-caudal) ou querer saber de quanto a precsão do método A dfere da do método B (um teste b-caudal). Assm, se quser saber se um método analítco novo é mas precso que o método padrão é necessáro fazer um teste mono-caudal. Se desejar apenas saber de quanto à precsão dos dos métodos dfere, é necessáro executar um teste b-caudal. O teste-f consdera a relação de varâncas de duas amostras, sso é, a relação dos quadrados dos desvos padrões. A quantdade calculada (F) é dada por: s F (41) s 1 Onde os parâmetros são colocados na equação de tal forma que F é sempre maor ou gual a um. A hpótese nula adotada é que as populações de onde as amostras são tomadas são normas, e que as varâncas das populações são guas. Se a hpótese nula for verdadera, então a relação de varâncas deve ser muto perto de um. Dferenças de um ocorrem por causa das varações aleatóras, mas se a dferença é muto grande, ela não pode mas ser atrbuída a esta causa. Se o valor calculado de F exceder um certo valor crítco (Erro! Fonte de referênca não encontrada. e Erro! Fonte de referênca não encontrada.) então a hpótese nula deve ser rejetada. Esse valor crítco de F depende do tamanho de ambas as amostras, do nível de sgnfcânca e do tpo de teste executado. Exemplo: um método para determnar a demanda químca de oxgêno em águas resduáras fo comparado com um método padrão (sal de mercúro). Os resultados seguntes foram obtdos de uma alíquota de efluentes de esgotos (Tabela 1).

46 Tabela 1. Resultados de dos métodos para determnar a demanda químca de oxgêno em águas resduáras (do exemplo). 46 Método Méda (mg L -1 ) Desvo padrão (mg L -1 ) Padrão 7 3,31 Proposto 7 1,51 Para cada método, oto determnações foram fetas. A precsão do método proposto é de manera sgnfcatva maor que a do método padrão? Aplcando a equação de F: F 3,31 1,51 7,7 F 7,7 4,8 Ambas amostras contnham oto valores e, portanto, o número de graus de lberdade em cada caso é sete, como ndcado nos subscrtos. Esse é um caso onde um teste monocaudal deve ser usado, o únco ponto de nteresse é se o método proposto é mas precso que o método padrão. O valor crítco de F (P = 0,05) é, nesse caso, 3,787 (Erro! Fonte de referênca não encontrada.). Como o valor calculado de F (4,8) excede o valor crítco, a varânca do método padrão é sgnfcantemente maor que a do método proposto, portanto, esse é mas precso. Outro exemplo: anterormente, do cálculo de boro em plantas, fo assumdo que as varâncas não eram dferentes de manera sgnfcatva. Esta proposção pode ser testada agora. Os desvos padrões eram 0,3 e 0,3 (cada um obtdo de dez meddas em uma espéce partcular de planta). Calculando o F de tal forma que ele seja maor que um, tem-se: Nesse caso, entretanto, não se tem qualquer razão para supor, em antemão, que a varânca de um método deva ser maor que a do outro. Assm, um teste b-caudal deve ser aproprado. Os valores crítcos da tabelados são aqueles que F excede, com uma probabldade de 0,05, assumndo que ele deve ser maor que um. Num teste b-caudal, a relação entre a prmera e a segunda varânca pode ser menor ou maor que um, mas se F for calculado como maor que um, a probabldade que

47 47 ele exceda o valor tabelado deve ser dobrada. Assm, os valores crítcos dados da Erro! Fonte de referênca não encontrada. não são aproprados para testes b-caudas e a outra tabela deve ser utlzada no lugar. Da Erro! Fonte de referênca não encontrada., tomando o número de graus de lberdade de ambos numerador e denomnador como nove, o valor crítco para F é 4,06. O valor calculado é menor que sso, assm não há dferença sgnfcante entre as duas varâncas no nível de 5%.

48 48 CAPÍTULO 4 PONTOS FORA DA CURVA ( OUTLIERS ) Todos os expermentalstas são famlarzados com a stuação onde um (ou possvelmente város) de um conjunto de resultados parece dferr dos outros dados do conjunto, de uma manera nexplcável. Tas meddas são conhecdas como pontos fora da curva (outler). Em alguns casos, os pontos fora da curva podem ser atrbuídos a erros humanos. Por exemplo: 1,; 1,15; 1,13; 13,14 e 1,1 ml. Esses valores foram obtdos para uma ttulação. Nessa sére, o quarto valor é, quase com certeza, um engano na escrta do número, que devera ser ldo 1,14. Entretanto, mesmo quando esses erros óbvos estão ausentes, valores que parecem estar fora anda podem ocorrer. Eles devem ser mantdos ou removdos? Os valores calculados para a méda e o desvo padrão dependerão da decsão de rejetar ou manter. Como a dscussão sobre a precsão e a exatdão do método depende desses valores fnas, deve-se sempre precsar com clareza quando os pontos fora da curva devem ser rejetados e, se forem, porque. Um dos város testes dsponíves para avalar uma medda suspeta consste em comparar a dferença entre o seu valor e o do vznho mas próxmo com aquela obtda entre o valor máxmo e o mínmo encontrado. A relação entre essas dferenças (ndependente do snal) é conhecda como Teste Q de Dxon. valorsuspeto valorvznho Q (4) valor valor maor menor Os valores crítcos de Q para P = 0,05 e para P = 0,01 estão na Tabela 13. Se o valor calculado de Q exceder o valor crítco, o suspeto deve ser rejetado.

49 49 Os valores dados são para os testes b-caudas, aproprados quando não se conhece em que extremo um ponto fora da curva pode ocorrer. Tabela 13. Valores crítcos de Q (P = 0,05) para um teste b-caudal. Tamanho da amostra Valor crítco 4 0, , ,61 7 0, ,54 9 0, ,464 Exemplo: os seguntes valores foram obtdos para a concentração de ácdo nítrco numa amostra de água de ro: 0,403 0,410 0,401 0,380; o últmo valor é suspeto. Ele deve ser rejetado? Q 0,380 0,401 0,410 0,380 Q 0,7 Da Tabela 13, para uma amostra com tamanho 4, o valor crítco de Q é 0,831 (P = 0,050). Como o valor encontrado não excede o valor crítco, ele deve ser mantdo. Idealmente, mas meddas devem ser fetas, quando um valor suspeto é detectado, partcularmente quando poucas meddas foram tomadas ncalmente. Isso pode tornar mas claro quando um valor suspeto deve ou não ser rejetado. Mesmo se ele for mantdo, sua contrbução para o valor da méda e desvo padrão será menor. Exemplo: se três mas valores forem adconados àqueles do exemplo anteror e os resultados forem: 0,403 0,410 0,401 0,380 0,400 0,413 0,411 o resultado de 0,380 deve anda ser mantdo? O valor calculado de Q agora se torna: Q 0,380 0,400 0,413 0,380 Q 0,606

50 50 O valor crítco de Q (P = 0,05) para uma amostra de sete valores é 0,570, assm o valor suspeto é rejetado em um nível de sgnfcânca de 5%. O resultado de 0,380 deve anda ser mantdo? O valor calculado de Q agora se torna: Q 0,380 0,400 0,413 0,380 Q 0,606 O valor crítco de Q (P = 0,05) para uma amostra com sete meddas é 0,570. Assm, a medda suspeta deve ser rejetada a um nível de sgnfcânca de 5%. É mportante atentar para o fato de que, num nível de sgnfcânca de 5%, anda há uma chance de 5%, ou seja, um em 0, de se rejetar de manera ncorreta um valor suspeto. Isso pode ter uma nfluênca consderável na estmatva da precsão de um expermento. Por exemplo, para todos os sete valores de concentração de ntrto dados acma, o desvo padrão é 0,011 mg L -1, mas quando o valor suspeto é rejetado, o desvo padrão torna-se 0,0056 mg L -1, sso é, a precsão do expermento parece ter aumentado por um fator de dos. O exemplo acma lustra a mportânca de se ater a crtéros para acetar ou rejetar um valor fora da curva. Quando as meddas são repetdas apenas algumas vezes, (o que é comum no trabalho analítco), a rejeção de um valor faz uma grande dferença nos valores da méda e do desvo padrão. Na prátca, o procedmento de se obter três meddas e rejetar aquela que mas se afastar das outras deve ser evtado. Se o conjunto de dados contém mas de um valor suspeto, mas complcado é decdr sobre a rejeção ou não. A Fgura 6 mostra, na forma de dot plots dos exemplos de tas dfculdades.

51 51 a b,,4,6,8 3 3, x 1 x n Fgura 6. Dos exemplos a e b na forma de dot plots. Na Fgura 6 há dos resultados,,9 e 3,1, que são suspetos quando comparados com os outros. Entretanto, se calcular o valor de Q, obter-se-á: 3,1,9 Q Q 0,18 3,1,0 Um valor que não é sgnfcante (P = 0,05). Claramente, o valor fora da curva 3,1 fo mascarado pelo outro valor suspeto,9, dando um valor baxo de Q. Como resolver tas stuações? Uma das maneras é consderá-los como um par (procedmento do bloco), com o teste sendo feto pela sua méda dvdda pela méda de todo o conjunto. O rsco que se corre com esta aproxmação é que ambos devem (necessaramente) ser acetos ou rejetados juntos em stuações onde um dos dos podera ser aceto. Como alternatva, em um procedmento consecutvo, testamos prmero, com a ajuda de uma estatístca smlar ao teste Q, se o valor,9 pode ser rejetado. Se for rejetado, então o valor 3,1 também será naturalmente rejetado. Se o valor,9 for mantdo, um teste separado é aplcado ao valor 3,1. Uma stuação dferente ocorre com o exemplo b, onde os dos valores suspetos estão nas extremdades opostas do conjunto de dados. Novamente, város tpos de testes têm sdo propostos, um deles sendo (x n - x ) / s, sendo s o desvo padrão da amostra.

52 5 A dscussão de erros até aqu tem assumdo que as dstrbuções de meddas repetdas são normas, ou quase. É mportante entender que os testes de pontos descrtos fora da curva acma levam esta afrmação em conta. Um resultado que parece estar fora da curva numa dstrbução normal pode muto bem não ser suspeto numa dstrbução lognormal, por exemplo. Assm, os testes para pontos fora da curva não devem ser fetos se exstr dúvdas sobre a dstrbução normal de pontos. ANÁLISE DE VARIÂNCIA Na aula anteror, fo dscutdo um método para se comparar os valores de duas médas e conclur se eles dferem sgnfcantemente. No trabalho analítco há, freqüentemente, mas de dos valores de médas para serem comparados. Alguns exemplos possíves são: comparar a concentração méda de proteínas em solução, a partr de amostras armazenadas sob dferentes condções, comparar os resultados médos obtdos para a concentração de um analto por dferentes métodos, etc. Nesses, e em outros exemplos, há duas possíves fontes de varações. A prmera, que está sempre presente, são os erros aleatóros das meddas, que já fo dscutdo em detalhes, nos tópcos anterores. Essa é a fonte de resultados dferentes, cada vez que as meddas são fetas utlzando as mesmas condções. A segunda fonte de erro possível é devdo ao que se conhece como um fator controlado ou de efeto fxo. Nos exemplos acma, os fatores fxos eram, respectvamente, as condções de armazenamento das proteínas e as técncas utlzadas. A análse de varânca ANOVA (analyss of varance) é uma técnca estatístca muto poderosa que pode ser utlzada para separar e estmar as dferentes causas de varações. Nos exemplos anterores, ela pode ser usada para separar qualquer varação causada pelos fatores de controle da varação causada por erros aleatóros. Ela pode, assm, testar se

53 53 a mudança nos fatores de controle altera sgnfcatvamente os valores das médas calculadas. ANOVA também pode ser usada em stuações onde há mas de uma fonte de varações aleatóras. Consdere, por exemplo, o teste de pureza de um lote de frascos de cloreto de sódo. As amostras são tradas de váras partes do lote, escolhdas de manera aleatóra e análses repetdas são fetas nessas amostras. Além do erro randômco na medda das purezas, também pode haver varações na pureza de cada amostra, de dferentes partes do lote. Como as amostras são tomadas aleatoramente, os erros também serão aleatóros e, assm, eles são chamados de fator de efeto aleatóro. Ambos os tpos de análse estatístca descrtos acma, sso é, onde há apenas um fator, seja de controle ou aleatóro, em adção ao erro randômco do expermento, são conhecdos como ANOVA monomodal (one way). Os procedmentos matemátcos utlzados são smlares nos casos de fatores de efetos fxos ou fatores de efeto aleatóros. Isso será explorado por meo de exemplos. É necessáro explorar aqu os fatores de efetos fxos e num próxmo tópco os de efetos aleatóros. Para esse últmo caso deve-se, antes, dscutr a amostragem com mas detalhes. Mas adante, será dscutda também stuação mas complexa, com dos ou mas fatores, todos nteragndo entre s. Comparação de váras médas A Tabela 14 mostra o resultado obtdo de uma nvestgação da establdade de um reagente fluorescente armazenado sob dferentes condções. Os valores dados são snas de fluorescênca em undades arbtráras de soluções dluídas de guas concentrações. Três meddas repetdas foram fetas de cada amostra. A Tabela 14 mostra que os valores das médas para cada amostra são dferentes. Entretanto, sabe-se que, devdo ao erro aleatóro, mesmo se o valor verdadero que se está tentando avalar não mudasse, a méda de cada amostra deverá varar.

54 54 ANOVA testa se a dferença entre os valores de médas é, ou não, muto grande para ser explcada pelo erro aleatóro. O problema pode ser generalzado para se consderar h amostras, cada uma com n membros como na tabela, onde x j é a medda j da amostra. Tabela 14. Snal de fluorescênca de soluções estocadas em dferentes condções (do exemplo). Ensao Condções Meddas Méda A Preparado na hora 10, 100, B Estocada 1 h no escuro 101, 101, C Estocada 1 h à mea-luz 97, 95, D Estocada 1 h sob lumnosdade 90, 9, Méda total 98 Tabela 15. Generalzação da Tabela 14. Amostra Meddas Médas 1 x 11 x 1 x 1n 1 x 1 x x n x x 1 x x n h x h1 x h x hn h Méda total x x x x As médas das amostras são x,..., 1, x xn e a méda para todos os valores agrupados é x. A hpótese nula adotada é que todas as amostras foram tradas de uma população com méda µ e varânca σ 0. Com base nesta hpótese, σ 0 pode ser estmado de duas maneras, uma envolvendo a varação dentro das amostras e outra a varação entre as amostras. Varações dentro da amostra Para cada amostra, a varânca pode ser calculada usando a fórmula:

55 Usando os valores da Tabela 14, tem-se: 55 ( x x) (43) n 1 var var var var a b c d (10 101) ( ) (101101) vara (10110) (10110) (104 10) varb (97 97) (95 97) (99 97) varc (90 9) (9 9) (94 9) vard da amostra: Fazendo a méda dos valores de varânca acma tem-se a estmatva de σ 0 dentro Esta estmatva possu oto graus de lberdade; cada amostra tem dos graus de lberdade e exstem quatro amostras. É necessáro observar que esta estmatva não depende das médas das amostras; se, por exemplo, todas as meddas de A forem acrescdas de, por exemplo, quatro, esta estmatva de σ 0 permanecera nalterada. A equação geral para estmar σ 0 dentro da amostra é: ( xj x ) 0 (44) h( n 1) j A somatóra em j e a dvsão por (n - 1) dá a varânca de cada amostra; a somatóra em I e a dvsão por h dá a méda dessas varâncas. A expressão na equação acma é a méda quadrada, desde que envolve a soma de termos quadrátcos dvdda pelo grau de

56 56 lberdade. Como o número de graus de lberdade é 8 e a méda quadrada 3, a soma dos termos quadrátcos é Varação entre amostras Se as amostras forem retradas de uma população que apresenta uma varânca σ 0, então as suas médas vêm de uma população com varânca σ 0 (como fo vsto na dstrbução de médas amostradas). Assm, se a hpótese nula é verdadera, a varânca das médas das amostras dá uma estmatva de σ 0 / n. Da Tabela 14: var x s (101 98) (10 98) (97 98) 4 1 (9 98) var x s 6 3 Assm, a estmatva de amostras de σ 0 é: Essa estmatva tem três graus de lberdade, desde que ela fo calculada de quatro médas de amostras. Observe que esta estmatva de σ 0 não depende da varabldade dentro de cada amostra, pos ela é calculada de médas de amostras. Entretanto, se, por exemplo, a méda da amostra D for mudada, a estmatva σ 0 também mudará. Em geral tem-se (para σ 0 entre amostras): ( x x) 0 n (45) h 1 Que é, novamente, uma méda quadrada envolvendo a soma dos termos quadrátcos dvdda pelo número de graus de lberdade. Nesse caso, o número de graus de lberdade é três e a méda quadrada é 6 e, assm, a soma dos termos quadrátcos é Sumarzando o que fo feto até agora: Méda quadrada dentro das amostras 3 com 8 graus de lberdade. Méda quadrada entre as amostras 6 com 3 graus de lberdade.

57 57 Se a hpótese nula for correta, essas duas estmatvas de σ 0 não devem dferr sgnfcatvamente. Se ela for ncorreta, a estmatva de σ 0 entre amostras será muto maor que a de dentro da amostra por causa das varações entre as amostras. Para se testar se o valor é sgnfcatvamente maor, um teste F mono-caudal pode ser utlzado: F s s 1 F 3, ,7 É bom lembrar que cada méda quadrada é usada, assm não é necessáro mas elevar ao quadrado. O valor crítco de F é 4,066 (págna 166) para P = 0,05. Como o valor calculado é maor que o valor crítco, a hpótese nula é rejetada e a dferença entre as médas é sgnfcatva. Um resultado sgnfcante numa ANOVA mono-modal pode surgr por dferentes razões: uma méda pode dferr de todas as outras, todas as médas podem dferr entre s, as médas podem car em dos grupos dstntos, etc. Uma manera smples de se decdr a razão para um resultado sgnfcante é ordenar as médas por valor e comparar a dferença entre valores adjacentes com uma quantdade chamada menor dferença sgnfcante. Essa quantdade é dada por: t h n s (46) ( n1) Onde s é a estmatva dentro da amostra de σ 0 e h(n - 1) é o número de graus de lberdade desta estmatva. Para o exemplo acma, as médas amostradas podem ser ordenadas em ordem crescente de valor como: méda (D) = 9, méda (C) = 97, méda (A) = 101 e méda (B) = 10. E a menor dferença sgnfcatva é dada por:

58 58 3,306( P 0,05) 3,6 3 Comparando esse valor com as dferenças entre as médas fca evdente que méda (D) e méda (C) dferem sgnfcantemente uma da outra e da méda (A) e méda (B), mas essas duas não dferem entre s, sso é, a exposção à luz é que afeta a fluorescênca. O método das menores dferenças sgnfcantes descrto acma não é nteramente rgoroso: pode-se mostrar que ele leva a dferenças sgnfcatvas em excesso. Entretanto é uma aproxmação a ser usada quando ANOVA ndcou uma dferença sgnfcante das médas. A artmétca dos cálculos da ANOVA Ao se usar ANOVA para comparar dferenças entre valores de médas, se a hpótese nula mostrar-se verdadera, σ 0 também pode ser calculado numa tercera forma, tratando os dados como uma amostra grande. Isso pode envolver a somatóra dos quadrados dos desvos padrões de todas as médas: j ( x x) j E dvdr pelo número de graus de lberdade, 1-1 = 11. Esse método para se estmar σ 0 não é usado em análses porque a estmatva depende tanto das varações dentro das amostras como entre as amostras. Entretanto, exste uma relação algébrca exata entre esta varação total e as fontes de varações, que, prncpalmente nos cálculos mas complcados de ANOVA, leva a uma smplfcação da artmétca envolvda. Esta relação é lustrada na Tabela 16. Os valores das varâncas totas, dados na últma lnha da Tabela 16, são as somas dos valores nas duas prmeras lnhas, tanto para os quadrados dos desvos padrões como para os graus de lberdade. Esta propredade adtva se mantém para toda a dscussão de

59 ANOVA feta no curso. Assm como no cálculo da varânca, exstem fórmulas que smplfcam os cálculos das somas dos quadrados. 59 Tabela 16. Sumáro das somas dos quadrados e graus de lberdade. Fonte de varação Soma dos quadrados Graus de lberdade Entre amostras n( x x) 186 Dentro da amostra ( j x ) j x 4 Total ( j x) j x 10 h 1 3 h ( n 1) 3 hn 1 11 Essas fórmulas estão sntetzadas na Tabela 17, que utlza as notações abaxo e ntroduz os símbolos: Número total de meddas = N = nh. Soma de meddas na -ésma amostra = T. Soma de todas as meddas, gran total = T. Tabela 17. Fórmulas para cálculos de ANOVA mono-modal. Fonte de varação Soma dos quadrados Graus de lberdade T T Entre amostras n N h 1 Dentro da amostra Por subtração Por subtração Total x j j T N N 1 O uso das fórmulas na

60 60 Tabela 17 pode ser lustrado repetndo-se os cálculos de ANOVA para os dados da Tabela 14. Os cálculos das médas quadrátcas são fetos na Tabela 18 e na Tabela 19. Todos os valores da Tabela 14 foram subtraídos por um valor de 100, o que smplfca muto os cálculos. Foram fetas certas suposções ao se fazer os cálculos na Tabela 18 e na Tabela 19, de ANOVA. A prmera é que a varânca do erro aleatóro não é afetada pelo tratamento usado. Esta suposção está mplícta na extrapolação das varâncas de dentro das amostras para calcular uma estmatva total do erro das varâncas. Ao se fazer sso, assume-se o que se conhece por homogenedade de varâncas. Em partcular, no exemplo anteror, onde todas as meddas são fetas da mesma manera, pode-se esperar a homogenedade das varâncas. Uma segunda suposção é que a varação não controlada é aleatóra. Fatores não controlados como, por exemplo, a temperatura, podem exercer um efeto sstemátco nos dados expermentas. Técncas para se lvrar de tas perturbações serão dscutdas mas à frente. Tabela 18. Cálculos do exemplo (I). T T A B C D T 4 T 70 n 3, h 4, N 1, 58 x j j Tabela 19. Cálculos do exemplo (II). Fonte de varação Soma dos quadrados Graus de lberdade Méda quadrada 70 ( 4) 186 Entre amostras Dentro da amostra Por subtração =

61 ( 4) 1 Total Será vsto que uma parte mportante da ANOVA é a aplcação dos testes-f. O uso desses testes é lmtado para a comparação da varânca de duas amostras e depende de que as amostras sejam retradas de uma população normal. Entretanto, por sorte, os testes-f quando aplcados em ANOVA, não são tão sensíves para desvos da normaldade.

62 6 CAPÍTULO 5 TESTE CHI-QUADRADO Os testes de sgnfcânca descrtos até aqu têm, em geral, testado se a méda de váras meddas dfere sgnfcatvamente do valor proposto pela hpótese nula. Os dados usados foram tomados na forma de observações que, por algum tpo de arredondamento, foram meddos numa escala contínua. Em contraste, nessa parte da aula a preocupação será com a freqüênca, sso é, o número de vezes que um evento ocorre. Por exemplo, a Tabela 4 dá a freqüênca com que os dferentes valores obtdos para concentrações do íon ntrato quando são fetas 50 meddas em uma amostra. Como já dscutdo anterormente, tas meddas são assumdas como tradas de uma população que está normalmente dstrbuída.. O teste ch-quadrado pode ser usado para verfcar se as freqüêncas observadas dferem sgnfcatvamente daquelas que são esperadas nesta hpótese nula. Os prncípos do método ch-quadrado podem ser mas faclmente entenddos com o segunte exemplo: o número de quebras de vdraras relatado por quatro técncos de laboratóros, para um dado período, é: Número de quebras: 4, 17, 11, 9. Há alguma evdênca de que os técncos dferem em suas habldades? A hpótese nula adotada é que não há dferença nas habldades dos quatro técncos. Assumndo que eles utlzaram a vdrara por um ntervalo de tempo gual, esperase, pela hpótese nula, que cada um quebrou o mesmo número de vdros. Como o total de quebra fo 61, espera-se que cada técnco quebrou 61 / 4 = 15,5 vdros. A questão a ser respondda é se a dferença entre as freqüêncas observadas e esperada é tão grande que a hpótese nula deva ser rejetada.

63 63 Se exste alguma dferença entre os dos conjuntos de dados de freqüêncas pode ser mas faclmente observado consderando-se uma seqüênca de lançamentos de dados. Fcaríamos surpresos se em 30 lançamentos ocorresse exatamente o mesmo número de 1,, 3, etc. O cálculo de ch-quadrado, χ, a quantdade usada para testar a sgnfcânca da dferença, é mostrada na Tabela 0: Tabela 0. Cálculo do teste ch-quadrado (do exemplo). Freqüênca observada (O) Freqüênca esperada (E) O - E (O E) / E 4 15,5 8,75 5, ,5 1,75 0, ,5-4,5 1, ,5-6,5,561 0,00 χ = 8,966 Observe que o total da coluna O - E é sempre zero assm podendo ser usada para checar os cálculos. Se χ exceder um certo valor crítco, a hpótese nula deve ser rejetada. O valor crítco depende, como nos outros testes de sgnfcânca, no nível de sgnfcânca do teste e nos graus de lberdade. O número de graus de lberdade é, nesse exemplo, um a menos que o número de dados relatados pelos técncos, ou seja, 4-1 = 3, nesse caso. Os valores crítcos de χ para P = 0,05 são dados na Tabela 1. Para 3 graus de lberdade, o valor crítco é 7,81. Como o valor calculado de χ é maor que esse valor crítco, a hpótese nula deve ser rejetada. Tabela 1. Valores crítcos de χ para P = 0,05. Nº de graus de lberdade Valor crítco 1 3,84 5,99 3 7,81 4 9, ,07 6 1, , , , ,31 Há evdêncas de que os técncos dferem em suas habldades. Nesse cálculo de χ, parece que o resultado sgnfcante fo obtdo pelo alto número de quebras reportado pelo técnco número um. Para aprofundar esse estudo, testes ch-

64 64 quadrado adconas devem ser fetos. Um desses testes analsa se o segundo, tercero e quarto técncos dferem sgnfcantemente: nesse caso, a freqüênca esperada para cada um será: ( ) / 3. Observe que um teste T não pode ser aplcado aqu, pos está se trabalhando com freqüêncas e não com valores contínuos. Um outro teste verfca se o prmero dfere sgnfcantemente dos outros, tomados como um grupo. Nesse caso, há duas classes: as quebras do prmero técnco com uma freqüênca esperada de 15,5 e o total das outras quebras, com freqüênca esperada de 15,5 3 = 45,75. Nesse caso, onde há apenas duas classes e, assm, apenas um grau de lberdade, um ajuste, conhecdo como correção de Yates, deve ser feto. Isso envolve a substtução de O - E por O - E - 0,5, por exemplo, -4,5 torna-se 4. Teste para dstrbução normal Como já fo enfatzado, mutos testes estatístcos requerem dados orgnados de uma população normal. Um método para se testar esta condção, usando o teste ch-quadrado, fo menconado há pouco. Infelzmente, esse método só pode ser usado se há 50 ou mas pontos. É comum, no trabalho expermental, ter-se apenas um pequeno conjunto de dados. Um modo smples e vsual de se conferr se tal conjunto de dados é consstente com a condção de normaldade é plotar uma curva cumulatva de freqüênca. Esta curva é obtda de um gráfco especal conhecdo como papel de probabldade normal. Esse método é mas faclmente compreenddo por meo de um exemplo: use o papel de probabldade normal para testar se os dados abaxo foram trados de uma população normal: 109, 89, 99, 99, 107, 111, 86, 74, 115, 107, 134, 113, 110, 88, 104. A Tabela mostra os dados arranjados em ordem crescente de valor. A segunda coluna dá a freqüênca cumulatva de cada medda, sso é, o número de meddas menores ou guas àquela medda. A tercera coluna dá a porcentagem de freqüênca cumulatva. Esta porcentagem fo calculada usando a equação: % freqüênca cumulatva = 100 x freqüênca cumulatva / (n + 1). Onde n é o número total de meddas. Se os dados verem

65 65 de uma dstrbução normal, um gráfco da porcentagem da freqüênca cumulatva contra os resultados da medda tem a forma de S, como mostrado na Fgura 7. O papel de probabldade normal tem uma escala não-lnear para o exo da porcentagem de freqüênca cumulatva, o que converte esta curva não lnear em uma reta. Isso é mostrado na Fgura 8. Tabela. Meddas e valores de freqüênca cumulatva (do exemplo). Medda Freqüênca cumulatva % freqüênca cumulatva ,3 86 1, , , , , , , , , , , ,8 % freqüênca cumulatva Medda Fgura 7. Gráfco da porcentagem da freqüênca cumulatva contra os resultados da medda. Os pontos estão, aproxmadamente, sobre uma reta, apoando a hpótese de que os dados foram tomados de uma população com dstrbução normal.

66 66 % freqüênca cumulatva Medda Fgura 8. Gráfco da curva convertda em uma reta. CONCLUSÕES SOBRE OS TESTES DE SIGNIFICÂNCIA Essas últmas aulas foram concentradas em dferentes tpos de testes de sgnfcânca. Vamos agora analsar algumas conclusões a que se pode chegar após essas dscussões. Como já fo dto váras vezes, um teste de sgnfcânca em nível de, por exemplo, P = 0,05 envolve 5% de rsco de uma hpótese nula ser rejetada, mesmo se ela for verdadera. Esse tpo de erro é conhecdo como erro tpo um: o rsco desse tpo de erro pode ser dmnuído alterando o nível de sgnfcânca para P = 0,01 ou mesmo P = 0,001. Esse, entretanto, não é o únco tpo de erro possível; também é possível reter uma hpótese nula mesmo que ela seja falsa. Isso é chamado de erro tpo dos. Para se calcular a probabldade de se cometer esse tpo de erro, é necessáro postular uma alternatva à hpótese nula, conhecda como uma hpótese alternatva. Consdere uma stuação onde um certo produto químco deve conter 3% de fósforo em massa. Suspeta-se que esta proporção aumentou e para testar sso sua composção será analsada pelo método padrão com um desvo padrão conhecdo de 0,03%. Suponha que quatro meddas foram fetas e que um teste de sgnfcânca fo conduzdo em um nível de P

67 67 = 0,05. Fo necessáro um teste mono-caudal, pos se estava nteressado apenas no aumento da concentração de fósforo. A hpótese nula consderada fo = μ = 3,0%. A lnha sólda na Fgura 9 mostra a dstrbução de médas amostradas se a hpótese nula for verdadera. Esta dstrbução de amostras tem méda 3,0 e desvo padrão (sso é, erro padrão da méda) dado por: Tpo Tpo 1 3,00 3,05 x x c Fgura 9. Erros tpo 1 e tpo. Se a méda da amostra car acma do valor crítco ndcado, x c, a hpótese nula é rejetada. Assm, a regão preta, com área de 0,05, representa a probabldade de um erro tpo um. Suponha que se toma uma hpótese alternatva μ = 3,05%. A lnha pontlhada da Fgura 9 mostra a dstrbução da méda amostrada se a hpótese alternatva estver correta. Mesmo nesse caso, a hpótese nula será mantda se o valor da méda for menor que x c. A probabldade desse erro tpo dos é representada pela área achurada. Essa fgura esclarece a nter dependênca dos dos tpos de erros. Se, por exemplo, P for dmnuído para 0,01 para reduzr a chance do erro tpo um, x c aumentará e o rsco de erro tpo dos também. Da mesma manera, a dmnução da probabldade de erro tpo dos só pode ser feta às custas de um aumento da probabldade de erro tpo um. A únca manera de dmnur ambos os rscos é pelo aumento da amostra. O efeto de aumentar n para 9, por exemplo, é mostrado na Fgura 10.

68 68 Tpo Tpo 1 3,00 3,05 x x c Fgura 10. Erros tpo um e tpo dos (º exemplo). A dmnução resultante no erro padrão das médas produz uma dmnução nos dos tpos de erros, para um dado valor de x c. A probabldade de uma hpótese nula falsa ser rejetada é conhecda como o poder de um teste. Isso é, o poder de um teste é (1 a probabldade de um erro tpo dos). No exemplo acma, é uma função da méda especfcada na hpótese alternatva, do tamanho da amostra, do nível de sgnfcânca e se o teste é mono ou b-caudal. Em algumas crcunstâncas, quando são dsponíves dos ou mas testes para avalar a mesma hpótese, é útl comparar os poderes desses testes antes de escolher o mas aproprado. Erros do tpo um e dos são relevantes também quando testes de sgnfcânca são aplcados de manera seqüencal. Um exemplo dessa stuação é a aplcação de teste-t para a dferença entre duas médas, após se utlzar um teste-f para decdr se as varâncas das amostras podem ser assocadas. Ambos os tpos de erros um e dos podem surgr do teste-f e a ocorrênca de qualquer tpo sgnfcará que os valores adotados de sgnfcânca para o teste-t subseqüente são ncorretos, já que a forma ncorreta de teste-t fo aplcada.

69 CONTROLE DE QUALIDADE E AMOSTRAGEM 69 Os testes estatístcos descrtos até aqu foram aplcados em stuações mas smples do que as encontradas em mutos laboratóros de análses. Assm, assume-se que não hava nenhuma dfculdade ou erro envolvdo em consegur as amostras utlzadas nas análses. Na prátca, a amostragem causa problemas dretos nas análses. As análses para boro em amostras de plantas podem ser complcadas se o nível de boro varar em dferentes partes da planta, ou de uma planta para outra. Dos outros problemas devem ser ressaltados. Exste o problema que ocorre quando o mesmo método é aplcado em amostras smlares em laboratóros dferentes. Esse o problema de se aplcar análse estatístca para meddas repetdas em amostras que apresentam característcas que varam com o tempo, como os tens sucessvos numa lnha de montagem. Nessas stuações, métodos convenconas de estatístca (testes para pontos fora da curva, testes-t, ANOVA, etc.) são aplcados a stuações muto mportantes no desenvolvmento e aplcação de métodos analítcos. Amostragem Esse tópco é de fundamental mportânca, pos, a menos que para a etapa de amostragem seja dada atenção cudadosa, os métodos estatístcos dscutdos aqu podem tornar-se nváldos para a dscussão dos resultados. Um analsta deve ldar com amostra, pos, na maora dos casos, é mpratcável ou mpossível analsar todo o objeto sob consderação. Por exemplo, não é pratcável analsar um tanque cheo de lete para determnar o teor de gordura e é mpossível analsar toda a água de um ro para se determnar poluentes. Além dsso, mutos procedmentos analítcos são destrutvos e assm não podem ser aplcados a um objeto de valor. Para lustrar alguns aspectos da amostragem, vamos consderar a stuação onde se tem uma batelada de tabletes e quer-se obter uma estmatva para o peso médo de um tablete. Em vez de pesar todos os tabletes, toma-se alguns deles (dgamos dez) e pesa-se um

70 70 por um. Nesse exemplo a batelada de tabletes forma uma população e os tabletes pesados formam uma amostra dessa população. Se a amostra for usada para deduzr as propredades da população, ela deve ser o que é conhecdo estatstcamente como uma amostra aleatóra. Essa é uma amostra tomada de uma manera que todos os membros da população têm a mesma chance de ser ncluído. Apenas assm as equações utlzadas no tratamento estatístco, por exemplo, para o cálculo do lmte de confança da méda podem ser utlzadas. Apesar de, na prátca o analsta poder espalhar os tabletes na sua bancada e tentar pegar uma amostra de dez ao acaso, esse método pode orgnar uma bas nconscente. A melhor manera de se obter uma amostra aleatóra é pelo uso de uma tabela de números aleatóros. A cada membro da população é dado um número, todos com o mesmo número de dígtos, por exemplo, 001, 00, 003, etc. Números aleatóros são então ldos de uma tabela de números aleatóros, começando em um valor arbtráro, por exemplo, 964, 173, etc. Um método alternatvo, e muto mas smples, às vezes usado, é seleconar os membros da população em ntervalos regulares, dga-se a cada 100, numa lnha de produção. Esse método não é nteramente satsfatóro, pos pode nduzr a uma concdênca peródca no peso dos tabletes. A mportânca da aleatoredade das amostras é evdente. No exemplo acma a população é consttuída de membros dscretos, que são pratcamente os mesmos, sso é, tabletes. A amostragem de materas que não são assm, como rochas, pós, gases e líqudos é chamada de amostragem de volume (bulk). Se o volume de materal é perfetamente homogêneo, então apenas uma pequena porção, ou ncremento de teste, é sufcente para defnr suas propredades. Na prátca, os volumes de materas não são homogêneos por uma sére de razões. Materas como mneras ou sedmentos consstem de partículas macroscópcas de váras composções que não podem ser homogeneamente dstrbuídas no volume. Fluídos podem ser não homogêneos numa escala molecular, devdo a gradentes de concentração.

71 71 Tas não-homogenedades só podem ser detectadas tomando-se uma amostra dos ncrementos de teste de dferentes partes do volume. Se possível sso deve ser feto de forma aleatóra, consderando o volume como uma coleção de pequenas células de gual tamanho e usando uma tabela de números aleatóros como descrto acma. Da amostra aleatóra, a méda, x, e a varânca, s, podem ser calculadas. Há duas contrbuções para s : a varânca da amostragem, σ 1, devda às dferenças entre os membros da amostra, por exemplo, peso dos tabletes e as varâncas das meddas, σ 0, devdo aos erros aleatóros das pesagens de cada tablete. A segur, se descreverá como essas duas contrbuções podem ser separadas e estmadas com a ANOVA. Para volumes a varânca da amostra é dependente do tamanho do ncremento relatvo à escala das não homogenedades. Com o aumento do ncremento, as nãohomogenedades tendem a ser ncluídas numa méda e a varânca dmnu. Separação e estmatva de varâncas usando ANOVA Na aula passada o uso da ANOVA mono-modal fo descrto para testar a dferença entre médas quando hava uma possível varação devdo a um fator de efeto fxo. Agora será consderada a stuação onde exste um fator de efeto aleatóro, ou seja, a varação da amostragem. A ANOVA mono-modal será utlzada não para testar se as médas varam sgnfcatvamente, mas para separar e estmar a dferença entre as fontes de varação. A Tabela 3 mostra o resultado do teste de pureza do tambor de cloreto de sódo. Cnco amostras de ncrementos de teste, A - E, foram tomadas de dferentes partes do tambor, escolhdas de modo aleatóro e quatro análses foram fetas em cada amostra. Tabela 3. Teste de pureza de cloreto de sódo (do exemplo). Amostra Pureza Méda A 98,8 98,7 98,9 98,8 98,8 B 99,3 98,7 98,8 99, 99,0 C 98,3 98,5 98,8 98,8 98,6 D 98,0 97,7 97,4 97,3 97,6 E 99,3 99,4 99,9 99,4 99,5

72 7 Como já fo dscutdo, há duas possíves fontes de varações: aquela devdo aos erros aleatóros nas meddas de pureza, dada pela varânca calculada, σ 0, e aquela devdo à varação real da pureza das amostras de cloreto de sódo em dferentes pontos do tambor, dada pela varânca das amostras, σ 1. Lembrar-se que méda quadrada é gual a: ( x x ) 0 (47) h( n 1) j Como a méda quadrada dentro das amostras não depende da méda da amostra (aula anteror), ela pode ser usada como uma estmatva de σ 0. A méda quadrada entre as amostras não pode ser usada para estmar σ 1 dretamente, pos a varação entre as médas das amostras é causada por ambos, erros aleatóros de meddas e de pureza das amostras. Entretanto, antes de uma estmatva da varânca das médas quadradas das amostras, σ 1, for feta, é necessáro conduzr um teste para verfcar se ele dfere sgnfcatvamente de zero. Isso é feto comparando-se as médas quadradas dentro e nter amostras: se elas não dferrem sgnfcantemente, então σ 1 = 0 e ambas médas quadradas estmam σ 0. O cálculo das médas quadradas usando a fórmula dada na Tabela 17. Todos os valores da Tabela 3 foram subtraídos de 98,5 para facltar a artmétca (Tabela 4 e Tabela 5). Como a méda quadrada entre as amostras é maor que aquela dentro de cada amostra, σ 1 deve dferencar sgnfcatvamente de zero usando-se um teste-f para comparar as duas médas quadradas tem-se: F 1,96 0,0653 4,15 30

73 73 Tabela 4. Cálculos do exemplo (III). n 4 h 5 N 0 j Amostra T T A 0,3 0, 0,4 0,3 1, 1,44 B 0,8 0, 0,3 0,7,0 4,00 C -0, 0,0 0,3 0,3 0,4 0,16 D -0,5-0,8-1,1-1, -3,6 1,96 E 0,8 0,9 1,4 0,9 4,0 16,00 x j 9,6 T 4,0 T T 34, 56 Tabela 5. Cálculos do exemplo (IV). Fonte de varação Soma dos quadrados Graus de lberdade Méda quadrada Entre amostras 34,56 4,0 7,84 7, , Dentro da amostra Por subtração = 0, ,98 0, Total 4,0 9,6 8, O valor crítco de F, para P = 0,05 é 3,056. Como o valor calculado é muto maor, σ 1 dfere sgnfcatvamente de zero. A méda quadrada dentro das amostras dá 0,0653 como uma estmatva de σ 0. Como a méda quadrada entre as amostras estma σ 0 + nσ 1 tem-se: estmatva de σ 1 = (médas quadradas entre amostras dentro das amostras) / n = (1,96-0,0653) / 4 = 0,47, que sera a varânca das médas quadradas entre as amostras.

74 74 CAPÍTULO 6 ANÁLISES COLABORATIVAS Introdução Análses colaboratvas procuram examnar a segunte questão: Se a mesma amostra (ou um conjunto de alíquotas dêntcas de uma únca amostra) é analsada com o mesmo método em dferentes laboratóros, os resultados obtdos serão os mesmos, nos lmtes de erros aleatóros?. Muto freqüentemente é assumdo que, com o uso de equpamentos dêntcos em laboratóros dferentes, resultados muto parecdos serão seguramente obtdos, desde que centstas experentes aplquem um dado método a amostras dêntcas. Infelzmente, a prátca tem mostrado repetdamente que essa expectatva não é freqüentemente satsfeta e que resultados muto dvergentes podem ser obtdos, mesmo se todas as precauções expermentas forem tomadas. Por exemplo, em um estudo o nível de ácdos graxos nsaturados numa amostra de óleo de palmera fo relatado por 16 laboratóros dferentes varando entre 5,5% até 15,0%. O mas estranho dessa grande varação é que não fo um método de análse de traços e que fo utlzado um método dreto, de espectrometra de absorção, após a amostra orgnal ter sdo saponfcada e dgerda com uma enzma. Além dsso, uma determnação do porcentual de alumíno numa amostra de rocha em dez laboratóros produzu valores varando de 1,11% até 1,9%. Esses resultados dvergentes são extremamente séros. Eles mplcam em que uma amostra de (por exemplo) almento que aparentemente passou por um teste de qualdade em um laboratóro, pode não passar pelo mesmo método em outro.

75 75 O soro sanguíneo de um ndvíduo pode parecer bem normal em um laboratóro, mas dar ndcações de uma patologa qualquer em outro. Tal possbldade é claramente nacetável: métodos analítcos para serem usados em dferentes laboratóros devem ser cudadosamente escolhdos para mnmzar as varações acma. Apenas os métodos que dão pequenas varações nterlaboratoras deverão ser acetos para o uso em análses padrões bem concetuadas. Gráfcos de duas amostras A dspersão alarmante de dados obtdos em dferentes laboratóros durante análses colaboratvas pode, a prncípo, ser explcada por erros aleatóros nos dferentes laboratóros. Na prátca a evdênca é avassaladora de que essas varações são causadas por erros sstemátcos. Esse resultado é demonstrado pelo uso de um gráfco de duas amostras (ou x - y), como sugerdo por W. J. Youden. O prncípo envolvdo é que a cada laboratóro que está colaborando na análse deve ser envado duas amostras smlares (x e y) e se farão determnações em cada uma. Os resultados são grafcados como na Fgura 11. Cada ponto representa um par de resultados de um únco laboratóro. Amostra Y X,Y Amostra X Fgura 11. Gráfco mostrando resultados de análse de duas amostras num únco laboratóro.

76 Os valores médos de X e de Y, X, Y 76, também são determnados, orgnando um par de exos que dvde o gráfco em quatro quadrantes. Se os resultados de dferentes laboratóros varam somente por causa de erros aleatóros, as determnações de X e Y, em cada caso, deveram resultar em valores que são: ambos muto altos, ambos muto baxos, X alto e Y baxo ou X baxo e Y alto. Essas quatro possbldades deveram ser gualmente dstrbuídas resultando aproxmadamente no mesmo número de pontos em cada quadrante do gráfco. Se, entretanto, os erros sstemátcos forem a prncpal causa das varações, esperaríamos que o laboratóro que obtém um valor alto de X, também encontrasse um valor alto de Y. Isso devera levar a uma predomnânca de pontos no quadrante dreto alto e no quadrante esquerdo baxo do gráfco, sendo esse, realmente, o resultado obtdo em pratcamente todas as meddas colaboratvas. É aparente que, numa ausênca hpotétca de erros aleatóros, todos os pontos deveram car numa dagonal de 45º no gráfco. Na prátca, desde que erros aleatóros estão sempre presentes em alguma extensão, os pontos caem em uma elpse cujo exo maor é a dagonal. A dstânca da perpendcular de um ponto ndvdual à dagonal dá uma medda do erro aleatóro e a perpendcular ntercepta a dagonal numa dstânca de ( X, Y ) que é relaconada com o erro sstemátco daquele laboratóro. É evdente que esta abordagem de duas amostras para as análses colaboratvas pode dar muta nformação útl. Isso será vsto mas adante. Preparando uma Análse Colaboratva O propósto de uma análse colaboratva é claro: avalar a varação em um método partcular de análse (freqüentemente um método novo ou recém modfcado) quando ele é aplcado em város laboratóros. Os resultados podem ser usados para se avalar se o método é adequado para o uso geral, e às vezes, para dentfcar aqueles laboratóros que podem ser ncumbdos de fazer

77 77 um trabalho analítco mportante, por exemplo, na área de saúde públca. Assm, parece ser fácl se organzar uma cooperação nesse sentdo. Um laboratóro únco de referênca (freqüentemente, na prátca, um órgão do Governo), deve mandar uma ou mas amostras para um certo número de laboratóros, juntamente com nstruções detalhadas sobre como utlzar o método analítco proposto. Os laboratóros colaboradores deverão analsar as amostras, de acordo com as nstruções recebdas, e devolver os resultados ao centro de referênca, onde eles serão avalados por métodos estatístcos padrão. Na prátca, uma boa quantdade de trabalho é envolvda em planejar e executar essa colaboração, e mutas decsões mportantes devem ser tomadas antes de qualquer amostra ser envada. Um expermento prelmnar crucal é o teste de robustez. Já fo vsto na prmera parte que mesmo expermentos analítcos muto smples apresentam mutos passos ndvduas e talvez empregue uma certa quantdade de reagentes. Assm, fatores expermentas (temperatura, ph, composção do solvente, umdade, pureza dos reagentes, concentrações, etc.) afetarão os resultados, e é essencal que eles sejam dentfcados e estudados antes de qualquer ensao colaboratvo ser levado a efeto. Em alguns casos, um método que é muto sensível a pequenas mudanças de um fator pode tornar dfícl o seu controle (por exemplo, reagentes de pureza muto elevada) de tal forma que o método deva ser rejetado como mpratcável numa análse colaboratva. Em outros casos, a colaboração pode até contnuar, porém os partcpantes devem ser alertados sobre a sensbldade do método àquele fator. É mportante saber que muta nformação pode ser obtda de um número relatvamente pequeno de expermentos. Suponha que se acredte que sete fatores expermentas (A - G) podem afetar os resultados de uma análse. Esses fatores devem ser testados (pelo menos) em dos valores, chamados níves, para saber se eles são realmente sgnfcantes. Assm, se a temperatura afetar o resultado, deve-se fazer expermentos prelmnares em duas temperaturas (níves) e comparar os resultados. Da mesma manera, se a pureza dos reagentes for mportante, devese fazer expermentos com reagentes de alta pureza e com pureza comum.

78 78 Pode-se magnar, então, que 7 expermentos prelmnares, cobrndo todas as combnações possíves de sete fatores em dos níves, serão necessáros. Na prátca, entretanto, apenas oto expermentos fornecerão as nformações mportantes. Os dos níves dos fatores são chamados de (+) e (-) e a Tabela 6 mostra como esses níves são atrbuídos aos oto expermentos, cujos resultados são chamados de y 1, y, até y 8. O efeto de se alterar cada um dos fatores do seu nível alto para o seu nível baxo é faclmente calculável. Tabela 6. Atrbução de níves para oto expermentos. Expermento Fatores Resultado A B C D E F G Y Y Y Y Y Y Y Y 8 Assm, o efeto de se mudar B de + para - é dado por: ( y1 y y5 y6 ) ( y3 y4 y7 y8) 4 4 Quando todas as sete dferenças para os fatores A - G forem calculadas desta manera, é fácl dentfcar qualquer fator que apresentar um grande efeto no resultado. Pode-se demonstrar que, qualquer dferença que seja duas vezes o valor do desvo padrão de meddas repetdas é sgnfcante e devera ser mas bem estudada. Esse conjunto smples de expermentos, tecncamente conhecdo como um projeto fatoral ncompleto, tem a desvantagem de não poder detectar as nterações entre os fatores. Um outro ponto que deve ser estabelecdo de antemão, antes da colaboração começar é o número de laboratóros partcpantes. Claramente esse número não deve ser tão pequeno, pos senão os resultados terão uma aplcabldade muto restrta.

79 79 Como as dferenças sstemátcas entre os laboratóros serão as causas da maora das varações nos resultados, é melhor envar algumas amostras para mutos laboratóros do que o nverso, apesar de que o grande número de laboratóro envolverá mas gastos de tempo e dnhero. Na prátca, mutas análses colaboratvas são conduzdas de manera satsfatóra entre 10 a 0 laboratóros. A preparação, empacotamento e envo das amostras para os outros laboratóros é um elemento mportante na colaboração. Cálculos em Análses Colaboratvas Quando o trabalho expermental na análse colaboratva está completo, e os dados são envados ao laboratóro de referênca, deve ser feta uma avalação estatístca dos resultados. Esses cálculos devem revelar quanto da varação entre laboratóros partcpantes se deve a erros sstemátcos. Talvez o tpo mas smples de colaboração é aquele onde cada laboratóro partcpante recebe uma únca amostra e faz meddas repetdas. Os resultados reportados ao laboratóro de referênca devem ser analsados para separar as varações entre as repetções das varações entre laboratóros. O exemplo segunte mostra como sso pode ser feto por uma aplcação smples de uma ANOVA mono-modal; nesse caso temos um fator de efeto aleatóro, como descrto antes. Exemplo: uma amostra de um almento para anmal, contendo o promotor de crescmento olaqundox fo envado para cnco laboratóros, cada um devendo fazer análses duplcadas por HPLC com um detector de UV-vs. Os seguntes resultados estão mostrados na Tabela 7. Tabela 7. Resultados das análses de cnco laboratóros. Laboratóro Olaqundox encontrado (mg kg -1 ) 1 30, 3,8,6 3 1,0 3,8 4 6,5 7,1 5 1,4 1,4

80 80 Estmar as varações aleatóras e entre laboratóros desta colaboração. Os cálculos de ANOVA podem começar por subtrar 0 de cada resultado, obtendo-se os resultados da Tabela 8. Tabela 8. Cálculos do exemplo (V). Laboratóro T T 1 3,0, 5, 7,04 3,8,6 6,4 40,96 3 1,0 3,8 4,8 3,04 4 6,5 7,1 13,6 184,96 5 1,4 1,4,8 7,84 T 3,8 T T 83, 84 n h 5 N 10 j x j 147,06 A ANOVA é mostrada então na Tabela 9. Tabela 9. Cálculos do exemplo (VI). Fonte de varação Soma dos quadrados Graus de lberdade Méda quadrada Entre laboratóros 84,84 3,8 34, ,584 Dentro do laboratóro Por subtração = 5, ,0 Total 3,8 147,06 39, Como a méda quadrátca entre laboratóros é maor que aquela dentro do laboratóro, o teste-f é usado para ver se a dferença é sgnfcante. O valor de F, nesse caso, é dado por: F 8,584 1,08 4,5 8,350

81 81 O valor crítco de F 4,5 (P = 0,05) é 5,19, assm conclu-se que a dferença entre as duas médas quadrátcas é sgnfcante. Isso sgnfca que a varação sstemátca entre laboratóros (σ 1 ) é sgnfcantemente maor que zero e pode ser estmada como [(méda quadrátca entre - amostras) - (méda quadrátca nteramostras)] / n. O valor resultante para σ 1 é 3,878, mostrando claramente que a maor dferença nos resultados é devdo a erros sstemátcos dferentes entre os laboratóros. Na prmera parte da aula vu-se que uma colaboração na qual cada laboratóro faz uma únca determnação em cada uma de duas amostras smlares pode gerar dados valosos sobre erros sstemátcos e aleatóros. Essa aproxmação tem outras vantagens relaconadas com o fato dos laboratóros partcpantes não fcarem tentados a censurar uma ou mas determnações repetdas. Além dsso, mas materal pode ser estudado sem um grande número de expermentos. Exemplo: o nível de chumbo (em ng g -1 ) em duas amostras smlares (A e B) de formulações de lete em pó para cranças fo determnado em nove laboratóros (1-9) por espectroscopa de absorção atômca com forno de grafte. Os resultados são mostrados na Tabela 30. Tabela 30. Nível de chumbo (em ng g -1 ) em duas amostras smlares (A e B) de formulações de lete em pó para cranças - determnado em nove laboratóros (do exemplo). Amostra Laboratóros A 35,1 3,0 3,8 5,6 3,7 1,0 3,0 6,5 1,4 B 33,0 3,,3 4,1 3,6 3,1 1,0 5,6 5,0 Esse exemplo dfere do anteror no fato de que as amostras e os laboratóros são dferentes. Numa abordagem normal, tal stuação sera tratada por uma ANOVA b-modal. Entretanto, por enquanto, têm-se apenas duas amostras, escolhdas delberadamente por serem smlares no conteúdo de analto, assm não há nteresse em avalar a dferença entre os conteúdos. Os cálculos podem então ser efetuados numa manera que é muto mas smples, tanto numercamente quanto concetualmente do que uma ANOVA b-modal completa. Ao efetuar os cálculos nota-se que os resultados obtdos por cada laboratóro para a amostra A podem nclur um erro sstemátco.

82 8 O mesmo erro sstemátco deverá estar ncluído nos resultados daquele laboratóro para a amostra B. A dferença D (= A - B) deverá ter, então, esse erro removdo, assm a dspersão dos valores de D dará uma estmatva dos erros aleatóros das meddas. De manera smlar, A e B podem ser somados para fornecer T, a dspersão dos quas dá uma estmatva da varação total dos resultados. A varânca medda pode então ser estmada por: ( D ) D 0 (47) ( n 1) E a varânca total, σ, devda a todas as fontes de erros, é estmada por: ( T T ) ( n 1) (48) Observe que ambas equações apresentam um () no denomnador, relaconado com a exstênca de dos conjuntos de dados. Os resultados desta análse podem ser expressos na Tabela 31. Tabela 31. Resultados do exemplo A 35,1 3,0 3,8 5,6 3,7 1,0 3,0 6,5 1,4 B 33,0 3,,3 4,1 3,6 3,1 1,0 5,6 5,0 D,1-0, 1,5 1,5 0,1 -,1,0 0,9-3,6 T 68,1 46, 46,1 49,7 47,3 44,1 44,0 5,1 46,4 Mas cálculos com as últmas duas lnhas mostram que D 0, 44, T 49, 33 e, assm a estmatva de é (1,383) e uma estmatva de σ 0 é (5,96). Assm, F 8,8 = (5,96 / 1,383) = 14,67. O valor crítco (P = 0,05) é 3,44 (tabelas de F, págna Erro! Indcador não defndo.). O resultado expermental excede, em muto, o valor crítco e, assm, concluu-se que σ é sgnfcantemente maor que σ 0. Isso mplca, como tem se vsto, que as varações

83 83 nterlaboratoras não podem ser atrbuídas por erros aleatóros de meddas e que erros sstemátcos devem ter ocorrdo. A componente de σ 0 devda a esses erros sstemátcos, σ 1, é calculada de: 1 0 (49) Novamente aparece o () nessas equações. Assm, é uma tarefa smples calcular-se que uma estmatva de σ 1 é (3,615). Mesmo análses colaboratvas muto smples, desse tpo, não dexa de ter seus problemas. Às vezes, um laboratóro não consegue fazer as meddas em ambas ou todas as amostras envadas, talvez pela perda de uma delas em trânsto ou sua adulteração, ou anda devdo a erros grosseros no própro laboratóro. Dados faltando apresentam problemas de nterpretação que só podem ser abordados em um nível mas avançado. Um outro problema em análses colaboratvas é o dos pontos fora da curva um ou mas laboratóros podem produzr resultados que parecem estar fora da curva em relação aos outros. No exemplo acma, parece que ambos os resultados obtdos pelo laboratóro um são consderavelmente maores que os outros resultados e a aplcação do teste-q mostrará que os resultados podem, sem dúvda, serem rejetados a um nível P = 0,05. Após esta rejeção, o recálculo de σ 0 e σ para os demas laboratóros mostram que, apesar de σ anda ser grande, o teste-f ndca que a dferença não é mas sgnfcante (P = 0,05). Isso sgnfca que, se o laboratóro um for elmnado da cooperação, as dferenças observadas nos resultados dos outros laboratóros podem ser atrbuídas smplesmente a erros aleatóros. Mutas análses colaboratvas podem ser muto mas complexas que essas, envolvendo váras amostras e laboratóros e expermentos repettvos. Isso será um tema futuro.

84 84 Cartas de controle Uma stuação que pode ocorrer é quando um produto manufaturado é montorado em função do tempo para ver se os tens ndvduas do produto contêm em méda, os valores corretos de uma dada substânca, e que não há muta varação. Uma manera de se fazer sso é tomar-se pequenas amostras a ntervalos regulares. Consderar a stuação específca onde o peso dos tabletes que saem de uma lnha de produção é montorado. Idealmente, os pesos de cada tablete meddo devem estar de acordo com um valor alvo, µ o ; mas, na prátca, há alguma varação aleatóra de um tablete a outro. Essa varação é parcalmente devda ao erro ao se avalar o peso do tablete e parcalmente devda às dferenças reas de pesos. Suponha que nós conheçamos o tamanho da varação aleatóra total, como medda pelo desvo padrão da população, σ, do exemplo anteror. Se o processo está sob controle, sso é, se os pesos dos tabletes produzdos pelo processo tverem realmente um peso médo, µ o e um desvo padrão, σ, então, para uma amostra consstndo de n tabletes, aproxmadamente 95% das médas amostradas cará dentro dos lmtes dados por: E aproxmadamente 99,7% no ntervalo: 0 (50) n 3 0 (51) Uma carta de controle é um gráfco que apresenta médas amostradas consecutvas de tal manera que qualquer ação corretva pode ser tomada o mas rapdamente possível. A Fgura 1 mostra um tpo de carta de controle, conhecda como uma carta de Shewhart, para o processo descrto acma. n

85 n 0 X 0 n 0 n 3 0 n Lnha superor de ação Lnha superor de atenção Valor alvo Lnha nferor de atenção Lnha nferor de ação Tempo Fgura 1. Carta de controle. O propósto das lnhas ndcadas é dado pelos própros nomes. Como a probabldade de uma méda amostrada car fora das lnhas de ação, quando o processo nvestgado estver sob controle, é de apenas 0,003 (sso é, três em 1000), o processo normalmente é nterrompdo e o motvo nvestgado. A probabldade de a méda amostrada car entre as lnhas de avso e ação é cerca de 0,05 (uma em 40): um desses pontos não é preocupante, mas se duas ou mas médas caírem nesse ntervalo, o processo deve ser nterrompdo e nvestgado. Pode-se observar que uma carta de controle mostra uma sére de testes de sgnfcânca, com as lnhas de avso e ação representando P = 0,05 e P = 0,003, respectvamente. Ocasonalmente o processo pode ser nterrompdo anda sob controle (um erro do tpo um), mas o rsco é baxo. ação. Exstem duas razões pelas quas os pontos podem começar a car fora das lnhas de Prmero, a méda dos tens produzdos, conhecda como a méda do processo, pode ter se deslocado do valor alvo. Segundo: pode ter havdo um aumento da varação, de tal forma que as lnhas de avso e ação não ndcam mas as probabldades corretas, porém estão muto próxmas do valor alvo.

86 86 Por outro lado, uma dmnução na varação sgnfca que uma mudança na méda do processo pode fcar sem ser detectada, novamente por causa das lnhas de avso e ação, que não ndcam mas as probabldades corretas e que estão muto afastadas do valor alvo. Por essas razões, é muto mportante montorar adequadamente tanto as varações como os valores de médas dos processos. Isto é feto mas faclmente utlzando o ntervalo, w, (sto é, a dferença entre o maor e o menor valor meddo) de cada amostra. A carta de Shewhart aproprada pode ser construída com a ajuda de tabelas que dão as lnhas de ação e alerta, e o valor alvo de w para dferentes valores de n e σ. As cartas para médas e para ntervalos são usadas de manera smultânea, com a ação aproprada sendo executada se os pontos caírem fora das lnhas em cada carta. Anda não fo consderado em detalhes o estabelecmento de um valor para s; sso é crucal na defnção das cartas de controle para ambos, x e w; σ é, às vezes, chamado de capacdade do processo, porque ele mede a sua varação nerente. Como ele é um desvo padrão da população, ele deve ser estmado de um número muto grande de amostras de, por exemplo, tabletes. Isso pode, claramente, causar dfculdades: precsamos estar seguros que, quando, essas meddas forem fetas, não haja deslocamentos na méda do processo. Isso pode dar um valor erroneamente alto para s, mas anda não construímos qualquer carta de controle para montorar a méda. Esse problema crcular é resolvdo tomando um grande número de pequenas amostras em um dado período de tempo. De cada amostra, uma estmatva da varânca dentro da amostra pode ser calculada, que não é afetada por qualquer possível varação entre as amostras. Pode ser feta a méda dessas estmatvas para dar um valor da capacdade do processo. Uma consderação mportante no uso das cartas de Schewhart é quão rapdamente uma mudança na méda do processo pode ser detectada. Quando a méda do processo muda, o próxmo ponto não precsa, necessaramente, car fora das lnhas de ação e avso. Por exemplo, se a méda do processo muda por 3 há uma probabldade de ½ que o n próxmo ponto caa fora das lnhas de ação. Se a mudança for de 1 esta probabldade n cará para 1/40.

87 87 O número médo de pontos que deve ser plotado antes que uma mudança na méda do processo seja detectada é conhecdo como comprmento médo de corrda (ARL). Claramente ele depende do tamanho da mudança da méda do processo em relação a ; n quanto maor a mudança mas rapdamente é detectada. Por exemplo, se a méda do processo muda de 1 então a ARL antes de uma méda da amostra car fora das lnhas n de ação é cerca de 50. Um tpo dferente de carta de controle, conhecdo como carta cusum, utlza todas as médas amostradas prévas, ao nvés de apenas uma ou duas, como nas cartas de Shewhart. Cusum é uma abrevação para cumulatve sum soma cumulatva, sso é, a soma dos desvos das médas amostradas do valor alvo, feta acumulatvamente. Um exemplo torna esse conceto mas claro. A Tabela 3 dá os valores de médas amostradas para uma seqüênca de amostras. O valor de 1 sabe-se que é gual a,5 e a Fgura 13 mostra a n carta de Shewhart para as médas das amostras. Tabela 3. Cálculo da soma cumulatva. Valor alvo = 80. Nº da observação Méda da amostra Méda amostra Valor alvo Cusum n,5

88 88 X U.A.L. U.W.L. Valor alvo L.W.L. L.A.L. Fgura 13. Carta de controle (do exemplo) Número de observações Pode-se observar que, apesar de nenhum ponto car fora das lnhas de avso, uma seqüênca ca num dos lados do valor alvo. A Tabela 3 também mostrou os valores calculados de cusum. Obvamente, se o processo estver sob controle, desvos postvos e negatvos são gualmente esperados, assm o cusum deve osclar próxmo de zero. Os valores de cusum são grafcados na Fgura 14. Um bom mpacto vsual é consegudo se a carta cusum for desenhada de modo que a dstânca correspondendo a observações no exo x. no exo vertcal for gual à dstânca entre sucessvas n

89 Cusum Número de observações Fgura 14. Carta cusum. Da carta cusum parece que a méda do processo muda após oto amostras terem sdo tomadas. Esta é a maor vantagem de uma carta cusum ela ndca em que ponto o processo sau de controle. Para se testar se um perfl da carta de cusum realmente ndca que a méda do processo realmente mudou e não apenas uma varação aleatóra, uma máscara V pode ser usada. Como pode ser observada na Fgura 15, uma máscara em forma de V, preferencalmente recortada em plástco transparente, é colocada sobre a carta cusum com seu exo horzontal e seu vértce a uma dstânca d à dreta da últma observação. Os semângulos entre os braços do V são chamados de θ. Cusum 0 Número de observações d Fgura 15. Carta cusum (II).

90 90 Dz-se que o processo está sob controle quando todos os valores de cusum caem dentro dos braços de V, como mostrado na Fgura 15. Por outro lado, a Fgura 16 mostra uma stuação em que o processo está fora de controle. Cusum 0 Número de observações d Fgura 16. Carta cusum (III). Nesse caso, dos dos valores de cusum estão fora dos braços do V, o que ndca que a méda do processo cau abaxo do valor alvo. Obvamente o desempenho da máscara depende dos valores seleconados para θ e d. Os valores de θ e d devem ser escolhdos de foram que muto poucos alarmes falsos sejam dados quando o processo estver sob controle, mas uma mudança mportante na méda do processo deve ser rapdamente detectada. Uma carta de cusum também pode ser usada para estmar o tamanho da mudança que ocorreu na méda do processo quando ele fcou fora de controle. Se, por exemplo, a méda do processo dmnu por Δ então, por méda, cada valor de méda amostrada será Δ menor que o valor alvo. Como resultado, o cusum decrescerá, numa méda, por Δ para cada ponto plotado. Assm, a tangente méda da lnha lgando os pontos do cusum dá uma medda da mudança na méda do processo e, assm, da correção requerda. Os métodos descrtos nesse tópco podem ser utlzados para montorar a exatdão e a precsão de análses de rotna no nosso laboratóro. Em ntervalos pré-determnados de tempo, um pequeno número de meddas repetdas é feto numa amostra padrão. A méda e o ntervalo das meddas repetdas são plotadas em cartas de controle.

91 91 A carta de controle para a méda montora a exatdão, sendo o valor alvo a concentração conhecda do analto no padrão. A carta de controle para o ntervalo montora a precsão e o valor alvo é a capacdade do processo. Novamente é precso estabelecer um valor para a capacdade do processo para montar as cartas de controle. Nesse caso, a capacdade do processo será quase certamente lmtada pelos erros aleatóros envolvdos nas meddas e não em erros envolvdos na preparação dos padrões. Isso pode ser confrmado preparando-se um certo número de padrões, cada um contendo a mesma quantdade de analto (nomnal), e fazendo uma sére de meddas repetdas com cada um. ANOVA pode ser usada para verfcar se a varânca entre os padrões não é sgnfcantemente comparada com os erros aleatóros das meddas. Se não, ela também pode ser usada para estmar o últmo parâmetro. Nesse tópco, expermentos repettvos sgnfcaram uma medda repetda de forma que todos os passos da análse foram exatamente repetdos, assm estmando todas as contrbuções possíves de erros aleatóros.

92 9 CAPÍTULO 7 ERROS EM ANÁLISE INSTRUMENTAL: REGRESSÃO E CORRELAÇÃO A análse nstrumental oferece a possbldade de se expermentar um grande ntervalo de concentrações, ao nvés de uma únca amostra medda repetdas vezes. Isso sgnfca que os resultados obtdos são calculados e os erros aleatóros avalados de uma manera dferente do que aqueles anterormente dscutdos. Vamos avalar o procedmento de obtenção de gráfcos de calbração na análse nstrumental. O analsta utlza uma sére de amostras (normalmente no mínmo três ou quatro, mas freqüentemente muto mas), nas quas a concentração do analto é conhecda. Esses padrões de calbração são meddos no nstrumento analítco sob as mesmas condções do que aquelas a serem utlzadas para o teste da solução desconhecda. Uma vez que o gráfco de calbração fo obtdo, a concentração do analto em qualquer análse é obtda, como mostrada na Fgura 17, por nterpolação. Snal Fgura 17. Gráfco de calbração. Concentração

93 93 Esse procedmento geral dá orgem a uma sére de mportantes questões estatístcas:. A curva de calbração é lnear? Se ela for uma curva, qual é a sua forma?.. v. Consderando-se que cada ponto, na curva de calbração, é sujeto a erros, qual é a melhor reta (ou curva) que passa por esses pontos? Assumndo que a curva de calbração é realmente lnear, quas são os erros estmados e os lmtes de confança para a tangente e o ntercepto desta lnha? Quando a curva de calbração for usada pelo analsta numa determnação de uma amostra, quas são os erros e lmtes de confança para a concentração encontrada? v. Qual é o lmte de detecção do método? Isto é, qual é a menor concentração do analto que pode ser detectada com um nível de confança prédetermnado? Antes de se dedcar a essas questões, é necessáro consderar alguns aspectos de se grafcar curvas de calbração. Incalmente, é normalmente essencal que os padrões de calbração cubram todo o ntervalo de concentrações requerdo para a análse posteror. Com a mportante exceção do método de adção de padrão, que será tratado separadamente mas adante, concentrações das amostras são normalmente determnadas por nterpolação, e não por extrapolação. Além dsso, é de mportânca crucal nclur o valor para uma amostra do branco na curva de calbração. O branco não contém qualquer quantdade de analto delberadamente adconado, mas contém os mesmos solventes, reagentes, etc., do que as outras amostras e é sujeto exatamente ao mesmo procedmento analítco que as amostras. O snal do nstrumento ldo para a amostra do branco freqüentemente não será zero. Ele é, naturalmente, sujeto a erros, como todos os outros pontos da curva de calbração sendo, portanto, errado, a prncípo, subtrar o valor do branco dos outros valores dos padrões, antes de plotar a curva de calbração. Fnalmente, deve-se notar que a curva de calbração deve ser plotada sempre com a resposta do nstrumento na vertcal (y) e com as concentrações dos padrões na horzontal (x).

94 94 Isso é porque os procedmentos a serem descrtos adante assumem que todos os erros estão na dreção y e que as concentrações padrão (valores de x) estão lvres de erros. COEFICIENTE DE CORRELAÇÃO PRODUTO-MOMENTO Nessa parte será dscutdo o prmero dos problemas lstados anterormente a curva de calbração é lnear? Será assumdo que um gráfco lnear satsfaz a equação algébrca: y ax b (5) Onde b é a tangente da lnha e a o ntercepto no exo y. Os pontos ndvduas nesta lnha serão chamados de (x 1, y 1 ), (normalmente a letura do branco), (x, y ), (x 3, y 3 ) (x, y ) (x n, y n ), sso é, há n pontos juntos. A méda dos valores de x é, como usual, chamada x, e a méda dos valores de y é y, a posção ( x, y), é conhecda como o centróde de todos os pontos. Para se estmar quão bem os pontos expermentas se ajustam em uma lnha reta, nós calculamos o coefcente de correlação produto-momento, r. Esse parâmetro estatístco é conhecdo smplesmente como coefcente de correlação porque em cêncas quanttatvas ele é, de longe, o mas comum. Entretanto, outros tpos de coefcente de correlação serão vstos mas adante. O valor de r é dado por: r ( x ( x x) x)( y ( y y) y) 1 (53)

95 95 Uma observação cudadosa dessa equação mostra que r pode varar no ntervalo entre 1 r 1. Como mostrado na Fgura abaxo, um valor de r = -1 descreve uma correlação negatva perfeta, sso é, todos os pontos expermentas caem numa lnha reta com tangente negatva. y r = 1 r = -1 r = 0 0 x Fgura 18. Correlações. Da mesma manera, quando r = + 1, tem-se uma perfeta correlação postva, todos os pontos sobre uma lnha com tangente postva. Quando não há correlação entre x e y, o valor de r é zero. Na prátca analítca, gráfcos de calbração dão, na maora das vezes, valores de r maor que 0,99, sendo ncomum valores de r menores que 0,90. Um exemplo típco de cálculo de r lustra alguns pontos mportantes: soluções padrão aquosas de fluoresceína foram examnadas em um espectrômetro de fluorescênca, e as ntensdades são dadas na Tabela 33.

96 96 Tabela 33. Intensdade na fluorescênca do composto fluoresceína (do exemplo). Intensdade Concentração (pg ml -1 ) 0,1 5,0 4 9,0 6 1,6 8 17,3 10 1,0 1 4,7 Determnar o coefcente de correlação r. Na prátca, esse cálculo será feto em uma calculadora programável ou um computador, mas é lustratvo examnar como fazê-lo na mão. Os dados são apresentados na Tabela 34. Tabela 34. Determnação do coefcente de correlação r (cálculos do exemplo). x y x x ( x x) y y ( y y) ( x x)( y y) 0, ,0 11,00 66,0 5, ,1 65,61 3,4 4 9,0-4 -4,1 16,81 8, 6 1, ,5 0, ,3 4 4, 17,64 8,4 10 1, ,9 6,41 31,6 1 4, ,6 134,56 69,6 4 91, ,56 1, 4 x ,7 y 13,1 7 Os números da Tabela 34 representam as somas dos números nas respectvas colunas. Observar que ( x x) e ( y y) são ambas guas a zero. Usando os totas juntamente com a equação anteror, tem-se:

97 Fluorescênca 97 16, r ,8 16, 16,44 1 0,9989 Duas observações mportantes desse exemplo. Como mostrado na Fgura 19, apesar de alguns pontos estarem vsvelmente fora da melhor reta (que fo obtda com o procedmento a ser dscutdo mas adante), o valor de r é muto próxmo de um. A experênca mostra que mesmo curvas de calbração bem dspersa podem gerar altos valores de r méda (x,y) Y = A + B * X A = 1,51786 B = 1,93036 R = 0, Concentração (pg ml -1 ) Fgura 19. Curva de calbração do composto fluoresceína (do exemplo). Assm, é muto mportante trabalhar com o número adequado de casas decmas. No exemplo acma, se desprezar as casas depos da vírgula, obter-se-a o obvamente ncorreto valor de r = 1. Apesar do fato de que os coefcentes de correlação poderem ser faclmente calculados, eles são anda mas faclmente mal nterpretados. Deve-se sempre lembrar que o uso da equação acma orgnará valores de r mesmo se os dados forem obvamente não lneares. A Fgura 0 mostra dos casos onde os cálculos de r foram tomados de forma

98 errônea. Na Fgura 0 (A), os pontos da curva de calbração caem claramente em uma curva. 98 y A B r = 0,986 r = 0 Fgura 0. Curvas de calbração x Essa curva é sufcentemente suave para orgnar um valor de r bastante elevado, se utlzada a equação acma. A lção a ser trada desse exemplo é que a curva de calbração deve sempre ser construída (ou num papel mlmetrado ou no computador). De outra manera, uma relação lnear pode ser assumda de manera errônea com o resultado de r obtdo smplesmente da equação dada. A Fgura 0 (B) mostra que um coefcente de correlação zero não sgnfca que x e y não possuam qualquer relação, apenas que esta relação não é lnear. Como se pôde ver, valores de r obtdos na análse nstrumental são normalmente bastante elevados, assm um valor calculado, juntamente com o gráfco da curva de calbração, é mutas vezes sufcente para assegurar ao analsta que ele obteve uma relação lnear útl.

99 99 Em algumas crcunstâncas, entretanto, valores de r muto menores são obtdos. Nesse caso, será necessáro usar um teste estatístco adequado para ver se o coefcente de correlação anda é sgnfcante, observando sempre o número de pares de pontos obtdos na medda. O método mas smples para se fazer sso é calcular um valor de t, a partr de um teste de t, usando a equação: t r ( n ) (54) 1 r O valor calculado de t é comparado com o valor tabelado no nível de sgnfcânca desejado, usando um teste t b-caudal e (n - ) graus de lberdade. A hpótese nula, nesse caso, é de que não há correlação entre x e y. Se o valor calculado de t for maor que o valor tabelado, a hpótese nula deve ser rejetada, sso é, conclu-se que, nesse caso, uma correlação sgnfcante exste. A LINHA DE REGRESSÃO DE Y EM X Assumndo que exste uma correlação lnear entre o snal analítco y e a concentração x, e mostrar como calcular a melhor lnha reta entre os pontos da curva de calbração, cada um dos quas está sujeto a um erro expermental. Como já fo assumdo que todos os erros estão no exo y, procura-se agora uma reta que mnmze os desvos na dreção y entre os dados expermentas e a reta calculada. Como alguns desses desvos (conhecdos tecncamente como os resíduos y) serão postvos e outros negatvos, é convenente tentar mnmzar a soma dos quadrados desses resíduos. Isso explca o uso freqüente do termo método dos mínmos quadrados para esse procedmento. A lnha reta requerda é calculada com base nesse prncípo, assm, como resultado, é encontrado que a lnha deve passar através do centróde dos pontos ( x, y). Pode-se mostrar que:

100 100 b a y bx x x y y x x (55) A lnha calculada desta manera é conhecda como curva de regressão de y em x, sso é, a curva ndcando como y vara quando x é colocado nos valores escolhdos. É muto mportante perceber que a curva de regressão de x em y não é a mesma curva (exceto no altamente mprovável caso em que todos os pontos estejam exatamente sobre a reta e r = 1). A lnha de regressão de x em y (que também passa pelo centróde) assume que todos os erros ocorrem na dreção x. Se mantvermos com rgdez a proposta que o snal analítco deve ser plotado sempre no exo y e a concentração no exo x, será sempre a curva de regressão de y em x que será usada nos expermentos de calbração. Exemplo: calcule a tangente e o ntercepto da curva de regressão para os dados do exemplo anteror (Tabela 33 e Tabela 34). No exemplo anteror calculou-se que, para esta curva de calbração: x x y y x x x 6; y 13, , Usando-se as equações acma se calcula que: 16, b 1,93 11 a 13,1 (1,93 6) 13,1 11,58 1,5 Assm, a equação para a reta da regressão lnear será: y 1,93x 1,5

101 101 Os resultados dos cálculos de tangente e ntercepto foram mostrados na Fgura 19. Novamente é mportante enfatzar que essas equações não devem ser utlzadas erroneamente. Elas apenas darão resultados útes quando um estudo prévo (cálculo de r e gráfco vsual) tver ndcado que uma relação lnear é realmente válda para o expermento em questão. Métodos não paramétrcos (sso é, métodos que não fazem assunção préva sobre a natureza da dstrbução de erros) podem também ser utlzados para calcular as curvas de regressão e serão dscutdos em aulas futuras. ERROS NA TANGENTE E NO INTERCEPTO DA CURVA DE REGRESSÃO A curva de regressão calculada na secção anteror será utlzada, na prátca, para estmar as concentrações de amostras de teste por nterpolações, e, às vezes, para estmar o lmte de detecção do procedmento analítco. Os erros aleatóros nos valores para a tangente e ntercepto são, assm, mportantes e as equações usadas para calculá-los serão consderadas. Deve-se ncalmente calcular a estatístca s y/x que é dada por: 1 y yˆ s y (56) x n Esta equação utlza os resduas de y, onde são os pontos na curva de regressão calculada que correspondem aos valores ndvduas de x, sso é, os valores ajustados de y. Esses pontos são mostrados na Fgura 1.

102 ˆ,, y x y x, ˆ, y x y x ˆ,, y x y x , ˆ, y x y x , ˆ, y x y x ˆ,, y x y x x y Fgura 1. Valores ajustados de y. O valor de ŷ para um dado x é faclmente calculado com a equação da regressão. A equação abaxo: 1 ˆ n y y s x y (57) É claramente semelhante em forma à equação para o desvo padrão de um conjunto de meddas repetdas. 1 ) ( n x x s (58) Numa regressão lnear, o número de graus de lberdade é (n - ), o que reflete a consderação óbva de que apenas uma lnha reta pode ser desenhada passando por dos pontos. Armado com um valor para s y/x pode-se agora calcular s b e s a, os desvos padrões para a tangente (b) e o ntercepto (a). Eles são dados por:

103 s s b a s y x x n s y x x x 103 x 1 x 1 (59) Os valores de s b e s a podem ser utlzados de manera usual para estmar os lmtes de confança para a tangente e o ntercepto. Assm, os lmtes de confança para a tangente são dados por: b t (6) s b Onde o valor de t é tomado no nível de confança desejado e (n - ) graus de lberdade. De manera smlar, os lmtes de confança para o ntercepto são dados por: a t (61) s a Exemplo: calcular os desvos padrões e ntervalos de confança para a tangente e ntercepto da curva de regressão calculada anterormente. A partr da Tabela 34 e usando as equações acma: s y x 1 0, ,439 Anterormente, já fo vsto que: x x 11

104 104 E, assm a equação: s b x s y x x 1 (59) Pode ser usada para mostrar que: s b 0, ,439 10,58 0,0409 O valor de t para (n - ) = 5 e 95% de nível de confança é,57 (valor tabelado). Assm, para um nível de confança de 95% os lmtes de confança para b são: b 1,93,57 0,0409 1,93 0,11 A utlzação da equação para o desvo padrão do ntercepto: 1 s a sy x nx x (59) Requer o conhecmento do valor de x x, 364. Assm: s a 364 0,439 0, E os lmtes de confança são: a 1,5,57 0,950 1,5 0,76

105 105 CÁLCULOS DE UMA CONCENTRAÇÃO Uma vez que a tangente e o ntercepto de uma curva de regressão tenham sdo determnados, é smples calcular um valor de x correspondente a qualquer valor meddo de y. Um problema mas complexo surge quando é necessáro estmar o erro numa concentração calculada com a curva de regressão. O cálculo de qualquer valor de x envolve o uso tanto da tangente (b) como do ntercepto (a) e, como fo vsto no tem anteror, ambos são sujetos a erros. Como resultado, a determnação do erro no valor de x é extremamente complexa e mutos analstas preferem usar uma fórmula aproxmada: s y x 1 yo y s xo 1 (6) b n b x x Nessa equação, y o é o valor expermental de y, a partr do qual o valor de concentração x o deverá ser determnado, s xo é o desvo padrão estmado de x o e os outros símbolos retêm os seus sgnfcados normas. No caso do analsta ter que fazer váras leturas de y o, por exemplo, se houver m leturas, então a equação acma deve ser modfcada para: 1 s y x 1 1 yo y s xo (63) b m n b x x Como sempre, os lmtes de confança podem ser calculados como: x 1 o t s n graus de lberdade. Exemplo: usando os dados extraídos dos exemplos acma, determnar os valores de x o e s xo e os lmtes de confança de x o para soluções com ntensdades de fluorescênca de,9, 13,5 e 3,0 ua. Os valores de x o são faclmente calculados utlzando a equação da regressão determnada anterormente, y = 1,93x + 1,5. Substtundo os respectvos valores de y o,,9, 13,5 e 3,0, obtemos os valores de x o como sendo: 0,7, 6,1 xo

106 e 11,13 pg ml -1, respectvamente. Para obter os valores de s xo correspondentes a esses valores de x o, usa-se a equação: 106 s xo s y x 1 yo 1 b n b y x x 1 (6) Recordando dos tens anterores que n = 7, b = 1,93, s y/x = 0,439, = 13,1 e também que a x x 11. Os valores de y o de,9; 13,5 e 3,0 geram os valores de s xo de 0,6; 0,4 e 0,6, respectvamente. Os ntervalos de confança correspondentes, a 95%, (t =,57) são 0,7 ± 0,68; 6,1 ± 0,6 e 11,13 ± 0,68 pg ml -1, respectvamente. Esse exemplo lustra um ponto de mportânca. É aparente que os lmtes de confança são menores (sso é, melhores) para o resultado de y o = 13,5 do que para os outros dos. Uma análse da equação acma confrma que quando y o aproxma do valor médo y, o tercero termo dentro do colchete tende a zero, e s xo aproxma-se do valor mínmo. A forma geral dos lmtes de confança para uma concentração calculada é mostrada na Fgura. Snal ( x, y) Concentração Fgura. Forma geral dos lmtes de confança para uma concentração.

107 107 Na prátca, entretanto, um expermento de calbração desse tpo dará um resultado mas precso quando o snal meddo do nstrumento corresponder a um ponto próxmo do centróde da curva de regressão. Se for desejado melhorar, sto é estretar, os lmtes de confança nesse expermento de calbração, as equações de s xo mostram, pelo menos, duas possbldades. Pode-se aumentar n, o número de pontos da curva de calbração e também se pode fazer mas meddas de y o, e usar o valor médo de m tas meddas, no cálculo de x o. O resultado desses procedmentos pode ser prevsto ao examnar os três termos dentro dos colchetes nas duas equações. No exemplo anteror, o termo domnante nos três cálculos é o prmero, undade. Segue-se que, nesse caso (e em mutos outros), uma melhora na precsão pode ser feta fazendo-se váras meddas de y o e usando a equação que contém m. Se, por exemplo, o valor de y o de 13,5 tvesse sdo calculado como a méda de quatro determnações, então o valor de s xo e os lmtes de confança teram sdo 0,14 e 6,1 ± 0,36, respectvamente, ambos resultados ndcando uma substancal melhora na precsão. Naturalmente, fazer mutas meddas repetdas (assumndo que exstam amostras sufcentes) gera uma grande quantdade de trabalho para um benefíco apenas moderado: pode-se verfcar que se foram fetas oto meddas de y o, então um valor de s xo de 0,1 e lmte de confança de 6,1 ± 0,30 serão encontrados. O efeto de n, o número de pontos da curva de calbração, é mas complexo de se calcular, pos se deve levar em conta a varação concomtante do valor de t. Os nconvenentes de um grande valor de n são equvalentes aos apontados para m. Por outro lado, pequenos valores de n não são permtdos: nesses casos, não apenas 1 / n será maor, mas o número de graus de lberdade, (n - ) se tornará muto pequeno, necesstando-se do uso de valores muto grandes de t para calcular-se, de manera adequada, dos lmtes de confança. Em mutos expermentos, assm como no exemplo dado, ses ou mas pontos de calbração deverão ser adequados, com o analsta ganhando uma maor precsão, se necessáro, fazendo expermentos repetdos para se determnar y o.

108 108 CAPÍTULO 8 LIMITES DE DETECÇÃO Uma das prncpas vantagens em se utlzar métodos nstrumentas de análse consste na possbldade de se detectar quantdades muto menores de analto do que os métodos clásscos. Essa característca mplca na possbldade de se estabelecer a mportânca de concentrações em nível de traços de mutos materas, por exemplo em amostras bológcas e ambentas. Assm foram desenvolvdas váras metodologas nas quas os baxos lmtes de detecção são o prncpal crtéro de aplcação bem sucedda. Dessa manera, é evdente que os métodos estatístcos para obter e comparar os lmtes de detecção são mportantes. Em termos geras, o lmte de detecção de um analto pode ser descrto como aquela concentração que dá um snal (y) no nstrumento sgnfcantemente dferente do snal do branco ou da lnha de base. Torna-se medatamente aparente que essa defnção dá ao analsta uma grande lberdade para decdr a defnção exata de lmte de detecção, baseado na defnção adequada da frase sgnfcantemente dferente. Uma defnção comumente usada na lteratura de Químca Analítca é que o lmte de detecção é a concentração do analto que dá um snal gual ao snal do branco, y B, mas duas vezes o desvo padrão do branco, s B. Normas recentes de órgãos públcos (prncpalmente amercanos) ndcam que esse crtéro deve ser: y y B 3S B (64) O sgnfcado desta últma defnção é lustrado, com mas detalhes, na Fgura 3.

109 109 y B Lmte de decsão Lmte de detecção A B C P Q S B y 3S B Fgura 3. Lmte de detecção. Um analsta que estuda as concentrações no nível de traços se confronta com dos problemas: ele não quer revndcar a presença de um analto que está ausente, mas ele também não quer reportar a ausênca do analto que, de fato, está presente. A possbldade de qualquer desses erros deve ser mnmzada por uma defnção precsa de lmte de detecção. Na Fgura 3, a curva A representa a dstrbução normal dos valores meddos do snal do branco. É possível dentfcar um ponto, y = P, além do lmte superor dessa dstrbução, e assumr que um snal maor que esse é mprovável que pertença ao branco, enquanto que um snal menor que P deve ser assumdo como sendo do branco. Entretanto, para uma amostra dando um snal médo P, 50% do snal observado será menor que P, desde que o snal tenha uma dstrbução normal. A probabldade de se conclur que essa amostra não dfere do branco, quando ela de fato dfere, é, assm, 50%. O ponto P, que tem sdo chamado de lmte de decsão é, assm, nsatsfatóro como lmte de detecção, pos ele pode resolver o prmero dos problemas ctados acma, mas não o segundo. Um ponto mas adequado stua-se em y = Q (Fgura 3), pos Q está duas vezes mas afastado de y B que P. Pode-se mostrar que, se y B - Q for 3,8 vezes o desvo padrão do branco, s B, então a probabldade de cada um dos dos erros acontecerem (ndcada pela área achurada da Fgura 3) é de apenas 5%. Se, como sugerdo na Fgura 3, a dstânca

110 110 for de 3s B, a probabldade de ambos os erros será de cerca de 7%. Mutos analstas consderam esta como sendo uma boa defnção de lmte de detecção. Deve ser enfatzado que essa defnção é bastante arbtrára e que anda está nteramente aberto para um analsta propor uma outra defnção alternatva para um propósto partcular. Por exemplo, pode haver ocasões onde um analsta está ansoso para evtar, a todo custo, a possbldade de reportar a ausênca de um analto quando ele, de fato, estver presente, mas está relatvamente despreocupado com o erro oposto. Torna-se claro que, sempre que o termo lmte de detecção for ctado em um artgo, a defnção usada deve ser também ctada. Algumas tentatvas foram fetas de se defnr um lmte posteror, chamado de lmte de quantfcação (ou lmte de determnação) como o menor lmte para uma medda quanttatva precsa, em oposção à detecção qualtatva. Um valor de y B + 10 s B fo sugerdo para esse lmte, mas seu uso anda é bastante restrto na prátca. Devem-se agora dscutr como os termos y B e s B são obtdos na prátca, quando uma reta de regressão convenconal for usada para a calbração, como descrto na aula passada. Um requsto fundamental do método de mínmos quadrados não ponderado que se tem estudado é que cada ponto no gráfco (nclundo o ponto do branco) tem uma varação de erros normalmente dstrbuída (apenas na dreção y) com um desvo padrão estmado como s y/x. Esta é a justfcatva de termos desenhado curvas de dstrbução normal com a mesma largura na Fgura 3. Assm, é aproprado utlzar s y/x ao nvés de s B na estmatva do lmte de detecção. Logcamente é possível fazer város expermentos do branco e obter valores ndependentes para o s B. Isso, entretanto, é um desperdíco de tempo e o uso do y y/x é bem adequado na prátca. O valor de a, o ntercepto calculado pela regressão, pode ser utlzado como uma estmatva do valor de y B, o snal do branco, ele deve ser uma estmatva mas precsa de y B do que o únco valor meddo do branco, y 1.

111 Fluorescênca 111 Exemplo: estmar o lmte de detecção para a determnação da fluoresceína estudada na aula anteror. Usa-se a equação y - y B = 3 s B com o valor de y B (= a) e s B (= s y/x ) calculado prevamente. O valor de y no lmte de detecção é encontrado como sendo 1,5 + (3) 0,439, sso é,,8. Usando a equação da regressão calcula-se um lmte de detecção de 0,67 pg ml -1. A Fgura 4 sumarza todos os procedmentos adotados no cálculo do lmte de detecção da fluoresceína. 5 0 s y/x = s b = 0,433 LOD = 0,67 pg ml -1 s x0 = 0,5 15 y B + 3s B LOD méda (x,y) Y = A + B * X A = 1,51786 B = 1,93036 R = 0, Concentração (pg ml -1 ) Fgura 4. Gráfco de regressão mostrando o LOD da fluoresceína (do exemplo). É muto mportante evtar confundr o lmte de detecção de uma técnca com sua sensbldade. Esta fonte de confusão muto comum se orgna, provavelmente, do fato de não haver uma palavra aproprada que demonstre que uma técnca tem um baxo lmte de detecção. A palavra sensbldade é usada nesse caso, gerando ambgüdade.

112 11 A sensbldade de uma técnca é corretamente defnda como a tangente da curva de calbração e, desde que a curva seja lnear, pode ser medda em qualquer ponto dele. O MÉTODO DAS ADIÇÕES PADRÃO Suponha que um analsta deseja determnar prata em amostras de resíduos de revelação de flmes por absorção atômca. Usando os métodos dscutdos anterormente, ele pode calbrar o espectrômetro com uma solução aquosa de um sal de prata puro e usar a curva de calbração na determnação de prata nas amostras de teste. Entretanto, esse método só será váldo se a solução pura de sas de prata gerar o mesmo snal de absorção do que o resíduo fotográfco com a mesma concentração de prata. Em outras palavras, usando soluções puras para estabelecer a curva de calbração, assume-se que não exste o efeto de matrz, sso é, redução ou aumento do snal obtdo pelos outros componentes da solução. Em mutas áreas, esta proposção freqüentemente não é válda. Efetos de matrz ocorrem até com métodos como espectrometra de plasma, que tem a reputação de ser nsensível para nterferentes. Uma possível solução para esse problema é tomar uma amostra do resíduo fotográfco que é smlar à amostra teste, porém não contenha prata, e adconar quantdades conhecdas de sal de prata para fazer as soluções padrões. A curva de calbração será então construída usando uma matrz aparentemente adequada. Em mutos casos, entretanto, essa aproxmação é mpratcável. Ela não elmnará efetos de matrz que dferem em magntude de uma amostra para outra, e pode ser mpossível obter uma amostra da matrz que não contenha o analto. Por exemplo, obter uma amostra de resíduos fotográfcos que não contenha prata é mprovável. Segue-se que todas as meddas analítcas, nclundo o estabelecmento da curva de calbração, devem ser fetos com a própra amostra. Isso é feto na prátca usando o método das adções padrão. Esse método tem sdo largamente utlzado em absorção atômca e espectrometra de emssão e também tem sua utldade em eletroanálses e outras áreas. Volumes guas de solução da amostra são tomados e todos, menos um são contamnados separadamente com quantdades conhecdas e dferentes do analto, e todos são, então, dluídos para o mesmo volume. Os snas do nstrumento analítco são, então,

113 113 determnados para todas essas soluções e os resultados grafcados como mostrado na Fgura 5. Como usual, os snas obtdos são plotados no exo y, nesse caso o exo x é graduado em termos de quantdades de analto adconadas (tanto como pesos absolutos como concentrações). Snal da amostra Quantdade de analto em amostra teste Quantdade adconada Fgura 5. Método das adções padrão. A curva de regressão é calculada da manera usual, mas dessa vez é feta uma extrapolação até o ponto no exo x correspondendo a y = 0. É evdente que esse ntercepto negatvo no exo x corresponde à quantdade de analto na amostra teste. A análse da Fgura 5 mostra que esse valor é dado por a / b, a relação entre o ntercepto e a tangente da curva de regressão. Como ambos, a e b são sujetos a erros, o valor calculado é também sujeto a erro, do mesmo modo. Nesse caso, a quantdade não é predta por um valor únco meddo de y, assm a fórmula para o desvo padrão, s xe, do valor extrapolado x E, não é a mesma daquela vsta anterormente, mas sm:

114 114 1 s y 1 x y s xe b n (65) b x x Aumentando o valor de n melhora, novamente, a precsão do valor estmado: em geral, pelo menos ses pontos são necessáros para um expermento de adção de padrão. Além do mas, a precsão é aumentada maxmzando-se o termo quadrátco x x, de tal forma que as soluções para a confecção da curva de calbração devem, se possível, cobrr um amplo ntervalo. x E ± ts xe. Os lmtes de confança para x E podem, como costume, serem determnados como Exemplo: a concentração de prata em uma amostra de resíduos fotográfcos fo determnada por espectroscopa de absorção atômca com o método de adção de padrões (Tabela 35). Tabela 35. Dados de absorbânca em amostra de resíduos fotográfcos (do exemplo). Ag adconada (μg ml -1 ) Absorbânca 0 0,3 5 0, ,5 15 0,60 0 0,70 5 0, ,89 Determnar a concentração de prata na amostra e obter os lmtes de confança a 95% para a concentração calculada. As equações: b a x x y y y bx x x (66)

115 115 Dão um valor de a = 0,318 e b = 0,0186. A relação entre esses dos valores dá a concentração de prata na amostra de teste de 17,3 µg ml -1. Os lmtes de confança para esse resultado podem ser determnados com a ajuda da equação: 1 s y 1 x y s xe (67) b n b x x Aqu, os valores de s y/x é 0,01094, é 0,6014 e x x é 700. Assm, o valor de s xe é gual a 0,749 e os lmtes de confança são 17,3 ±,57 x 0,749, sso é, 17,3 ± 1,9 µg ml -1. Apesar de ser uma aproxmação elegante para o problema do efeto de matrz, o método da adção de padrões tem a suas desvantagens. É dfícl de se automatzar e pode utlzar maor quantdade de amostra do que os outros métodos. Em termos estatístcos, sua desvantagem prncpal está relaconada ao fato dele ser um método de extrapolação, menos precso do que as técncas de nterpolação. No exemplo acma, é fácl mostrar que, se uma quantdade desconhecda de prata for adconada à amostra teste e fornecer um valor de absorbânca de 0,65, a concentração adconada sera de 17,6 µg ml -1 com lmtes de confança dados por 17,6 ± 1,6 µg ml -1. Esse resultado mostra apenas uma lgera melhora do lmte de confança, devdo ao ponto de absorção estar mas próxmo do valor médo da curva de calbração.

116 USO DE RETAS DE REGRESSÃO PARA COMPARAR MÉTODOS ANALÍTICOS 116 Se um químco analítco desenvolve um novo método para a determnação de um analto partcular, ele va querer valdá-lo, aplcando-o em uma sére de amostras já estudadas com o uso de outra técnca padrão. Ao fazer tal comparação, o prncpal nteresse deve ser dentfcar erros sstemátcos o método novo dá resultados que são sgnfcatvamente maores ou menores que o procedmento padrão? Nos casos onde uma análse é repetda váras vezes em um ntervalo de concentrações lmtado, tal comparação pode ser feta usando os procedmentos estatístcos descrtos anterormente. Tas procedmentos não são aproprados para análse nstrumental, pos nessas emprega-se, normalmente, um grande ntervalo de concentrações. Quando dos métodos devem ser comparados em dferentes concentrações do analto, o procedmento mostrado na Fgura 6 é normalmente adotado. Um exo do gráfco de regressão é usado para os resultados obtdos com o novo método e o outro exo com os resultados obtdos com o método padrão, para as mesmas amostras. A mportante questão de decdr qual exo contém os dados de qual amostra será dscutdo posterormente.

117 117 A B C D E F Método A Método B Fgura 6. Retas de regressão para comparação de métodos. Cada ponto no gráfco representa uma únca amostra analsada pelas duas técncas dferentes. Os métodos da aula passada são, então, aplcados para se calcular a tangente (b), o ntercepto (a) e o coefcente de correlação produto momento (r) da lnha de regressão. É claro que se cada amostra render um resultado dêntco em ambos os métodos analítcos, a lnha de regressão deverá ter ntercepto zero e valores de tangente e coefcente de correlação gual a um (Fgura 6 A). Na prátca, naturalmente, sso nunca ocorre, mesmo na ausênca de erros sstemátcos. Os erros aleatóros garantrão que os valores encontrados para os dos métodos sejam dferentes.

118 118 Os desvos da stuação deal (a = 0 e b = r = 1) podem ocorrer de algumas maneras dferentes. Pode ocorrer que a reta de regressão tenha uma tangente um, mas um ntercepto dferente de zero. Isto sgnfca que um dos métodos de análse pode resultar em valores maores ou menores que o outro, por uma quantdade fxa. Esse tpo de erro pode ocorrer se o snal resdual para um dos métodos for estmado de forma errada (Fgura 6 B). Uma segunda possbldade é que a tangente da lnha de regressão seja maor ou menor que um, ndcando que um erro sstemátco pode estar ocorrendo na tangente de um dos gráfcos de calbração (Fgura 6 C). Esses dos tpos de erros podem, naturalmente, ocorrer smultaneamente (Fgura 6 D). Outros possíves tpos de erros sstemátcos podem ocorrer se a lnha for curva (Fgura 6 E). Problemas de especação podem dar resultados surpreendentes (Fgura 6 F). Esse tpo de problema pode surgr se o analto ocorre em duas formas químcas dferentes, a proporção das quas vara de amostra para amostra. Um dos métodos sob estudo (aqu plotado no exo y) pode detectar apenas uma das formas do analto, enquanto que o segundo método detecta as duas formas. Na prátca o analsta deseja testar se o ntercepto dfere sgnfcatvamente de zero e se a tangente dfere sgnfcatvamente de um. Isso pode ser feto determnando-se os lmtes de confança para a e b a 95% de confança. Exemplo: os níves de chumbo em dez amostras de sucos de frutas foram determnados por um novo método potencométrco de redssolução (PSA) empregando um eletrodo de trabalho de carbono vítreo, e os resultados comparados com aqueles obtdos usando uma técnca de espectrometra de absorção atômca sem chama (AAS). Os resultados encontrados (todos em µg L -1 ) estão na Tabela 36. Esses resultados foram grafcados com os de AAS no exo x e os de PSA no exo y e uma lnha de regressão fo calculada (Fgura 7).

119 resultados PSA (g L -1 ) resultados AAS (g L -1 ) Fgura 7. Gráfco de regressão na comparação de dos métodos de análse de chumbo. Tabela 36. Níves de chumbo em dez amostras verfcados em dos métodos (µg L -1, do exemplo). Amostra AAS PSA Com os métodos dscutdos anterormente pode-se faclmente calcular que: a = 3,87; b = 0,968; r = 0,9945. Mas cálculos podem mostrar que: s y/x = 10,56; s a = 6,64; s b = 0,0357 e com o uso do valor aproprado de t para 8 graus de lberdade (t =,31), para um lmte de confança de 95%, dá para os valores de ntercepto e tangente: a = 3,87 ± 15,34 e b = 0,963 ± 0,083. Dos valores acma é claro que os valores calculados para o ntercepto e a tangente não dferem sgnfcatvamente de zero e 1, respectvamente e que, assm, não há evdêncas

120 10 de erros sstemátcos entre os dos conjuntos de resultados. Dos pontos extras devem ser menconados, em relação ao exemplo acma. Em prmero lugar, consultando a lteratura de Químca Analítca, observa-se que os autores freqüentemente dão grande valor ao cálculo do coefcente de correlação nesses estudos comparatvos. Entretanto, nesse exemplo, o coefcente de correlação não teve qualquer papel dreto na detecção de possíves erros sstemátcos. Mesmo com lnhas de regressão lgeramente curvas, o coefcente de correlação podera anda estar próxmo de um. Assm, é evdente que o cálculo do coefcente de correlação é menos mportante, do que o estabelecmento dos lmtes de confança para D e E. Podem-se encontrar valores de r não tão próxmos de um, mas que, anda assm, a tangente e o ntercepto não dferem muto de um e zero. Esses resultados sugerem uma precsão muto pobre de um ou de ambos os métodos utlzados. As precsões dos dos métodos podem ser avaladas pelas técncas dscutdas nas aulas ncas. Na prátca é desejável que sso seja feto antes das lnhas de regressão comparando os dos métodos. O segundo ponto a ser notado é que, apesar de ser desejável comparar os dos métodos em grande ntervalo de concentrações, na prátca pode ser dfícl encontrar amostras onde as concentrações do analto estejam dstrbuídas nesse amplo domíno. No exemplo analsado, os sucos de frutas examnados tendem a car em grupos com concentrações de chumbo bastante smlares, assm amostras com níves de chumbo entre 130 e 00 µg L -1 e entre 60 e 30 µg L -1 não puderam ser analsadas. Apesar de unversalmente adotado em estudos comparatvos de métodos nstrumentas, o procedmento descrto também é tema de séras objeções teórcas em mutos níves. Incalmente, como fo enfatzado, a lnha de regressão de y em x é calculada assumndo que os erros no exo x são neglgencáves. Embora geralmente váldo na confecção de uma curva de calbração para um únco método analítco, esta afrmação não pode, evdentemente, ser justfcada quando a lnha de

121 11 regressão é usada para propóstos de comparação. Nessas comparações pode-se ter certeza de que erros aleatóros rão ocorrer em ambos os métodos analítcos, sso é, em ambas as dreções, x e y. Isto sugere que as equações utlzadas para calcular a lnha de regressão podem não ser váldas. Testes prátcos e smulações mostraram, entretanto, que essa aproxmação smples dá resultados surpreendentemente confáves, se três condções forem satsfetas:. O método mas precso deve ser colocado no exo x esta é a razão de se testar a precsão dos métodos como fo dscutdo... Um número razoável (10 no mínmo, como no exemplo anteror) de pontos são grafcados para a comparação. Como o lmte de confança é calculado com base em (n - ) graus de lberdade, é mportante evtar pequenos valores de n. Os pontos expermentas devem cobrr a faxa de concentração de nteresse unformemente: como fo vsto, esse requermento pode se tornar dfícl de atender num estudo comparatvo com amostras reas. Há uma segunda objeção para utlzar a lnha de regressão de y em x na comparação de métodos analítcos. Essa lnha de regressão assume não apenas que os erros na dreção x são zero, mas também que os erros na dreção y são constantes, não varam com a concentração. Assm, todos os pontos têm o mesmo peso no cálculo da tangente e do ntercepto. Esta afrmação parece ser muto mprovável na prátca. Em mutas análses, o desvo padrão relatvo (coefcente de varação) é só muto aproxmadamente constante no ntervalo de concentrações: o erro absoluto aumenta com a concentração do analto. Seguese que lnhas de regressão sem pesos também são também muto questonáves em outras stuações, por exemplo, na confecção de curvas de calbração em um únco procedmento analítco. Em prncípo, lnhas de regressão com pesos devem ser usadas.

122 1 CAPÍTULO 9 RETAS DE REGRESSÃO PONDERADAS Os cálculos envolvdos no uso de métodos de regressão ponderados são apenas um pouco mas complcados do que aqueles dscutdos até aqu. Eles podem ser faclmente fetos com o auxílo de um mcrocomputador, mas requerem nformações adconas dos erros que ocorrem em dferentes níves de concentração, ou pelo menos a formulação de hpóteses adconas sobre esses erros. Isso talvez explque porque os cálculos de regressão ponderados são menos utlzados do que deveram. Nesta aula rá se delnear o método de regressão ponderada, aplcado apenas na determnação de um únco analto e não na comparação entre dos métodos analítcos. Vamos consderar com mas detalhes, a stuação smples que surge quando os erros em uma reta de regressão são proporconas à concentração do analto. Quando os erros, em dferentes pontos do gráfco de calbração forem expressos por barras de erros (Fgura 8) as barras se tornam maores conforme a concentração aumenta. Snal Concentração Fgura 8. Gráfco de regressão com barra de erros no valor de snal.

123 13 Nesse caso, é evdente que a reta de regressão deve ser calculada de manera a consderar um peso maor para aqueles pontos onde as barras de erro são menores. É mas mportante para a lnha de regressão passar próxmo desses pontos do que daqueles onde as barras de erro são maores. Esse resultado é encontrado atrbundo a cada ponto um peso nversamente proporconal à varânca correspondente, s. Esse procedmento lógco é de aplcação geral. Assm, se os pontos ndvduas são denotados por (x 1, y 1 ), (x, y ), etc., como usual, e os desvos padrões correspondentes por s 1, s, etc., então, os pesos ndvduas, w 1, w, etc. são dados por: w s s n (68) A tangente e o ntercepto da lnha de regressão é então dado por: e: w x y nxw y b w x nx w w (69) a y b (70) w x w Nessas equações acma, x w e y w, representam as coordenadas do centróde ponderado, ( x w, y w ) através do qual a lnha de regressão ponderada deverá passar. Essas coordenadas são dadas, como esperado, por:

124 14 x y w w w x n w n y Exemplo: calcular as retas de regressão ponderada e não para os seguntes dados de calbração (Tabela 37). Para cada lnha, calcular também as concentrações das amostras de teste com absorbâncas de 0,100 e 0,600. Tabela 37. Dados de concentração e absorbânca com os respectvos desvos padrões (do exemplo). Concentração (μg ml -1 ) Absorbânca Desvo padrão 0 0,090 0,001 0,158 0, ,301 0, ,47 0, ,577 0, ,739 0,0 b A aplcação das equações: x x a y bx x x Mostra que a tangente e o ntercepto da reta de regressão não ponderada são respectvamente, 0,075 e 0,0133. As concentrações correspondentes às absorbâncas de 0,100 e 0,600 são faclmente calculadas como 1,0 e 8,09 µg ml -1 respectvamente. A reta de regressão ponderada é um pouco mas dfícl de calcular: na falta de um programa adequado de computador, constró-se a Tabela 38.

125 Tabela 38. Cálculo da reta de regressão ponderada. 15 x y s 1/s w w x w y w x y w x 0 0,009 0, ,535 0,000 0,0498 0,0000 0,000 0,158 0, ,346 0,69 0,0547 0,1063 1, ,301 0, ,055 0,0 0,0166 0,066 0, ,47 0, ,033 0,198 0,0156 0,0935 1, ,577 0, ,019 0,15 0,0110 0,0877 1, ,739 0, ,011 0,110 0,0081 0,0813 1, ,999 1,37 0,1158 0,4380 5,768 Desta tabela, é claro que equação anteror, b é calculado como sendo: 0, ,9 0,06 b 5, ,9 E assm, a é dado por: y w = 0,1558/6 = 0,060 e que 0,0738 x w = 1,37/6 = 0,9. Da 0,0738 0,9 0,0091 Esses valores de a e b podem, então ser usados para as absorbâncas de 0,100 e 0,600, resultando nos valores de concentrações de 1,3 e 8,01 µg ml -1, respectvamente. Uma comparação cudadosa dos resultados obtdos com os dos métodos é muto nstrutva. Os efetos de se ponderar são claros. O centróde ponderado ( x, y mas próxmo da orgem do gráfco do que o não ponderado ( w w ) é muto x, y ) e o peso dado aos pontos próxmos da orgem e partcularmente ao prmero ponto (0; 0,009), que tem o menor erro assegura que a reta de regressão um ntercepto muto próxmo desse ponto. A tangente e o ntercepto da reta ponderada é marcantemente smlar àqueles da não ponderada. Assm, os resultados dos dos métodos dão valores muto smlares para as concentrações das amostras que possuem absorbâncas de 0,100 e de 0,600. Dessa forma, poderíamos ser levados a pensar que a reta de regressão ponderada tem poucas vantagens. Elas requerem mas nformações (na forma de estmatvas de desvos padrões em város pontos na reta), e são muto mas complexas para se construr, mas resultam em dados muto smlares àqueles não ponderados. Essas consderações podem até explcar a neglgênca generalzada dos cálculos de retas de regressão ponderadas na prátca.

126 16 Mas um químco analítco usando métodos não emprega os cálculos de regressão apenas para obter a tangente e o ntercepto da reta de calbração e as concentrações das amostras. Ele também deseja obter estmatvas dos erros e dos lmtes de confança daquelas concentrações e, nesse contexto, os métodos de regressões ponderados resultam em valores muto mas realístcos. Na aula passada usou-se a equação abaxo: s x 0 s y x 1 1 n b y 0 y x x 1 Para estmar o desvo padrão (s xo ) e, assm, os lmtes de confança de uma concentração calculada usando um valor únco de y e uma reta de regressão não ponderada. A aplcação desta equação aos dados do exemplo acma mostra que os lmtes de confança para as soluções com absorções 0,100 e 0,600 são 1,0 ± 0,65 e 8,09 ± 0,63 µg ml -1. Como no exemplo dado naquela aula, os ntervalos de confança são bastante próxmos. No exemplo atual, entretanto, esse resultado é nteramente rrealsta. Os dados expermentas mostram que os erros observados nos valores de y aumentam quando o própro y aumenta, uma stuação esperada para um método tendo um desvo padrão relatvamente constante. Pode-se esperar que esse aumento em s com o aumento de y deve se refletr nos lmtes de confança das concentrações determnadas. Assm, os lmtes de confança para a solução com uma absorbânca de 0,600 deve ser maor (sso é, por) que para a absorbânca de 0,100. Nos cálculos de regressão ponderada, o desvo padrão (s xow ) de uma concentração prevsta é dado por:

127 17 w w w x y x nx w y b y y n w b s s ow (71) Nessa equação s (y/x)w é substtuído por: 1 n nx w y b ny w y s w w w x y (7) A equação acma é claramente smlar àquela da reta não ponderada. Ela confrma que os pontos mas próxmos da orgem, onde os pesos são maores, e os pontos próxmos do centróde, onde w y y 0 é pequeno, terão os menores lmtes de confança, como mostrado na Fgura 9. Concentração Snal w y w x, Fgura 9. Posção do centróde na reta de regressão. A maor dferença entre as duas equações (ponderada, não ponderada) é o termo 1 / w o na equação ponderada. Como w o ca rapdamente quando y aumenta, esse termo assegura que o lmte de confança aumente com o aumento de y o, conforme se espera.

128 18 A aplcação da equação do desvo padrão ponderado no exemplo anteror mostra que as amostras de teste com absorções 0,100 e 0,600 têm lmtes de confança para as concentrações calculadas de 1,3 e 8,01 µg ml -1 de ± 0,1 e ± 0,7 µg ml -1 respectvamente. Nota-se que esses dos ntervalos de confança são proporconas às absorbâncas das duas soluções. Além dsso, o ntervalo de confança para a solução menos concentrada é menor do que na reta de regressão não ponderada, enquanto que para a mas concentrada a stuação é o oposto. Todos esses resultados são muto mas concordantes com a realdade do expermento de calbração do que os resultados obtdos de forma não ponderada. REGRESSÃO CURVILINEAR INTRODUÇÃO Até agora, nossa dscussão de métodos de calbração tem sdo restrta aos expermentos onde se pode assumr que a resposta do nstrumento é proporconal à concentração do analto. Esta restrção é geralmente válda, pos químcos analítcos têm sempre até recentemente favorecdo tas métodos, devdo à complexdade dos cálculos de ajustes de curvas. Exemplos desse cudado ncluem o controle da largura da lnha de emssão da lâmpada na espectroscopa de absorção atômca e o tamanho e posconamento da cubeta para mnmzar os efetos de fltros nternos na espectroscopa de fluorescênca. Apesar dsso, mutas técncas analítcas geram lnhas de calbração curvas em um grande ntervalo de concentrações de nteresse. Uma stuação partcularmente comum é quando o gráfco de calbração é lnear em uma pequena faxa de concentrações, mas se torna curvo quando a faxa aumenta. Em outros casos, como nos expermentos de ensaos munológcos, o gráfco de calbração é curvo em todo o ntervalo de concentrações. Quando o gráfco de calbração é curvo, nós anda precsamos responder às questões levantadas nas aulas anterores, mas as questões exgrão a solução de problemas complcados.

129 19 A prmera questão a ser examnada é: como se detecta a curvatura num gráfco de calbração? Isso porque o grau de curvatura pode ser muto pequeno ou ocorrer apenas em parte da curva. Além dsso, apesar de ser um parâmetro amplamente utlzado para se testar a lneardade de uma curva, o coefcente de correlação produto-momento (r) é de pouca vala para se testar uma curvatura. Já fo vsto anterormente que lnhas com curvatura aparente anda podem ter valores de r muto próxmos de um. Um analsta deve naturalmente esperar que qualquer teste para curvatura deva ser aplcado faclmente no trabalho dáro sem mutos cálculos extensvos. Mutos desses testes são dsponíves, baseados no uso dos resíduos de y nos gráfcos de calbração. Como fo vsto anterormente, um resíduo de y, y yˆ, representa a dferença entre um valor expermental de y e o valor calculado ŷ a partr da reta de regressão para o mesmo valor de x. Se um gráfco de calbração lnear for aproprado, e se os erros aleatóros nos valores de y forem normalmente dstrbuídos, os resíduos devem ser também normalmente dstrbuídos em torno de zero. Se esta dstrbução dos valores dos resíduos não for normal, com a garanta de que os erros da medda o são, então se suspeta que a lnha de regressão não é do tpo correto. No exemplo examnado anterormente, os resíduos de y foram + 0,58, - 0,38, - 0,4, - 0,50, + 0,34, + 0,18 e + 0,0. É evdente que esses valores somam zero e que estão dstrbuídos de manera razoavelmente smétrca ao redor de zero, de forma que se pode assegurar um ajuste lnear para a lnha de calbração.um segundo teste sugere a análse dos snas dos resíduos de y, como aqueles dados acma. Conforme se desloca na lnha de calbração, sso é, conforme x aumenta, resíduos postvos e negatvos devem ocorrer em forma aleatóra, se os dados foram ajustados adequadamente por uma lnha reta. Se, ao contráro, se tentar ajustar uma lnha reta a uma sére de pontos que estão sobre uma curva aberta, então os snas dos resíduos não serão mas aleatóros, porém ocorrerão em seqüêncas de valores postvos e negatvos. Se examnar novamente os valores dados anterormente, encontrar-se-á uma ordem nos snas, dada por:

130 130 Para se testar se as seqüêncas de resíduos (+) e (-) ndcam a necessdade de uma lnha de regressão não lnear, deve-se saber a probabldade de uma tal ordem ocorrer fortutamente. Esses cálculos serão vstos na próxma aula. Entretanto, o pequeno número de pontos expermentas torna possível que tas seqüêncas surjam por acaso, assm qualquer conclusão deve ser trada com muta cautela. Na stuação onde um gráfco de calbração é lnear em parte do ntervalo de concentrações e curvada além desse ntervalo, é mportante para o químco analítco estabelecer esse ntervalo de lneardade. O próxmo exemplo mostra algumas aproxmações para esse problema. Exemplo: nvestgue o ntervalo lnear de calbração para o expermento de fluorescênca segunte (Tabela 39). Tabela 39. Dados de um expermento de fluorescênca para a construção de uma curva de calbração (do exemplo). C (μg ml -1 ) I F 0 0,1 8,0 4 15,7 6 4, 8 31, ,0 Análse dos dados mostra que parte do gráfco, perto da orgem, corresponde muto bem a uma reta com um ntercepto próxmo de zero e uma tangente de aproxmadamente quatro. O valor de fluorescênca para a concentração de 10 µg ml -1 é muto menor do que o esperado nessas crcunstâncas, e há também ndícos de que a fuga da lneardade afetou também a fluorescênca do padrão de 8,0 µg ml -1. Incalmente se aplcou os cálculos de regressão lnear não ponderada para todos os dados. A aplcação dos métodos expostos anterormente resultam nos valores de a = 1,357, b = 3,479 e r = 0,9878. Os resíduos de y encontrados foram - 1,57; - 0,314; + 0,49; + 1,971; +,314 e - 3,143, com a soma dos quadrados dos resíduos gual a 0,981.

131 131 O comportamento dos valores dos resíduos sugere que o últmo valor tabelado está fora do ntervalo lnear. Confrmou-se essa suspeta fazendo a regressão lnear com apenas os cnco prmeros pontos. Isso resulta em a = 0,100, b = 3,950 e r = 0,9998. A tangente e o ntercepto estão muto mas próxmos dos valores esperados para a parte do gráfco próxmo da orgem, e o valor de r é muto maor do que no prmero cálculo. Os resíduos dos cnco prmeros pontos para essa segunda regressão são 0; 0; -0,; +0,4 e -0,, com uma soma dos quadrados de apenas 0,4. O uso dessa segunda equação de regressão mostra que o valor esperado para o padrão de 10 µg ml -1 devera ser 39,6, com um resíduo de -6,6. A utlzação de um teste t mostrará que esse últmo resíduo é sgnfcantemente maor do que a méda dos outros resíduos. Alternatvamente, pode-se aplcar um outro teste para mostrar que esse é um ponto fora da curva em relação aos resíduos. Nesse exemplo, tas cálculos não são necessáros. O enorme valor do resíduo para o últmo ponto, junto com os valores muto baxos para os outros cnco pontos e a soma dos quadrados enormemente reduzda, confrma que o ntervalo lnear do método não se estende até 10 µg ml -1. Tendo estabelecdo que o últmo ponto de dados pode ser excluído do ntervalo lnear, pode-se repetr o processo para estudar o ponto (8; 31,5). Isto é feto calculando-se a lnha de regressão para apenas os quatro prmeros pontos, com os resultados de a = 0, b = 4,00 e r = 0,9998. O valor do coefcente de correlação sugere que essa lnha se ajusta aos pontos tão bem quanto a anteror, com os cnco pontos. Os valores dos resíduos para esse tercero cálculo foram +0,1; 0; -0,3 e +0,, com uma soma de quadrados de 0,14. Com essa curva de calbração, o resíduo de y para a solução 8,0 µg ml -1 é -0,5. Esse valor é maor que outros resíduos mas provavelmente não por uma quantdade sgnfcatva. Pode-se então conclur que é seguro nclur o ponto (8,0; 31,5) dentro do ntervalo lnear do método. Ao se fazer tal decsão, o químco analítco deve levar em consderação a precsão necessára nos resultados e o valor reduzdo de um método para o qual o ntervalo de

132 fluorescênca lneardade da curva de calbração é tão curto. Os cálculos descrtos anterormente estão resumdos na Fgura C (g ml -1 ) Fgura 30. Curva de regressão de um expermento de fluorescênca (do exemplo). Uma vez que se decdu que o conjunto de pontos não pode se ajustar satsfatoramente numa lnha reta, o analsta deve jogar uma últma carta antes de se resgnar às complexdades dos cálculos de regressão não lnear. Ele pode consegur transformar os dados de tal forma que a relação não lnear muda para uma lnear. Tas métodos de transformação são aplcados regularmente aos resultados de certos métodos analítcos Por exemplo, o software para a nterpretação de dados de munoensaos freqüentemente oferece possbldade de transformações. Comumente os métodos usados envolvem grafcar log y e / ou log x no lugar de x e y, ou o uso das funções logt. x log tx ln 1 x (73)

133 133 É mportante notar que esta transformação pode também afetar a natureza dos erros em dferentes pontos do gráfco de calbração. Suponha, por exemplo, que um conjunto de meddas da forma: q y px (74) As magntudes dos erros aleatóros em y são ndependentes de x. Entretanto, a transformação dos dados numa forma lnear, tomando os logartmos, produzrá dados nos quas os erros em log y não são mas ndependentes de log x. Nesse caso, e em qualquer outro em que a forma da equação é conhecda de consderações teórcas ou de larga experênca na prátca, é possível aplcar equações de regressão ponderadas aos dados transformados. Pode-se mostrar que, se os dados de uma forma geral y = f(x) são transformados na equação lnear: Y BX A (75) O fator de peso, w, usado anterormente, é obtdo da relação: 1 w (76) dy dy No presente caso, q y px, assm Y ln y e dy d ln y 1 dy dy y. Assm, w y. Infelzmente, não há mutos casos na Químca Analítca onde a equação matemátca exata de uma equação de regressão não lnear é conhecda com certeza, assm essa aproxmação tem um valor restrto.

134 134 AJUSTE DE CURVAS Em vsta das dfculdades que se obtém com a transformação dos dados, e a crescente facldade com que curvas podem ser calculadas para ajustar em um conjunto de pontos de calbração, métodos de regressão não lneares são agora relatvamente comuns em Químca Analítca. É mportante entender que os gráfcos de calbração curvos, muto encontrados na prátca, freqüentemente surgem da superposção de dos ou mas fenômenos químcos ou físcos. Assm, na espectroscopa de fluorescênca molecular, os gráfcos de snal versus concentração serão com freqüênca aproxmadamente lnear em soluções muto dluídas, mas mostrarão um aumento (negatvo) de curvatura em concentrações maores por causa de: a. Artefatos ótcos (efetos de fltros nternos); b. Interações moleculares (extnção, formação de excímeros); c. A ausênca de proposções algébrcas com as quas um gráfco lnear é prognostcado. Os efetos (a) - (c) são todos eles ndependentes, assm mutas curvas de dferentes formatos podem aparecer na prátca. É por razões desse tpo que os gráfcos de calbração com curvas de um formato conhecdo e prevsível são tão raras na prátca do trabalho analítco. Assm, o analsta tem muto pouca assstênca, a pror, em qual tpo de mutas equações possíves que geram gráfcos curvos deve ser utlzada no ajuste dos pontos de calbração. Na prátca, uma estratéga das mas comuns é ajustar uma curva que é polnomal 3 em x, sso é, y a bx cx dx... Os problemas matemátcos que devem ser resolvdos, para sso, são:. Quantos termos devem ser adconados aos polnômos e. Que valores devem ser atrbuídos aos coefcentes a, b, etc?

135 135 Os softwares dsponíves para resolver esses problemas costumam ser nteratvos. Eles ajustam prmero uma lnha reta, depos uma equação quadrátca, depos uma cúbca, e assm por dante, e apresentam ao usuáro as nformações necessáras para se decdr qual dessas equações é a mas adequada. Antes de se estudar com mas detalhes como essa decsão é tomada, é mportante consderar que, na prátca, equações quadrátcas ou cúbcas são, freqüentemente, sufcentes para orgnar um ajuste perfeto aos dados. Polnômos com mas termos são, quase com certeza, fscamente sem sgnfcado e não melhoram, de forma sgnfcatva, os resultados analítcos. Em qualquer caso, se os gráfcos tverem n pontos de calbração, o maor polnômo permtdo é de ordem (n - 1). Como então se pode decdr se (por exemplo) uma curva quadrátca ou cúbca é o melhor ajuste para os dados expermentas de calbração? Da mesma manera que no caso dos gráfcos lneares, parece razoável usar os mínmos quadrados para decdr sobre a qualdade do ajuste, sto é, procurar mnmzar a soma de quadrados dos resíduos de y. Esse procedmento permte utlzar uma smples análse de varânca (ANOVA) para avalar os sucessvos polnômos. Os cálculos de ANOVA assumem que apenas erros aleatóros na dreção y ocorrem e são executados como se segue. Se os pontos ndvduas de calbração tem valores como usual, então o termo y y, y,... y,... y 1 n e valor médo y y é conhecdo como a soma dos quadrados (SS) sobre y. Pode-se demonstrar que ele é gual à soma de dos outros termos, a soma dos quadrados devdo à regressão, y y ŷ. y e a soma dos quadrados sobre a regressão, A soma dos quadrados devdo à regressão é a parte de y adequado de uma equação aos pontos de dados ele deve, assm, ser o maor possível. Por outro lado, a soma dos quadrados sobre a regressão é gual à soma dos quadrados dos resíduos de y (a soma de quadrados resduas), que deve ser tão pequena quanto possível. y devda ao ajuste

136 136 Pode-se então defnr R, como o coefcente de determnação, como: R SSregressão 1 SS total SS SS resíduos total (77) R (às vezes também chamado de coefcente de correlação múltpla) claramente vara entre zero e 1, o últmo caso representando um ajuste perfeto da curva ao conjunto de dados expermentas. Pode-se demonstrar que, em caso de um gráfco lnear, R = r, o quadrado do coefcente de correlação produto-momento. Em resumo, a ANOVA dsponível em programas de ajuste de curvas dvde a soma de quadrados total dos valores de y sobre y (esta soma é, naturalmente, uma constante para qualquer conjunto de dados) em dos componentes, cujas contrbuções ao total vara de acordo com a qualdade do ajuste, dado por R. Ao se decdr qual polnômo resulta no melhor ajuste para um conjunto de pontos de calbração sobre uma curva, pode parecer que se tenha apenas que calcular R para equações de reta, quadrátca, cúbca, etc. e parar a nossa escolha quando R parar de aumentar. Infelzmente observa-se que a adção de um outro termo ao polnômo sempre aumenta o valor de R, mesmo por um pequeno aumento. Assm, mutos softwares fornecem uma estatístca adconal ou alternatva, usualmente conhecdos como com R como ajustado ou anda R, que utlza a méda quadrátca (MS) em lugar da soma de quadrados, e é dada por: R MS resdual ' 1 (78) MS total O uso de R leva em consderação que o número de graus de lberdades dos resíduos na regressão polnomal (dado por [n k l] onde k é o número de termos na equação da regressão contendo uma função de x) muda, conforme a ordem do polnômo

137 muda. Como no exemplo segunte, R é sempre menor que R. Exemplo: em uma análse 137 nstrumental, foram obtdos os dados da Tabela 40 (undades arbtráras). Tabela 40. Relação concentração e snal em uma análse nstrumental (do exemplo). Concentração Snal 0 0, 1 3,6 7,5 3 11,5 4 15,0 5 17,0 6 0,4 7,7 8 5,9 9 7, , Ajustar um polnômo adequado a esses resultados e usar para estmar as concentrações correspondentes a snas de 5, 16 e 7 undades. Mesmo uma mera observação dos dados sugere que o gráfco de calbração deve ser curvo, mas é nstrutvo calcular a reta de mínmos quadrados por esses pontos usando o método descrto na aula passada. da Tabela 41. Esta lnha resultará numa equação y =,991 x + 1,555. A tabela de ANOVA para esses dados (retornar à algumas aulas atrás) tem a forma Tabela 41. ANOVA para o exemplo dado. Fonte de varação Soma dos quadrados Graus de lberdade Méda dos quadrados Regressão 984, ,009 Resíduo 9, ,056 Total 993, ,351 Pode-se mostrar que, na Tabela 41, o número de graus de lberdade para a varação devda à regressão é gual a k, o número de termos na equação de regressão contendo x, x, etc. Para uma lnha reta, k é gual a um, como só se tem o termo em x. Como só se tem uma restrção aos graus de lberdade (ou seja, que a soma dos resíduos é zero) o número

138 total de graus de lberdade dos resíduos é (n - 1). Assm, o número total de graus de lberdade assocados aos resíduos é (nk - 1) = (n - ). Dos dados de ANOVA é claro que: 138 R 984,009 0, ,04% 993,509 Uma equação que justfca mas de 99% da relação entre x e y é bem satsfatóra, mas, da mesma manera que com o coefcente de correlação r, deve-se ter cautela na nterpretação dos valores absolutos de R. A segur se tornará evdente que uma curva quadrátca ajustará muto melhor aos dados. Pode-se calcular o valor ajustado de R como sendo: R ' 1, , ,937% 99,351 Fo vsto que um exame dos resíduos pode fornecer nformações sobre a equação de calbração. Mutos softwares dedcados a esse fm geram uma tabela do tpo da Tabela 4. A dstrbução dos snas e das magntudes dos resíduos é aparente e assegura que uma lnha reta não é o melhor ajuste. Quando os dados são ajustados para uma forma quadrátca, a equação obtda será y = 0, ,970x 0,098x, e a ANOVA fca (Tabela 43). Tabela 4. Cálculo de resíduos. x y ŷ y resdual 0 0, 1,6-1,4 1 3,6 4,5-0,9 7,5 7, ,5 10,5 1,0 4 15,0 13,5 1,5 5 17,0 16,5 0,5 6 0,4 19,5 0,9 7,7,5 0, 8 5,9 5,5 0,4 9 7,6 8,5-0, , 31,5-1,3

139 139 Tabela 43. ANOVA (do exemplo). Fonte de varação Soma dos quadrados Graus de lberdade Méda dos quadrados Regressão 99,33 496,116 Resíduo 1,76 8 0,160 Total 993, ,351 Note que o número de graus de lberdade das fontes de varação de regressão e resíduos fo mudado de acordo com as regras acma. Entretanto, a varação total é, naturalmente, a mesma encontrada na prmera tabela. Pode-se ver que: R 99,33 0, ,87% 993,509 Esse valor é perceptvelmente maor que o prmero (99,044%), encontrado do gráfco lnear e o valor ajustado de R também é maor: R ' 0, , ,839% 99,351 Quando os resíduos de y são calculados, seus snas são: Sem qualquer combnação óbva. Por todas essas razões é óbvo que a equação quadrátca ajusta-se melhor aos dados do que a lnear. Fnalmente, serão repetdos os cálculos para um ajuste cúbco. Aqu, o melhor ajuste será dado por y = -0, ,170x 0,150x + 0,0035x 3. O coefcente cúbco é realmente muto pequeno, mpondo a questão se esta equação fornece um ajuste sgnfcatvamente melhor do que a quadrátca. O valor de R é, nevtavelmente, um pouco maor que o da quadrátca, 99,879% comparado com 99,87%. Entretanto, o valor ajustado de R é lgeramente menor que o valor quadrátco, 99,87%. A ordem dos snas dos resíduos é a mesma do ajuste quadrátco. Assm, não há nenhum valor em se agregar termos desnecessáros e se pode fcar confante de que o ajuste quadrátco é satsfatóro, nesse caso.

140 140 Quando as equações acma são utlzadas para se estmar as concentrações correspondentes aos snas do nstrumento de 5, 16 e 7 undades, os resultados (valores de x em undades arbtráras) são: Tabela 44. Cálculo das concentrações nos dferentes coefcentes (do exemplo). Lnear Quadrátco Cúbco y = 5 1,15 1,8 1,7 y = 16 4,83 4,51 4,50 y =7 8,51 8,61 8,6 Como esperado, as dferenças entre as concentrações calculadas com equações quadrátcas e cúbcas são nsgnfcantes, assm a equação quadrátca deve ser usada por smplcdade. Fo vsto antes que um gráfco de calbração não lnear freqüentemente resulta da ocorrênca smultânea de fenômenos físco-químcos e / ou matemátcos. Assm, é possível assumr que nenhuma função matemátca smples pode descrever a curva de calbração ntera, de manera satsfatóra. Portanto, parece lógco tentar ajustar os pontos a uma curva que consste de váras seções lgadas, cujas formas matemátcas podem ser dferentes. Essa aproxmação é agora usada com freqüênca cada vez maor pela aplcação das funções splnes. Splnes cúbcas são mas comumente empregadas na prátca. A curva fnal é feta de uma sére de seções lgadas de forma cúbca. Essas seções devem com certeza formar uma curva contínua nas suas junções (nós), assm a prmera e a segunda dervadas de cada curva em qualquer nó devem ser dêntcas. Uma varedade de métodos tem sdo utlzada para estmar tanto o número de nós como as equações para cada segmento. Essas técncas já estão dsponíves em softwares aproprados. Essas técncas foram aplcadas com sucesso em dferentes técncas analítcas como a cromatografa gás-líqudo, munoensaos, etc. Assm, é razoável perguntar se, no caso de um gráfco de calbração cuja curvatura não é muto acentuada, não se podera smplfcar ao máxmo o conceto de splne e construr a curva como uma sére de lnhas retas juntando-se em pontos sucessvos. Esse método é completamente não rgoroso e não deve

141 141 fornecer nformações sobre a precsão com que qualquer valor de x possa ser determnado. Ele pode, entretanto, ter valor como uma smples análse ncal dos dados (método IDA) e pode ser testado aplcando-o ao exemplo anteror. Assm, para os valores de y de 5, 16 e 7, esse método de nterpolação lnear entre pontos sucessvos fornece valores de x de 1,36; 4,50 e 8,65 undades, respectvamente. A comparação com os dados da Tabela 44 mostra que esses resultados, especalmente os dos últmos, podem ser acetáves para mutas fnaldades.

142 14 MÉTODOS NÃO-PARAMÉTRICOS E MÉTODOS ROBUSTOS Introdução CAPÍTULO 10 Os testes estatístcos dscutdos nas aulas anterores assumram que todos os dados sendo examnados seguam uma dstrbução normal (gaussana). Essa suposção está apoada no teorema do lmte central, que mostra que a dstrbução de amostras da méda é aproxmadamente normal, mesmo se a população relaconada tver uma dstrbução bem dferente. Essa aproxmação fca mas precsa quando o número de amostras aumenta.assm, o valor do teorema é mnmzado em conjuntos de dados muto pequenos (como por exemplo, três ou quatro dados) freqüentemente utlzados no trabalho analítco. Nessa aula ntroduzr-se-á dos grupos de testes estatístcos para o tratamento de dados que podem não segur uma dstrbução normal. Esses métodos, que não fazem suposções sobre a forma da dstrbução da qual os dados são tomados, são chamados de métodos não-paramétrcos. Mutos deles têm a vantagem adconal de smplfcar sensvelmente os cálculos, com um pequeno conjunto de dados alguns deles podem até ser fetos sem o auxílo de calculadoras. Um outro grupo de métodos, cuja utlzação tem crescdo rapdamente nos últmos anos, é baseado na suposção de que a dstrbução da população até pode ser normal (ou ter alguma outra forma bem defnda), mas apresentam alguns dados, como os fora da curva, que podem dstorcer esta dstrbução. Essas técncas robustas serão apropradas quando a dstrbução dexa de ser normal.

143 143 A medana - análse ncal dos dados Nas aulas anterores usou-se a méda artmétca como uma medda da tendênca central de um conjunto de dados. Isto é lógco quando a dstrbução normal (smétrca) é assumda, mas na estatístca não-paramétrca, a medana é empregada em substtução à méda. Para se calcular a medana de n observações, estas são arranjadas em ordem ascendente. Dessa forma, o valor da medana será o da ½ (n + 1) ésma determnação se n for mpar e a méda entre os valores da ½ n ésma e da (½ n + 1) se n for par. Exemplo: determne a méda e a medana para os seguntes valores de quatro ttulações: 5,01; 5,04; 5,06; 5,1 ml. É fácl calcular que a méda dessas quatro observações é 5,08 ml e que a méda, no caso o valor médo entre o º e o 3º valor é 5,05 ml. O valor da méda é maor que qualquer um dos três valores mas próxmos (5,01; 5,04 e 5,06) e assm talvez seja uma avalação menos realístca da tendênca central que a medana. Ao nvés de se calcular a medana, poder-se-a utlzar os métodos dscutdos anterormente para caracterzar o ponto 5,1 como fora da reta (outler) e determnar a méda de acordo com o resultado obtdo. Entretanto, esse cálculo envolve um trabalho extra e assume que a dstrbução da população é normal. Esse exemplo smples lustra uma propredade valosa da medana, ela não é afetada por valores fora da curva. Na estatístca não paramétrca, a medda usual de dspersão (em substtução ao desvo padrão) é o ntervalo nterquartílco. Como fo vsto, a medana dvde a amostra de meddas em duas metades guas. Se cada uma dessas metades for posterormente dvdda em dos, esses pontos de dvsão são chamados de quartílcos superor e nferor. A medana e o ntervalo nterquartílco são apenas duas das estatístcas que compõem a Analse Incal de Dados (IDA), também chamada de Análse Exploratóra de Dados (EDA).

144 144 A maor vantagem dos métodos IDA é a sua habldade para ndcar qual método estatístco é mas aproprado para um dado conjunto de dados. Váras técncas smples de apresentação dos dados fornecem ajuda medata. Já fo dscutdo o uso dos gráfcos de pontos na representação de pequenos conjuntos de dados. Esses gráfcos ajudam na dentfcação vsual de pontos fora da curva e outras característcas dos dados. O exemplo segunte ajuda a lustrar seu valor. Exemplo: num expermento par se determnar se os íons Pb + nterferem com a determnação enzmátca de glcose em almentos, nove amostras foram tratadas com uma solução de Pb (II) 0,1 mol L -1, enquanto quatro outras (o grupo de controle) não fo tratado. As velocdades (em undades arbtráras) da reação enzmátca foram meddas e corrgdas para a quantdade de glcose presente. Os resultados encontrados foram: Almentos tratados: 1, 1, 4, 6,, 7, 11, 4, 1. Controles:,, 3, 3. Comentar esses resultados. Separados em duas lnhas como acma, os resultados não aparentam muto sgnfcado medato e um analsta dstraído podera tentar dretamente um teste t, ou talvez um dos testes não paramétrcos descrto abaxo, para verfcar se esses dos conjuntos de resultados são sgnfcantemente dferentes. Entretanto, ao se construr um gráfco de pontos (com cada conjunto representado por um símbolo dferente) as cosas mudam de fgura. Torna-se aparente que esses resultados não são conclusvos e não se pode trar mutas nformações deles, sem outras adções de meddas posterores. As medanas dos dos conjuntos são smlares: 1 para os almentos tratados e,5 para os controles. Entretanto, as varações das velocdades de reação para os materas tratados com Pb (II) são muto grandes. Nesse caso os resultados parecem car em dos grupos dferentes. Cnco dos almentos parecem não ser afetados pelo chumbo, enquanto três outros mostram uma grande nbção e um outro fca mas ou menos no meo desses dos efetos. Anda se deve consderar que um dos pontos de controle pode ser um ponto fora da curva, e

145 145 para sso deve ser testado. Nessas crcunstâncas torna-se evdente que um smples teste de sgnfcânca não trara nformação útl. O uso do mas smples método IDA orentou a evtar testes de sgnfcânca sem sentdo e a realzar mas expermentos. Uma outra técnca smples de representação dos dados, de grande valor quando amostras maores são estudadas é o gráfco da caxa de bgodes. Na sua forma normal, esse dagrama é composto por um retângulo, a caxa, e duas lnhas (o bgode) que se estendem dos vértces opostos da caxa, e uma outra lnha paralela aos mesmos vértces da caxa. As extremdades dos bgodes ndcam o ntervalo dos dados, os vértces da caxa da qual os bgodes saem, representam os quartílos superor e nferor e a lnha que cruza a caxa é a medana dos dados. Esse gráfco mostra, em um olhar, a dspersão e a smetra dos dados. Alguns softwares ncluem anda passos que mostram a exstênca de pontos fora da curva. Nesses casos, os pontos fora da curva são defndos como aqueles menores do que o quartílo nferor, ou maor que o quartílo superor, por um fator maor que 1,5 vez o ntervalo do quartílo. Os bgodes então se estendem apenas aos lmtes superor e nferor ou cercas e os pontos fora da curva são mostrados como pontos separados. Exemplo: suponha que você pesque e meça os comprmentos de 13 pexes em um lago. Os valores obtdos foram: 1, 13, 5, 8, 9, 0, 16, 14, 14, 6, 9, 1, 1 (cm). Que nformação pode-se trar desse conjunto de dados? Incalmente deve-se ordenar esse conjunto em ordem crescente: 5, 6, 8, 9, 9, 1, 1, 1, 13, 14, 14, 16, 0. Agora se encontra a medana de todos os números. Como se tem 13 (ímpar) números, a medana será o sétmo valor. O próxmo passo é determnar o quartílo nferor (medana nferor). Esse é o meo dos ses menores números. O centro exato é a méda entre 8 e 9, que deve ser, então, 8,5. Agora se encontra o quartílo superor (medana superor), que é o meo do ntervalo superor. Seu valor está exatamente entre 14 e 14, o que deve ser gual a 14. Agora pode-se desenhar o gráfco caxa e bgode (Fgura 31). (1), precsa-se desenhar uma lnha de números ordnáros que seja longa o sufcente para nclur todos os

146 146 números dos dados. (), localzar a medana 1, usando uma lnha vertcal acma da lnha de números. (3) localzar o quartílo nferor 8,5 e o superor 14 com lnhas vertcas smlares. (4) desenhar a caxa, usando as pontas das lnhas. Fnalmente, (5) os bgodes são colocados entre o menor e o maor número dos dados (5 e 0) Medana Quartílo nferor Medana Quartílo superor Fgura 31. Caxa de bgodes Mas o que ela sgnfca? Que nformação sobre os dados esse gráfco pode fornecer?

147 147 Bem, é óbvo do gráfco que os comprmentos dos pexes varam de 5 a 0 cm. Isto dá o ntervalo dos dados, 15 cm. Também se conhece a medana ou o valor central dos comprmentos dos pexes, 1 cm. Como as medanas e os quartílos são pontos centras, eles dvdem os dados em quatro regões guas. Assm: Um quarto dos dados é menor que 8,5; Um quarto dos dados está entre 8,5 e 1; Um quarto dos dados está entre 1 e 14; Um quarto dos dados é maor que 14 cm. O teste do snal O teste do snal está entre os mas smples de todos os métodos não paramétrcos, e fo o prmero a ser dscutdo no começo do Século XVIII. Sua forma mas smples pode ser lustrada no exemplo segunte: um preparado farmacêutco deve conter um conteúdo medano de 8% de um componente partcular. Análses sucessvas mostraram, na prátca, que ele contém: 7,3; 7,1; 7,9; 9,1; 8,0; 7,1; 6,8 e 7,3% do consttunte. No nível de sgnfcânca de 5%, esses dados ndcam que a porcentagem ndcada é errada? No teste do snal, a medana postulada é subtraída de cada valor dos dados e o snal de cada resultado é consderado. Os valores guas ao postulado são ntegralmente gnorados. Nesse caso têm-se efetvamente sete valores expermentas, ses dos quas menores que a medana, e assm dando snal negatvo, e um maor que a medana, portanto com snal postvo. Para testar se a preponderânca de snas negatvos é sgnfcante usa-se o teorema bnomal. Esse teorema mostra que a probabldade de r em n snas ser negatvo é dado por: P( r) n r ( nr) Cr p q (79)

148 Onde 148 n C r é o número de combnações de r tens num total de n tens; p é a probabldade de se obter um snal negatvo num únco resultado e q a probabldade de não se obter um snal negatvo em um únco expermento, sso é: 1 p. Como a medana é defnda de tal forma que metade dos resultados expermentas fca acma dela e metade abaxo, é claro que a medana é 8,0 e, nesse caso, tanto p quanto q deve ser gual a ½.Assm, usando-se a equação anteror: 7! 1 P (6) 6!(7 6)! Da mesma manera pode-se calcular que a possbldade de obter sete snas negatvos, P(7), será de 1 / 18. Assm, a probabldade total de se obter ses ou mas snas negatvos no nosso expermento será de 8 / 18. Entretanto, pergunta-se apenas se os dados dferem sgnfcantemente da medana postulada. Precsa-se, assm, fazer um teste bcaudal. Calcula-se a probabldade de se obter ses ou mas snas dêntcos (sso é maor ou gual a ses mas ou maor ou gual a ses menos) quando sete resultados são tomados de manera aleatóra. Isto é, claramente, 16 / 18 = 0,15. Compara-se, então, esse resultado com 0,05, sso é, faz-se o teste com um nível de sgnfcânca de 95%. Como o valor expermental é maor que 0,05, nossa hpótese nula, que os dados veram de uma população com medana de 8,0, não pode ser rejetada. É aparente, desse exemplo, que o teste do snal envolve o uso freqüente da dstrbução bnomal com p = q = ½. Esta aproxmação é tão comum que os valores resultantes são coletados em uma tabela para facltar as contas (Tabela 45). O teste do snal também pode ser utlzado como uma alternatva não paramétrca para o teste t pareado, para comparar dos conjuntos de resultados das mesmas amostras. Assm, se dez amostras forem examnadas com dos métodos, A e B, pode-se testar se os A tabela usa a dstrbução bnomal com P = 0,05 para dar as probabldades de r ou sucessos menores para n = 4 a 15. Esses valores correspondem a um teste de snal mono-caudal e devem ser duplcados para um teste b-caudal.

149 resultados são sgnfcantemente dferentes, calculando, para cada amostra, a dferença entre os resultados dos dos métodos. 149 Tabela 45. O teste do snal. n r = ,063 0,313 0, ,031 0,188 0, ,016 0,109 0,344 0, ,008 0,063 0,7 0, ,004 0,035 0,144 0,363 0, ,00 0,00 0,090 0,54 0, ,001 0,011 0,055 0,17 0,377 0, ,001 0,006 0,033 0,113 0,74 0, ,000 0,003 0,019 0,073 0,194 0,387 0, ,000 0,00 0,011 0,046 0,133 0,90 0, ,000 0,001 0,006 0,09 0,090 0,1 0,395 0, ,000 0,000 0,004 0,018 0,059 0,151 0,304 0,500 A hpótese nula será de que os dos métodos não dão resultados sgnfcantemente dferentes na prátca sso sgnfca, de novo, que a probabldade de se obter um snal postvo (ou negatvo) é 0,5. O número de snas postvos ou negatvos obtdos pode ser comparado com a probabldade dervada da equação bnomal acma. Um outro uso do teste do snal é ndcar a presença de uma tendênca. Essa aplcação é exemplfcada: o nível de um hormôno no plasma sanguíneo de um pacente é meddo na mesma hora por da durante 10 das. Os resultados obtdos estão na Tabela 46. Tabela 46. Nível de um hormôno no plasma sanguíneo de um pacente meddo na mesma hora por da durante 10 das (do exemplo). Da Nível (ng ml -1 ) 1 5,8 7,3 3 4,9 4 6,1 5 5,5 6 5,5 7 6,0 8 4,9 9 6,0 10 5,0

150 150 Há alguma evdênca de tendênca na concentração de hormôno? Usando os métodos paramétrcos sera possível fazer um gráfco de regressão lnear desses dados e testar se a tangente dfere sgnfcantemente de zero. Tal aproxmação assumra que os erros são dstrbuídos normalmente, e que qualquer tendênca sera lnear. A aproxmação não paramétrca é mas smples. Os dados são dvddos em dos conjuntos, com a seqüênca mantda: 5,8; 7,3; 4,9; 6,1; 5,5; 5,5; 6,0; 4,9; 6,0; 5,0. lnha. Os resultados para os das de baxo são subtraídos dos correspondentes da prmera Os snas das dferenças encontradas assm são: ( ). Como usual, o zero é gnorado, dexando quatro resultados postvos. A probabldade de se obter quatro snas dêntcos em quatro tentatvas é claramente (novamente um teste b-caudal): 1 0,15 16 A hpótese nula, de que não há tendêncas, não pode ser rejetada no nível de sgnfcânca de 95%. Esse resultado pode parecer nsatsfatóro, porém é o preço que se paga pela smplcdade do teste. O teste não utlza todas as nformações oferecdas pelos dados, assm ele provê menos nformações. O teste de séres Wald-Wolfowtz Em alguns casos se está nteressado não apenas em quas observações geram snas postvos ou negatvos, mas também em quas desses snas estão em uma seqüênca aleatóra. Na aula anteror observou-se que uma lnha reta ajusta bem os pontos expermentas, então resíduos postvos e negatvos são observados de manera aleatóra. Por contraste, tentar ajustar uma reta num conjunto de dados que estão sobre uma curva produzrá uma seqüênca não aleatóra de snas postvos e negatvos. Encontra-se, por

151 151 exemplo, uma seqüênca de (+) seguda por outra seqüênca de (-) e então outra de (+). Essas seqüêncas são conhecdas tecncamente como séres (runs). No caso de ajuste de curvas é claro que uma seqüênca não aleatóra de (+) ou (-) levará a um número de séres menor do que uma seqüênca aleatóra. O método de Wald-Wolfowtz testa se o número de séres é sufcentemente pequeno para que a hpótese nula de uma dstrbução aleatóra de snas possa ser rejetada. O número de séres em um conjunto de dados é comparado com os números da Tabela 47 (págna 15), que se refere a 5% de nível de confança. Na Tabela 47 entra-se com os valores aproprados de N (o número de snas postvos) e M (o número de snas negatvos). Se o valor obtdo de séres for menor do que o valor tabulado, a hpótese nula deverá ser rejetada. Exemplo: equações de regressão lnear são usadas para ajustar uma lnha reta em um conjunto de 1 pontos de calbração. Os snas dos resíduos resultantes na ordem de aumento de x foram: Comentar se sera melhor ajustar uma curva. Nesse caso, N = M = 6 e o número de séres é três. Na Tabela 47, observa-se que, a 5% de sgnfcânca, o número de séres deve ser < 4 se a hpótese nula deve ser rejetada. Assm, nesse caso, rejeta-se a hpótese nula e conclu-se que as seqüêncas de (+) e (-) não é aleatóra. A tentatva de se ajustar uma lnha reta aos dados, assm, não é satsfatóra e um gráfco de regressão curvlnear devera ser ndcado. O teste de Wlcoxon das séres das ordens assnaladas Em mutos casos, um analsta pode ter razões para supor que suas meddas são dstrbuídas de forma smétrca, mas não deseja fazer qualquer suposção que essa dstrbução seja smétrca. Essa suposção de dados smétrcos, e a conseqüênca de que a méda e a medana da população serão guas, permte o desenvolvmento de um dos mas poderosos testes de sgnfcânca. Seu mecansmo será lustrado como um exemplo: os níves de chumbo do sangue (em pg ml -1 ) de sete cranças foram meddos como: 104, 79,

152 98, 150, 87, 136 e 101. Esses dados podem ter vndo de uma população assumda como smétrco com medana (méda) de 95 pg ml -1? 15 Tabela 47. O teste de séres de Wald-Wolfowtz. N M Menor que: Maor que: NA NA NA NA NA NA NA NA NA Comparados com o valor de referênca (95) os dados têm os valores de: 9, -16, 3, 55, -8, 41, 6. Esses valores são ncalmente arranjados em ordem de magntude, ndependente do snal: 3, 6, -8, 9, -16, 41, 55. Os números são, então, ordenados, mantendo os snas, mas ordenando-os com números em ordem crescente: 1,, -3, 4, -5, 6, 7. Os índces postvos somam 0 e os negatvos 8. O menor desses números (8) é tomado como o teste estatístco. O teorema bnomal dará a probabldade de ocorrer esse número. Se os dados verem de uma população com medana 95 as somas dos índces negatvos e postvos devem ser esperadas como aproxmadamente e numercamente guas. Se a medana da população for dferente de 95, as somas de índces negatvos e postvos são dferentes. A probabldade de uma soma partcular ocorrer na prátca é dada por um conjunto de tabelas.

153 153 Nesse teste a hpótese nula deve ser rejetada se o valor expermental for menor do que ou gual ao valor tabulado. Nesse exemplo, o exame do valor tabelado mostra que, para n = 7, o teste estatístco deve ser menor ou gual a dos para que a hpótese nula - que os dados vêm de uma população com a medana de 95 - possa ser rejetada num nível de sgnfcânca de P = 0,05. Assm, a hpótese nula deve ser claramente retda. Como usual, o teste b-caudal fo usado, apesar de haver casos em que o teste mono-caudal poder ser aproprado. Uma vantagem mportante do teste das ordens assnaladas é que ele pode ser usado em dados pareados, pos esses podem ser transformados no tpo de dados vstos no exemplo anteror. Exemplo: a Tabela 48 dá a concentração porcentual de znco, determnada por dos métodos dferentes, para cada uma das oto amostras de almentos. Tabela 48. Concentração porcentual de znco determnada por dos métodos dferentes para oto amostras de almentos (do exemplo). Amostra Ttulação com EDTA Espectrometra Atômca 1 7, 7,6 6,1 6,8 3 5, 4,6 4 5,9 5,7 5 9,0 9,7 6 8,5 8,7 7 6,6 7,0 8 4,4 4,7 Há alguma evdênca para uma dferença sstemátca entre os resultados dos dos métodos? A aproxmação para esse problema é muto smples. Se não houver uma dferença sstemátca entre os dos métodos, então deve-se esperar que as dferenças entre os dos resultados para cada amostra (sso é, o resultado da ttulação resultado da espectroscopa) devem estar dstrbuídas de forma smétrca em torno de zero. As dferenças ordenadas são: -0,; 0,; -0,3; -0,4; -0,4; 0,6; -0,7; -0,7. Esses resultados apresentam uma dfculdade relaconada com a presença de números repetdos (ndependente dos snas). Para resolver

154 154 esse problema, dá-se um índce médo para cada um dos números repetdos. Assm, a relação de números ordenados fca: -1,5; 1,5; -3,0; -4,5; -4,5; 6,0; -7,5; -7,5. Nesses casos, para se verfcar se a ordenação fo feta corretamente, calcula-se a soma de todos os índces, sem levar em conta os snas. A soma, nesse caso, é 36, que corresponde à soma dos oto prmeros números naturas e, assm, correta. A soma dos índces postvos é 7,5 e a soma dos negatvos é 8,5. Assm, o teste estatístco será feto com o 7,5. Uma análse do valor tabelado mostra que, para n = 8, o teste estatístco tem que ser menor ou gual a três antes da hpótese nula ser rejetada, no nível de sgnfcânca de 0,05. No caso presente, a hpótese nula deve ser retda não há evdêncas que a medana da dferença não seja zero e, assm, nenhuma evdênca para uma dferença sstemátca entre os dos métodos analítcos. Os métodos de Wlcoxon de ordem somada e outros relaconados O método de ordem assnalada anteror é ndcado para o estudo de conjuntos smples de meddas ou de conjuntos pareados que podem ser faclmente reduzdos a um únco conjunto. Em mutos casos, entretanto, é necessáro comparar duas amostras ndependentes que não podem ser reduzdas a um conjunto smples de dados. Essas amostras podem conter conjuntos com dferentes números de dados. Para sso se usa o teste de Wlcoxon de ordem somada, cujo funconamento é mostrado no exemplo: uma amostra de resíduos fotográfcos fo analsada para prata por espectroscopa de absorção atômca, sendo que cnco meddas consecutvas deram os seguntes valores: 9,8; 10,; 10,7; 9,5 e 10,5 µg ml -1. Após um tratamento químco, o efluente fo analsado novamente pelo mesmo procedmento dando os valores de 7,7; 9,7; 8,0; 9,9 e 9,0 µg ml -1. Há alguma evdênca que o tratamento reduz sgnfcantemente o nível de prata? O prmero passo, nesta análse, é ordenar todos os dados (de ambos os conjuntos). Para dstngur aqueles obtdos após o tratamento, é necessáro grfá-los. 7,7; 8,0; 9,0; 9,5; 9,7; 9,8; 9,9; 10,; 10,5; 10,7. A ordem, mantendo os grfos correspondentes, fca assnalada como: 1,, 3, 4, 5, 6, 7, 8, 9, 10. É aparente que, mesmo quando números

155 155 repetdos aparecem (e são tratados como mostrados no tem anteror) a soma de todos os índces é: n n 1 soma (80) Se as meddas para os dos conjuntos de resultados forem ndstnguíves, deve-se esperar que os conjuntos ordenados o sejam de manera aleatóra. A soma dos índces grfados (amostras tratadas) é 18 e a dos não grfados (não tratadas) é 37. Esta soma dos índces deve agora ser convertda nos testes estatístcos T 1 e T pelas equações: T T 1 S 1 S n 1 n n 1 n 1 1 (81) Nessa equação, n 1 = n = 5, assm n (n + 1) / = 15, e T 1 e T são 3 e, respectvamente. O menor desses valores (3) é comparado com o valor aproprado da tabela adequada (Tabela 49). É mportante notar que nesse exemplo fo aplcado o teste monocaudal, pos o método de tratamento químco vsa reduzr o conteúdo de prata (nunca aumentá-lo). A Tabela 49 mostra que para P = 0,05 e n 1 = n = 5, o valor menor de T não deve exceder quatro para que a hpótese nula seja rejetada. Como o valor obtdo fo três, pode-se rejetar a hpótese nula (de que as duas amostras veram da mesma população) e conclur que o tratamento químco fo efcente em reduzr o nível de prata do efluente.

156 Tabela 49. Teste de soma de Wlcoxon; teste-u de Mann-Whtney. Valores crítcos para U ou o menor de T 1 e T para P = 0, n 1 n Teste mono-caudal Teste b-caudal NA NA Testes não-paramétrcos em mas de duas amostras Fo dto anterormente que quando resultados pareados são utlzados, um teste estatístco especal deve ser usado. Esse teste pode ser o teste de Fredman. O procedmento de utlzação desse método é descrto no exemplo: os níves de pestcdas em extratos de quatro plantas foram determnados por: (A) cromatografa líquda de alta efcênca (CLAE), (B) cromatografa gás-líqudo, (C) radomunoensaos. Os resultados obtdos são dados na Tabela 50. Tabela 50. Níves de pestcdas em extratos de quatro plantas meddos com três métodos (do exemplo). Amostra Método A B C 1 4,7 5,8 5,7 7,7 7,7 8,5 3 9,0 9,9 9,5 4,3,0,9 sgnfcatvo? Os valores de níves de pestcdas obtdos pelos três métodos dferem de modo

157 157 Esse problema é resolvdo de manera smples substtundo os números dos dados obtdos por índces. Para cada amostra, o método dando o menor valor é ndcado como um e o que deu maor valor como três. Em caso de repetção, atrbu-se, novamente, o valor médo dos índces para cada um. Tabela 51. Atrbução de índces para os valores obtdos no exemplo. Amostra Método A B C ,5 1, A soma dos índces dos três métodos são 5,5; 8,5 e 10, para os métodos A, B e C, respectvamente. Essas somas devem totalzar nk (k + 1) /, onde k é o número de métodos (aqu três) e n o número de amostras (aqu quatro). As somas dos índces são elevadas ao quadrado, dando 30; 5; 7,5 e 100, respectvamente. Esses quadrados são somados para dar o parâmetro estatístco R, que nesse caso é 0,5. O valor expermental de χ é obtdo, utlzando-se o método da estatístca do ch quadrado: 1 R A RB RC N (8) N N na nb nc Onde as amostras são referdas como 1,, 3, 4, etc. (n amostras no total) e o número de meddas em cada método como n A, n B,, n C, etc. e a soma dos índces como R A, R B, R C, etc. e, fnalmente N = n A + n B + n C + etc. Nesse caso: 1R 3n nk k 1 k 1, 65 Num nível de sgnfcânca de P = 0,05, e com k = 3, os valores crítcos de χ são 6,0; 6,5; 6,4; 7,0; 7,1 e 6, para n = 3, 4, 5, 6, 7 e 8 respectvamente (Dados mas extensvos são fornecdos em mutas tabelas estatístcas e, quando k > 7, as tabelas usuas de χ podem

158 158 ser usadas com k - 1 graus de lberdade). Assm, o valor encontrado aqu,,65, é muto menor que o valor para n = 4 e deve-se, com certeza, reter a hpótese nula, sgnfcando que os três métodos não dferem sgnfcantemente. Métodos não-paramétrcos de regressão Dos mutos métodos dsponíves para ajustar uma lnha reta em um conjunto de dados expermentas, talvez um dos mas smples seja o método ncompleto de Thal. Esse método assume que uma sére de pontos (x 1, y 1 ), (x, y ), etc. é ajustado por uma lnha com equação y = bx + a. O prmero passo nos cálculos envolve ndcar os pontos em ordem crescente de valores de x. Se o número de pontos, x, for mpar, o ponto central, a medana do valor de x, é desprezado. Os cálculos sempre requerem um número par de pontos. Para qualquer par de pontos (x, y ), (x j, y j ), onde x j > x, a tangente, b j, da lnha que lga os pontos é calculada como: b j y x j y x j (83) Tangentes b j são calculadas para cada par de pontos (x 1, y 1 ) e o ponto medatamente consecutvo ao valor médo de x. Para o segundo ponto (x, y ) e o segundo ponto após a medana de x, e assm adante. Assm, se os dados orgnas contverem 11 pontos, cnco tangentes serão encontradas (o ponto medano fo desprezado), se houver oto pontos orgnas, quatro tangentes serão estmadas e assm por dante. Essas tangentes são então arranjadas em ordem crescente e seu valor medano, calculado como descrto anterormente, é a tangente estmada da lnha reta. Com esse valor fnal de b, os valores de a, para o ntercepto, são estmados para cada ponto com a ajuda da equação y = bx + a. Novamente, os valores estmados de a são arranjados em ordem crescente e o valor da medana é escolhdo como a melhor estmatva do ntercepto da lnha. Exemplo: os resultados da Tabela 5 foram obtdos em um expermento de calbração para uma determnação da medda de absorção de um complexo metal quelante.

159 Tabela 5. Dados de expermento de calbração para uma determnação da medda de absorção de um complexo metal quelante. 159 C (μg ml -1 ) Absorbânca 0 0, ,3 0 0, , , , ,4 70 1,4 Usar o método de Thal para estmar a tangente e o ntercepto da melhor reta que se ajusta nos pontos. Nesse caso, os cálculos são smplfcados pela ocorrênca de um número par de observações e pelo fato de que os valores de x (concentrações) ocorrerem em ntervalos regulares, já em ordem crescente. Assm, tem-se que calcular as tangentes estmadas para quatro pares de pontos: b b b b ,84 0, ,86 0,3 40 1,4 0, ,4 0, ,000 0,0158 0,01 0,008 Agora se coloca essas tangentes em ordem crescente, obtendo: 0,0158; 0,000; 0,008; 0,01. A medana das tangentes é, assm, a méda entre 0,000 e 0,008, sso é, 0,004. Agora se usa esse valor para estmar o ntercepto, a, para oto pontos ndvduas:

160 A 160 a a a a a a a a ,04 0,3 0,39 0,59 0,84 0,86 1,4 1,4 0, ,040 0, ,06 0, ,018 0, ,0 0, ,04 0, ,160 0, ,016 0, , 008 Arranjando esses valores de ntercepto em ordem, tem-se: -0,160; - 0,0; -0,018; - 0,008; +0,016; +0,04; +0,06; +0,040. A medana estmada é +0,004. Assm, tem-se uma lnha reta dada por y = 0,004x + 0,004. A técnca dos mínmos quadrados vsta anterormente, calculara, para esses dados, a equação y = 0,0195x + 0,019. A Fgura 3 mostra uma comparação entre os resultados das duas técncas. 1,6 1,4 y = 0,004x + 0,004 1, 1,0 0,8 y = 0,01949x + 0, ,6 0,4 0, 0, C (g ml -1 ) Fgura 3. Comparação entre o método dos mínmos quadrados (lnha vermelha) e o método de Thal para a obtenção da reta de regressão.

161 161 O método de Thal tem três vantagens dstntas em relação ao método anteror: Não assume que todos os erros estão na dreção y; Não assume que os erros em y ou em x estão dstrbuídos de forma normal; Não é afetado pela presença de um ponto fora da curva. Métodos robustos No começo desse tem, postulou-se a crescente evdênca de dstrbuções de erros bastante assmétrcas (chamadas de heavytaled pesadamente caudal), como varações causadas por nterferêncas com a dstrbução normal. Nesses casos, parece ser um desperdíco de nformações utlzar um método não paramétrco, que não faz qualquer proposção sobre a dstrbução de erros. Assm, uma melhor aproxmação sera desenvolver métodos que não excluem totalmente os dados com suspeta de serem dferentes do resto das meddas, ou do valor médo, mas que reduzem o peso de tas dados. Esta é a flosofa por trás dos métodos robustos. Esses métodos podem ser aplcados para meddas repetdas ou para dados de calbração e ou regressão. Um problema óbvo ocorre em vrtualmente todos esses métodos. Se va reduzr o peso de alguns pontos, um ou mas crtéros são necessáros nos quas se baseam as decsões sobre que pontos são esses. Entretanto, não se pode usar esses crtéros a menos que se comece com todo o conjunto de dados. Assm, para resolver esse dlema, métodos teratvos são necessáros. A um chute ncal sobre o valor a calcular segue-se uma estmatva sobre a qual se aplcam os crtéros convenentes, refazem-se os cálculos e reaplcam-se os crtéros novamente. Uma aproxmação bastante útl a esse problema é baseada no conceto de função dstânca. Suponha que se tem uma sére de n resultados x 1,, x n e se quer estmar µ, a méda de resultados confáves. No modo normal, estmatva que se tem de µ, chamado aqu de ˆ, é obtda pela mnmzação da soma dos quadrados x SS.

162 16 Esta soma de termos quadrátcos é a fonte da senstvdade da méda para erros grandes. A expressão (x - µ) é referda como uma função dstânca, pos mede a dstânca do ponto x ao valor médo µ. Em um método estabelecdo, de qualquer medda pela qual x excede cσ, onde c normalmente toma o valor de 1,5 e σ é uma varânca estmada robusta, é efetvamente trada peso como descrto a segur. A varânca robusta é dervada de uma estatístca chamada de desvo absoluto da medana (MAD medan absolute devaton) que é calculada de: MAD medana x medana (84) x Aplcando então esses concetos no conjunto de dados: 0,380; 0,400; 0,401; 0,403; 0,410; 0,411; 0,413. Prmero, é necessáro calcular a MAD. A medana desses números é 0,403 e os desvos ndvduas (sem consderar os snas) são: 0,03; 0,003; 0,00; 0; 0,007; 0,008 e 0,010, que podem ser ordenados em ordem numérca como: 0; 0,00; 0,003; 0,007; 0,008; 0,010 e 0,03. A MAD é a medana desses sete números, sso é, 0,007, assm, ˆ = MAD / 0,6745 (que é uma estmatva robusta de σ) = 0,007 / 0,6745 = 0,0104 e 1,5 é 0,0156. Agora está pronto para começar as estmatvas teratvas de ˆ. Esse processo começa com um chute no valor de ˆ, e pelo cálculo de x ˆ para cada medda. Nesse exemplo, será suposto que o valor ncal de seja a medana, 0,403. Como fo vsto, os desvos ndvduas desse valor são (em ordem numérca e desprezando os snas): 0; 0,00; 0,003; 0,007; 0,008; 0,010 e 0,03. Na prmera teração para ˆ, as meddas orgnas são mantdas se esses desvos da medana forem maores ou guas que 0,0156. Isto se aplca para todos os desvos lstados, menos o últmo. No caso em que o desvo é > 0,0156, o valor orgnal em questão é mudado para ˆ c ˆ ou ˆ c ˆ em função do dado orgnal ser maor ou menor que a medana. No caso presente, o valor 0,380, que deu o maor desvo 0,03, tem que ser mudado para ˆ c ˆ, sso é, 0,403 0,0156 = 0,3874. Agora se tem um novo conjunto de dados, onde a medda 0,380 do conjunto orgnal fo mudada para 0,3874. Esse novo conjunto de números é chamado de um conjunto de pseudovalores ( x~ ), e o

163 cálculo é repetdo usando esse novo conjunto. O prmero passo é calcular a méda desses novos valores, que dá agora 0,4036. Os desvos ndvduas desta estmatva de ˆ são em ordem crescente e sem mportar o snal: 0,0006; 0,006; 0,0036; 0,0064; 0,0074; 0,0094 e 0,016. Como esperado (desde que apenas uma medda era suspeta no níco), apenas o últmo desvo excede 0, Isto sgnfca que a medda em questão é mudada novamente, de 0,3874 para (0,4036-0,0156) = 0,3880. O próxmo conjunto de x~ é o mesmo que o anteror, apenas com o valor 0,3874 substtuído por 0,3880. A nova méda (valor de ˆ ) é então 0,4037. Isto é tão perto do valor anteror que é claramente desnecessáro contnuar fazendo terações. Conclu-se que uma estmatva robusta de ˆ é 0,4037, dga-se 0,404. Esse exemplo é típco em que as terações convergram rapdamente para os valores de ˆ.

164 164 ANEXOS

165 ANEXO A: VALORES CRÍTICOS DE t de Student 165 Nível de Sgnfcânca Graus de , ,5 Lberdade 0,10 0,05 0,05 0,01 0,

166 ANEXO B: VALORES CRÍTICOS DE F (P = 0,05) 166 Teste Monocaudal υ υ ,4 199,5 15,7 4,6 30, 34,0 36,8 38,9 40,5 41,9 43,9 45,9 48,0 18,51 19,00 19,16 19,5 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19, ,13 9,55 9,77 9,117 9,013 8,941 8,887 8,845 8,81 8,786 8,745 8,703 8, ,709 6,944 6,591 6,388 6,56 6,163 6,094 6,041 5,999 5,964 5,91 5,858 5, ,608 5,786 5,409 5,19 5,050 4,950 4,876 4,818 4,77 4,735 4,678 4,619 4, ,987 5,143 4,757 4,534 4,387 4,84 4,07 4,147 4,099 4,060 4,000 3,938 3, ,591 4,737 4,347 4,10 3,97 3,866 3,787 3,76 3,677 3,637 3,575 3,511 3, ,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347 3,84 3,18 3, ,117 4,56 3,863 3,633 3,48 3,374 3,93 3,30 3,179 3,137 3,073 3,006, ,965 4,103 3,708 3,478 3,36 3,17 3,135 3,07 3,00,978,913,845, ,844 3,98 3,587 3,357 3,04 3,095 3,01,948,896,854,788,719, ,747 3,885 3,490 3,59 3,106,996,913,849,796,753,687,617, ,667 3,806 3,411 3,179 3,05,915,83,767,714,671,604,533, ,600 3,739 3,344 3,11,958,848,764,699,646,60,534,463, ,543 3,68 3,87 3,056,901,790,707,641,588,544,475,403, ,494 3,634 3,39 3,007,85,741,657,591,538,494,45,35, ,451 3,59 3,197,965,810,699 3,614,548,494,450,381,308, ,414 3,555 3,160,98,773,661,577,510,456,41,34,69, ,381 3,5 3,17,895,740,68,544,477,43,378,308,34, ,351 3,493 3,098,866,711,599,514,447,393,348,78,03,14 Teste Bcaudal υ υ ,8 799,5 864, 899,6 91,8 937,1 948, 956,7 963,3 968,6 976,7 984,9 993,1 38,51 39,00 39,17 39,5 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39, ,44 16,04 15,44 15,10 14,88 14,73 14,6 14,54 14,47 14,4 14,34 14,5 14,17 4 1, 10,65 9,979 9,605 9,364 9,197 9,074 8,980 8,905 8,844 8,751 8,657 8, ,01 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,55 6,48 6,39 6 8,813 7,60 6,599 6,7 5,988 5,80 5,695 5,600 5,53 5,461 5,366 5,69 5, ,073 6,54 5,890 5,53 5,85 5,119 4,995 4,899 4,83 4,761 4,666 4,568 4, ,571 6, ,053 4,817 4,65 4,59 4,433 4,357 4,95 4,00 4,101 3, ,09 5,715 5,078 4,718 4,484 4,30 4,197 4,10 4,06 3,964 3,868 3,769 3, ,937 5,456 4,86 4,468 4,36 4,07 3,950 3,855 3,779 3,717 3,61 3,5 3, ,74 5,56 4,630 4,75 4,044 3,881 3,759 3,664 3,588 3,56 3,430 3,330 3,6 1 6,554 5,096 4,474 4,11 3,891 3,78 3,607 3,51 3,436 3,374 3,77 3,177 3, ,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,31 3,50 3,153 3,053, ,98 4,857 4,4 3,89 3,663 3,501 3,380 3,85 3,09 3,147 3,050,949, ,00 4,765 4,153 3,804 3,576 3,415 3,93 3,199 3,13 3,060,963,86, ,115 4,687 4,077 3,79 3,50 3,341 3,19 3,15 3,049,986,889,788, ,04 4,619 4,011 3,665 3,438 3,77 3,156 3,061,985,9,85,73, ,978 4,560 3,954 3,608 3,38 3,1 3,100 3,005,99,866,769,667, ,9 4,508 3,903 3,559 3,333 3,17 3,051,956,880,817,70,617, ,871 4,461 3,859 3,515 3,89 3,18 3,007,913,837,774,676,573,464

167 167

Exibir mais