INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

Documentos relacionados
À QUIMIOMETRIA: Como explorar grandes conjuntos de dados químicos. Prof. Dr. Marcelo M. Sena (DQ-UFMG)

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

Universidade Católica Portuguesa Faculdade de Ciências Económicas e Empresariais. ESTATÍSTICA MULTIVARIADA 1º. Semestre 2004/05

29 e 30 de julho de 2013

5 Análise Multivariada dos Dados 5.1. Quimiometria

Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Departamento de Ciência Política

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 5 Análise Factorial de Componentes Principais

Bibliografia Recomendada.

ANÁLISE QUÍMICA INSTRUMENTAL. Calibração de equipamentos/curva analítica

Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Departamento de Ciência Política

Knowledge and Information Centre (KIC) Survey - DRAFT.xlsx 4/15/2013 1

Ralph S. Silva

Função prcomp. 1. Introdução

8. Análise em Componentes Principais - ACP

Parte 3 - Produto Interno e Diagonalização

Prof. Dr. Marcone Augusto Leal de Oliveira UFJF CURSO INTRODUTÓRIO DE 12 HORAS OFERECIDO PARA A PÓS-GRADUAÇÃO DA UFABC EM NOVEMBRO DE 2017

G3 de Álgebra Linear I

Estudo dirigido de Análise Multivariada

Análise Multivariada Aplicada à Contabilidade

III Congresso Português de Demografia. Maria Filomena Mendes Isabel Tiago de Oliveira

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Análise de Componentes Principais (PCA)

RICARDO PAES DE BARROS

ALGEBRA LINEAR 1 RESUMO E EXERCÍCIOS* P1

Álgebra Linear I - Aula Forma diagonal de uma matriz diagonalizável

Função prcomp em R. 1. Introdução

Aula 5 - Produto Vetorial

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Sensoriamento Remoto II

Lista de Álgebra Linear Aplicada

Álgebra Linear I - Aula Bases Ortonormais e Matrizes Ortogonais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

IDENTIFICAÇÃO DE TECIDO COM ATEROSCLEROSE PELO MÉTODO DE ANALISE DO COMPONENTE PRINCIPAL. Thiago Siqueira Pinto, Landulfo Silveira Junior

Comparativos dos Modelos Finlay e Wilkinson e Modelo AMMI para Analisar Interação Genótipo Ambiente do Feijão

Representação esquemática de estruturas de dados

Seminário Qualidade do Ar Interior Porto, 4 de Junho de 2009

PROCESSAMENTO DIGITAL DE IMAGENS (SERP11) TRANSFORMAÇÕES LINEARES: COMPONENTES PRINCIPAIS, TASSELED CAP, IHS. Daniel C. Zanotta

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Técnicas Multivariadas em Saúde

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Multicolinariedade e Autocorrelação

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Classificação. David Menotti.

Análise Discriminante

Ajustamento de Observações

FECUNDIDADE E MERCADO DE TRABALHO

CORRELAÇÃO E REGRESSÃO

Transformação dos dados. Analise de Componentes Principais - PCA

Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Departamento de Ciência Política

Perspetivas para a construção até 2014

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões PCA. Luiz Eduardo S. Oliveira, Ph.D.

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

A Ética em Processos de Expatriação 24 de Outubro de Mauricio Rossi

QUI346 ESPECTROFOTOMETRIA

Classificação de Folhas por Tamanho e Forma Através de Descritores Geométricos e Análise dos Componentes Principais

Bibliografia Recomendada

Conectando Tecnologias

O Veículo Eléctrico na perspectiva da mobilidade

Reconhecimento de Padrões. Principal Component Analysis (PCA) Análise dos Componentes Principais

Modelo de Regressão Múltipla

QUEM PERDE E QUEM GANHA COM A REFORMA DA PREVIDÊNCIA? UMA ANÁLISE PELA VARIAÇÃO DA RIQUEZA ATUARIAL DO CIDADÃO BRASILEIRO

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO

A visão dos pacientes sobre o accesso à inovação na Europa. Daniela Mothci, Gerente de Projetos, IAPO

Regulamento dos Produtos de Construção - As novas exigências para a Marcação CE

Considerações de Desempenho

GAAL - Exame Especial - 12/julho/2013. Questão 1: Considere os pontos A = (1, 2, 3), B = (2, 3, 1), C = (3, 1, 2) e D = (2, 2, 1).

CM005 Álgebra Linear Lista 3

Análise de Regressão Linear Simples e

Matrizes. Lino Marcos da Silva

Formas Quádricas Cônicas hlcs

Curso de Formação em Planeamento da Ação Estratégica de Promoção da Qualidade das Aprendizagens

Geovan Tavares, Hélio Lopes e Sinésio Pesco PUC-Rio Departamento de Matemática Laboratório Matmidia

Back Propagation. Dicas para o BP

Introdução a Regressão Linear

Introdução a Regressão Linear

Classificação quimiométrica de vinagres usando espectros UV-Vis

Técnicas Multivariadas em Saúde

EUROPA, EUROPA ORIENTAL, ISRAEL, TURQUIA, NORUEGA E REINO UNIDO VÁLIDO DESDE 1 DE SETEMBRO A 31 DE OUTUBRO 2016

Análise de Componentes Principais (PCA) no Scilab. Matriz de dados analisados: Copa do Mundo de 2002 Resultados da primeira fase, Grupos C e E

7 Resultados e Discussão

Métodos Quantitativos Aplicados

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais

Tratamento estatístico de observações geodésicas

Análise de Componentes Principais Simbólicas

Recuperação de Informações por Álgebra Linear Computacional

G4 de Álgebra Linear I

ASSIM VAI O MUNDO ALGUMAS GRANDES TENDÊNCIAS MARCANTES. VÍTOR BENTO Outubro 2016

Correlação e Regressão

Análise de Correspondência (ANACOR)

Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa

PROCESSAMENTO DE IMAGENS

Lista de Exercícios III. junho de 2005

Análise de dados em Geociências

5. Seja R : R 3 R 3 uma rotação em torno do eixo gerado por (0, 0, 1). Suponha que R mande o vetor

Álgebra Linear I - Aula 14. Roteiro

Revisão de Álgebra Linear

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

P4 de Álgebra Linear I de junho de 2005 Gabarito

Tratamento Estatístico de Dados em Física Experimental

artus BK Virus QS-RGQ Kit

Transcrição:

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOS MÓDULO 03 Unidade Universitária de Ciências Exatas e Tecnológicas UnUCET Anápolis 1

2 MÓDULO 03 Análise de Componentes Principais (PCA) do inglês Principal Component(s) Analysis

3 Correlação É comum a presença de correlação em qualquer tipo de dados! Exemplo: altura média vs. idade de um grupo de crianças pequenas Observa-se uma forte relação linear entre altura e idade. Para crianças pequenas, altura e idade estão Altura (cm) 84 83 82 81 80 79 78 77 76 75 18 20 22 24 26 28 30 Idade (meses) correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).

Correlação em espectroscopia 4 Exemplo: um composto puro é medido em dois comprimentos de onda para várias concentrações Conc. (MMol) 5 10 Intensidade a 230nm 0,166 0,332 Intensidade a 265nm 0,090 0,181 Absorbância 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 λ 230 λ 265 15 20 25 0,498 0,664 0,831 0,270 0,362 0,453 0.1 0 200 210 220 230 240 250 260 270 280 290 300 Comprimento de onda (nm)

Correlação em espectroscopia 5 As intensidades a λ 230 e a λ 265 são altamente correlacionadas. Os dados não têm duas dimensões, mas apenas uma. Existe apenas um fator gerando os dados: concentração ão. Absorbância a 265nm (unidades) 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 Aumento da concentração 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Absorbância a 230nm (unidades)

A matriz de dados 6 Dados podem ser representados na forma de uma matriz: variáveis objetos 0,12 0,14 0,13 M 0,15 0,45 0,34 0,24 M 0,22 0,65 0,93 0,85 M 0,78 K K K O L 0,29 0,81 0,33 M 0,65 Por exemplo, Espectroscopia: amostra comprimento de onda Processo contínuo: tempo T, P, taxa de fluxo etc. Análises ambientais: amostras (em função do espaço ou do tempo) variáveis

Matriz de Dados 7 Dados químicos multivariados (espectros) podem ser arranjados na forma de uma tabela de dados. Amostras Matriz de Dados X Variáveis

Grandes quantidades de dados 8 Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. Um espectro de infravermelho medido para 50 amostras produz uma matriz de dados de dimensões 50 800 = 40.000 números! 100 variáveis de processo medidas a cada minuto durante um dia produzem uma matriz de dimensões 1440 100 = 144.000 números!! É necessária uma maneira de extrair a informação importante de matrizes de dados tão grandes.

9 Principal Component Analysis Redução dos dados A PCA transforma grandes matrizes de dados em matrizes menores, as quais podem ser mais facilmente examinadas, plotadas e interpretadas. Exploração dos dados A PCA extrai os fatores mais importantes (componentes principais - CPs) dos dados, preservando a maior parte da variância. Esses fatores descrevem as interações multivariadas entre as variáveis medidas e revelam tendências subjacentes aos dados. Interpretação dos dados As CPs podem ser usadas para classificar amostras, identificar compostos através da obtenção de seus espectros puros, determinar quais as variáveis fundamentais para um processo, etc.

Diferentes visões da PCA 10 Estatisticamente, a PCA é uma técnica de análise multivariada relacionada com Análise de autovetores/autovalores Decomposição em valores singulares (SVD) Em termos matriciais, a PCA é um método para decompor X em duas matrizes menores (T e P) mais uma matriz de resíduos (E): X = TP T + E Geometricamente, a PCA é uma técnica de projeção, na qual, a matriz X é projetada num sub-espaço de dimensões reduzidas.

PCA: matemática 11 A equação básica para a PCA é escrita como X = = T T T t1 p1 + t2p2... + trpr TP T + E + E onde X (I J) é uma matriz de dados, T (I R) são os escores, P (J R) são os pesos ( loadings ) e E (I J) são os resíduos. R é o número de CPs usados para descrever X.

Componentes Principais (CPs( CPs) 12 Uma CP é definida por um par de vetores pesos e vetores escores: t r,p r As CPs descrevem o máximo de variância (= informação) e são calculadas em ordem decrescente de importância CP. % de X explicada % total de X explicada 1 2 3 4 45,6 45,6 23,9 69,5 18,1 87,6 1,3 88,9 e assim por diante... até 100%

PCA: matrizes 13 pesos X = + escores componente principal... + = P T + E T

14 Escores & pesos Escores relações entre objetos ortogonais, T T T = matriz diagonal Pesos relações entre variáveis ortonormais, P T P = matriz identidade, I Similaridades e diferenças entre objetos (ou variáveis) podem ser vistas através de gráficos em que os escores (ou pesos) são plotados uns contra os outros.

PCA: projeção simples 15 Caso mais simples : duas variáveis correlacionadas 84 83 82 CP1 8 6 4 gráfico de escores Altura (cm) 81 80 79 78 CP2 PCA Escores CP 2 (0,23%) 2 0-2 77-4 76-6 75 18 20 22 24 26 28 30 Idade (meses) -8-8 -6-4 -2 0 2 4 6 8 Escores CP 1 (99,77%) A CP1 descreve 99,77% da variação total em X. A CP2 descreve a variação residual (0,23%).

PCA: projeções 16 A PCA é uma técnica de projeção. Cada linha de cada matriz de dados X (I J) pode ser considerada como um ponto no espaço J- dimensional. Esses dados são projetados ortogonalmente em um sub-espaço de menor dimensionalidade. No exemplo anterior, dados de duas dimensões foram projetados em um espaço de uma dimensão, ou seja, em uma linha. Agora, nós iremos projetar dados de J dimensões em um espaço de duas dimensões, ou seja, um plano.

17 = + X = T P T + E

CP: reta na direção de maior variação das amostras 18 - x 2 A θ 2 θ1 + p 1 =cosθ 1 p 2 =cosθ 2 x 1 (A) pesos são os ângulos do vetor direção (B) escores são as projeções nas amostras na direção de CP x 2 6 4 5 B t 1 3 t 2 1 2 CP x 1

Exemplo: Dados Proteínas 19 Foi estudado o consumo de proteínas na Europa. 9 variáveis descrevem diferentes fontes de proteína. Os 25 objetos são os diferentes países. A matriz de dados tem as dimensões 25 9. Quais países são semelhantes? Quais alimentos estão correlacionados com o consumo de carne vermelha? Weber, A., Agrarpolitik im Spannungsfeld der internationalen Ernaehrungspolitik, Institut fuer Agrarpolitik und marktlehre, Kiel (1973).

20

PCA nos dados de proteínas 21 Os dados são centrados na média e cada variável é autoescalada para variância um. A PCA é então aplicada. Variância Percentual Capturada pelo Modelo PCA Número de Autovalor % Variância % Variância Componentes de Capturada Capturada Principais Cov(X) por este CP Total --------- ---------- ---------- ---------- 1 4,01e+000 44,52 44,52 2 1,63e+000 18,17 62,68 3 1,13e+000 12,53 75,22 4 9,55e-001 10,61 85,82 5 4,64e-001 5,15 90,98 6 3,25e-001 3,61 94,59 7 2,72e-001 3,02 97,61 8 1,16e-001 1,29 98,90 9 9,91e-002 1,10 100,00 Quantos componentes principais você quer escolher? 4 Autovalores 4.5 4 3.5 3 2.5 2 1.5 1 0.5 Autovalores vs. Número de CPs 0 1 2 3 4 5 6 7 8 9 Número de CPs

22 Escores: CP1 vs CP2 2 Albania 1 Ireland Austria Netherlands Finland Switzerland Czechoslovakia Hungary Bulgaria Romania Yugoslavia Escores CP 2 (18,17%) 0-1 -2 West Germany Sweden UK Belgium Denmark East Germany France Norway Poland USSR Italy Greece Spain -3 PC 2-4 Portugal -5-3 -2-1 0 1 2 3 4 Escores CP 1 (44,52%)

23 Pesos 0.6 0.4 CP1 CP2 0.2 0 Pesos CP -0.2-0.4-0.6-0.8 Red meat White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg

24 Gráficos Bivariados (Biplots) PERMITEM VISUALIZAR OS ESCORES E OS PESOS SIMULTANEAMENTE

25 Biplot: : CP1 vs CP2 2 1 0-1 CP 2-2 -3-4 Eggs Milk Albania White meat Cereals Bulgaria Austria Romania Yugoslavia Netherlands Ireland Switzerland Hungary Finland Czechoslovakia Red meat West Germany Sweden UK USSR Belgium Denmark East Germany Italy Poland France Norway Beans/nuts/oil Greece Starch Spain Fruit & veg Fish Portugal Europeus do SE comem muito cereais CP2 indica que os espanhóis e os portugueses gostam especialmente de frutas, vegetais e peixes. -5-5 -4-3 -2-1 0 1 2 3 4 5 CP 1

26 Biplot: : CP1 vs CP3 4 White meat 3 Os holandeses gostam de batata...com maionese!? 2 1 CP 3 0 Eggs Fruit & veg Hungary Poland Starch East Austria Germany Czechoslovakia West Germany Netherlands Spain Belgium Italy Ireland France Portugal Switzerland USSR Cereals Bulgaria Yugoslavia Romania Beans/nuts/oil Carne vermelha e leite estão correlacionados -1-2 Milk Denmark UK Sweden Red meat Fish Norway Finland Greece Albania -3-5 -4-3 -2-1 0 1 2 3 4 5 CP 1 Escandinavos comem muito peixe!

Resíduos 27 Também é importante examinar os resíduos do modelo, E. Idealmente, os resíduos não deverão conter nenhuma estrutura - apenas variação aleatória (ruído). 1.5 Variação Residual 1 0.5 0-0.5-1 1 2 3 4 5 6 7 8 9 Número da variável

Resíduos 28 Os resíduos (quadrados) do modelo podem ser somados ao longo da direção dos objetos ou das variáveis: J 2 Q i = e ij j = 1 Q (soma dos resíduos quadrados) 3.5 3 2.5 2 1.5 1 0.5 0 0 5 10 15 20 25 Número do objeto País 23 (URSS) se ajusta ao modelo de maneira pior

Pré-processamento dos dados 29 Na maioria das vezes, nós estamos interessados nas diferenças entre os objetos, não nos seus valores absolutos. Dados de proteínas : diferenças entre países Dados ambientais : diferenças entre amostras de diferentes locais ou em função do tempo Se diferentes variáveis são medidas em diferentes unidades, algum tipo de escalamento (normalização) é necessário para dar a cada variável a mesma chance de contribuir para o modelo. Dados ambientais: ph e [Mg] possuem escalas muito diferentes

Centrando 30 os dados na média Subtrair a média de cada coluna de X: x = 6,6 6,5 6,3 6,7 37,2 35,5 36,2 38,1 10245 11857 10548 10711 6,525 36,75 10840 Centrar na média 0,075 0,025 0,225 0,175 x = 0,450 1,250 0,550 1,350 595,2 1016 292,3 129,.3 0,0 0,0 0,0

31 Autoescalando os dados Dividir cada coluna de X por seu desvio padrão: 0,075 0,450 595,2 0,025 1,250 1016 0,225 0,.550 292,3 0,175 1,350 129,3 σ = 0,171 1,139 704,8 Escalamento 0,439 0,.146 1,318 1,025 σ = 1,0 0,395 1,098 0,483 1,.186 1,0 0,845 1,.443 0,415 0,183 1,0

Quantos CP s usar? 32 X = TP T + E Poucos CP s: alguma variação sistemática deixa de ser descrita. O modelo não consegue descrever os dados completamente. Muitos CP s: variação sistemática resíduo (ruído) Os últimos CP s descrevem apenas ruído. O modelo não é robusto quando aplicado a novos dados. Como selecionar o número correto de CP s?

Quantos CP s usar? 33 Gráfico de Autovalores 4.5 4 Eigenvalue vs. PC Number 3.5 Eigenvalue 3 2.5 2 Saliência aqui selecionar 4 CP s 1.5 1 0.5 Selecionar os componentes quando % variância explicada > nível do ruído Interpretar os escores e os pesos das CP s: Eles fazem sentido?! Os resíduos têm estrutura? Validação cruzada 0 1 2 3 4 5 6 7 8 9 PC Number

Amostras anômalas (Outliers( Outliers) 34 Outliers são objetos que são muito diferentes do resto dos dados. Eles podem ter um grande efeito no modelo (na CP) e devem ser removidos. 18 18 16 16 T ( o C) 14 12 10 Remover outlier T ( o C) 14 12 10 8 8 6 6 4 1 1.5 2 2.5 3 3.5 4 4.5 ph 4 1 1.5 2 2.5 3 3.5 4 4.5 ph Experimento anômalo

Amostras anômalas (Outliers( Outliers) 35 Outliers também podem ser encontrados no espaço do modelo ou nos resíduos. Escores CP 2 6 4 2 0-2 -4-6 -8-8 -6-4 -2 0 2 4 6 8 Escores CP 1 Soma-dos-quadrados dos resíduos 14 12 10 8 6 4 2 0 22 24 26 28 30 32 34 36 38 40 42 Tempo (min)

Amostras anômalas (Outliers( Outliers) 36 Podem ser avaliadas através dos resíduos, Q i, e do seu peso no modelo (estimado pelo valor de T 2 de Hotelling, T i2 ). T i2 é a soma dos escores ao quadrado e é uma medida da variação (da influência) de cada amostra dentro do modelo PCA. T i 2 = t i λ -1 t i T onde t i é o vetor escore da i-ésima amostra e λ -1 éo autovalor correspondente à CP. Intervalos de confiança podem ser estimados para os valores de Q i e T i2. Espera-se que as distribuições de Q i e T i2 sigam a normalidade (lembre-se do TLC). Amostras com altos resíduos (mal modeladas) e altos valores de T 2 (alta influência no modelo) devem ser consideradas outliers.

37

A extrapolação do modelo não é 38 recomendável 300 250 Altura (cm) 200 150 mas não é válido p/ a faixa de 30 anos! O modelo linear foi válido para essa faixa de idade... 100 50 0 0 5 10 15 20 25 30 Idade (anos)

Conclusões 39 A análise de componentes principais (PCA) reduz grandes matrizes colineares a umas poucas matrizes de escores e de pesos: X = = T T T t1 p1 + t2p2... + trpr TP T + E + E Componentes Principais (CP s) descrevem a variação mais importante nos dados. são calculados em ordem de importância. são ortogonais.

Conclusões 40 Gráficos de escores e biplots podem ser muito úteis para a exploração e o entendimento dos dados. Freqüentemente, é necessário centrar na média e escalar as variáveis antes da análise. A escolha do número correto de CP s é um passo importante na construção de um modelo PCA.

41 Agradecimentos Prof. Age K. Smilde UNIVERSITY OF AMSTERDAM