Análise de Dados Composicionais Via Árvores de Regressão

Documentos relacionados
Análise de Dados Composicionais Via

MÉTODOS GEOESTATÍSTICOS BASEADOS EM MODELOS, APLICADOS A DADOS COMPOSICIONAIS NA CLASSIFICAÇÃO DE SOLOS

MÉTODOS GEOESTATÍSTICOS BASEADOS EM MODELOS, APLICADOS A DADOS COMPOSICIONAIS NA CLASSIFICAÇÃO DE SOLOS

Uma introdução aos modelos uni e multivariados de classificação e regressão por árvores. Cesar Augusto Taconeli Departamento de Estatística - UFPR

Predição Espacial Bayesiana Para Dados Composicionais

Análise espacial de dados composicionais 56 a RBRAS e 14 o SEAGRO

Marcelo Marcante AVALIAÇÃO DA DIFICULDADE DE APLICADAS A EMPRESAS EXPORTADORAS - UMA APLICAÇÃO DE ÁRVORES DE REGRESSÃO MULTIVARIADAS

Aumento amostral via arquétipos na avaliação do potencial hídrico de espécies de eucalipto

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008

QUALIDADE DO AR USO DE ACP PARA EXPLICAR A RELAÇÃO DE FATORES METEOROLÓGICOS E MATERIAL PARTICULADO NO MUNICÍPIO DE JUNDIAÍ (SP)

PLANO DE ENSINO MÉTODOS ESTATÍSTICOS II. 1) IDENTIFICAÇÃO Disciplina: Método Estatístico II Código da Disciplina:

Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz

Perfil geoestatístico de taxas de infiltração do solo

Predição do preço médio anual do frango por intermédio de regressão linear

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de setembro a 01 de outubro de 2010

METÓDOS DE REGRESSÃO KERNEL

INFLUÊNCIA DA TEXTURA DO SOLO SOBRE OS PARÂMETROS DOS MODELOS DE VAN GENUCHTEN E BROOCKS E COREY. Donizete dos Reis Pereira, Danilo Pereira Ribeiro

Análise de Dados Longitudinais Aula

UNIVERSIDADE ESTADUAL PAULISTA PLANO DE ENSINO DA DISCIPLINA

INTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva

SME0822 Análise Multivariada 2 o semestre de 2014

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE BOTUCATU FACULDADE DE CIÊNCIAS AGRONÔMICAS PROGRAMA DE PÓS-GRADUAÇÃO EM AGRONOMIA AGRICULTURA

SME0822 Análise Multivariada 2 o semestre de 2014

VARIABILIDADE ESPACIAL DA CONDUTIVIDADE ELÉTRICA NO SOLO EM UM TALHÃO DE LARANJA: AMOSTRAS EM GRIDES REGULARES. Lucas Santana da Cunha 1 RESUMO

UTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO. Gabriel Tambarussi Avancini 1 RESUMO

SME0822 Análise Multivariada 2 o semestre de Prof. Cibele Russo. Sala 3-113

Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística

Ralph S. Silva

VALIDAÇÃO DO MODELO PELO USO DE MEDIDAS DE NÃO LINEARIDADE

2 Modelos Não Lineares

Análise do crescimento vegetal por meio de modelo não linear via regressão isotônica

Aplicação da análise de regressão na contabilidade do custo de produção do milho

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE BOTUCATU PROGRAMA DE PÓS-GRADUAÇÃO EM AGRONOMIA ENERGIA NA AGRICULTURA PLANO DE ENSINO

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de setembro a 01 de outubro de 2010

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

ISSN Palavras-chave: Hierarquização geométrica, espaços de Hilbert, simulação estocástica.

Como oferecer serviços com as melhores técnicas para lucratividade aos produtores rurais e às empresas

Comparação de modelos para reconstituição de superfície de valores de ph. Comparison of models for reconstruction of ph values surface

APLICAÇÃO DA GEOESTATÍSTICA NA ANÁLISE DE EXPERIMENTOS COM MAMONA (Ricinus communis L.)

Técnicas Multivariadas em Saúde

Estimação da abundância por idades, da Pescada (Merluccius merluccius), usando métodos geoestatísticos bayesianos e análise de dados composicionais

Modificação do teste de Tukey para uso sob heterocedasticidade e desbalanceamento

Árvores de decisão e seus refinamentos na predição genômica da resistência à ferrugem alaranjada em café arábica

Distribuição Generalizada de Valores Extremos (GVE): Um estudo aplicado a valores de temperatura mínima da Cidade de Viçosa-MG

Estatística Aplicada à Administração II. Tópico. Análise de Componentes Principais

Estudo dirigido de Análise Multivariada

Utilização de diferentes estimadores de semivariância com modelo teórico exponencial

Uso da regressão logística na determinação da influência dos caracteres agronômicos durante a seleção massal em cana-deaçúcar

ANÁLISE ESTATÍSTICA DE DADOS COMPOSICIONAIS LONGITUDINAIS

Avaliação climatológica da cidade de Uberlândia por meio da Análise de Componentes Principais

Aula 2 Uma breve revisão sobre modelos lineares

Ajuste e comparação de modelos para dados grupados e censurados

Transformação de dados como alternativa a análise variância. univariada

RESOLUÇÃO Nº 01/2016

III Simpósio de Geoestatística Aplicada em Ciências Agrárias

Disciplina de Modelos Lineares Professora Ariane Ferreira

Teste modificado de Tukey: avaliação do poder e eficiência

Consistência de agrupamentos de acessos de alho via análise discriminante

Análise Multivariada Aplicada à Contabilidade

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

DISTRIBUIÇÃO POSTERIOR MULTIVARIADA COM APROXIMAÇÃO GAUSSIANA USANDO RECURSOS DO R

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO Centro de Ciências Exatas Departamento de Estatística

Avaliação da distribuição normal bivariada em dados de afilamento de fustes em povoamentos clonais de Eucalyptus sp.

1 Introdução aos Métodos Estatísticos para Geografia 1

ESTUDO COMPARATIVO DOS ESCORES FATORIAIS E DE COMPONENTES PRINCIPAIS EM DADOS ARQUEOMÉTRICOS.

Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal.

Introdução à estatística univariada através da linguagem R

Anais do Seminário de Bolsistas de Pós-Graduação da Embrapa Amazônia Ocidental

Modelo geoestatístico composicional

Notas de aulas de Mecânica dos Solos I (parte 9) com respostas do exercício

Teste para a diferença entre duas distribuições espaciais de vespas (Hymenoptera: Vespidae) predadoras do bicho-mineiro do cafeeiro

Análise da série temporal do desemprego em regiões metropolitanas do Brasil

COKRIGAGEM. Aplicação da cokrigagem

3 Modelos e metodologias comparadas

Aula ministrada no contexto da disciplina SER301 - Análise Espacial de Dados Geográficos do curso de pós-graduação em Sensoriamento Remoto no INPE.

Mestrado Profissional em Administração

Ralph S. Silva

Avaliação do coeficiente de variação na experimentação com cana-de-açúcar. Introdução

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Key words: Stratification, R project, yield forecast. Eng. Eletricista, Embrapa Meio Ambiente, Jaguariúna, SP,

Aplicação dos modelos lineares generalizados na análise do

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz

Fundamentos de Inteligência Artificial [5COP099]

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Estimação do desemprego em pequenas áreas

Modelos lineares mistos para análise de dados longitudinais provenientes de ensaios agronômicos

Técnicas Multivariadas em Saúde

Análise Multivariada. Distribuição Normal Multivariada. Roteiro. Lupércio França Bessegato Dep. Estatística/UFJF

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Estatística Aplicada à Administração II

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo

Redes de Computadores sem Fio

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Modelando Variabilidade Espacial da Compactação do Solo:

Distribuição espacial dos atributos físicos do solo no Horto Florestal São Benedito

GERAÇÃO DE UM ÍNDICE DE FERTILIDADE PARA DEFINIÇÃO DE ZONAS DE MANEJO EM AGRICULTURA DE PRECISÃO

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Transcrição:

Análise de Dados Composicionais Via Árvores de Regressão Ana Beatriz Tozzo Martins - PPGMNE/UFPR-DES/UEM Cesar Augusto Taconeli - DEST/UFPR Paulo Justiniano Ribeiro Junior - LEG/UFPR Antônio Carlos Andrade Gonçalves - DAG/UEM. 4 de fevereiro de 2009

Roteiro de Apresentação 1. Introdução 2. Dados Composicionais 3. CART 4. Metodologia 5. Resultados 6. Conclusão

Introdução Dados composicionais: Ciências da Terra: dados expressos como frações ou porcentagens. Exemplos: textura de solos; composição química de uma rocha; Aitchison (1986). estruturas de dados resultantes de algoritmos de classificação. Walvoort, D. J. J. e Gruijter, J.J. (2001).

Introdução Dados Composicionais: Aitchison (1986); Análise Geoestatística de Dados Composicionais: Pawlowsky-Glahn e Olea (2004); Inferência Bayesiana de Dados Composicionais Sem Efeito Espacial: Obage (2007); Inferência Bayesiana Espacial: Tjelmeland e Lund (2003);

Introdução CART -Classification and Regression Trees: Modelagem não paramétrica de uma variável resposta categorizada (classificação) ou numérica (regressão) com base em um conjunto de covariáveis e interações entre as mesmas; Breiman et al. (1984).

Introdução Árvores de Classificação e Regressão - CART: Breiman et al. (1984); CART para Análise de Dados Multivariados: Segal (1992), Zhang (1998), De Ath (2002) e Lee (2005), Taconeli (2008).

Introdução Modelar dados composicionais via CART extensão da proposta apresentada em Taconeli (2008); a distância de Aitchison, no lugar dos coeficientes de dissimilaridades.

Dados Composicionais Butler e Glasbey (2008): Registram informação sobre frequências relativas associadas a diferentes componentes de um sistema. Aitchison (1986): a. Vetores cujos elementos são proporções de algum todo. b. Composição: Vetor Ȳ = (Y 1, Y 2,..., Y B ) satisfazendo: Y 1 0,..., Y B 0; Y 1 + Y 2 +... + Y B = 1. c. Espaço Amostral: S B = {Ȳ R B ; Y i > 0, i = 1,..., B; j Ȳ = 1}

Dados Composicionais Argila Areia Silte Figura: Diagrama ternário das porcentagens de areia, silte e argila.

Dados Composicionais Base: Vetor W (x ), x Ω R n com componentes medidos na mesma escala e positivos. Espaço Amostral: R B + = {W (x ) R B ; W i (x ) > 0, i = 1,..., B} Operador fechamento: Base Composição C : R B + S B (x ) (x ) (x )] = W W C[W j (x ) W, j vetor de 1 s.

Dados Composicionais Aitchison (1986), Aitchison e Egozcue (2005), Tolosana-Delgado et al. (2005): Operações que definem uma estrutura de espaço vetorial de dimensão B 1 no simplex. 1. Perturbação ( ) : operação comutativa; 2. Potência ( ) : produto externo.

Dados Composicionais Perturbação: Multiplicação de composições componente a componente e divisão de cada componente pela soma de todos. Ȳ 1 Ȳ 2 = (Y 11, Y 12,..., Y 1B ) (Y 21, Y 22,..., Y 2B ) = C(Y 11 Y 21, Y 12 Y 22,..., Y 1B Y 2B ).

Dados Composicionais Potência: análogo à multiplicação por um escalar no espaço real. α (Y 11, Y 12,..., Y 1B ) = C(Y α 11, Y α 12,..., Y α 1B). Vetor de diferenças composicionais: Ȳ 1 Ȳ 2 = Ȳ 1 ( 1 Ȳ 2 ).

Dados Composicionais Centro: cen(ȳ) = 1 g s (g(y 1 ) g(y 2 )... g(y B )) g(y i ) - média geométrica do i-ésimo componente g s = g(y 1 ) + g(y 2 ) +... + g(y B ).

Dados Composicionais Efeito de correlação espúria (Pawlowsky e Olea, 2004): Covariâncias sujeitas à controles não estocásticos interpretação errônea da estrutura de covariância espacial; Singularidade da matriz de covariância de uma composição.

Dados Composicionais Graf (2006): Soma constante correlação negativa entre os componentes. Aitchison (1986): Propõe transformação que generaliza a transformação logística Y ln para um vetor composicional de 2 partes; 1 Y Magnitudes relativas ou razões interpretação estatística. tratabilidade e Transformações logísticas: Aitchison (1982), Aitchison et al. (2000), Odeh et al. (2003).

Dados Composicionais Transformação razão log-aditiva (ALR): ALR : S B R B 1 Ȳ(x ) ALR[Ȳ(x )] = ( ln Y 1(x ) Y B (x ),..., ln Y ) B 1(x ). Y B (x ) Pawlowsky et al. (1995), Pawlowsky e Olea (2004).

Dados Composicionais Produto interno: < Ȳ 1, Ȳ 2 >= B i=1 ( ) ( ) Y1i Y2i ln ln. g(ȳ 1 ) g(ȳ 2 ) Distância de Aitchison: d(ȳ 1, Ȳ 2 ) = B ( ( ) ( ) ) 2 Y1i Y2i ln ln g(ȳ 1 ) g(ȳ 2 ) i=1

CART CART -Classification and Regression Trees: Modelagem não paramétrica; Execução de sucessivas partições binárias de uma amostra, buscando a constituição de sub-amostras menos heterogêneas. Variável dependente: Numérica Árvore de Regressão Categórica Árvore de Classificação

CART Atrativos Procedimento de simples aplicação; Possibilidade de modelar dados com estruturas complexas: Dados desbalanceados; Dados faltantes; Grande número de variáveis independentes. Detecção de interações de ordens elevadas; Ausência de pressuposições paramétricas; Produção de resultados facilmente interpretáveis.

CART Representação Nó Incial Ramo Nó Intermediário Nó Final Ramo Nó Final Nó Final

CART Construção do Modelo Partição dos nós; Minimizar a heterogeneidade dos nós produzidos; Baseada em uma medida de impureza. Poda; Obtenção de uma seqüência aninhada de árvores. Seleção do modelo; Baseada em alguma medida de qualidade preditiva. Caracterização dos nós finais. Segundo a distribuição dos resultados em cada nó.

Metodologia Dados: Gonçalves (1997) CART - Extensão multivariada: Taconeli (2008). ESALQ-USP

Metodologia Integração das metodologias: Modelagem dos dados composicionais por meio de árvores de regressão considerando a distância de Aitchison como medida de impureza e de qualidade preditiva na construção dos modelos. Seja d(ȳ k, Ȳ k ) a distância de Aitchison calculada para duas composições k e k. Medida de impureza de um nó t(φ Dis (t)): ( ) nt (n t 1) 1 φ Dis (t) = nt k=1 k<k 2 d(ȳ k, Ȳ k ) sendo n t o número de composições em t.

Metodologia Medida de qualidade de predição: φ Dis (Ȳ ) = k t d(ȳ, Ȳ k ) n t. Análise Fatorial: estimação das cargas fatorais e escores por componentes principais - mínimos quadrados ordinários com rotação varimax. Estimativas dos escores fatoriais considerados covariáveis no modelo de regressão por árvores.

Resultados Tabela: Cargas fatoriais Variável F1 F2 F3 Comunalidade Ph-CaCl2 0, 876 0, 85 Matéria orgânica 0, 848 0, 77 Fósforo 0, 711 0, 61 Potássio 0, 531 0, 36 Cálcio 0, 806 0, 82 Magnésio 0, 783 0, 83 Hidrogênio+Alumínio 0, 873 0, 79 Densidade global 0, 765 0, 75 Densidade da partícula 0, 807 0, 68 Porosidade total 0, 965 0, 98 Altura do terreno 0, 681 0, 70 Var. Acum 0, 29 0, 52 0, 74

Resultados Distancia Media 0.32 0.34 0.36 0.38 0.40 1 2 3 4 5 6 7 8 Tamanho da arvore (nos) Figura: Curva de custo-complexidade.

Resultados Nó 1 Nó 2 F2<1,15 Nó 3 F2>=1,15 n=13 Nó 4 F3<0,44 Nó 5 F3>=0,44 n=26 Nó 6 Nó 7 F2<0,13 n=27 F2>=0,13 n=15 Figura: Árvore de regressão.

Resultados Fatores considerados na construção da árvore: 2 e 3; Associação das variáveis matéria orgânica, fósforo, potássio, altura do terreno (Fator 2), densidade global, densidade da partícula e porosidade total (Fator 3) com a composição do solo; Variáveis do Fator 1: Ph-Cacl2, cálcio, magnésio, hidrogênio+alumínio não estão associadas à composição do solo.

Resultados Fator 3 2 1 0 1 2 2 1 0 1 2 Fator 2 Figura: Gráfico de dispersão dos escores fatoriais para o segundo e terceiro fatores.

Resultados Caracterização dos nós quanto às covariáveis: Pontos verdes - nó 3: Matéria orgânica, fósforo, potássio e altura do terreno em quantidade pequena nas amostras de solo; Pontos azuis - nó 6: Elevados teores de matéria orgânica, fósforo, potássio, elevada altura do terreno em detrimento a baixa densidade global e altas densidade de partícula e porosidade total;

Resultados Caracterização dos nós quanto às covariáveis: Pontos vermelhos - nó 7: Baixas quantidades de matéria orgânica fósforo, potássio e baixa altura do terreno em relação à altas dendidade de partículas e porosidade total mas elevada densidade global; Pontos pretos - nó 5: Alta densidade global em detrimento à baixas densidade de partícula e porosidade total.

Resultados Argila Areia Silte Figura: Diagrama ternário das porcentagens de areia, silte e argila.

Resultados Composicao media 0.0 0.2 0.4 0.6 0.8 Areia Silte Argila No 3 No 5 No 6 No 7 No final Figura: Distribuição da composição média segundo os nós.

Resultados Caracterização dos nós finais quanto à composição: Nó 3, pontos verdes, representam composições com maiores teores de argila e mais silte do que areia dentre todos os nós; Nó 5, pontos pretos, representam composições com maior equiĺıbrio entre os componentes. Nó com composições menos argilosas em relação aos outros; Nó 6, pontos azuis, não se destaca, exceto por grande quantidade de argila. Seria uma composição intermediária; Nó 7, pontos vermelhos, com exceção do nó 3 é composto por composições mais argilosas.

Resultados y 0 50 100 150 0 50 100 150 x Figura: Localização espacial dos pontos amostrais em que os símbolos representam os grupos de frações granulométricas identificados pela análise

Conclusão Resultados produzidos permitiram identificar propriedades do solo associadas às composições, estabelecendo hierarquia entre as variáveis físico-químicas na explicação das frações granulométricas.

Bibliografia AITCHISON, J. The statistical analysis of compositional data. Journal of the Royal Statistical Society, Series B, v. 44, n.2, p. 139-177, 1982. AITCHISON, J. The statistical analysis of compositional data. New Jersey: The Blackburn Press, 1986. BREIMAN, L.; FRIEDMAN, J. H.; OLSHEN, R. A.; STONE, C. J. Classification and regression trees. California: Wadsworth International Group, 1984. 358p. BUTLER, A.; GLASBEY, C. A latent Gaussian model for compositional data with zeros. Journal of the Royal Statistical Society, Series C, v.57, n.5, p.505-520, 2008. DE ATH, G. Multivariate Regression Trees: A New Technique for Modeling Species-Environment Relationships. Ecology, Brooklin, v.83, n.4, p.1105 1117, 2002.

Bibliografia GONÇALVES, A. C. A. Variabilidade espacial de propriedades físicas do solo para fins de manejo da irrigação. 1997. 119p. Tese (Doutorado em Agronomia) - Escola Superior de Agricultura Luiz de Queiroz. Universidade de São Paulo, Piracicaba. GRAF, M. Precision of compositional data in a stratified two-stage cluster sample: comparison of the swiss earnings structure survey 2002 and 2004. Survey Research Methods Section, ASA, Session 415: Sample Survey Quality V, p.3066 3072, 2006. Disponível em: <http://www. amstat.org/sections/srms/proceedings/y2006/files/jsm2006-000771.pdf>. Acesso em: 18/05/08. JOHNSON, R. A.; WICHERN, D. W. Applied statistical analysis. Fourth. USA: Prentice Hall, 1998. LEE, S. K. On generalized multivariate decision tree by using GEE. Computational Statistics & Data Analysis, Amsterdan, v.49, n.4, p.1105 1119, 2005.

Bibliografia OBAGE, S. C. Uma análise bayesiana para dados composicionais. 2007. 69p. Dissertação (Mestrado em Estatística) - Universidade Federal de São Carlos, São Carlos. PAWLOWSKY-GLAHN, V.; OLEA, R. A. Geostatistical analysis of compositional data. New York: Oxford University Press, Inc., 2004. R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. Vienna, Austria, 2008. Disponível em: http://www.r-project.org. Acesso em: 28 nov. 2008. SEGAL, M. R. Tree-structured methods for longitudinal data. Journal of the American Statistical Association, Boston, v.87, p.407 418, 1992.

Bibliografia TACONELI, C. A. Árvores de classificação multivariadas fundamentadas em coeficientes de dissimilaridade e entropia. 2008. 99p. Tese (Doutorado em Estatística e Experimentação Agronômica) Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo, Piracicaba. TJELMELAND, H.; LUND, K. V. Bayesian modelling of spatial compositional data. Journal of Applied Statistics, v.30, n.1, p.87 100, 2003. ZHANG, H. P. Classification trees for multiple binary responses, Journal of the American Statistical Association, Boston, v.93, p.180 193, 1998. WALVOORT, D. J. J.; GRUIJTER, J. J. Compositional kriging: A spatial interpolation method for compositional data. Mathematical Geology, v.33, n.8, p. 951-966, nov 2001.

OBRIGADA PELA ATENÇÃO!

Agradecimentos UEM/DES - Universidade Estadual de Maringá/Departamento de Estatística PPGMNE - Programa de Pós-Graduação em Métodos Numéricos em Engenharia LEG - Laboratório de Estatística e Geoinformação CNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológico