Análise procrustes aplicada à seleção de variáveis
|
|
- Luísa Silva
- 5 Há anos
- Visualizações:
Transcrição
1 Acta Scientiarum ():-,. ISSN -. Análise procrustes aplicada à seleção de variáveis Terezinha Aparecida Guedes* e Ivan Ludgero Ivanqui Departamento de Estatística, Universidade Estadual de Maringá, Av. Colombo,, -, Maringá-Paraná, Brazil. *Author for correspondence. taguedes@maringa.com.br RESUMO. Nos estudos exploratórios multivariados, cujo objetivo é a redução da dimensão do conjunto de variáveis, o principal método utilizado é a análise de componentes principais. Neste método, todas as variáveis originais são, em geral, necessárias para definir os subconjuntos de variáveis. Krzanowski () apresentou uma metodologia que combina a análise de componentes principais e a análise procrustes para determinar o quanto o novo subconjunto de variáveis representa a estrutura dos dados originais. Steiner () utilizou vários métodos para separar grupos e selecionar variáveis em um problema médico. Neste trabalho, foi aplicada a análise procrustes para um conjunto de dados gerado aleatoriamente segundo as distribuições das variáveis definidas por Steiner. O objetivo foi verificar se o subconjunto de variáveis resultantes da análise reproduzem a estrutura original dos dados. Através das análises realizadas, concluiu-se que o método procrustes é uma ferramenta indispensável na seleção de variáveis. Palavras-chave: componentes principais, análise procrustes, análise multivariada. ABSTRACT. Procrustes analysis applied to variables selection. In exploratory multivariate research aiming at the reduction of the, dimension of the variables set, the most frequently used method is the analysis of the principal components. All original variables are generally necessary to define the subset of variables. Krzanowski () has provided a methodology which combines the principal component analysis and the procrustes analysis to determine how much the new subset of variables reproduces the structure of original variables. Steiner () used several methods to separate groups and select the variables in a medical case study. In the present work, the procrustes analysis was applied to a set of data randomly generated according to the variables distributions defined by Steiner. The objective was to verify if the subset of variables resultant from the analysis reproduces the original structure of data. The: results led to the conclusion that the procrustes method is a necessary tool for variables selection in multivariate analysis. Key words: principal components, procrustes analysis, multivariate analysis. Nos estudos exploratórios, em diversas áreas, os pesquisadores lidam com análise de dados provenientes de um grande conjunto de variáveis. Isso ocorre pela dificuldade na identificação, à priori, das variáveis que são importantes para o estudo. Geralmente, o objetivo inicial do pesquisador é reduzir a dimensão de seu conjunto de variáveis sem que a estrutura dos dados seja alterada. A principal técnica exploratória utilizada, nesses casos, é a análise de componentes principais. Esta técnica tem sido abordada por Mardia et al., (), Johnson e Wichern (), Jolliffe (, ) e outros. A principal deficiência desse método é que, enquanto a dimensão pode ser reduzida, todas as variáveis originais são, em geral, ainda necessárias para definir as novas variáveis. Isso pode ser insatisfatório não só pelo fato de que, em muitas situações, muito tempo e recursos terão de ser despendidos, mas também porque não é fácil interpretar uma combinação linear. A seleção e a identificação de variáveis redundantes é, há muito tempo, assunto de interesse nas áreas de aplicação de regressão múltipla e de análise discriminante. Jolliffe () discutiu alguns métodos com base em análise de componentes principais para selecionar um subconjunto de variáveis as quais preservam muito da estrutura das variáveis originais. Krzanowski () apresentou uma metodologia que combina a análise de componentes principais e a análise procrustes para determinar o quanto o novo subconjunto de variáveis representa a estrutura dos dados originais. Ele demonstrou que esta metodologia pode ser uma ferramenta utilizada na caracterização inicial da aplicação de técnicas como
2 Guedes & Ivanqui análise discriminante e análise de agrupamento (cluster analysis). Segundo Krzanowski, na análise discriminante, procura-se selecionar variáveis com o objetivo de maximizar a probabilidade de uma alocação correta dos futuros indivíduos no grupo, enquanto o método proposto seleciona aquelas variáveis que melhor indicam a existência do grupo. Na análise de agrupamento, a amostra é particionada em grupos, o pesquisador geralmente tem interesse em identificar um pequeno número de variáveis que podem ser usadas para descrever os grupos e distingui-los. Steiner () utilizou os métodos: componentes principais, função discriminante linear de Fisher e o de k-vizinhos mais próximos (kmédias) para separar grupos e selecionar variáveis, em um problema médico do qual foram coletados dados clínicos de pacientes, destes possuíam câncer e cálculo, ambos de vesícula biliar. Foram examinadas variáveis e após esse estudo ficou estabelecida a distribuição de probabilidade para cada uma das variáveis. Neste trabalho, será aplicada a análise procrustes para um conjunto de dados gerado aleatoriamente segundo as distribuições das variáveis definidas por Steiner. O objetivo é verificar se o conjunto de variáveis resultantes de análises, no qual a escolha de variáveis é realizada, reproduz a estrutura original dos dados. Análise procrustes Suponha que p variáveis X, X,..., X p foram observadas sobre n indivíduos e que o vetor de observações para o i-ésimo indivíduo seja denotado por X i = (X i, X i,..., X ip ), então a matriz dos dados será denotada por X(nxp). Na análise de componentes principais, as variáveis X, X,..., X p são transformadas linearmente em novas variáveis Y, Y,..., Y p, denominadas componentes principais. Dessa forma, os dados observados X i são também transformados em escores dos componentes principais correspondentes, Y i =(Y i, Y i,..., Y ip ). Assim sendo, a matriz original X de ordem nxp é transformada em uma matriz Y de ordem nxp. A redução da dimensão será importante quando o número de componentes Y i que conservam muito da informação amostral, inerente as variáveis X i, i=,..., p, for menor que p. Nesse caso, as observações originais X i podem ser trocadas pelos primeiros q (q <p) elementos dos escores dos componentes principais correspondentes e pode-se escrever Y i = (Y i, Y i,..., Y iq ). Um gráfico de dimensão q dos escores exibirá uma aproximação da configuração original dos dados. A principal deficiência desse método é que, enquanto a dimensão pode ser reduzida de p para q, todas as p variáveis originais são, em geral, ainda necessárias para definir as q novas variáveis Y i. Suponha que k variáveis foram selecionadas como sendo as essenciais para a análise através de algum método de seleção, tendo sido levado em consideração se a variabilidade dos dados está sendo suficientemente avaliada nesta escolha. Seja Y a matriz dos escores das componentes principais obtida das k variáveis selecionadas, que produz a melhor aproximação da configuração dos dados originais. O objetivo é selecionar q das variáveis originais, onde q < p e p k esperando que as variáveis selecionadas representem a verdadeira estrutura dos dados. Suponha que X ~ denota a matriz de dados que contém somente as k variáveis selecionadas e que Z ~ é a matriz dos escores dos componentes principais do conjunto reduzido de dados. Isto é, a melhor aproximação de dimensão k para a configuração de dimensão q definida pelo subconjunto de dados. Se a verdadeira dimensão dos dados é de fato k, então Y pode ser vista como a verdadeira configuração, enquanto Z ~ é a aproximação correspondente da configuração baseada em somente q variáveis. Para medir a discrepância entre a verdadeira configuração e a obtida pelo subconjunto de dados, uma análise procrustes pode ser realizada. Para isso é necessário encontrar a soma de quadrados da diferença entre os escores correspondentes às configurações. Esta soma de quadrados residual mede a perda de informação sobre a estrutura de dados quando somente q variáveis são utilizadas ao invés das p variáveis originais. Krzanowski () apresentou o diagrama abaixo para mostrar os passos do procedimento: X nxp ACP Y nxk ACP = Análise de componentes principais ACP X ~ nxq Z ~ nxk O objetivo é detectar a perda de informação causada pela retirada de algumas variáveis. Y configuração natural
3 Análise procrustes aplicada à seleção de variáveis Z ~ configuração transformada. A análise procrustes minimiza o traço da matriz de quadrados da diferença entre as duas configurações: Min traço {( Y - Z ~ )( Y - Z ~ ) T }, sob translação rotação e reflexão de Z ~. A solução pode ser obtida rotacionando Z ~ para Z ~ Q. A matriz de rotação é dada por Q = UV T, onde VDU T é a decomposição em valores singulares de Y T Z ~ e então: M = traço {YY T + Z ~ Z ~ T - YQ T Z ~ T } = traço (YY T ) + traço( Z ~ Z ~ T ) - traço(d). () A quantidade dada pela equação acima pode ser calculada facilmente para qualquer subconjunto selecionado e representa a proximidade com que a configuração desse subconjunto selecionado representa a configuração do conjunto original. O melhor subconjunto de variáveis apresentará o menor valor de M entre todos os subconjuntos possíveis. A escolha das variáveis, que irão compor o subconjunto, pode ser realizada através de qualquer método de seleção de variáveis. Na prática, pode-se utilizar o algoritmo procrustes abaixo:. Inicialmente, tome q = p, e para k fixo, calcule a matriz Y de escores dos componentes principais.. Obtenha as matrizes Z ~ de escores dos componentes principais de cada um dos subconjuntos de variáveis selecionadas.. Calcule M, através da equação (), para a matriz Y e para cada uma das outras matrizes ~ Z de escores e identifique o subconjunto de variáveis que resulta o menor M. Obs. No passo () pode-se retirar uma variável de cada vez. No passo () escolher o subconjunto que resultou o menor M e voltar ao passo (). Não há regra de parada. Aplicação. Os dados para a aplicação da análise procrustes foram gerados aleatoriamente, através do programa estatístico SAS, segundo as distribuições de probabilidades das variáveis, conforme obtido por Steiner (). As variáveis e suas distribuições estão apresentadas na tabela a seguir. O método de procrustes foi utilizado através do programa SAS/IML e o procedimento PRINCOM. Tabela. Variáveis relacionadas ao câncer de fígado e suas distribuições de probabilidades Variável Distribuição Média desviopadrão Teste de aderência KS - p-value X - Sexo Binomial p=, σ =,, X - Idade Normal µ=, σ =,, X - Albumina Normal µ=, σ=,, X - Vg Normal µ=, σ=,, X - Bilirrubina µ=, σ =, total α=, β=,, X - Bilirrubina µ=, σ =, direta α=, β=,, X - Bilirrubina µ=, σ =, indireta α=, β=,, X - Sgpt µ=, σ=, α=, β=,, X - Sgot µ=, σ=, α=, β=,, X - Fosfatose µ=, σ=, Alcalinas α=, β=,, X - Amilase µ=, σ=, α=, β=,, X - Tap µ=, σ=, α=, β=,, X - Creatinina µ=, σ=, α=, β=,, X - Leucócitos µ=, α=, Análise do conjunto de dados σ=, β=,, A análise conduzida por Steiner () sugere que menos de variáveis são suficientes para identificar a estrutura do conjunto de dados. Pelo método dos k-vizinhos mais próximos, as variáveis selecionadas foram: sexo, bilirrubina indireta, sgpt (transminases gultâmico-pirúvicas), vg e leucócitos. No ajuste logístico as variáveis selecionadas foram: idade, bilurrubina total, bilurrubina direta, amilase, sgpt (transminases gultâmico-pirúvicas), sgot (transminases oxalacéticos do soro), fosfatases alcalinas e vg. Além destes dois conjuntos de variáveis, foram selecionados mais dois conjuntos: um pelo método de componentes principais e outro pelo método procrustes. Inicialmente, foi realizada uma análise de componentes principais com todas as variáveis e a matriz de escores desses componentes foi obtida. Observou-se que os sete primeiros componentes principais acumulam,% da variação total, indicando que esta matriz é uma boa aproximação da matriz de dados original. Com base nesse resultado e utilizando o método de seleção, através de componentes principais, descrito por Mardia, et al., (), foram selecionadas as seguintes variáveis: Idade, bilirrubina total, bilirrubina direta, sgpt, sgot, fosfatose alcalina e amilase. A seguir, uma nova seleção de variáveis foi realizada utilizando o algoritmo procrustes, descrito acima, para um conjunto de observações. Vários subconjuntos foram obtidos, eliminando-se as variáveis uma a uma, e os seus respectivos quadrados
4 Guedes & Ivanqui médios do resíduo (M ) foram calculados. A Tabela abaixo apresenta os subconjuntos correspondentes aos menores valores de quadrado médio do resíduo. Tabela. Subconjunto de variáveis selecionadas e respectivos valores dos quadrados médios dos resíduos (M ) N º de variáveis eliminadas Variáveis selecionadas M X até X,E- X até X e X,E- X, X até X e X,E- X,X até X,E- X, X até X e X,E- X, X até X,E- X, X, X até X,E- X, X, X até X,E- X, X até X,E- O gráfico dos escores, obtidos através de análise de componentes principais, de cada um dos subconjuntos selecionados foi construído e os que apresentaram configuração semelhante a do conjunto original de dados foram os subconjuntos com,,,,,, variáveis eliminadas. Então, para comparação com os outros conjuntos foi escolhido o conjunto com variáveis eliminadas sendo as variáveis selecionadas: idade, belirrubina total, bilirrubina direta, bilirrubina indireta, sgpt, sgot, fosfatose alcalina e amilase. No presente trabalho, o objetivo foi investigar o quão bem cada um desses quatro subconjuntos selecionados representa a estrutura do conjunto original de dados. Serão realizadas comparações dos resultados obtidos, para os subconjuntos selecionados, através de componentes principais combinada com o método procrustes. Na seqüência, através de análise de componentes principais, foram obtidas as matrizes de escores para cada um dos quatro subconjuntos de variáveis, obtidos pelos métodos estudados e estas foram, então comparadas com a matriz de escores do conjunto completo, através da análise procrustes (Tabela ). Foram construídos os gráficos (Figuras a ) dos dois primeiros componentes principais, para o conjunto de observações, para determinar o quanto os subconjuntos de variáveis capturam a estrutura dos dados originais. Esses gráficos acumulam,%,,%,,%,,% e,%, respectivamente, da variabilidade total dos dados. Tabela. Valores dos quadrados médios dos resíduos (M ) para cada um dos subconjuntos de variáveis obtidos pelos métodos estudados, segundo o tamanho das amostras e número de variáveis selecionadas Métodos Tamanho da amostra Componentes Principais ( variáveis),e-,e-,e-,e- K-vizinhos ( variáveis),,,, Regressão Logística ( variáveis),e-,e-,e-,e- Procrustes ( variáveis),e-,e-,e-,e Figura. Gráfico das observações geradas segundo as todas as variáveis Figura. Gráfico das observações geradas segundo as as variáveis selecionadas pelo método de componentes principais Figura. Gráfico das observações geradas segundo as as variáveis selecionadas pelo método dos k-vizinhos Discussão As somas de quadrados (M ) das análises apresentadas na Tabela fornecem uma ordem de importância aos subconjuntos. O subconjunto de variáveis com o menor valor nessa soma e que apresente uma configuração semelhante a do
5 Análise procrustes aplicada à seleção de variáveis conjunto original de dados é o que melhor representa o conjunto original Figura. Gráfico das observações geradas segundo as as variáveis selecionadas pelo método da regressão logística Figura. Gráfico das observações geradas segundo as as variáveis selecionadas pelo método procrustes Os subconjuntos de variáveis que apresentaram os mais baixos valores para quadrado médio do resíduo (M ) foram obtidos pelos métodos de regressão logística e de procrustes com variáveis cada um. Sendo que a variável bilirrubina indireta aparece no subconjunto selecionado pelo método procrustes e vg aparece no subconjunto selecionado pelo método de regressão logística. Da Tabela observa-se que o método de seleção dos k-vizinhos foi o que apresentou o maior valor para o quadrado médio do resíduo (M ). Ainda na Tabela, pode-se observar que para amostras de tamanho e o menor valor para o quadrado médio do resíduo (M ) foi o obtido pelo método de regressão logística. As representações bidimensionais dos escores dos subconjuntos de variáveis (Figuras a ) revelam quais dos métodos melhor capturam a estrutura do conjunto de dados com todas as variáveis. Pelo gráfico dos escores do conjunto de dados com todas as variáveis (Figura ) pode-se observar dois grupos distintos de observações. Tal configuração é mantida pelos gráficos dos escores dos subconjuntos de dados, obtidos pelos métodos de componentes principais, regressão logística e procrustes. Pelo gráfico dos escores do subconjunto de dados obtido pelo método dos k-vizinhos (Figura ) observa-se que o mesmo não é uma boa aproximação do conjunto original, pois não apresenta a mesma configuração. Assim sendo, dos quatro métodos de seleção de variáveis estudados, o único método que não capturou adequadamente a estrutura dos dados originais foi o dos k-vizinhos. Pode-se observar que não foi utilizada nenhuma regra de parada no algoritmo procrustes, pois não foi encontrada na literatura nenhuma regra definida. Com este estudo, ficou evidenciado que se o objetivo é selecionar subconjuntos de variáveis que preservem a estrutura dos dados originais, o método procrustes é uma ferramenta auxiliar de grande importância na comparação entre a configuração do conjunto original de dados e o conjunto selecionado; embora para a seleção de variáveis o método procrustes não tenha apresentado resultados melhores que os métodos de regressão logística e de componentes principais. Referências bibliográficas Johnson, R.A.; Wichern, D. W. Applied multivariate statistical analysis. New Jersey : Prentice Hall,. Jolliffe. I.T. Discarding variables in a principal components analysis. I: Artificial data. Appl. Statist., :-,. Jolliffe. I.T. Discarding variables in a principal components analysis. I: Real data. Appl. Statist., :-,. Jolliffe. I.T. Rotation of III-defined Principal Components. Appl. Statist., :-,. Krzanowski, W.J. Selection of variables to preserve multivariate data structure, using principal components, Appl. Statist., :-,. Mardia, K.V.; Kent, J.T.; Bibby, J.M. Multivariate Analysis. New York: Academic Press,. Steiner, M.T.A. Reconhecimento de padrão na indústria de papel. Florianópolis,. (Doctoral Thesis in Operation Research) - Universidade Federal de Santa Catarina. Received on September,. Accepted on November,.
Comparando equações de regressão em dados de saúde
Comparando equações de regressão em dados de saúde Terezinha Aparecida Guedes*, Ivan Ludgero Ivanqui e Ana Beatriz Tozzo Martins Departamento de Estatística, Universidade Estadual de Maringá, Av Colombo,
SME0822 Análise Multivariada 2 o semestre de 2014
SME0822 Análise Multivariada 2 o semestre de 2014 Prof. Cibele Russo cibele@icmc.usp.br http://www.icmc.usp.br/ cibele Sala 3-139 Coteia Wiki: http://wiki.icmc.usp.br/index.php/sme0822 7 de agosto de 2014
SME0822 Análise Multivariada 2 o semestre de 2014
SME0822 Análise Multivariada 2 o semestre de 2014 Prof. Cibele Russo cibele@icmc.usp.br http://www.icmc.usp.br/ cibele Sala 3-139 Coteia Wiki: http://wiki.icmc.usp.br/index.php/sme0822 6 de agosto de 2014
SME0822 Análise Multivariada 2 o semestre de Prof. Cibele Russo. Sala 3-113
SME0822 Análise Multivariada 2 o semestre de 2016 Prof. Cibele Russo cibele@icmc.usp.br http://www.icmc.usp.br/~cibele Sala 3-113 2. semestre 2016 1 / 25 Principais objetivos do curso Estudar e desenvolver
INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.
INSTRUÇÕES Para a realização desta prova, você recebeu este Caderno de Questões. 1. Caderno de Questões Verifique se este Caderno de Questões contém a prova de Conhecimentos Específicos referente ao cargo
CONTROLE ESTATÍSTICO DO PROCESSO: ABORDAGEM MULTIVARIADA PARA MEDIDAS INDIVIDUAIS
CONTROLE ESTATÍSTICO DO PROCESSO: ABORDAGEM MULTIVARIADA PARA MEDIDAS INDIVIDUAIS Liane Werner Departamento de Estatística / UFRGS Av. Bento Gonçalves, 9500 - Porto Alegre -RS E-mail: WERNER@MAT.UFRGS.BR
Modelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Técnicas Multivariadas em Saúde
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Ralph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:
Estatística Aplicada à Administração II
Estatística Aplicada à Administração II Tópico: Análise Discriminante (No SPSS e no Minitab) Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 1992 L.J. Corrar; E. Paulo;
5 TORIA ELEMENTAR DA AMOSTRAGEM
5 TORIA ELEMENTAR DA AMOSTRAGEM É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamos mais precisos. Os erros de coleta e manuseio de um grande número de dados são maiores
Aumento amostral via arquétipos na avaliação do potencial hídrico de espécies de eucalipto
Aumento amostral via arquétipos na avaliação do potencial hídrico de espécies de eucalipto Pórtya Piscitelli Cavalcanti 1 4 Carlos Tadeu dos Santos Dias 2 4 Patrícia Andressa de Ávila 3 4 José Leonardo
Modelos de Regressão
Renato Martins Assunção DCC - UFMG 2015 Renato Martins Assunção (DCC - UFMG) 2015 1 / 19 Exemplo de preço de apto Y = y 1 y 2 y 1499 y 1500 b 0 1 1 1 1 + b 1 área 1 área 2 área 1499 área 1500 + b 2 idade
Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação
Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Vanessa Siqueira Peres da Silva 1 2 Daniel Furtado Ferreira 1 1 Introdução É comum em determinadas
SELEÇÃO DE VARIÁVEIS
SELEÇÃO DE VARIÁVEIS objetivo incluir tantas covariáveis quantas forem necessárias para auxiliar na predição do modelo? (1) buscar o menor subconjunto de covariáveis capaz de explicar adequadamente a variação
Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07
-027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA
Introdução a Regressão Linear
Introdução a Regressão Linear 1 Duas pedras fundamentais em econometria: 1) Modelo de Regressão Linear 2) OLS método de estimação: Mínimos Quadrados Ordinários técnica algébrica / estatística Modelo de
Introdução a Regressão Linear
Introdução a Regressão Linear 1 Duas pedras fundamentais em econometria: 1) Modelo de Regressão Linear 2) OLS método de estimação: Mínimos Quadrados Ordinários técnica algébrica / estatística Modelo de
ESTUDO COMPARATIVO DOS ESCORES FATORIAIS E DE COMPONENTES PRINCIPAIS EM DADOS ARQUEOMÉTRICOS.
ESTUDO OMPRTIVO DOS ESORES FTORIIS E DE OMPONENTES PRINIPIS EM DDOS RQUEOMÉTRIOS. P.T.M.S. Oliveira, IME-USP,poliveir@ime.usp.br.. S. Munita, IPEN-NEN/SP, munita@curiango.ipen.br RESUMO: Em estudos arqueométricos
PREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO
PREFERÊNCIA DO CONSUMIDOR: UM ESTUDO DE CASO COM APLICAÇÃO DE ANÁLISE CONJUNTA E MODELOS DE REGRESSÃO Gustavo Rocha Aquino González 1 Ana Paula Barbosa Sobral 2 Jane Azevedo da Silva 3 Raquel Campanate
Disciplina de Modelos Lineares
Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique
Coeficiente de determinação R 2 no modelo de regressão linear normal
Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br
Classificação de alimentos em relação à suas informações nutricionais por meio da Análise Multivariada
Classificação de alimentos em relação à suas informações nutricionais por meio da Análise Multivariada Lucas Santana da Cunha 1 Sonia Maria de Stefano Piedade 2 1 Introdução A presença de informações nutricionais
Aula 2 Uma breve revisão sobre modelos lineares
Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar
DELINEAMENTO INTEIRAMENTE CASUALIZADO. Profª. Sheila Regina Oro
DELINEAMENTO INTEIRAMENTE CASUALIZADO Profª. Sheila Regina Oro Delineamento experimental Para planejar um experimento é preciso definir os tratamentos em comparação e a maneira de designar os tratamentos
REGRESSÃO E CORRELAÇÃO
REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,
Estatística. Probabilidade. Conteúdo. Objetivos. Definições. Probabilidade: regras e aplicações. Distribuição Discreta e Distribuição Normal.
Estatística Probabilidade Profa. Ivonete Melo de Carvalho Conteúdo Definições. Probabilidade: regras e aplicações. Distribuição Discreta e Distribuição Normal. Objetivos Utilizar a probabilidade como estimador
PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING
PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de
Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Regularização Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani Introdução: Regressão Linear Considere o exemplo referente
Cap. 4 - Estimação por Intervalo
Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO
MAE Modelos Lineares Generalizados 2 o semestre 2017
MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z?
i j i i Y X X X i j i i i
Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão
Técnicas Multivariadas em Saúde
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
ESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05
ESTATÍSTICA EXPERIMENTAL ANOVA. Aula 05 Introdução A ANOVA ou Análise de Variância é um procedimento usado para comparar a distribuição de três ou mais grupos em amostras independentes. A análise de variância
Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada
MBA ANALYTICS OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de decisão com base nas
6- Probabilidade e amostras: A distribuição das médias amostrais
6- Probabilidade e amostras: A distribuição das médias amostrais Anteriormente estudamos como atribuir probabilidades a uma observação de alguma variável de interesse (ex: Probabilidade de um escore de
Seleção de Variáveis e Construindo o Modelo
Seleção de Variáveis e Construindo o Modelo Seleção de modelos candidatos A idéia é selecionar um conjunto menor de variáveis explanatórias de acordo com algum(s) critério(s), e assim selecionar o modelo
SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná
SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná aanjos@ufpr.br Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->
Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo
Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais
Análise de Regressão Linear Simples e
Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Estimativas e Tamanhos de Amostras
Estimativas e Tamanhos de Amostras 1 Aspectos Gerais 2 Estimativa de uma Média Populacional: Grandes Amostras 3 Estimativa de uma Média Populacional: Pequenas Amostras 4 Tamanho Amostral Necessário para
Mario de Andrade Lira Junior
Mario de Andrade Lira Junior www.lira.pro.br 1 Apenas uma breve apresentação Para não dizerem que nunca viram Um conjunto de técnicas de análise que usa diversas variáveis dependentes simultaneamente Mais
Otimização Combinatória - Parte 4
Graduação em Matemática Industrial Otimização Combinatória - Parte 4 Prof. Thiago Alves de Queiroz Departamento de Matemática - CAC/UFG 2/2014 Thiago Queiroz (DM) Parte 4 2/2014 1 / 33 Complexidade Computacional
AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
29 e 30 de julho de 2013
Programa de Pós-Graduação em Estatística e Experimentação Agronômica ESALQ/USP 29 e 30 de julho de 2013 Dia 2 - Conteúdo 1 2 3 Dados multivariados Estrutura: n observações tomadas de p variáveis resposta.
Ralph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Agradecimentos
ESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário (bootstrap) Este método foi proposto por Efron
Programa de Educação Tutorial PET Departamento de Estatística-UFSCar
UMA AVALIAÇÃO DA TAXA DE CONSUMO DE ENERGIA NO ESTADO DE SÃO PAULO Flavia Da Silva Costa Julia Pettan Victor de Andrade Corder Victor José Sanches de Souza Pedro Ferreira Filho Programa de Educação Tutorial
Análise de clusters usando classes latentes
Análise de clusters usando classes latentes João Branco Departamento de Matemática, IST XIV Congresso SPE, 27-30 Set. 2006 Covilhã Poucos dados/muitos dados p. 0/23 Sumário 1. Variáveis latentes 2. Modelos
Capítulo 10 - Identificação de Sistemas Não Lineares: Algoritmos
Capítulo 10 - Identificação de Sistemas Não Lineares: Algoritmos Prof. Samir Martins UFSJ-CEFET/MG Programa de Pós Graduação em Engenharia Elétrica - PPGEL São João del-rei, 16 de outubro de 2018 1 / 31
Intervalos de Confiança - Amostras Pequenas
Intervalos de Confiança - Amostras Pequenas Teste de Hipóteses para uma Média Jorge M. V. Capela, Marisa V. Capela, Instituto de Química - UNESP Araraquara, SP capela@iq.unesp.br Araraquara, SP - 2016
DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)
1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância
Esse material foi extraído de Barbetta (2007 cap 13)
Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos
Delineamento e Análise Experimental Aula 4
Aula 4 Castro Soares de Oliveira ANOVA Significativa Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que existem diferenças entre as médias populacionais.
Disciplina de Modelos Lineares Professora Ariane Ferreira
Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Analysis of Variance. Wagner Oliveira de Araujo
Analysis of Variance Wagner Oliveira de Araujo Technical Report - RT-MSTMA_001-09 - Relatório Técnico April - 2009 - Abril The contents of this document are the sole responsibility of the authors. O conteúdo
7 a Lista de Exercícios Assunto: Funções e passagem por referência com vetor e matriz (Tópico 7)
7 a Lista de Exercícios Assunto: Funções e passagem por referência com vetor e matriz (Tópico 7) Essa lista de exercícios tem como objetivo principal desenvolver algoritmos a partir dos conteúdos abordados
Função prcomp. 1. Introdução
Função prcomp 1. Introdução Apresentamos alguns exemplos de utilização da função prcomp do pacote stats em R. Esta função permite realizar uma análise de componentes principais a partir de uma matriz de
ANÁLISE DE RESULTADOS
ANÁLISE DE RESULTADOS Conteúdo 2 1. Planejamento de Experimentos 2. Introdução Medidas de Desempenho Análise Estatística dos Resultados Comparação de Resultados Procedimento para análise de resultados
Inferência Estatística: Conceitos Básicos II
Inferência Estatística: Conceitos Básicos II Distribuição Amostral e Teorema do Limite Central Análise Exploratória de dados no SPSS Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação
Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná
Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante
BAC011 - ESTATÍSTICA ANÁLISE DE VARIÂNCIA. Análise de Variância ANOVA. Prof. Dr. Emerson José de Paiva
BAC011 - ESTATÍSTICA Análise de Variância ANÁLISE DE VARIÂNCIA 1 A é utilizada para se verificar a influência de certos fatores sobre uma resposta de interesse. Testa-se como os diversos fatores exercem
AULA 07 Inferência a Partir de Duas Amostras
1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,
Mineração de Dados. Análise e Seleção de Variáveis
Mineração de Dados Análise e Seleção de Variáveis 1 Análise e Seleção de Variáveis Parte da uma área chamada de Redução de Dados Obtenção de uma representação reduzida em volume mas que produz resultados
Análise de Dados Longitudinais Aula
1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva
CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011
CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Modelos Probabilísticos para a Computação Professora: Andréa Rocha UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011 CORRELAÇÃO Introdução Quando consideramos
ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2
COMO USAR ESTE LIVRO ÍNDICE PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 Variáveis, Populações e Amostras 1.1. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA 27 1.2. POPULAÇÃO VS. AMOSTRA
MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel
MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,
UNIVERSIDADE FEDERAL DE SANTA MARIA PROGRAMA DE DISCIPLINA
UNIVERSIDADE FEDERAL DE SANTA MARIA PROGRAMA DE DISCIPLINA DEPARTAMENTO: ENGENHARIA RURAL IDENTIFICAÇÃO DA DISCIPLINA: CÓDIGO NOME ( T - P ) EGR 1006 AJUSTAMENTO DE OBSERVAÇÕES GEODÉSICAS (2-1) OBJETIVOS
Uma nova abordagem para a análise de agrupamento com uma aplicação em agronomia
Uma nova abordagem para a análise de agrupamento com uma aplicação em agronomia Bruno de Athayde Prata ; Sílvia Maria de Freitas. Resumo A Estatística Multivariada, por avaliar múltiplas variáveis em uma
EDITAL SIMPLIFICADO DE SELEÇÃO PARA ALUNOS ESPECIAIS DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E TECNOLOGIA DE ALIMENTOS 2º SEMESTRE LETIVO DE 2017
EDITAL SIMPLIFICADO DE SELEÇÃO PARA ALUNOS ESPECIAIS DO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E 2º SEMESTRE LETIVO DE 2017 O Programa de Pós-Graduação em Ciência e Tecnologia de Alimentos da Fundação Universidade
Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais
Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais João Eduardo da Silva Pereira (UFSM) jesp@smail.ufsm.br Tânia Maria Frighetto (UFSM) jesp@smail.ufsm.br
SSC546 -Avaliação de Desempenho de Sistemas
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC546 -Avaliação de Desempenho de Sistemas Parte 1 -Aula 2 Sarita Mazzini Bruschi Material
Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM
Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM Noções básicasb de Inferência Estatística descritiva inferencial População - Parâmetros desconhecidos (reais) Amostra
PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) EXPERIMENTOS COM DOIS FATORES E O PLANEJAMENTO FATORIAL
PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) EXPERIMENTOS COM DOIS FATORES E O PLANEJAMENTO FATORIAL Dr Sivaldo Leite Correia CONCEITOS E DEFINIÇÕES FUNDAMENTAIS Muitos experimentos são realizados visando
Utilização de estratificação e modelo de regressão logística na análise de dados de estudos caso-controle
Utilização de estratificação e modelo de regressão logística na análise de dados de estudos caso-controle Using of stratification and the logistic regression model in the analysis of data of case-control
Regressão linear múltipla
Pós-Graduação em Agronomia - CPGA-Solos Análise Multivariada Aplicada as Ciências Agrárias Regressão linear múltipla Carlos Alberto Alves Varella Objetivo da disciplina Ensinar modelagem estatística de
Razão para rejeitar H 0
Processo do teste de hipótese Hipótese de pesquisa: a idade média da população é 5 H : μ = 5 H 1 : μ 5 É X = improvável se μ =5? População Selecionar amostra aleatória Sim: Rejeite Ho Para definir pouco
CONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B
Estatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Algoritmo para simular uma fila Medidas de interesse Média amostral Aula de hoje Teorema do Limite Central Intervalo de Confiança Variância amostral
Seminário de Análise Multivariada
Seminário de Análise Multivariada Capítulo 1 - Introdução Conteúdo 1 Introdução 1 11 Aplicações de Técnicas Multivariadas 2 12 Organização de Dados 3 121 Arranjos 3 122 Exemplo 11 - Seleção de recibos
ANOVA - parte I Conceitos Básicos
ANOVA - parte I Conceitos Básicos Erica Castilho Rodrigues 9 de Agosto de 2011 Referências: Noções de Probabilidade e Estatística - Pedroso e Lima (Capítulo 11). Textos avulsos. Introdução 3 Introdução
Análise de Componentes Principais Simbólicas
Análise de Componentes Principais Simbólicas Universidade Federal de Pernambuco CIn.ufpe.br Análise de Componentes Principais O objetivo da análise de componentes principais é explicar a estrutura de variânciacovariância
Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística
Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística José Edson Rodrigues Guedes Gondim 1 Joab de Oliveira Lima 2 1 Introdução
Testes de hipóteses Paramétricos
Testes de hipóteses Paramétricos Modelos de análise de variância com um factor Teste de Bartlett Teste de comparações múltiplas de Scheffé Rita Brandão (Univ. Açores) Testes de hipóteses Paramétricos 1
Trabalho de Conclusão de Curso
Universidade Estadual do Oeste do Paraná Ciência da Computação Trabalho de Conclusão de Curso Comentários sobre Realização de Experimentos Retomando... O Projeto Introdução Objetivos finais e parciais
Estatísticas Inferenciais Distribuições Amostrais. Estatística
Estatística Na descrição dos conjuntos de dados x 1,..., x n, não foi feita menção ao conceito de população. Estatísticas inferenciais: preocupadas com a fonte dos dados e em tentar fazer generalizações
Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise
F- Classificação. Banda A
F- Classificação Classificação Digital é associar determinado pixel a determinada categoria por meio de critérios estatísticos Banda B? da d b dc Espaço dos Atributos Classes Banda A Classificação: ordenar,
Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza
Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes
CAPÍTULO 6 * JOGOS NA FORMA ESTRATÉGICA COM INFORMAÇÃO COMPLETA
CAPÍTULO 6 * JOGOS NA FORMA ESTRATÉGICA COM INFORMAÇÃO COMPLETA Objetivos: Definir a forma normal ou estratégica para representação de jogos estáticos com informação completa e desenvolver os conceitos
Conceitos centrais em análise de dados
Conceitos centrais em análise de dados Conceitos básicos em Estatística Estatística Ciência que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação dos dados. Divide-se
Modelagem em Experimentos Mistura-Processo para Otimização de Processos Industriais
Luiz Henrique Abreu Dal Bello Modelagem em Experimentos Mistura-Processo para Otimização de Processos Industriais Tese de Doutorado Tese apresentada como requisito parcial para obtenção do título de Doutor
Comparativos dos Modelos Finlay e Wilkinson e Modelo AMMI para Analisar Interação Genótipo Ambiente do Feijão
Comparativos dos Modelos Finlay e Wilkinson e Modelo AMMI para Analisar Interação Genótipo Ambiente do Feijão Tatiana Oliveira Gonçalves de Assis 1 2 Nathielly Lima do Rêgo 1 Carlos Tadeu dos Santos Dias
Função prcomp em R. 1. Introdução
Função prcomp em R 1. Introdução Apresentamos alguns exemplos de utilização da função prcomp do pacote stats em R. Esta função permite realizar uma análise de componentes principais a partir de uma matriz