[4] 2) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo.

Documentos relacionados

2. Representação Numérica

4 Segmentação Algoritmo proposto

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Sugestão de Roteiro para Elaboração de Monografia de TCC

Exercícios Teóricos Resolvidos

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

6 Construção de Cenários

Correlação e Regressão Linear

Protocolo em Rampa Manual de Referência Rápida

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Preparação do Trabalho de Pesquisa

Capítulo 7 Medidas de dispersão

Aula 4 Estatística Conceitos básicos

4 Avaliação Econômica

Módulo 4. Construindo uma solução OLAP

Material Teórico - Módulo de Divisibilidade. MDC e MMC - Parte 1. Sexto Ano. Prof. Angelo Papa Neto

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

CAPÍTULO 5 CONCLUSÕES, RECOMENDAÇÕES E LIMITAÇÕES. 1. Conclusões e Recomendações

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Indicamos inicialmente os números de cada item do questionário e, em seguida, apresentamos os dados com os comentários dos alunos.

Organização e Arquitetura de Computadores I

Sistema de avaliação da tarefa 47 da fase 5

Hoje estou elétrico!

PMBoK Comentários das Provas TRE-PR 2009

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

Modelo Cascata ou Clássico

3 Classificação Resumo do algoritmo proposto

Modelagem e Simulação Material 02 Projeto de Simulação

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

Aula 5 Técnicas para Estimação do Impacto

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

ANÁLISE DOS RESULTADOS DOS PROGRAMAS DE APOIO ÀS PMEs NO BRASIL Resumo Executivo PARA BAIXAR A AVALIAÇÃO COMPLETA:

Métodos Matemáticos para Gestão da Informação

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

UTILIZAÇÃO DE RECURSOS ESTATÍSTICOS AVANÇADOS DO EXCEL PREVISÃO

TEORIAS DE CONTÉUDO DA MOTIVAÇÃO:

CAP. I ERROS EM CÁLCULO NUMÉRICO

INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

Introdução a Química Analítica. Professora Mirian Maya Sakuno

AS LEIS DE NEWTON PROFESSOR ANDERSON VIEIRA

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

Etapas de um Projeto de Pesquisa. Robledo Lima Gil

Este capítulo é divido em duas seções, a primeira seção descreve a base de

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.

5 Considerações finais

Regra do Evento Raro p/ Inferência Estatística:

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações

UNIVERSIDADE FEDERAL DE SÃO JOÃO DEL REI

2aula TEORIA DE ERROS I: ALGARISMOS SIGNIFICATIVOS, ARREDONDAMENTOS E INCERTEZAS. 2.1 Algarismos Corretos e Avaliados

a 1 x a n x n = b,

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

Arquitetura de Rede de Computadores

Métodos qualitativos: Pesquisa-Ação

Notas de Cálculo Numérico

O CONSELHO FEDERAL DE CONTABILIDADE, no exercício de suas atribuições legais e regimentais,

Tópico 2. Conversão de Unidades e Notação Científica

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

CAPÍTULO 9 RISCO E INCERTEZA

2 A Derivada. 2.1 Velocidade Média e Velocidade Instantânea

Gerenciamento de Projetos Modulo VIII Riscos

Método dos mínimos quadrados - ajuste linear

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Pisa 2012: O que os dados dizem sobre o Brasil

6 Conclusões e Trabalhos futuros 6.1. Conclusões

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

5 Extraindo listas de produtos em sites de comércio eletrônico

Dadas a base e a altura de um triangulo, determinar sua área.

APLICAÇÕES DA DERIVADA

Prof. Dr. Guanis de Barros Vilela Junior

PLANEJAMENTO OPERACIONAL: RECURSOS HUMANOS E FINANÇAS MÓDULO 16

AV2 - MA (a) De quantos modos diferentes posso empilhá-los de modo que todos os CDs de rock fiquem juntos?

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

Estratégias de Pesquisa

PAYBACK - CALCULANDO O TEMPO NECESSÁRIO PARA RECUPERAR O INVESTIMENTO

Só Matemática O seu portal matemático FUNÇÕES

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

ISO/IEC 12207: Gerência de Configuração

3 Qualidade de Software

Transcrição:

[1,0] 1) Discuta diferentes estratégias para a seleção do melhor modelo de regressão linear múltipla. Dentre as estratégias para a seleção de modelos é recomendado seguir os seguintes passos: especificar o modelo máximo com todas as variáveis, ou seja, que variáveis poderão entrar no modelo, evitando a colinearidade entre as variáveis que geralmente é um erro muito comum (por exemplo se entrar areia e argila, não deve entrar o silte). Especificar o critério de escolha, utilizando um modelo único que análise todas as variáveis juntas, possuindo esta estratégia uma desvantagem que é a dependência do tamanho da amostra, favorecendo assim o modelo que tem mais variável. Outra estratégia é o modelo aninhado que se diferencia do modelo único pela adição ou subtração de variáveis. É importante destacar que dependendo da técnica e do caminho que irá ser adotado para a seleção do modelo isso pode implicar no grande aumento da chance de erro tipo I. Por exemplo se você fizer 10 teste a chance de cometer o erro tipo I existir, mas se forem realizado 80 testes a chance de se cometer o erro tipo é muito maior, então sempre que se aumenta os testes realizados, ocorre um aumento concomitante de se cometer o erro tipo I. A estratégia não inclui o critério. Podemos usar a mesma estratégia com diferentes critérios, e possivelmente encontrar resultados diferentes. Além disto, sua resposta só fala em modelo completo e aninhado, esquecendo vários dos pontos importantes quanto a isto. [4] 2) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo se refere a pesquisas ecológicas e evolução, em que nesses estudos os pesquisadores tem uma lista de fatores que são suspeitos de influenciar a variável dependente e os modelos estatísticos utilizados nesta área de pesquisa são muitas vezes caracterizados por vários parâmetros. Como consequências os pesquisadores necessitam estimar os parâmetros uteis e muitas vezes precisam remover ou classificar os parâmetros com base em algum critério e tirar conclusões a partir de modelos mais parcimoniosos do que de modelos complexos. Neste caso um dos métodos mais propagados para preditores múltiplos é o método de stepwise, sendo que sua aptidão para análise em ecologia tem sido vigorosamente debatida por alguns autores. Diante disso outro método tem sido cada vez mais propagado para preditores múltiplos que é o método da teoria da informação (TI). Este artigo faz uma discussão comparativa entre os métodos da teoria da informação (TI) e o método de stepwise. Enfatizando as três principais falhas da regressão que são elas valores subjetivos e críticos e efeitos zero, incerteza do modelo e viés de seleção do modelo. Para a falha de valores críticos a regressão geralmente utiliza o teste de hipótese nula e valores críticos de P, neste caso a utilização desses valores críticos podem gerar problemas como: parâmetros que apenas marginalmente excedem este valor critico P, não são considerados embora essas diferenças muitas pequenas em P, podem surgir devido a vários motivos imprevisíveis. Outro problema é que normalmente não há verdadeiro efeito zero em um conjunto de dados naturais. A teoria da informação (TI), Não faz o uso direto de valores de significância críticos, no entanto depois de encontrar o melhor modelo e ao decidir se o modelo encontrado é realmente o melhor, este método tende a fazer o uso de valores subjetivo críticos. Neste caso os pesquisadores que usam estas duas abordagens tanto a teoria da informação como stepwise devem estar cientes dos problemas que esses limitem que são usados nos métodos podem gerar. A falha da incerteza na seleção do modelo surge quando aplicamos um conjunto modelo altamente restrito de candidatos ou quando se tentar delinear um conjunto modelo de confiança. A viés de seleção de modelo é uma das deficiências mais graves de regressão, na regressão é possível simplificar o nosso modelo com base nas estimativas que recebemos do conjunto de dados, isto implica que estamos ajustando o modelo aos nossos dados, e esta prática aumentar a probabilidade de que tamanhos de efeitos superestimados apareçam no modelo final. No entanto a teoria da informação não é completamente livre de qualquer viés na seleção de modelo, em primeiro lugar muitos estudos usam o método da teoria da informação em conjunto com regressão, então a viés de estimação de parâmetros aparece quando os critérios de informação desproporcionalmente favorecem modelos complexos. Diante disso estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com indicadores

múltiplos. Isso exigirá uma compreensão das deficiências atualmente prevalentes em stepwise e TI protocolos. O que quer dizer para a falha de valores críticos, pelamordedeus? De resto ok. [2.2] 3) Considere e discuta a seguinte afirmativa nem sempre o modelo com o melhor R2 não ajustado é o mais adequado. A afirmativa é coerente, pois o R2 não-ajustado é afetado pela adição de número de variáveis no modelo, ou seja, quanto maior o número de variáveis utilizadas, maior é o R2 não-ajustado, ou seja, as variáveis adicionadas podem não estar explicando nada, que mesmo assim estariam aumentando automaticamente o R2. Neste caso a melhor opção é optar pelo R2 ajustado que retirar o efeito que veio somente do aumento do número de variáveis que foram adicionadas. Se o R2 corrigido aumentar mesmo após o ajuste é porque não é em função do aumento do número de variáveis e sim por que estas variáveis adicionadas estão explicando melhor o modelo. excelente [1.5] 4) Discuta as vantagens e desvantagens do procedimento de stepwise para a seleção de modelo de regressão linear múltipla. A grande desvantagem do procedimento de stepwise é devido ao aumento significativo de ocorrer o erro tipo I, já que este modelo aplicar um elevado número de teste e cada vez que é realizado um teste, aumenta-se a probabilidade de ocorrer o erro tipo I. A vantagem é que como o modelo de stepwise é uma técnica que apresenta como característica a adição e retirada de variável esta vai ser uma estratégia mais atraente para selecionar um modelo e também essa mistura de técnica vai permitir a seleção de variáveis que determinam valores de importância relevantes para amostra, podendo eliminar aquelas variáveis que não são representativas. Porque será que ninguém que respondeu esta questão usou o artigo que resumiu para ajudar na resposta? Veja que os pontos negativos do stepwise são exaustivamente batidos no artigo, e ninguém usou as informações para fundamentar a resposta [1.000] (IP:281473822979236 16:12:34 23:34:04 21:30 901.658) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. As técnicas de seleção de modelos podem implicar no aumento de se cometera o erro tipo I. Os critérios de avaliação dos modelos tem o objetivo de verificar o grau de confiança das estimativas obtidas. Os critérios têm como objetivo escolher o melhor modelo de regressão através do coeficiente de correlação (R), o qual indica a proximidade dos pontos na reta de regressão. E através do valor de F e coeficiente de determinação (R2), que tem como objetivo refletir o quanto os valores de Y estão relacionados com os valores de X. Com base nesses dados é que se pode encontra quais são as variáveis que entraram no modelo de regressão, para que seja feito a avaliação do conjunto de dados. então a correção para o número de variáveis (r² corrigido) não tem a mínima importância, nem existem outras possibilidades, como AIC? [4.000] (IP:281473822979236 16:13:04 23:34:26 21:22 3.094) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo fala que na pesquisa ecológica e comportamental, é difícil de obter conclusões confiáveis a parti dos modelos estatísticos com muitos preditores. A maneira que os pesquisadores acharam para lidar com os preditores múltiplos, tem sido a introdução e remoção de algoritmos, e com ele obter modelos mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos e interações fracas é a simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer termo interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Durante regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo possam ser adicionados ou removidos a partir do modelo. Este processo geralmente envolve testes de hipótese nula (NHT) e faz uso de limiares de importância. Uma solução relativamente recentemente proposta é a abordagem alternativa de informação teórica (IT) este modelo vem sendo difundido e utilizado

recentemente. Ao aplicar este modelo podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância. Ambos os métodos baseados em metodologias IT e NHT stepwise foram usados quando se lida com muitos potenciais preditores, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida por alguns autores. O artigo examinou falhas de regressão, em primeiro lugar foram examinadas as críticas subjetivas de valores, o qual apresenta uma tendência para assumir que os termos não incluídos no modelo final tenha efeito, os parâmetros que excedem marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis, e que problema com testes de hipóteses de nulidade (NHT) que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por experimentos aleatorizados e observações e contabilização de dados e probalizados. Na teoria da informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se for o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio, e calculamos as estimativas médias para todos os modelos dentro do conjunto de modelos, mas pesando a estimativa de acordo com as informações do rank de critérios do modelo dado. Existem dois modelos para decidir se o melhor é de fato o melhor, o primeiro especifica valores limites de critérios de informações acima dos quais dois modelos são considerados para diferenciar na adequação. Se a diferença entre o melhor modelo e o secundo melhor modelo excedem este valor limite, consideramos o melhor modelo como verdadeiramente dos modelos candidatos dados. Segundo, nós comparamos o melhor modelo para outros modelos agrupados nos candidatos obtidos por meio de teste razão de probabilidade, o qual envolve NHT clássico e valores críticos de P. No entanto, se quisermos fazer decisões com relação unicamente do melhor modelo em um exercício de IT, nós precisamos ainda usar valores críticos. Em contraste ao valor do P crítico. Se quisermos evitar limites arbitrados na informação da teoria, nós usaríamos modelo médio independente do rank relativo do modelo mais bem colocado no rank, e basear nossas estimativas de parâmetros em todos os modelos embora pesando a contribuição de cada modelo de acordo com sua colocação no ranking. Usando IT para simplificação de modelo, como um substituto para regressão stepwise é forçado a usar valores limites e, portanto, introduzindo incertezas. A segunda falha refere-se à incerteza do modelo, onde a crítica maior contra regressão stepwise é a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o resultado não pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser selecionados por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. A informação teórica avalia a probabilidade do modelo estatístico especifico do dado. Assim, a questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula. Tanto em regressão stepwise e método IT, isto é de fundamentalmente importante para decidir quais variáveis independentes usamos. Independente do caminho o qual iremos analisar nossos dados, nós temos primeiro que fazer esta decisão baseada na teoria, informações prévias, ou análises exploratórias usando diferentes dados. O próximo passo é, entretanto, fundamentalmente diferente nos dois métodos. Regressão stepwise avalia automaticamente as variáveis independentes e as interações em diferentes combinações. Quando confrontados com múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na análise, independentemente da sua importância. As estimativas dos parâmetros deste modelo completo apresentam abordagem muitas vezes imprecisa ou tendenciosa, por esta abordagem não poder ser geralmente aplicado na ecologia e comportamento. Duas alternativas para a montagem do modelo completo são a simplificação do modelo e seleção de modelos. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros, ou os desempenho do modelo. Por outro lado, a seleção do modelo, tal como um método de IT, estabelece um conjunto de combinações de parâmetros e classifica estes com base na informação, os critérios ajustam ao modelo equilíbrio e complexidade. Regressão/Stepwise e métodos de IT têm sido frequentemente discutidos como métodos alternativos de parâmetros de modelagem múltipla. Estudos adicionais são urgentemente necessários para desenvolver o método de IT para a análise de dados com preditores múltiplos. Isto irá requerer uma compreensão das deficiências atualmente prevalentes em stepwise e nos protocolos IT. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são

caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante diferentes daqueles de dados simulados. Quanto à teoria da informação, existem, pelo menos, quatro tarefas. Primeiro e mais importante, o número de combinações de parâmetros possíveis rapidamente aumenta com o número de preditores, especialmente se interações são consideradas, modelo de candidato tão restrito aos conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca generalidade. Portanto, precisamos testar se os resultados de exercícios IT são tendenciosos, se usarmos todos os subconjuntos do modelo completo, que é a abordagem atualmente mais frequentemente empregada. Em segundo lugar, além do AIC, o desempenho de outros critérios de informação na seleção de modelo também deve ser testado, que até agora tem sido largamente evitado. Em terceiro lugar, quando se utiliza o método de IT para tomada de decisão entre modelos concorrentes, ele é necessário para quantificar a sensibilidade de conclusões a corte de valores de informação de critério que usamos para encontrar o melhor modelo ou o conjunto de modelos Além disso, é importante para estabelecer pontos de corte recomendados ou popularizar métodos para determinar o ponto ótimo de corte. Finalmente, para a validade do nivelamento do modelo, é necessário mais atenção, quando há interação de termos. ok [1.750] (IP:281473822979236 16:13:52 23:03:34 49:42 27.088) Discuta os principais caminhos para validação de modelos, e sua implicação na regressão. Para a validação de modelos primeiramente deve-se verificar a colinearidade e se o modelo atende as premissas do MLG. Pode-se fazer a validação utilizando parte dos dados de um experimento para calcular um modelo de regressão o qual será comprovado verificando o comportamento dos outros blocos. Também pode ser utilizado, o estudo confirmatório, para verificar a confiabilidade do modelo, porém, é um método muito oneroso, pois consiste na repetição do experimento. Além da coleta dos dados ser criteriosa, para não fomentar erros de amostragem gerando dados incorretos não irá condizer com a realidade, implicando assim em um modelo de regressão incorreto. avaliação de colinearidade e de premissas vem antes da determinação do modelo, portanto de sua validação. de resto, ok. [1.000] (IP:281473822979236 16:14:10 23:34:36 20:26 5.583) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. A grande vantagem do procedimento stepwise é que quando se adiciona uma variável (no caso do stepwise forward) ou retira-se uma variável (no caso do stepwise backward), logo depois todas as outras variáveis que já faziam parte do modelo são testadas novamente, caso tenha uma variável que possa ser retirada sem que ocorra perdas relevantes de informação, ela é excluída automaticamente do modelo, já em relação ao backward, se uma variável retirada ocasionar perdas de informação ela pode retornar para o modelo, diferentemente dos outros modelos que uma vez adicionada ou retirada uma variável do modelo, ela não poderia mais deixar de fazer parte dele ou não poderia retornar para o mesmo. Outra vantagem é que desta forma temos mais confiança de que as variáveis que estão dentro do modelo, realmente têm importância e deve fazer parte dele. nem menciona as desvantagens explicadas no artigo... aliás, não menciona qualquer desvantagem [4.400] (IP:281473657768924 20:07:14 18:55:00 47:46 2.43) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Em um estudo, os pesquisadores contam com um número muito grande de variáveis que não tem certeza se de fato influenciam a variável dependente. Ao tratar igualmente todas as variáveis, surgem dois problemas principais: criar um modelo com muitas variáveis, sendo boa parte com pouca influência sobre a variável resposta; ou modelos contendo interações (dificultando a interpretação), ou interações fracas (que aumentam o erro padrão, exceto em condições muito restritas). O artigo se fundamenta na comparação entre os dois procedimentos utilizados para reverter esse cenário: stepwise e teoria da informação (TI). O modelo stepwise usa testes de hipótese nula e valores críticos de p. O procedimento é feito até que todos

os termos convergem com um tamanho do efeito mais preciso. Depois o modelo encontrado é testado através de testes de razão de verossimilhança para atestar sua qualidade. Porém o modelo final apresenta problemas de instabilidade, pois o stepwise não testa todos os sub-modelos possíveis e o resultado pode não ser representativo. Como na ecologia o conjunto de dados geralmente é reduzido e inter-relacionado, esse problema é ainda mais grave. Para contornar isso, os autores sugerem que o modelo final seja testado através de comparações com um conjunto de dados independente ou reamostragens. No caso do TI, todo o conjunto de sub-modelos é avaliado, gerando resultados representativos, porém valores críticos de p são utilizados na escolha do melhor modelo, e esses valores limites introduzem incertezas que precisam ser adequados ao teste e ao tratamento em cada método. Resumindo, o método TI resolve três importantes problemas inerentes ao stepwise. O primeiro deles seriam os valores críticos subjetivos usados nas comparações entre modelos. Outro problema seriam os modelos incertos que surgem em virtude de um conjunto de candidatos muito restrito. E por último, os problemas de estimativa do parâmetro em casos de critérios que favorecem desproporcionalmente modelos complexos. Porém, existem outras questões que podem ocorrer devido à utilização do TI na ecologia. Independente do modelo, é fundamental que a escolha das variáveis independentes seja baseada em informações prévias ou análises exploratórias. Os autores lembram ainda que nenhuma abordagem estatística é livre de incertezas, e que são necessários estudos adicionais usando dados ecológicos e comportamentais para preencher as lacunas das teorias dos dois métodos, por exemplo, a falta de generalidade do stepwise. Além disso, são necessários testes adicionais de critérios de seleção de modelos, e mais estudos que estabeleçam e popularizem limites ótimos de p utilizados no TI. excelente resumo do resumo. Pegou todos os pontos principais de forma bastante direta. [1.500] (IP:281473657768924 20:12:14 18:55:36 43:22 36.054) Discuta o significado e possíveis implicações do AIC O AIC ou Critério de Informação de Akaike é uma medida geral da qualidade de ajustamento de modelos. Esse índice avalia, em um grupo de possíveis modelos, a distância relativa entre o modelo proposto e o modelo verdadeiro, ou seja, a discrepância no ajuste do modelo em relação aos dados. Para isso, são calculados os logaritmos das razões de verossimilhança entre os modelos, penalizando os modelos pelo número de parâmetros. Assim, o AIC avalia a qualidade da ligação entre as variáveis e o número de variáveis utilizadas. O modelo com menor AIC será o melhor, pois é capaz de explicar mais o fenômeno em estudo com um número menor de parâmetros. implicações? [2.200] (IP:281473657768924 20:12:43 18:56:13 43:30 26.302) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla É importante obter um modelo minimizando o número de variáveis incluídas, descartando aquelas não significantes (ou com pouca contribuição para o ajuste). Para isso é preciso escolher uma estratégia para essa seleção. Dentre as mais utilizadas, tem-se a seleção para frente, nesse método, as variáveis candidatas vão sendo introduzidas progressivamente no modelo e são feitos testes para medir seu efeito no conjunto. Outra estratégia é a eliminação para trás, que parte da regressão completa (com todas variáveis) e a cada rodada é eliminada a variável cuja saída produz menor efeito no modelo geral. Esses dois processos são bem semelhantes e promovem bons resultados, principalmente se o número de variáveis não for tão grande. Outra opção é o stepwise, que é uma combinação dos outros dois métodos, onde a cada variável adicionada ao modelo, todas as variáveis já adicionadas são testadas novamente. Esse procedimento aumenta a confiabilidade da escolha das variáveis fixadas no modelo. Por outro lado, o grande número de testes realizados para verificação de cada um dos modelos acaba por aumentar a chance de ocorrência do erro tipo I (rejeição da H0 quando esta é verdadeira). só faltou o modelo completo... [2.200] (IP:281473657768924 20:13:33 18:57:32 43:59 20.677) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Na avaliação de modelos únicos ou aninhados (derivado de um modelo mais geral), é preciso estabelecer critérios para seleção dentre os modelos candidatos, o melhor, ou seja, o que envolva o mínimo de

parâmetros que expliquem satisfatoriamente a variável resposta. Para isso, são utilizados critérios estatísticos de avaliação, como o coeficiente de determinação (R²), que indica a capacidade explicativa da equação, logo, quanto mais próximo de 1 (ou 100% de explicação), maior a validade da regressão. Porém, quanto mais variáveis são adicionadas a regressão, maior será seu R². Para reverter isso, uma opção é o R² corrigido, que leva em consideração o número de variáveis da regressão, suavizando o efeito da adição. Mas o princípio se mantém, quanto maior o R²c, melhor a regressão. Outro teste bastante utilizado é o F, que testa simultaneamente a significância do conjunto de parâmetros através do teste da hipótese nula (a equação não explica a variação da variável resposta). Grandes valores de F permitem a rejeição da H0 (a regressão é de fato explicativa). Também é possível montar todos os modelos e estabelecer os respectivos AIC (índice que leva em conta a qualidade e a quantidade de parâmetros utilizados em uma regressão), quanto menor o AIC, melhor o modelo. ok [2.200] (IP:281473654131136 20:34:00 21:30:03 56:03 2.268) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Com o objetivo de selecionar a melhor regressão linear múltipla, partindo do pressuposto de que a regressão escolhida descreverá satisfatoriamente a relação existente entre variáveis independentes e a variável resposta, faz-se necessário lançar mão de critérios para garantir a escolha por um modelo adequado. Em outras palavras, é preciso adotar requisitos para avaliar o melhor modelo que ajuste um determinado conjunto de dados. Baseando-se nesta realidade, existem alguns critérios que são comumente adotados/ utilizados para avaliar os modelos, dentre os existentes, é fundamental citarmos alguns deles: - Coeficiente de determinação (R²): O R² configura-se como um coeficiente que mede o quanto da variação de y (variável dependente) pode ser explicada pela equação de regressão. Ou seja, através do R², pode-se inferir se determinado modelo é adequado ou não para explicar a variação de uma determinada variável em estudo. O coeficiente de determinação pode assumir valores de 0 a 1, salientando que valores próximos de 1 atestam que a relação entre variáveis independentes e variável dependente (ou variável resposta) podem ser satisfatoriamente explicadas através da regressão encontrada, indicando bom ajuste. Já a observação de R² baixos, próximos de zero, denotam que o modelo (representado pela equação) não consegue explicar a relação existente entre as variáveis. Desta forma, utiliza-se o R² como critério, considerando que quanto maior este for, melhor é o ajuste do modelo. Para exemplificar, podemos considerar a comparação de modelos concorrentes (modelos que explicam uma mesma relação), caso determinasse o coeficiente de determinação como critério de escolha para o melhor modelo, escolheria o modelo que apresentasse maior R². Entretanto, vale salientar que o R² é sensível ao aumento de preditores (variáveis independentes) no modelo, observando-se também um aumento do mesmo, contudo, este aumento pode não corresponder à realidade, já que nem todas as variáveis preditoras são necessariamente efetivas (possuem efeito significativo) para a predição da variável resposta. Desta forma, o aumento do R² não está associado somente ao efeito das variáveis, mas também ao número das mesmas no modelo. - Coeficiente de determinação ajustado: Baseada na limitação anteriormente apresentada e discutida pelo coeficiente de determinação (R²), o coeficiente de determinação ajustado não aumenta obrigatoriamente com o aumento do número de variáveis independentes, já que em seu valor somente influi aqueles preditores que apresentam efeito significativo (o efeito significativo dos preditores é obtido através da análise de variância). Desta forma, pode-se pensar que o R² ajustado somente aumentará se a variável ou variáveis adicionadas ao modelo apresentarem efeitos significativos. A partir disso, muitas vezes, é preferível utilizar o coeficiente de determinação ajustado em relação ao R² como critério de escolha do melhor ajuste, considerando também que quanto maior é o seu valor, melhor o modelo explica a relação entre as variáveis em estudo. - Soma dos quadrados do resíduo (SSR): critério que baseia-se na observação da soma dos quadrados do resíduo, sabendo-se que quanto menor o SSR, melhor o modelo descreve a relação entre preditores e variável resposta. Contudo, o uso do SSR apresenta uma limitação: seu valor depende do tamanho da amostra, ou seja, para amostras pequenas, a variação do resíduo diminuirá muito, afetando os graus de liberdade do resíduo e, consequentemente, afetando a relação existente entre variação do acaso e efeito de

tratamento. Uma forma de minimizar problemas deste tipo é o uso do quadrado médio dos resíduos como critério de escolha. - Teste F: Baseia-se na observação dos valores de F(calculado) dos modelos analisados, partindo do pressuposto de que quanto maior o Fcalculado, melhor a equação de regressão explica o comportamento das variáveis. Esta variação do valor de F é em função da relação entre o quadrado médio da regressão e o quadrado médio do resíduo, com isso, observa-se que o aumento do F(calculado) está diretamente relacionado com a diminuição do QMR (F e QMR são inversamente proporcionais). - Cp: Critério preconizado Mallows e que está baseado no erro quadrático médio dos valores ajustados. Para calcular este critério, utiliza-se a seguinte fórmula: Cp= SSR (p)/msr (pmax.)- [N-2(p+1)] Onde: SSR Soma dos quadrados do resíduo MSR Quadrado médio do resíduo N número de parcelas experimentais p número de parâmetros Vale salientar que o modelo mais adequado será escolhido em função do número de Cp calculado que mais se aproxime do valor dos parâmetros (p +1). Por exemplo, se considerarmos 4 parâmetros (variáveis independentes) para observar o comportamento de y (variável dependente), e calcularmos o Cp de dois modelos concorrentes, onde o Cp1 = 3,444 e o Cp2 = 7,6700, optaríamos pelo modelo que apresentasse o Cp1, já que este aproxima-se mais do número de parâmetros (4). - AIC (Critério de informação de Akaike): Configura-se como um critério de seleção do melhor modelo, baseando-se na teoria da informação, considerando que quanto menor o valor de AIC, mais a equação (modelo) explica a relação entre as variáveis. Este critério leva em consideração a qualidade da informação bem como a qualidade da ligação entre as variáveis e o número de preditores que estão no modelo. excelente [2.200] (IP:281473654131136 20:35:53 21:30:10 54:17 2.117) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. Visando obter o modelo que melhor explique um determinado comportamento a partir de um conjunto de dados coletados, faz-se necessário avaliar e adotar alguma técnica que facilite a escolha adequada (acertada) por um determinado modelo, através de algum critério de escolha previamente determinado. Baseando-se nisto, existem algumas técnicas que podem ser utilizadas com este objetivo, a saber: - Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de parâmetros (p), existe 2p 1 de modelos possíveis. Desta forma, há uma garantia de que há uma solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende para àquela condição específica, considerando um número p de parâmetros, para aqueles dados em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo I. - Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a eliminação para trás testa também todos

os modelos com p-1 variáveis, ou seja, a medida que se retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica na perda de significância do modelo ou na perda razoável de sua importância. Portanto, considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida. - Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na desconsideração das variáveis menos importantes, todavia, o início do teste é inverso, considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste. - Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo. Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é possível colocá-la novamente. Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso, principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um aumento no número de testes realizados. -Stepwise (Backward): Mesmo princípio da stepwise (forward) na medida em que combina variáveis, podendo retirá-las ou adicioná-las em busca do melhor modelo, contudo, o teste é baseado na eliminação para trás, ou seja, inicia-se o teste com todos os parâmetros e retira-se variável por variável mediante o teste. Assim como o forward, a utilização desta técnica implica em uma maior chance do erro tipo I. excelente [2.000] (IP:281473654131136 20:36:43 21:30:15 53:32 1.423) Discuta o significado e possíveis implicações do AIC O AIC (critério de informação de Akaike) constitui-se como um critério para a seleção do melhor modelo de regressão. O mesmo é baseado na teoria da informação, partindo do pressuposto de que existe um modelo verdadeiro, ou seja, real que satisfatoriamente descreveria o comportamento das variáveis, contudo, este modelo é desconhecido. Portanto, através do AIC, tenta-se escolher dentre um grupo de modelos, aquele que mais se aproxima da realidade. Esta medida leva em consideração concomitantemente a qualidade da ligação entre as variáveis e o número das mesmas que são utilizadas no modelo. Desta forma, os valores de AIC poderão indicar se os modelos são ou não indicados, salientando que quanto menor é o índice AIC, melhor a regressão explica o comportamento considerando o menor número de variáveis. ok, mas este não é o único uso do AIC [4.400] (IP:281473654131136 20:37:16 21:30:33 53:17 14.806) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. O artigo desta semana intitulado Using information theory as a substitute for stepwise regression in ecology and behavior discute, em essência, duas ferramentas estatísticas que são utilizadas para descrever o comportamento de variáveis envolvidas em processos ecológicos e comportamentais: regressão baseada em stepwise e o critério de informação de Akaike (um dos descritores da teoria da informação). A discussão baseia-se nas limitações apresentadas pela regressão stepwise e na sua possível substituição pela teoria da informação, uma vez que esta, aparentemente, preenche as lacunas e deficiências apresentadas pela regressão stepwise.

De acordo com os autores do artigo, a necessidade de conhecer e discutir abordagens estatísticas origina-se da necessidade de explicar os fenômenos biológicos que geralmente são permeados por inúmeros parâmetros que atuam de maneiras distintas na determinação de uma variável dependente. Visando identificar e classificar por ordem de importância, os parâmetros que influenciam na variável resposta, além das interações que podem existir entre as variáveis, surgiu a regressão stepwise, que permitiu realizar inferências estatísticas mais consistentes baseando-se em modelos mais parcimoniosos quando comparada ao modelo completo. Contudo, é notável em estudos de cunho científico que a regressão stepwise apresenta algumas limitações quanto à sua utilização na área de ecologia e comportamento, sendo rejeitada por muitos pesquisadores sob a justificativa de que a estratégia stepwise não é adequada para encontrar modelos que melhor descrevam comportamentos na área de ecologia. As limitações, as quais o artigo trata são a presença de valores críticos subjetivos, incertezas quanto aos modelos e estimativa de parâmetros enviesados, ou seja, tendenciosos. Além disso, vale salientar que mesmo sendo alvo do artigo discutir comparativamente estas duas ferramentas estatísticas, é fundamental considerar que a filosofia do teste de hipótese nula (no qual a stepwise é baseada) é radicalmente diferente da teoria da informação. Isto implica dizer que a teoria da informação não é a verdadeira alternativa para a regressão stepwise. Ressalta-se ainda a possibilidade de usar o critério da teoria da informação na regressão stepwise, contudo, este modelo stepwise-teoria da informação apresenta as mesmas limitações da ferramenta anterior. De maneira mais esmiuçada, o artigo trata de alguns problemas visualizados na utilização da regressão stepwise. O primeiro a ser discutido refere-se aos valores críticos subjetivos e dos efeitos zero, em seguida, discute-se sobre questões relacionadas às incertezas, instabilidades e falta de generalidade observados no processo de aplicação do modelo stepwise e por fim, entretanto, não menos importante, viés na seleção do modelo. Para os três problemas elencados no artigo, os autores trouxeram a abordagem da teoria da informação como possível solução. Todavia, vale salientar que mesmo apresentando-se como alternativa, a teoria da informação igualmente mostra limitações quanto ao seu uso e, portanto, são necessários mais estudos, utilizando dados de ecologia e comportamento, para testar novas alternativas para melhorar a aplicabilidade da teoria da informação nestes estudos. ok [2.200] (IP:281473654131136 20:37:28 21:52:40 15:12 5.694) Compare as possíveis técnicas adotadas para seleção do modelo mais adequado para uma regressão linear múltipla. As técnicas mais utilizadas são as seguintes: 1ª Testar todas as regressões possíveis: como o titulo já propõe, esta técnica aplica-se a todas as regressões possíveis, estas determinadas pelos possíveis arranjos que se possa fazer entre as variáveis envolvidas no estudo, logo, este número de combinações fica sendo determinado pela expressão 2^(p_máx )-1, onde p corresponde ao número de variáveis independentes, ou seja, se em determinado estudo tivermos um número de 8 variáveis, isso implica dizer que teremos 255 modelos de regressão possíveis para avaliarmos na respectiva técnica. Problemas quanto a esta técnica relacionava-se à elevada carga computacional a qual era exercida sobre os antigos computadores no momento da análise, mas, isso se modificou com o advento de processadores com alta velocidade de processamento tornando aplicável o método. A desvantagem do método consiste na informação limitada que o mesmo nos fornece sobre o verdadeiro, ou melhor, modelo de regressão múltipla; 2ª Eliminação para trás (backward elimition): neste teste, inicia-se com a regressão múltipla contendo todas as variáveis, posteriormente, eliminamos a cada rodada de seleção (R2, R_a^2, Cp e etc) a variável de menor efeito no modelo, e desta forma sempre avaliamos o efeito da última variável retirada. A desvantagem do método reside no fato de que uma vez retirada a variável não entrará mais na composição do modelo e consequentemente no processo de seleção, isso nos faz pensar ou refletir que, ora aquela variável poderia estar apresentando pouco efeito no modelo da vez, ora esta mesma variável, porém, em outra combinação (outro modelo) poderá ser mais efetiva quanto a explicar o fenômeno; 3ª Seleção para frente (forward selection): esta técnica assemelha-se a de eliminação para trás, contudo em direção oposta, ou seja, agora em vez de iniciarmos com um modelo contendo todas as variáveis, iniciaremos com o modelo simples com apenas uma variável, essa de maior efeito, após a aplicação dos

critérios de seleção adicionamos outra variável e repetimos o procedimento de avaliação e, desta forma, processamos até abranger o número total de variáveis na regressão múltipla. A desvantagem desta é similar em fundamento a da backward elimition tendo em vista que uma vez adicionada esta variável não poderá mais ser retirada para se avaliar novas condições (combinações); 4ª Stepwise (forward e backward): esta se configura como uma junção dos métodos anteriormente descritos acrescido da possibilidade de adicionarmos ou retirarmos variáveis do modelo em processo de seleção (R2, R_a^2, Cp e etc) na circunstância em que se julgar viável (combinação de maior efeito), ou seja, este método supre a deficiência ocorrida nos descritos acima (backward elimition e forward selection) quanto a descrever a melhor combinação entre as variáveis. Essa ação apresenta seus benefícios isso é fato, todavia esta maior possibilidade também aumenta as chances de cometermos o erro tipo I, devido ao grande número de modelos gerados. ótimo [2.200] (IP:281473654131136 20:39:17 21:53:14 13:57 32.323) Discuta o significado e possíveis implicações do AIC Entende-se por AIC (Critério de Informação Akaike) como sendo um critério de seleção na escolha da melhor regressão múltipla, em que regressões com menor índice AIC são consideradas as que melhor retratam determinado fenômeno. Este critério baseia-se no que chamamos de teoria da informação que na sua aplicabilidade quanto à seleção do modelo de regressão mais adequado esta considera simultaneamente as seguintes características: a qualidade da informação, a ligação entre as variáveis, ou seja, como estas se correlacionam assim como também o número de variáveis aplicadas ao modelo. Este critério tende a penalizar modelos em que são constituídos por muitas variáveis, isso quer dizer que quanto menor for o número de variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade, nos rematando a ideia de que sempre que possível e lógico devemos adotar modelos simples que melhor retrate do que modelos complexos de difícil entendimento. escrita confusa e o AIC não é usado somente para a escolha da melhor regressão múltipla. excelente ponto no final [4.400] (IP:281473654131136 20:39:57 21:55:27 15:30 9.797) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. No artigo Using information theory as a substitute for stepwise regression in ecology and behavior os autores G. Hegyi & L.Z. Garamszegi abrem certa discussão crítica sobre o uso do Stepwise como técnica proposta para determinar a melhor regressão múltipla diante de fenômenos ecológicos. Os autores retratam as principais deficiências deste método e como solução para estes problemas propõem uma substituição por um método denominado de teoria da informação (TI) na qual se espera que em determinadas circunstâncias, esta seja mais sensível quanto à análise. No método da TI, leva-se em consideração a informação extraída pelo modelo, ou seja, a qualidade da informação e o número de parâmetros presentes no modelo. Dentre as técnicas de TI mais comuns temos a de Akaike, proposta inicialmente em 1973. No presente trabalho, os autores sugerem que na discussão sobre os reais problemas do stepwise inicialmente tentaremos procurar as possíveis soluções e, posteriormente, a proposta dada pelo método da teoria da informação. Contudo, os mesmos ressaltam que é necessário ter os seguintes entendimentos: primeiro as filosofias dos métodos que serão comparados (stepwise e TI) são totalmente distintas; e segundo é possível criar modelos de regressão utilizando critérios de informação. As principais deficiências encontradas na regressão stepwise são: - valores críticos subjetivos e efeitos zero: este problema se explica pelos seguintes aspectos - assumir que os termos não incluídos no modelo final possuem efeitos zero; problemas provenientes na escolha de valores críticos de P em que valores que apresentam pequenas diferenças não são considerados; e por fim atribuir um tamanho de efeito igual a zero para os termos removidos na regressão cria viés; - incerteza, instabilidade e falta de generalidade: consiste no fato de que o método stepwise testa apenas uma fração de todos os submodelos presentes no modelo completo, isto traz sérias implicações tendo em vista que o resultado nesta situação não é representativo de todo o espaço de combinações possíveis; - viés na seleção do modelo: esta é uma dos mais graves problemas inerentes à regressão stepwise. Nela é

possível simplificarmos o nosso modelo baseando-se na estimativa do conjunto dos dados e isto implica ajustar o modelo aos nossos dados que, consequentemente, resultará em tamanhos de efeitos superestimados no modelo final. E por fim os autores concluem propondo discussões quanto à utilização da TI como solução para os problemas presentes no método de stepwise, contudo, os mesmos relatam que certas características são inerentes a ambos os métodos, necessitando assim de mais estudos sobre a TI para podermos aplicá-la em substituição ao método comumente empregado, stepwise. bom resumo das principais desvantagens do stepwise, mas muito de leve nas possíveis vantagens do AIC e similares [2.200] (IP:281473654131136 21:54:07 21:55:42 01:35 13.822) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Os diferentes critérios de seleção para assim determinarmos o melhor modelo de regressão múltipla consiste basicamente na avaliação dos seguintes parâmetros: R2 (coeficiente de determinação do modelo), R_a^2 (coeficiente de determinação do modelo ajustado), Valor de F (analise de variância de cada modelo), QMR (quadrado médio dos resíduos), SQR (soma dos quadrados dos resíduos), Cp (Cp de Mallows) entre outros como o AIC, BIC e critério PRESS. - Coeficiente de determinação (R2): este método baseia-se na observação dos valores determinados para o R2 (varia de 0 a 1) de acordo com o ajuste do modelo de regressão múltipla, logo, se adicionarmos uma variável insignificante ao modelo teremos um aumento mínimo de R2. Daí deve-se escolher o modelo com maior R2 que substancialmente explique o que ocorre no fenômeno. Contudo, sua empregabilidade tem sido mais voltada em determinarmos o quando de cessarmos de adicionar variáveis ao modelo, ao invés de encontrar o melhor, tendo em vista que os valores de R2 não reduzem quando adicionamos mais variáveis; - Coeficiente de determinação ajustado (R_a^2): No intuito de minimizarmos erros decorrentes da análise incorreta do R2 para alguns é preferível usar o R_a^2, não necessariamente este aumenta com a adição de variáveis ao modelo (p + s(conj. variáveis)), contudo apresentará valores superiores quando na analise de F entre os modelos (p e p + s) apresentar aumento do efeito das variáveis incluídas. Consequentemente, o critério de escolha baseado no R_a^2 consiste em escolher o que apresentar valor máximo; - F (resultado da análise de variância): entende-se neste critério que na avaliação dos modelos aquele que apresentar um maior efeito devido ao tratamento sobre o acaso (valores de Faltos ou melhores significâncias Pr < F) deverá ser escolhido como o que melhor representa o comportamento em estudo; - QMR (quadrado médio dos resíduos): neste método inferimos que quanto menor for o QMR de um modelo consequentemente maior será o R_a^2, portanto, modelos nos quais apresentem reduzidos valores para o QMR deverão ser escolhidos como os de melhor ajuste; - SQR (soma dos quadrados dos resíduos): tem o mesmo principio do critério anterior, tendo em vista que este é um componente utilizado na determinação do QMR, contudo, apresenta certa limitação quando a dependência do tamanho da amostra; - Cp (Cp de Mallows): este critério baseia-se no conceito de erro quadrático médio dos valores ajustados e pode determinado pela seguinte equação: C_p= SQR _((p))/qmr-n+2(p+1) em que SQRp é a soma dos quadrados dos resíduos do submodelo, QMR o quadrado médio do modelo máximo, n número de amostras e p o número de variáveis. Logo, a estratégia de seleção de modelos baseada no Cp consiste em encontrar modelos com valores de Cp próximo do número de parâmetros (p +1). Por exemplo, considere dois modelos de regressão: Modelo 1 com apenas 1 variável e com valores de SQR = 34.419 e QMR = 1.220, calculando o Cp temos o seguinte resultado; C_p= 34.419/1.220-14+2 2=18,21 Modelo 2 com duas variáveis e valores de SQR = 13.421 e QMR = 1.220, calculando o Cp temos o seguinte resultado; C_p=13.421/1.220-14+2 3=3 Portanto, pode-se afirmar que o modelo 2 é aquele cujo valor de Cp melhor se aproximou do número de parâmetros (p + 1) e por isso no critério de escolha adotado ele deve ser escolhido. excelente

[1.500] (IP:281473657748883 16:03:06 23:15:31 12:25 1.815) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. {[ Resposta da Questão 1: As técnicas de seleção de modelos podem implicar em grande aumento na chance cometer o erro tipo I. A avaliação de um modelo procura verificar se os parâmetros estimados são ou não estatisticamente significativos e satisfatórios. Os critérios estatísticos de avaliação dos modelos têm como objetivo verificar o grau de confiabilidade das estimativas obtidas. O critério para seleção da regressão linear múltipla (RLM), refere-se ao fator escolhido para comparação dos modelos de regressão e desta forma escolher o melhor modelo, como exemplo o coeficiente de correlação (R), o valor de F e coeficiente de determinação (R2). O critério para seleção possibilita encontrar quais as variáveis entram no modelo de regressão, para avaliar um conjunto de dados a ser feito as regressões. O coeficiente de correlação é uma medida da relação linear entre duas ou mais variáveis, este indica a proximidade dos pontos á reta de regressão e quanto mais próximo o de 1,0 for o valor de R, mais os pontos se encontram na reta de regressão. Quanto mais próximo de zero, mais pobre será o ajustamento da reta de regressão aos pontos. Já o coeficiente de determinação da regressão tem por objetivo revelar o quanto as variáveis independentes explicam a variação da variável dependente, ou seja, é uma medida que procura refletir o quanto os valores de Y estão relacionados com os valores de X, no coeficiente de determinação os valores também vão varia de 0 a 1, sendo que quanto mais próximo de 1 é melhor. O teste F dá uma ideia da relação entre a variação devida ao resíduo e ao acaso.]} R2 corrigido? AIC e similares? [1.500] (IP:281473657748883 16:03:47 23:15:35 11:48 1.781) Discuta vantagens e desvantagens do procedimento stepwise para seleção de modelo de regressão linear múltipla. {[Resposta questão 2: O método stepwise para a seleção de variáveis é muito usado em regressão linear. Qualquer procedimento para seleção ou exclusão de variáveis de um modelo é baseado em um algoritmo que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de decisão. De modo geral quanto maior a quantidade de variáveis melhor, em termo de confiabilidade. O método stepwise é uma mistura de técnicas, que permite avaliar a contribuição de cada variável independente para o modelo. As vantagens são que o Stepwise permite a seleção das variáveis que o teste demonstra não representar importância ou significância entre o máximo ou o mínimo de variáveis. O stepwise apresenta uma maior confiança na análise de números maiores de variáveis em relação à análise de menos variáveis isto ocorre por que o stepwise testa todas as variáveis. Mais vantagens são que devido uma combinação de técnicas possibilita a seleção de variáveis que determinam valores de importância e significância para a amostra, o que nos permite fazer a eliminação daquelas variáveis que não são bem representativas do modelo. Outra vantagem do stepwise é que ele permite que as variáveis saiam e entram no modelo, o que permite que uma variável independente que tenha sido retirada por não apresentado um bom efeito, possa novamente ser testada, agora com outras variáveis, e esta variável pode volta para o sistema ser ela tiver uma boa combinação com as demais variáveis. Embora o stepwise apresente várias vantagens, este método como qualquer outro apresentar as suas desvantagens. Uma das principais desvantagem deste método é que ele é um método complexo de difícil interpretação dos vários valores obtidos, ou seja, é difícil avaliar e interpretar o modelo pois temos um grande número de variáveis neste modelo, o que tornar muito complexo o mesmo. O resultado final depende dos testes anteriores de inclusão e exclusão de variáveis, ou seja, este teste é influenciado pelos passos iniciais realizados no teste. Mais desvantagens também devem ser consideradas tais como: o teste apresenta uma maior possibilidade de erros, de cometer o erro tipo I, não que a probabilidade de cometer um erro seja maior, e sim que ocorre uma acumulação deste erro acontecer é o que chamamos de erro acumulativo já que toda variável testada tem uma erro incorporado. Uma outra desvantagem importante do stepwise é que o modelo final pode apresentar diferenças para o mesmo conjunto de dados, ou seja, o modelo pode ser diferente de acordo com as escolhas dos teste anteriores, são dependentes do caminho seguido.]}.

peraí. Como ter um grande número de variáveis pode ser culpa do processo de seleção? Entender o resultado do stepwise não tem nada a ver com o número de variáveis que entra no modelo. [2.000] (IP:281473657748883 16:04:01 23:15:39 11:38 1.955) Discuta o significado e possíveis implicações do AIC {[ Resposta da questão 3: Primeiramente vamos discutir o significado do AIC. O critério informativo de Akaike (AIC) é uma ferramenta para seleção de modelos, pois oferece uma medida relativa da qualidade do ajuste de um modelo estatístico, ou seja, o AIC é um índice que nos permiti escolhe o melhor modelo para a regressão. Este índice avalia ao mesmo tempo a qualidade de informação, qualidade da ligação entre as variáveis com o número de variáveis que é utilizada, assim como a quantidade de variáveis que entra, com a quantidade de dados explicados. O AIC não fornece um teste de um modelo no sentido usual de testar uma hipótese nula. O AIC é um teste de máxima verossimilhança para verificar se o modelo escolhido é o adequado. As implicações do AIC são em relação à escolha dos modelos utilizamos os valores de AIC para decidir qual é o melhor modelo a ser utilizado, sendo assim quando temos um conjunto de modelos candidatos, o modelo a ser utilizado é aquele que apresentar o menor valor de AIC (quanto menor for o valor de AIC melhor será o ajuste do modelo aos dados recolhidos). O importante é que o modelo se ajuste bem aos dados junto ao ponto (ou transecto). Este critério combina quanto o modelo explica com o número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo em número de variáveis. Outra aplicação do AIC é em modelo misto para selecionar qual modelo de co-variância é mais útil.]} confuso, mas acho que entendeu [4.000] (IP:281473657748883 16:04:07 23:15:48 11:41 6.382) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. {[ Resposta da questão 4: O artigo Usando a teoria da informação como um substituto para regressão em ecologia e comportamento tem como objetivo fazer uma abordagem resumida oferecendo uma visão geral objetiva de alguns pontos, mantendo a filosofia do pluralismo estatístico. Na pesquisa ecológica e comportamental, tirar conclusões confiáveis a partir de modelos estatísticos com múltiplos preditores é geralmente difícil. O método hipotético-dedutivo (HD) postula uma hipótese nula com base na informação disponível, articula predições testáveis, e testa estas previsões. A abordagem HD está firmemente enraizada em informação recolhida, de modo que deve considerar a descrição de padrões nos dados de observações como um passo necessário antes que o método HD pode ser aplicado. Atualmente vem utilizando como método clássico para lidar com os efeitos e interações fracas a simplificação do modelo stepwise, onde obtém-se um modelo final que não contém qualquer termo de interação fraca e contém variável que são fortes preditores ou envolvido em uma forte interação. Durante a regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo possam ser adicionados ou removidos a partir do modelo. Este processo geralmente envolve testes de hipótese nula (THN), este modelo tradicional atualmente vinha recebendo crítica. Com base neste contexto uma solução relativamente recentemente proposta é a abordagem alternativa de teoria de informação (IT). A Regressão stepwise geralmente usa THN e valores críticos de P. Existe, entretanto, uma tendência para assumir que os termos não incluídos no modelo final tem efeito. Existe também um problema geral com o uso de valores críticos de P. Parâmetros que excederam marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis Um terceiro problema com testes de hipóteses de nulidade é que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente, exceto por experimentos aleatorizados. A TI não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância. No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se é o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio. Outra crítica contra a regressão stepwise é a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma pequena fração de todos os submodelos possíveis do modelo completo.

A teoria de informação avalia a probabilidade do modelo estatístico especifico dado os dados. Assim, a questão de qual modelo a considerar recebe muito mais foco que no clássico teste de hipótese nula. Tanto em regressão stepwise e método TI, isto é de fundamental importancia para decidir quais variáveis independentes usamos. Independente do caminho o qual iremos analisar nossos dados, nós temos primeiro que fazer esta decisão baseada na teoria, informações prévias, ou análises exploratórias usando diferentes dados. Em regressão, é possível simplificar o nosso modelo baseado na estimativas que começa a partir do conjunto de dados. Isto implica que temos o ajuste do modelo aos nossos dados, e esta prática aumenta a probabilidade de que os tamanhos de efeito superestimados aparecem no modelo. Simulações têm mostrado que esta sobrestimação é mais grave nos preditores fracos, e a maior parte da diversidade biológica preditores se enquadram nessa categoria. A teoria da informação, por outro lado, tem sido proposto para evitar o "viés de modelo de seleção" inerente a stepwise. No entanto, a teoria de informação não é completamente livre de qualquer viés na seleção do modelo. Os critérios mais populares são AIC e sua AICc versão corrigida, mas estes têm sido sugerido ser propenso ao superajuste. O melhor modelo de acordo com o AIC ou AICC é geralmente complexo, e muitas vezes incluem variáveis, e até mesmo interações, com efeitos muito pequenos. Quando confrontados com múltiplas variáveis preditoras, a mais simples solução é considerar todos eles na análise, independentemente da sua importância. As estimativas dos parâmetros deste modelo completo apresentam abordagens muitas vezes imprecisas ou tendenciosas, por esta abordagem não poder ser geralmente aplicado na ecologia e comportamento. Duas alternativas para a montagem do modelo completo são, a simplificação do modelo e seleção de modelos. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros ou desempenho do modelo. Existem três carências bem conhecidas de regressão/stepwise que são considerados como automaticamente resolvidas simplesmente aplicando a teoria da informação sem o procedimentos passo a passo, estas carências são: valores críticos subjetivos, a incerteza do modelo, e viés de estimação de parâmetros. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com preditores múltiplos. Estas lacunas precisam ser testadas usando dados ecológicos e comportamentais, que são caracterizados relativamente por fracos tamanhos de efeito e complexas estruturas de covariância bastante diferentes daqueles de dados simulados. Quanto à teoria da informação, devemos considerar que o número de combinações de parâmetros possíveis rapidamente aumenta com o número de preditores, especialmente se interações são consideradas, modelo candidato tão restrito aos conjuntos, muitas vezes, são bastante arbitrários, e as conclusões deles terão pouca generalidade. Além do AIC, o desempenho de outros critérios de informação na seleção de modelo também devem ser testados, pois ate o momento tem sido largamente evitado.]} muito estatiquês, mas em linhas gerais parece ter compreendido, em particular quanto às desvantagens do stepwise, que por sinal ficaram melhor descritas do que na resposta à questão sobre o stepwise:) [4.400] (IP:281473857230317 08:55:44 23:19:15 23:31 6.844) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Usando a informação teórica como um substituto para regressão em ecologia e comportamento. Para a pesquisa ecológica e comportamental acumular conhecimentos dois caminhos podem ser seguidos. O método hipotético-dedutivo (HD) postula uma hipótese nula com base na informação disponível, articula predições testáveis, e testa estas previsões. Indução e dedução têm papéis complementares no exercício do conhecimento. Padrões observados em um conjunto de dados, por um lado, não podem demonstrar relações causais, então eles devem ser considerados como uma tentativa, e o método indutivo é uma forma de gerar hipótese para testes, preferencialmente experimental. Os modelos estatísticos são, portanto, muitas vezes caracterizados por vários parâmetros. Observe que em estudos experimentais complexos com vários tratamentos e variáveis conhecidas. Em tais estudos, o tratamento de todos os parâmetros da mesma forma, independentemente da sua importância é problemático por duas razões principais. Em primeiro lugar, o tamanho da amostra é normalmente limitado, o que dá origem a um sério equilíbrio entre a complexidade do modelo e a exatidão na estimativa dos parâmetros. Em segundo lugar, muitos modelos em ecologia

comportamental incluem termos de interação. Se uma interação está presente no modelo, os principais efeitos das variáveis correspondentes não podem ser prontamente interpretados porque o seu significado é diferente do que um sem interação. Existem, geralmente, muitos termos de interação, e a maioria deles terão efeitos muito pequenos. Na presença de termos de interação fraco, as estimativas de efeito principais terão grandes erros padrão, e eles vão também ser tendenciosos, a menos que condições muito restritivas sejam satisfeitas. Como consequência, os pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes, precisam remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de modelos mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos de interações fracas é a simplificação do modelo stepwise. Este processo obtém um modelo final que não contém qualquer termo de interação fraca e contém variáveis que são fortes preditores ou estão envolvidos em uma forte interação. Durante a regressão, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum dos termos possa ser adicionado ou removido a partir do modelo. Este processo geralmente envolve testes de hipótese nula (NHT) e faz uso de limiares de importância. Uma solução relativamente recentemente proposta é a abordagem alternativa da informação teórica (IT). Neste método, os descritores contínuos que vão equilibrar o ajuste do modelo e do número de parâmetros para cada modelo são calculados para cada modelo em um conjunto fixo do modelo candidato. O mais popular desses descritores em ecologia é o Akaike de informação ou critério AIC (Akaike, 1973). Ao aplicar a teoria da informação, podemos evitar completamente o teste da hipótese nula e à utilização de valores de significância (Burnham e Anderson, 2002). Ambos os métodos baseados em metodologias IT e NHT stepwise serão usados quando se lida com muitos potenciais preditores, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida. A regressão stepwise geralmente usa NHT (teste de hipótese de nulidade) e valores críticos de P. Existe, entretanto, uma tendência para assumir que os termos não incluídos no modelo final tem efeito. Existe também um problema geral com o uso de valores críticos de P. Parâmetros que excederam marginalmente este valor crítico de P não serão considerados, embora estas diferenças muito pequenas em P possam surgir devido a múltiplas razões imprevisíveis. Um terceiro problema com testes de hipóteses de nulidade (NHT) é que geralmente não existe efeito zero verdadeiro em dados obtidos naturalmente obtidos, exceto por experimentos aleatorizados e observações e contabilização de dados e probalizados. Em vez de assumir efeito zero, é possível gerar estimativas atuais pela reintegração dos termos removidos dentro do modelo final um a um. Neste processo, primeiramente conduzimos a regressão até que esta convirja, e então apresente o efeito do tamanho para todos os termos. O tamanho dos efeitos para os termos no modelo final origina-se deste modelo, enquanto os efeitos do tamanho dos termos fora do modelo final provem de sua introdução no modelo final. A teoria da informação não faz necessariamente uso de valores limites tanto quanto os valores críticos de significância. No entanto, depois de encontrar o melhor modelo, frequentemente, queremos ver se é o melhor ou somente um muito semelhante ao modelo apropriado. Se é o melhor, calculamos parâmetros estimados deste modelo. Se não for o melhor, nossos parâmetros estimados virão do modelo médio, que é, nós calculamos as estimativas médias para todos os modelos dentro do conjunto de modelos, mas pesando a estimativa de acordo com as informações do rank de critérios do modelo dado. O uso de métodos IT na ecologia e comportamento classicamente envolvem informações de critérios de valores e os melhores modelos, mas recentemente o foco mudou para a ala da avaliação da adequação modelo aparentados tal como os ranks e evidencia de razões. No entanto, se quisermos fazer decisões com relação unicamente do melhor modelo em um exercício de IT, nós precisamos ainda usar valores críticos. Um uso especial de valores limites na informação teórica é o que se diz seguro, ou, melhor conjunto de modelos, embora seja um subconjunto relativamente bem suportado do grupo de conjunto candidato no qual o modelo médio está pronto. Não existe um acordo entre os critérios para delimitar o melhor conjunto de modelos, e diferentes métodos. Introduzindo um preditor aleatório naõ correlacionado no modelo poderá ajudar a determiner os limites na aproximação IT. Embora seja difícil imaginar um preditor realmente aleatório não correlacionado no caso de um conjunto de dados finitos, então esta possível solução trabalha melhor com conjuntos de dados bem mais amplos. Uma segunda crítica maior contra regressão stepwise é a instabilidade no modelo final e a resultante falta de generalidade. Regressão stepwise provém do aninhamento de modelos e, portanto, testam somente uma

pequena fração de todos os submodelos possíveis do modelo completo. Isto implica que o resultado não pode ser representativo do espaço do modelo inteiro e muitos outros modelos finais podem ser selecionados por causa de pequenas diferenças nos dados. Estes problemas são muito sérios no caso de um conjunto de dados pequeno e indicadores interligados, que são a regra em vez da exceção em ecologia e comportamento. A Simplificação de modelos algoritmos, como regressão/stepwise, adiciona ou remove parâmetros individuais com base no desempenho desses parâmetros (por exemplo, coeficiente de regressão, significância) ou os desempenho do modelo, como por exemplo, variância. Por outro lado, a seleção do modelo, tal como um método de IT, estabelece um conjunto de combinações de parâmetros (isto é, os modelos) e classifica estes com base na informação, os critérios ajustam ao modelo equilíbrio e complexidade. Regressão/Stepwise e métodos de TI têm sido frequentemente discutido como métodos alternativos de parâmetros de modelagem múltipla. ok [0.000] (IP:0 08:56:04 --:--:-- --:-- ------ ) Discuta diferentes critérios para seleção da melhor regressão linear múltipla. Em branco [2.200] (IP:281473857230317 08:56:42 23:43:13 46:31 853.359) Considere e discuta a seguinte afirmativa: "Nem sempre o modelo com o melhor R² não-ajustado é o mais adequado". Num modelo, quanto maior o número de variáveis adicionadas a equação, maior será seu R2 pelo simples fato de estar levando em consideração mais variáveis que um modelo com menos. A correção do R2 diz respeito a correção do número de elementos que é colocado no modelo, enquanto o R2 corrigido anula a influencia da quantidade de variáveis. Trabalhar baseando-se no R2 não corrigido implica na possibilidade de se estar trabalhando com um modelo bem mais complicado pelo número de variáveis que possui e que no fim das contas não está surtindo efeito algum pois seu R2 elevado poderá ser apenas em função do número de variáveis e não da sua relevância. Um modelo contendo menos variáveis e que seja bem mais significativo no que se propõe poderá ser substituído por outro com número maior de variáveis e consequentemente maior R2, porém com pouca ou quase nenhuma nenhuma se trabalharmos apenas com o R2 não corrigido. excelente [0.000] (IP:281473857230317 09:01:12 23:56:26 55:14 436.456) Avalie o efeito de diferentes estratégias de seleção do melhor modelo sobre a probabilidade de ocorrência de erro do tipo I. Quando se opta pela estatística univariada, serão feitas diversas análise, tendo cada uma delas a mesma chance de ocorrência do erro tipo I, contudo, oa final a chance será extremamente maior de ter acontecido este erro devido ao número de análises feitas, enquanto a estatística multivariada realiza um única análise, tendo bem menos chance de ocasionar o erro do tipo I. Esta tambem pode ser realizada com todas as variáveis que o pesquisador achar pertinentes e não colineares de uma só vez sendo possível depois a remoção de alguma que não condiga com oque se procura. de onde apareceu esta comparação entre estatística univariada e multivariada, em termos da pergunta que você deveria estar respondendo? [1.000] (IP:281473652568206 07:26:59 19:11:58 44:59 6.191) Discuta o significado e possíveis implicações do AIC A sigla AIC siguinifica ( Akaike Information Criterion) ou Critério de Informação Akaike, configura uma medida da relação da qualidade de ajuste de um modelo estatístico, de autoria de Hirotsugu Akaike em 1974, sob o nome de um critério de informação (AIC). As aplicações se baseiam em critérios de entropia da informação, oferecendo uma medida relativa da perda da informação quando um modelo é usado para descrever a realidade, como por exemplo, descrever o equilíbrio entre viés e variância na construção do modelo ou na precisão e complexidade do modelo. Em outras palavras os valores da AIC fornecem um meio para seleção do modelo apesar de não testar a hipótese

nula. Considerando um conjunto de modelos candidatos para os dados, deve-se preferir aquele com o valor mínimo de AIC. Então o AIC não só trás benefícios de ajuste, mas também faz exclusões de preditores que é em função do crescente do número de parâmetros estimados. implicações? não tenho idéia se você entendeu o que quis dizer com entropia da informação...além disto o português está dose pra leão... [0.500] (IP:281473652568206 07:28:37 19:14:00 45:23 6.588) Discuta diferentes estratégias para seleção do melhor modelo de regressão linear múltipla Testar todas as regressões possíveis, grande número de combinações, em qualquer regressão múltipla, os coeficientes se correlacionam, ao diminuir ou ao aumentar o número de variáveis independentes, os coeficientes de regressão parcial de b também se alteram. Maior número de variáveis possíveis o coeficiente de determinação não diminui pela adição de novas variáveis independentes. Uma correlação alta entre as variáveis independentes pode trazer problemas nos caçulos para estimação da equação. Eliminação para trás Testa o efeito das variáveis começando com toda e retirasse uma a uma até perder a significância. Devendo permanecer o grupo de variáveis que melhor representa o efeito.para cada modelo, testa o efeito da retirada da última variável Seleciona a variável com menor efeito de retirada Seleção para frente- testa-se todas e adiciona-se a que sobrepõe ao grupo contudo uma combinação de variáveis pode sobrepor uma singularmente forte. Stepewise(backard e forward) - Estabelece-se uma variável e estima-se a outra, seleção para frente, repetindo-se o processo ate que se estabilize. O valor arbitrado deve se colhido em bibliografia recentes para diminuir o tempo de estabilização ou ainda evitar uma coincidência de valores estabilizados. muito confuso. Suspeito que "maior número de variáveis" na realidade quer dizer o teste do efeito de incluir novas variáveis até as proximas não trazerem ganho de informação. No entanto, o modelo com o maior número de variáveis é necessariamente o completo, que inclui tudo. [0.000] (IP:281473652568206 07:31:08 19:14:48 43:40 7.918) Discuta o artigo desta semana de forma detalhada o suficiente para que o leitor de seu resumo tenha um bom entendimento do artigo. Usando a teoria da informação como um substituto do Stepwise para comportamento da regressão em ecologia. Na pesquisa do abstrato do comportamento ecológico, conclusões a partir desenhos de modelos estatísticos confiáveis com múltiplos preditores é geralmente difícil, se todos os preditores estão simultaneamente no modelo. A maneira tradicional de limiar a manipulação de preditores múltiplos tem sido a utilização baseado remoção ou introdução de algoritmos, isto é, regressão Stepwise, que atualmente recebe críticas. O método de modelagem mais recente, e cada vez mais propagado para os indicadores múltiplos é a teoria da informação (TI) na abordagem que quantifica a adequação relativa de múltipla potencialmente nãoaninhados ( no-nested)modelos baseados no equilíbrio do modelo forma e na precisão das estimativas. Aqui, vamos examinar três deficiências de regressão que têm sido sugeridos para ser evitada pela aplicação teoria da informação, crítica subjetiva valores, a incerteza do modelo e viés de estimação de parâmetros. Argumentamos que, em determinadas circunstâncias, a abordagem que pode ser sensível a estas questões também pode nós apontar as áreas em que outros testes e desenvolvimento poderão melhorar o desempenho e métodos de TI, finalmente, leva para inferências robustas em ecologia comportamental. Introdução: Acumular conhecimentos em ecologia e comportamento tem duas principais avenidas (Romesburg 1981). A abordagem indutiva envolve generalização de padrões em um conjunto de dados. O método hipotético dedutivo (HD) postula uma hipótese nula com base na informação disponível, se articula predições testáveis e testes a estas previsões. Indução e dedução têm papéis complementares em conhecimento e competência. Padrões observados em um conjunto de dados, por um lado, não pode demonstrar relações causais, então eles devem ser considerados como uma tentativa, e o método indutivo é uma forma de geração de mais de uma hipótese, de preferência testes experimental (Williams 1997; Steidl 2006). A abordagem H-D, por outro

lado, está firmemente ancorada nas informações previamente recolhidas, por isso devemos considerar a descrição de padrões em dados de observação (isto é, a indução) como um passo necessário antes do método H-D pode ser aplicada (Guthery 2007). Em ecologia e evolução, onde muitas vezes é impossível alcançar até mesmo um controle parcial experimental de confusão fatores, a identificação padrão correlativo sempre desempenha um papel importante (Johnson 2002). Em tais estudos descritivos, o pesquisador geralmente tem uma lista de fatores, aqueles que são suspeitos de influenciar a variável dependente. Os modelos estatísticos estão de acordo muitas vezes caracterizados por vários parâmetros. Note-se que em muita situação semelhante pode surgir complexos estudos experimentais com vários tratamentos e variáveis de fundo. Em tais estudos, tratamento de todos os parâmetros da mesma forma, independentemente de sua importância, é problemático por duas razões principais. Em primeiro lugar, o tamanho da amostra é normalmente limitado, o que dá origem a um sério compromisso entre a complexidade do modelo e da precisão das estimativas de parâmetros (Miller 1992). No entanto, mesmo com uma grande amostra, deixando todos os preditores no modelo implica que a estimativa de qualquer um preditor será corrigido para os efeitos de vários preditores potencialmente, embora a maioria deles tenha na verdade pouco sobre o fato variável dependente. Isto implica um aumento de aleatório ruído nas estimativas de parâmetros modelo completo, o que pode criar viés grave, ou seja, a inflação, ou deflação das estimativas (Ginzburg e Jensen 2004). Em segundo lugar, muitos modelos em ecologia comportamental incluem termos de interação. Se um está presente no modelo, os principais efeitos das variáveis correspondentes não podem ser prontamente interpretados porque o seu significado é diferente do que sem uma interação. Existem geralmente muitos termos de interação, e a maioria deles terá efeitos muito pequenos. Na presença de termos de interação fraca, o principal efeito das estimativas terão grandes erros padrão, e eles também serão tendenciosos, a menos que condições muito restritivas são satisfeitas (Aikene Oeste 1991; Engqvist 2005). Como consequência, pesquisadores que necessitam de estimativas de parâmetros úteis, muitas vezes necessidade de remover ou classificar os parâmetros com base em algum critério, e tirar conclusões a partir de modelos mais parcimoniosos do que o modelo completo. O método clássico de lidar com os efeitos fracos e interações é a simplificação do modelo stepwise (Miller 1992;Gelman e Hill 2008). Este processo obtém um modelo final que não contém qualquer termo interação fraca e contém variáveis que são preditores ou fortes ou envolvidos em uma forte interação. Durante a regressão de stepwise, pares de modelos aninhados são comparados de acordo com uma regra fixa até que nenhum termo pode ser adicionado ou removido do modelo. Este processo geralmente envolve testes de hipótese nula (NHT) e faz uso de limitadores de importância. A solução alternativa relativa recentemente proposta é o teoria da informação (TI) abordagem (Burnham e Anderson 2002). Neste método, o ajuste do modelo e do número de parâmetros e os descritores contínuos que dão o equilíbrio do modelo (Ward 2008) são calculados para cada modelo em um candidato à modelo fixo definido. Com base neste suporte relativo para modelos individuais ou parâmetros pode ser deduzido (Burnham e Anderson 2002). O mais popular desses descritores em ecologia é o critério Akaike de informação ou AIC (Akaike 1973). Ao aplicar a teoria da informação, podemos evitar completamente o teste hipótese nula e o uso de valores de significância (Burnham e Anderson 2002). Ambos os métodos de TI e NHT baseados em metodologias stepwise têm sido utilizados quando se lida com muitos preditores potenciais, e sua aptidão para tais análises em ecologia e comportamento tem sido vigorosamente debatida, com alguns autores recomendando o abandono completo do Stepwise incluindo a compilação do conjunto de modelos a serem analisados (Dochtermann e Jenkins2010), a combinação de informações a partir de diferentes modelos (Richards et al. 2010), e lidar com colinearidade e falta de observações durante este processo (Freckleton 2010; Nakagawa e Freckleton 2010). Outros trabalhos para discutir questões filosóficas e práticas que criam uma gama de lacunas entre a TI e NHT, ou enfatizar um ponto fraco no método Stepwise (Burnham et al.2010; Mundry 2010). Nós encontramos três principais deficiências da abordagem gradual. Relativamente a essas deficiências, o método de TI tem sido sugerido para oferecer um desempenho superior (Whittingham et al.2006). Para cada ponto, vamos primeiro procurar maneiras potenciais de aliviar o problema dentro da regressão metodologia. Então, vamos olhar para a solução proposta que na teoria da informação oferece, com relação aos dados, e examinara robustez da solução. Realizamos esta comparação para facilitar a aprendizagem científica, no qual o entendimento de problemas metodológicos auxilia na interpretação dos dados e desenvolvimento de nossas ferramentas estatísticas. É necessário fazer duas notas antes deste comparativo de discussão. Em primeiro lugar, a filosofia subjacente à NHT e teoria da informação é radicalmente diferente (Johnson e

Omland 2004; Stephens et ai. 2005). O anterior olha para a probabilidade de os dados fornecidos a hipótese nula focal, enquanto que o último avalia a probabilidade de um ou mais modelos (ou hipóteses) com base nos dados focais. Isto implica que a TI se aproxima (um modelo de seleção abordagem sensu Johnson e Omland 2004) não é de fato uma verdadeira alternativa de regressão (uma abordagem a simplificação do modelo) (Guthery et al. 2005; ver o "Conclusões e futuro direções " seção para uma discussão mais aprofundada) da NHT-Stepwise os métodos (Forstmeier e Schielzeth 2010)aqui, adotamos uma prática estritamente comparativa e de aproximação entre métodos de TI e NHT-stepwise. Segundo, é possível fazer regressão utilizando critérios informações, isto é, uma simplificação da abordagem do modelo TI-stepwise. À medida que, o método de IT-stepwise compartilha a maioria das deficiências da NHT-stepwise de regressão de Sion, e também é inconsistente com a filosofia de teoria da informação (Burnham e Anderson 2002). Este método não é parte do sentido estrito TI abordagem que estamos discutindo aqui, mas podemos citar a dirigir comum mal entendidos. O presente trabalho é um breve resumo e não se destina a fornecer uma revisão em profundidade. Em vez disso, oferecemos uma visão geral objetiva de alguns pontos, enquanto mantendo a filosofia de "Estatística pluralismo. "Mais discussões detalhadas de cada ponto pode ser encontrado na respectivas referências. Regressão geralmente utiliza NHT e crítica de valores (Miller 1992). Existe, portanto, uma tentação para assumir que os termos não incluídos no modelo final tem efeito zero (Whittingham et al. 2006). Há também um problema geral com a utilização de crítica Por valores. Os parâmetros que apenas marginalmente superior a esta crítica não será considerado, Embora estas diferenças muito pequenas podem surgir devido avarias razões imprevisíveis (Grafen e elogia 2002). O terceiro problema com a NHT é que normalmente não há efeito zero real em conjuntos de dados naturais, exceto para experimentos e observações de dados de contagem e probabilidades(martínez-abrain 2007). Assim, comparando um efeito para zero pode muitas vezes ser sem sentido (Rosenthal et ai. 2000). Atribuindo um tamanho de efeito de zero para os termos removidos n a regressão cria viés (Whittingham et al.2006). Em vez de assumir efeitos zero, é possível gerar estimativas reais de reintegração dos termos removidos para o modelo final, um por um. Neste processo, nós primeiro realizamos a regressão até que converge, e em seguida, apresentam tamanhos de efeito (Nakagawa 2004) por todos os termos. Os tamanhos de efeito para termos no modelo final vem a partir deste modelo, enquanto que tamanhos de efeito para termos fora do modelo inicial vêm sua reintrodução no modelo final. A diferença importante entre esse processo e a montagem é que tamanhos de efeito em modelos completos são geralmente imprecisos e incertas, porque há ruído de muitos termos do modelo (Sauerbrei 1999; Engqvist 2005). O pós-gradual, tamanhos de efeito reintroduzidos, nós recomendamos são livre deste ruído, porque somente um termo retirado é reintroduzido em um momento assim como os demais termos removidos não complicar o modelo e não enviesar a estimativa do respectivo termo reintroduzida. Deve-se notar, no entanto, que os tamanhos de efeito são reintroduzidos condicionais no final do modelo, que é, em si, instável e pode conter variáveis incômodas. Isto cria outro tipo de ruído, que discutiremos na próxima seção. A teoria da informação não significa necessariamente fazer uso de limites, tais como valores de significância críticos (Burnham e Anderson 2002). No entanto, depois de encontrar o melhor modelo, que normalmente querem ver se é de fato o melhor ou apenas um de muitos modelos de forma semelhante adequados (Draper 1995) ele é o melhor, podemos calcular as estimativas dos parâmetros a partir deste modelo. Se não for o melhor, nossas estimativas de parâmetros servirão de nivelamento para outro modelo, isto é, que calcula a média estimativa para todos os modelos da série modelo inteiro, mas o peso as estimativas de acordo com a classificação critério de informação (Por exemplo, peso Akaike) do modelo de dados (Buckland et al.1997). Existem dois métodos para decidir se o melhor modelo é de fato o melhor. Primeiro, podemos especificar limite. Os valores de critérios de informação acima do qual dois modelos são Considerados diferem em adequação, por exemplo, um AIC diferença (AIC) de 2 (Burnham e Anderson 2002), 6(Richards et ai. 2010), 10 (Symonds e Moussalli 2010) ou mesmo 20 (Burnham et al. 2010). Se a diferença entre o melhor modelo, é o segundo, exceder este limite, nós consideramos o melhor modelo como verdadeiramente o melhor do dado candidato definido. Em segundo lugar, podemos comparar o melhor modelo para outros modelos aninhados no candidato definido por meio de Testes de razão de verossimilhança, que envolvem NHT clássica e crítico Pvalores (Posada e Crandall 2001; mas veja Burnham e Anderson 2002). A utilização de métodos em TI ecologia e comportamento de limite classicamente envolvidas informação valores de critério e melhores modelos (Burnham e Anderson 2002), mas o foco foi recentemente deslocado para a avaliação da adequação do modelo relativo, como AIC fileiras e provas (Whittingham et al. 2006; Lukács et

ai. 2007). No entanto, se quisermos tomar decisões sobre a singularidade do melhor modelo de TI, ainda temos que usar valores críticos. Em contraste para valore críticos, é pouco conhecido se arbitrária diferenças de limites em TI, critérios que atualmente são aplicadas demasiadamente permissiva ou restritiva demais, porque não é simplesmente experiência suficiente para dizer isso (Richards 2005, 2008; Enfermaria 2008). Conclusões e direções futuras Quando confrontados com múltiplas variáveis preditoras, o mais simples solução é considerar todos eles na análise, independentemente da sua importância. Estimativas dos parâmetros deste modelo completo abordagem será muitas vezes imprecisas ou tendenciosas, pelo que esta abordagem não pode ser geralmente aplicado na ecologia e comportamento (Ginzburg e Jensen 2004). Duas alternativas para modelo completo montagem são a simplificação do modelo e seleção de modelos (por exemplo, Johnson e Omland 2004). Simplificação do odelo algoritmos, tais como regressão, adicionar ou remover parâmetros individuais com base no desempenho desses parâmetros (por exemplo, coeficiente de regressão, significância) ou os desempenho do modelo (por exemplo, variância explicada, Mallows 'Cp). Por outro lado, a selecção do modelo, tal como um método de TI, estabelece um conjunto de parâmetro Combinações (isto é, os modelos) e classifica estes com base na informação critérios que ajuste do modelo equilíbrio e complexidade do modelo. Métodos de regressão Stepwise e TI têm sido frequentemente discutido como métodos alternativos de parâmetro múltiplamodelação (Stephens et ai. 2007b). Aqui, discutimos três carências bem conhecidas de regressão que são amplamente considerados como automaticamente resolvidas simplesmente aplicando a teoria da informação sem procedimentos Spepwise (por exemplo, Whittingham et al. 2006): subjetivos valores críticos, a incerteza do modelo, e viés de estimação de parâmetros. Notamos que estes ou em problemas similares aparecem também em métodos TI. Em primeiro lugar, valores críticos subjetivos são empregados quando comparamos o melhor modelo para outros altos modelos (Guthery et al. 2005). Em segundo lugar, a incerteza de seleção do modelo surge quando aplicamos um conjunto de modelos altamente restrito candidato (Eberhardt 2003) ou tentar delinear um conjunto modelo de confiança (Whittingham et al. 2005). Em terceiro lugar, o viés de estimação de parâmetros aparece quando critérios de informação desproporcionalmente favorecer modelos complexos (Forster 2000). Além disso, existem outras questões que possam causar problemas ao usá-los, métodos em ecologia e evolução. Por exemplo, o modelo de média sobre todos os modelos podem dar resultados incertos se considerarmos interações, porque: (1) aumento erros padrão de efeito principal estimativas de parâmetros em modelos com interações podem levar de ajuste pobre e viés, pode o modelo de média parâmetro de estimativas dos efeitos principais em relação aos seus valores em modelos sem interações. (2) parâmetro principal efeito individual estima-se muitas vezes podem ser parcial na presença de interações (Aiken e West 1991; ver Richards et al. 2010 para preocupações adicionais referentes média modelo). Além disso, há advertências na literatura que AIC ou mesmo critérios de máxima verossimilhança como um todo não pode ser segura utilizado no caso de modelos aninhados, modelos mistos, e correlacionado parâmetros (Vaida e Blanchard 2005; Nakagawa et ai. 2007; Enfermaria 2008), todas as quais são comuns em nosso campo. Estudos adicionais são urgentemente necessários para desenvolver o método de TI para a análise de dados com múltiplas preditores. Isto irá requerer uma compreensão das deficiências atualmente prevalentes em protocolos stepwise e TI. Estas lacunas têm de ser testadas usando dados ecológicos e comportamentais, que são caracterizadas por relativamente fracos tamanhos de efeito (Möller e Jennions 2002) e complexas estruturas de covariância bastante diferentes daqueles de simulado de dados (Graham 2003). Para uma tentativa pioneira, ver Murtaugh (2009), que, no entanto, usou um Stepwise em não algoritmo (algoritmo de Efroymson) amplamente utilizado em ecologia comportamental. Quanto à teoria da informação, há, pelo menos, quatro tarefas: Primeiro e mais importante, o número de combinações de parâmetros possíveis, rapidamente aumenta com o número de preditores e especialmente se interações são consideradas, o modelo conjunto de candidato tão restrito, muitas vezes, ser bastante arbitrário, e as conclusões deles terão generalidade pouco (Eberhardt 2003). Portanto, precisamos testar se os resultados de exercícios de TI são tendenciosa, se usarmos todos os subconjuntos do modelo completo, que é a abordagem atualmente mais frequentemente empregada. Em segundo lugar, para além de AIC, o empenho do outros critérios de informação na escolha do modelo também deve ser testado (Ward 2008), que até agora tem sido largamente evitando (Guthery et al. 2005). Em terceiro lugar, quando se utiliza o método de TI para tomada de decisão entre modelos concorrentes, são necessárias para quantificar a sensibilidade de conclusões a corte informação valores de critério que usamos para encontrar o melhor modelo ou conjunto modelo (Guthery et al. 2005). Além disso, é importante para