EXPERIMENTAÇÃO PARA DADOS FLORESTAIS COM O USO DO SOFTWARE R INTRODUÇÃO SOFTWARE R CURITIBA, PR PROF.: RÔMULO MÔRA romulomef@yahoo.com.br 1 HISTÓRICO O R é uma linguagem orientada a objetos, criada em 1996 por Ross Ihaka e Robert Gentleman, que aliada a um ambiente integrado, permite a manipulação de dados, realização de cálculos e geração de gráficos. O programa R e um dos melhores software de análise estatística existentes na atualidade. O programa R tem competido com o SAS nas mesmas condições. Como instalar o software?.1 Instalar software R Conectar-se ao www.r-project.org; Selecionar o espelho CRAN; Selecionar o país; Selecionar o sistema operacional; Selecionar o base (sistema básico do R); Realizar os procedimentos normais de instalação..1.1 Tela principal.1. Barra de ferramentas Antes de iniciar as análises escolher o diretório principal; arquivo mudar dir Para limpar a área do console editar limpar o console listar objetos e remover objetos ls() listar objetos rm() remover objetos rm(nome do arquivo) excluir um objeto rm(list=ls(all=true)) remover todos os objetos 1
Ajuda da função help() ou? ajudar da função. Necessita ter internet para ativar Abrir Novo script Isso facilita a digitação do script O R possui vários pacotes para facilitar os cálculos. Alguns pacotes já vem instalados no programa e não necessitam ser baixados e estão disponibilizados nas ferramentas básicas do kernel do R..1.3 PACOTES (PACKAGES) Pacotes ou bibliotecas são os nomes mais usados para designar um conjunto de funções (comandos), e ou dados agrupados. Pesquisando as inúmeras possibilidades na internet, podemos baixar aquelas que nos interessam e ampliar a capacidade do programa..1.3.1 Instalar pacotes (com internet) Pacotes; Clicar em Escolher espelho CRAN - Clique sobre other mirros - Selecione qualquer um lugar do servidor do Brasil - clicar em OK; Clicar em instalar pacote ; Selecionar o pacote OK. Carregar o pacote para utilizá-lo - library(nome do pacote) no console..1.3. Instalar pacotes (sem internet) (Nesse tópico apenas não precisamos de internet para fazer a instalação pelo software diretamente, mas precisamos de internet para fazer download do pacote) Conectar-se ao www.r-project.org; Selecionar o espelho CRAN; Selecionar o país; Selecionar package; Selecionar Table of available packages, sorted by name Selecionar o pacote; Escolher o arquivo zip de acordo com o sistema operacional. Clicar em install package(s) from local files ; Selecionar o pacote OK. Carregar o pacote para utilizá-lo - library(nome do pacote) no console.. Instalar software R Studio Para realizar a instalação do R studio é necessário ter o software R já instalado. Conectar-se ao https://www.rstudio.com/; Selecionar download; Selecione a opção RStudio Desktop versão FREE; Selecionar o sistema operacional; Realizar os procedimentos normais de instalação.
..1 Tela principal.. Barra de ferramentas Para limpar a área do console edit clear console Para criar uma nova aba de script file new file listar objetos e remover objetos ls() listar objetos rm() remover objetos rm(nome do arquivo) excluir um objeto rm(list=ls(all=true)) remover todos os objetos Ajuda da função help() ou? ajudar da função. Necessita ter internet para ativar..3 PACOTES (PACKAGES) O R possui vários pacotes para facilitar os cálculos. Alguns pacotes já vem instalados no programa e não necessitam ser baixados e estão disponibilizados nas ferramentas básicas do kernel do R. Pacotes ou bibliotecas são os nomes mais usados para designar um conjunto de funções (comandos), e ou dados agrupados. Pesquisando as inúmeras possibilidades na internet, podemos baixar aquelas que nos interessam e ampliar a capacidade do programa...3.1 Instalar pacotes (com internet) Tools; Clicar em Install Packages Na parte Install from, permanecer Repository CRAN, CRANextra ; Packages - Digitar nome do pacote Clicar no botão Install. Carregar o pacote para utilizá-lo - library(nome do pacote) no console...3. Instalar pacotes (sem internet) (Nesse tópico apenas não precisamos de internet para fazer a instalação pelo software diretamente, mas precisamos de internet para fazer download do pacote) Conectar-se ao www.r-project.org; Selecionar o espelho CRAN; Selecionar o país; Selecionar package; Selecionar Table of available packages, sorted by name Selecionar o pacote; Escolher o arquivo zip de acordo com o sistema operacional. 3
No Rstudio, selecionar Tools; Clicar em Install Packages Na parte Install from, permanecer Package Archivo file ; Package archivo selecionar o arquivo do tipo zip ou outro. Clicar no botão Install. Carregar o pacote para utilizá-lo - library(nome do pacote) no console. 3 ENTRADA DE DADOS O R possui inúmeros recursos de importação, considerando os mais diferentes tipos banco de dados e planilhas eletrônicas. Para o curso vamos utilizar uma planilha de dados eletrônica (.csv). Nesse processo utilizamos qualquer planilha ou editor de texto e importarmos o seu resultado para um objeto R do tipo data frame, usando o comando read.csv. O arquivo de dados pode ser lido no R de inúmeras maneiras diferentes, porém utilizaremos a forma mais simples. Temos que pensar que cada variável deve ocupar uma coluna do arquivo e cada observação ou unidade amostral uma linha. Esta é a estrutura utilizada pela maioria dos programas de análise estatística. O R diferencia níveis escritos em letras maiúsculas de níveis escritos em letras minúsculas. Assim, o nível a é diferente do nível A. TOME CUIDADO!!!! Outro aspecto é o uso de espaços nos níveis dos fatores qualitativos, que não são permitidos nesse tipo de entrada de dados, embora possamos utilizar cedilhas e letras acentuadas. Outro fator importante é que nenhum sinal matemático (+, -, *, /) pode ser utilizado no título da variável. Nomes de arquivos curtos também são recomendados. EXEMPLO DE BANCO DE DADOS DIGITADO NO Microsoft Excel e salvar em.csv 1. Considere um arquivo no Microsoft Excel. Salvar o arquivo em.csv EXEMPLO DE BANCO DE DADOS DIGITADO NO LibreOffice e salvar em.csv 1. Considere um arquivo em LibreOffice. Salvar o arquivo em.csv 4
4.1 Algumas funções de banco de dados read.csv ler o arquivo de dados; Lembrar de dar um nome no arquivo para facilitar; fix(nome do arquivo) corrige o banco de dados, caso seja necessário; variavel$banco_dados para criar uma variável no arquivo; ls() listar variáveis do objeto; str ( ) mostrar características do banco de dados; is.factor (nome da variável do objeto) verificar se a variável de um objeto é fator. is.numeric (nome da variável do objeto) verificar se a variável de um objeto é variável numérica. objeto$variável<-as.factor(objeto$variável) transformar uma variável numérica em fator; objeto$variável<as.numeric(objeto$variável) transformar uma variável do tipo fator em numérica; subset(nome do objeto, nome da variável) para extrair parte do banco de dados; Lembrar de dar um nome para o arquivo. ESTATÍSTICA EXPERIMENTAL USANDO O SOFTWARE R Algumas Funções Básicas Usando a função tapply para objetos de delineamentos unidos em grupos #média tapply(variável,grupo,mean) #variância tapply(variável,grupo,var) #desvio padrao tapply(variável,grupo,sd) #resumo estatístico tapply(variável,grupo,summary) #Gráfico boxplot boxplot(variavel~grupo, data=dados) TESTE DE HIPÓTESES HIPÓTESE ESTATÍSTICA Testes paramétricos Variáveis tenham distribuição normal; Para Análise de Variância, além da distribuição normal, as variâncias devem ser homogêneas, os erros independentes e o modelo deve ser aditivo; Testes não paramétricos Pelo menos uma condição contrária aos testes paramétricos 5
TESTE DE HIPÓTESE Teste de Normalidade dos dados Teste para verificar se os erros seguem ou não distribuição normal Hipóteses: H0: os erros seguem distribuição normal Ha: os erros não seguem distribuição normalc O teste utilizado é o teste de Shapiro Wilk. Podem ser utilizados outros testes. Função: shapiro.test() Testes Estatísticos Paramétricos Todos os testes estatísticos devem conter: Hipótese estatísticas; Fórmula de Cálculo; Nível de significância; Regra da decisão baseada no resultado do p-valor para cada teste. p-value ou p-valor RNRH0 RRH0 Se o p-valor calculado pelo teste for menor ou igual ao nível de significância rejeita H0; Se o p-valor calculado pelo teste for maior que o nível de significância não rejeita H0; α teste t para duas amostras independentes Além de verificar a normalidade, a homogeneidade de variância é avaliada pelo teste F quando temos duas amostras independentes Teste F Hipóteses H 0 : σ 1 = σ H a : σ 1 > σ ou H a : σ 1 < σ s s F calc = = s s 1 maior menor teste t para duas amostras independentes considerando variâncias homogêneas Hipóteses H 0 : μ 1 = μ H a : μ 1 μ ou H a : μ 1 > μ ou H a : μ 1 < μ X1 X cal = ~ t (n + n ) ( n1 1) s1 + ( n 1) s 1 1 s c = sc + n1 + n n1 n t 1 Exemplo Verificar se há presença de micorrizas aumenta o diâmetro das plantas considerando um nível de significância de 5%. 6
teste t para duas amostras independentes considerando variâncias heterôgeneas Hipóteses H 0 : μ 1 = μ H a : μ 1 μ ou H a : μ 1 > μ ou H a : μ 1 < μ Exemplo Verificar t cal = X1 X ~ t (n*) s1 s + n1 n se existe diferença média entre os diâmetros das plantas com micorriza e o controle a um nível de significância de 5%. Hipóteses H 0 : μ d = 0 teste t para dados pareados H a : μ d 0 ou H a : μ d > 0 ou H a : μ d < 0 Exemplo t cal = S d X / d ~ t (n -1) n Em processo de dinâmica natural, foram medidos os diâmetros de seis fustes em um ano (n) e no ano subsequente (n+1) a fim de verificar se houve aumento do DAP no período de 1 ano. Utilize alfa 5%. Delineamentos Experimentais Antes do procedimento de Análise de Variância (ANOVA)realizar o cálculo do teste de normalidade e do teste de homocedasticidade Teste de normalidade teste de Shapiro wilk Teste de homocedasticidade teste de bartlett - Teste de Bartlett H0: as variâncias são homogêneas Ha: as variâncias não são homogêneas função: bartlett.test() Delineamentos Inteiramente casualizado - DIC H 0 : m 1 = m =... = m i = m, Tratamento (I-1) SQTrat SQTrat/(I-1) QMTrat/QMRes [(I-1);I(J-1)} Resíduo I(J-1) SQRes SQRes/I(J-1) Total IJ-1 SQTotal Exemplo 1 Para comparar a produtividade (kg) de quatro variedades de pequi, um engenheiro florestal tomou vinte parcelas similares e distribuiu, inteiramente ao acaso, cada uma das 4 variedades em 5 parcelas experimentais. A partir dos dados experimentais fornecidos abaixo, é possível concluir que existe diferença significativa entre as variedades com relação a produtividade, utilizando o nível de significância de 5%? Exemplo Considere um experimento montado segundo o DIC para avaliar o crescimento (mm) de mudas de Eucalipto usando seis doses diferentes de AIB. Testes de comparações múltiplas ou Regressão para Falta de ajuste (Regressão por polinômios ortogonais) Quando o resultado da Análise de Variância for significativo há duas opções para verificar diferença entre os tratamentos: 1) Testes de comparações múltiplas quando os tratamentos forem qualitativos ou quantitativos; ) Regressão para falta de ajuste (Regressão por polinômios ortogonais) quando os tratamentos forem quantitativos apenas. 7
Testes de comparações múltiplas Teste de tukey; Teste de Duncan; Teste de Student-Newman_Keuls (SNK) Teste de Scott Knott (pelo menos 10 tratamentos para utilizar). Delineamento Casualizado em Blocos H 0 : m 1 = m =... = m i = m, Tratamento (I-1) SQTrat SQTrat/(I-1) QMTrat/QMRes [(I-1);(I-1)(J-1)} Bloco (J-1) SQBloc - - - Resíduo (I-1)(J-1) SQRes SQRes/(I-1)(J-1) - - Total IJ-1 SQTotal Delineamento em Quadrado Latino H 0 : m 1 = m =... = m i = m, Tratamento (I-1) SQTrat SQTrat/(I-1) QMTrat/QMRes [(I-1);(I-1)(I-)} Linha (I-1) SQLin - - - Coluna (I-1) SQCol - - - Resíduo (I-1)(I-) SQRes SQRes/(I- 1)(I-) Total I -1 SQTotal - - Exemplo: Num experimento de competição de produção (kg/parcela) de variedades de cana forrageira foram usadas 5 variedades: A=CO90; B=CO94; C=CO97; D=CO99 e E=CO95, dispostas em um quadrado latino 5x5. O controle feito através de blocos horizontais e verticais teve por objetivo eliminar influências devidas a diferenças de fertilidade em duas direções. Ensaios Experimentais Há dois tipos de ensaios experimentais: os ensaios fatoriais e os ensaios em parcelas subdivididas Qualquer um desses ensaios é desenhado segundo um delineamento experimental e comparado segundo o teste de comparação múltipla ou regressão, se necessário. O intuito desses experimentais é verificar interação entre os fatores. Esses fatores em conjunto constituem os tratamentos. Hipótese Efeitos Principais Fator A H 0 : m A1 = m A =... = m Ai = m A Fator B H 0 : m B1 = m B =... = m Bi = m B Ensaios Fatoriais Efeito da interação, Fator A (I-1) SQA SQA/(I-1) QMA/ [(I-1);n ] Fator B (J-1) SQB SQB/(J-1) QMB/ Int(AxB) (I-1)(J-1) SQAxB SQAxB/ (I-1)(J-1) QMAxB/ [(J-1);n ] [(I-1)(J-1);n ] (Trat) (IJ-1) (SQTrat) - - - Resíduo n =IJ(K-1) SQRes SQRes/ IJ(K-1) H 0 : os fatores atuam independentemente H a : os fatores não atuam independentemente - - Total IJK-1 SQTotal - - - Exemplo 1 Vamos considerar os dados de um experimento casualizado em blocos, no esquema fatorial 3 x 3, em que foram estudados os efeitos de 3 Peneiras comerciais, associadas a 3 Densidades de plantio, na produtividade do amendoim (Arachis hypogaea L.) variedade Tatu V53. (Adaptado e Banzatto e Kronka, 006). As Peneiras comercias (P) e as Densidades de Plantio (D) estudadas foram: P 1 = peneira 18 P = peneira 0 P 3 = peneira D 1 = 10 plantas por metro linear D = 15 plantas por metro linear D 3 = 0 plantas por metro linear Proceder a análise de variância e realizar o teste de Tukey se necessário. Para os cálculos utilize α=5%. 8
Exemplo Vamos considerar os dados de um experimento inteiramente casualizado, com 4 repetições, no esquema fatorial 3 x, para testar os efeitos de 3 Recipientes (R 1, R e R 3 ) para produção de mudas e espécies de eucaliptos (E 1 e E ) quanto ao desenvolvimento das mudas. (Adaptado e Banzatto e Kronka, 006). Os Recipientes e as Espécies testados foram: R 1 = saco plástico pequeno R = saco plástico grande R 3 = laminado E 1 = Eucalyptus citriodora E = Eucalyptus grandis Proceder a análise de variância e realizar o teste de Tukey se necessário. Para os cálculos utilize α=5%. Parcela Ensaios em Parcelas Subdivididas H 0 : m A1 = m A =... = m Ai = m A Sub-parcela H 0 : m B1 = m B =... = m Bi = m B Efeito da interação, Fator A (I-1) SQA SQA/(I-1) QMA/ [(I-1);n ] Fator B (J-1) SQB SQB/(J-1) QMB/ Int(AxB) (I-1)(J-1) SQAxB SQAxB/ (I-1)(J-1) QMAxB/ [(J-1);n ] [(I-1)(J-1);n ] (Trat) (IJ-1) (SQTrat) - - - Resíduo n =IJ(K-1) SQRes SQRes/ IJ(K-1) H 0 : os fatores atuam independentemente H a : os fatores não atuam independentemente - - Total IJK-1 SQTotal - - - Exemplo 1 Considere um experimento instalado segundo o DBC e no esquema em parcelas subdivididas no qual são comparadas 4 variedades de aveia e 4 tratamentos de sementes (3 produtos químicos + testemunha não tratada) quanto aos efeitos de produção. Na instalação do experimento, as 4 variedades foram distribuídas ao acaso nas parcelas de cada um dos 4 blocos do experimento e os tratamentos de sementes foram distribuídos ao acaso nas 4 subparcelas de cada parcela (BANZATTO & KRONKA, 1989). Com base nos resultados fornecidos a seguir, pede-se, usando o nível de 5% de probabilidade, proceder a análise de variância e aplicar o teste Tukey, quando necessário: Exemplo 1 Considere um experimento instalado segundo o DBC e no esquema em parcelas subdivididas no qual são comparadas 4 variedades de aveia e 4 tratamentos de sementes (3 produtos químicos + testemunha não tratada) quanto aos efeitos de produção. Na instalação do experimento, as 4 variedades foram distribuídas ao acaso nas parcelas de cada um dos 4 blocos do experimento e os tratamentos de sementes foram distribuídos ao acaso nas 4 subparcelas de cada parcela (BANZATTO & KRONKA, 1989). Com base nos resultados fornecidos a seguir, pede-se, usando o nível de 5% de probabilidade, proceder a análise de variância e aplicar o teste Tukey, quando necessário: OBRIGADO romulomef@yahoo.com.br 9