Planejamento e Análise de Experimentos

Planejamento e Análise de Experimentos Profª Lisiane Selau Departamento de Estatística - UFRGS

Matéria-prima da Estatística variabilidade É difícil encontrar duas coisas exatamente iguais Objetivo da Estatística A Estatística desenvolve métodos para descobrir e expor os padrões de comportamento (regularidade) que estão escondidos nos dados. Definição de Estatística A estatística engloba um conjunto de métodos científicos para: coleta, organização, resumo e análise de dados. obtenção de conclusões (suporte à tomada de decisão)

Estatística e Pesquisa Científica Definição do problema, objetivos Planejamento da pesquisa Metodologia da área de estudo Coleta dos dados Análise dos dados Metodologia estatística Resultados Conclusões

Estatística Aplicada à Experimentação A Estatística no contexto da Pesquisa Experimental se ocupa: 1. Planejamento de Experimentos 2. Execução: instalação, condução e coleta de informações de experimentos 3. Análise estatística dos dados

Exemplo - Capuccino Como chegar na melhor receita de cappuccino? Café granulado ou em pó Chocolate chocolate em pó ou achocolatado Leite integral ou desnatado O que é um bom cappuccino? Sabor, Consistência, Aparência,... Quem vai experimentar? Uma pessoa apenas experimenta? Cada pessoa experimenta uma receita? Experimentar todos na mesma ordem? O que mais pode influenciar no sabor? Como analisar os dados?

Objetivos do Experimento Como pode-se perceber, experimentos frequentemente envolvem diversos fatores (ou variáveis explicativas). O objetivo do experimentador é determinar a influência que estes fatores têm sobre a variável resposta. Para um experimento ser o mais eficiente possível, um procedimento científico para planejá-lo deve ser empregado. x 1 x 2 x n Variáveis controladas Entradas Processo/Sistema Saída Evidências para identificar mudanças na variável resposta z 1 z 2 z n Variáveis não controladas (e possivelmente desconhecidas)

Princípios Básicos Os princípios básicos da experimentação são: repetição bloqueamento (controle local) casualização (aleatorização)

Etapas da organização de um experimento 1. Enunciado do problema e formulação de hipóteses 2. Escolha dos fatores que devem ser incluídos no experimento e dos seus respectivos níveis (escolha dos tratamentos) 3. Escolha da unidade experimental e da unidade de observação 4. Escolha das variáveis a serem medidas na unidade de observação

Etapas da organização de um experimento 5. Determinação das regras para atribuição dos tratamentos às unidades experimentais (escolha do delineamento experimental) 6. Determinação do número de repetições 7. Escolha do procedimento de análise estatística dos resultados 8. Conclusões e recomendações

Engenharia de Software Exemplo de um Experimento Como avaliar diferentes tecnologias de Model-based Testing (MBT)? A B C

1. Enunciado do problema e formulação de hipóteses Uma pesquisa científica se inicia sempre com a formulação de hipóteses. As hipóteses são primeiramente formuladas em termos científicos dentro da área de estudo (hipótese científica ou de pesquisa) e em seguida devem ser expressas em termos estatísticos (hipótese estatística). No exemplo, a hipótese de interesse é verificar se há diferença de tempo de desenvolvimento, por exemplo, entre as diferentes tecnologias MBT. H 0 : µ A = µ B = µ C

2. Escolha dos fatores que devem ser incluídos no experimento e dos seus respectivos níveis Em um experimento o objetivo é observar de que maneira uma ou mais condições impostas (fatores) interferem no comportamento de variáveis importantes dentro do contexto da pesquisa (variáveis respostas). Fatores de tratamento: são aqueles que o pesquisador tem interesse em verificar a sua influência sobre as variáveis respostas (Ex.: Tecnologia MBT 3 níveis/tratamentos). Um experimento pode ter um ou mais fatores de tratamento. Fatores de restrição (bloqueamento): são aqueles que possibilitam que as conclusões a serem tomadas fiquem livres de determinados efeitos que se sabe serem importantes, e que podem ser controlados, mas cujo estudo não é o objetivo da pesquisa (Ex.: experiência do profissional ou complexidade do projeto).

3. Escolha da unidade experimental e da unidade de observação A unidade experimental constitui a menor subdivisão do material experimental a qual é aplicado o tratamento. Os tratamentos são aplicados às unidades experimentais, e a unidade de observação é aquela unidade realmente observada para avaliar o efeito de tratamento e pode corresponder a uma fração da unidade experimental. A escolha da unidade experimental, de um modo geral, deve ser orientada no sentido de minimizar o erro experimental, isto é, as unidades experimentais devem ser as mais homogêneas possíveis, para que, quando submetidas a diferentes tratamentos, seus efeitos sejam facilmente detectados. No exemplo, a unidade experimental é cada software desenvolvido.

4. Escolha das variáveis a serem medidas na unidade de observação As medidas realizadas nas unidades de observação, após terem sido submetidas aos tratamentos, constituem os valores da variável dependente ou variável resposta. A variável resposta, em geral, é pré-determinada pelo pesquisador, isto é, ele estabelece a variável a ser medida para verificação do efeito de tratamento. O que constitui problema, às vezes, é a maneira como a variável é medida, pois disso depende a precisão das observações e a distribuição de probabilidade da variável, a qual é essencial para a escolha do método de análise estatística. No exemplo, as variáveis respostas poderiam ser: Eficiência, Facilidade de uso/manutenção e Tempo de desenvolvimento.

5. Determinação das regras para atribuição dos tratamentos as unidades experimentais (escolha do delineamento ou planejamento experimental) Um experimento é composto de duas estruturas básicas: (i) Estrutura de tratamentos: que constitui o planejamento (delineamento) de tratamentos, que consiste em determinar os fatores, seus respectivos níveis e sua forma de organização (ex.: experimento unifatorial tipo de tecnologia). (ii) Estrutura de unidades: que constitui o planejamento (delineamento) experimental, que consiste na forma de atribuição dos tratamentos às unidades experimentais, e o agrupamento de unidades experimentais (bloqueamento) ou não (ex.: a experiência prévia do profissional ou a complexidade do projeto).

Classificação dos principais delineamentos experimentais Unidades Experimentais Sem agrupamento Blocos Unifatorial Fatorial Completamente Casualizado Completamente Casualizado Um agrupamento Completos Blocos Casualizados Blocos Casualizados Incompletos Blocos Incompletos Balanceados Blocos Incompletos Parcialmente Balanceados Confundimento Repetição Fracionada Reticulados (Lattices) Parcela Subdividida Dois agrupamentos Completos Quadrado Latino Quadrado Latino Incompletos Quadrado de Youden Quadrado Quase-Latino Quadrado Reticulado Três agrupamentos Completos Quadrado Greco-Latino

6. Determinação do número de repetições A identificação de um número adequado de repetições é importante no planejamento de um experimento, pois: com poucas repetições pode-se não descobrir diferenças importantes; com muitas repetições pode ocorrer desperdício de tempo e material. Portanto deve-se ter um número suficiente de repetições para detectar como significativa a diferença no efeito de tratamentos, se ela existir, gastando o mínimo possível. Regras práticas para determinação do número de repetições: (i) No mínimo 20 unidades e GL erro experimental 10 (Gomes, F.P., 1978). (ii) GL erro experimental 20 (Steel, R.G.D., et al., 1997).

7. Escolha do procedimento de análise estatística dos resultados Um dos métodos de análise de dados provenientes de experimentos é a Análise de Variância (ANOVA). Introduzida por Fisher, consiste em um processo aritmético para decompor a variação total das unidades experimentais em: Variação relacionada com causas controladas do experimento. Variação relacionada com o erro experimental. A ANOVA tem alguns pressupostos para sua utilização: y Aditividade ( ) ij = µ + τ + ε Variância constante (Homocedasticidade) Normalidade do erros (ε ij ~ N(0,σ 2 )) Erros não correlacionados (Independência) i ij

Como Técnicas de Complementação na ANOVA, tem-se: 1 Ajustamento de funções de resposta através de técnicas de Análise de Regressão para fatores quantitativos. 2 Contrastes Ortogonais para fatores quantitativos e qualitativos que permitem estruturação. 3 Comparações Múltiplas de médias para fatores quantitativos e qualitativos que permitem ou que não permitem estruturação.

Exemplo: Locadora de automóveis Variável resposta: Desgaste dos pneus (diferença de espessura após 20.000 Km de uso) Variável principal: Marca de pneu (é um fator a níveis fixos - 4 marcas de pneu) Variáveis secundárias: Carro, posição dos pneus no carro, motorista, etc. Variáveis não controláveis: Temperatura, Umidade, Terreno, etc.

Exemplo: Locadora de automóveis Usando letras para indicar as 4 marcas de pneus e números romanos para indicar os carros, o experimento poderia ser efetuado da seguinte forma: Falha: os totais para as marcas também serão os totais para os carros. Nesse projeto, o efeito das marcas e dos carros está confundido e a análise fica prejudicada.

Exemplo: Locadora de automóveis Uma segunda tentativa poderia ser um delineamento completamente casualizado. Nesse tipo de planejamento, a distribuição dos pneus nos carros é feita de modo completamente aleatório. O propósito da aleatorização é espalhar, sobre os totais de todas as marcas, qualquer efeito de carros ou de outras variáveis não controladas.

Exemplo: Locadora de automóveis Um exame mais cuidadoso do planejamento completamente casualizado irá revelar algumas desvantagens. Por exemplo, nota-se que a marca A não foi usada no carro III, mas foi usada duas vezes no carro II, etc. Assim, pode estar embutido na marca A algum efeito que possa existir entre os carros II e III.

Exemplo: Locadora de automóveis Seria interessante desenvolver uma estratégia para bloquear um possível efeito dos carros. Isso pode ser feito usando um planejamento em blocos casualizados. Nesse tipo de planejamento, impõe-se que cada marca apareça um mesmo número de vezes em cada carro

Exemplo: Locadora de automóveis Mas poderia se suspeitar também de um possível efeito da posição sobre o desgaste dos pneus. Pneus dianteiros e traseiros, e mesmo pneus localizados em lados distintos de um mesmo carro podem apresentar desgastes diferentes.

Exemplo: Locadora de automóveis Um planejamento onde cada marca (tratamento) aparece uma e somente uma vez em cada carro (linha) e em cada posição (coluna) é chamado de Quadrado Latino.

Exemplo: Locadora de automóveis Outros fatores poderiam ser de interesse do pesquisador como, por exemplo, o tamanho do pneu. Neste caso teríamos um Experimento Fatorial (Marca x Tamanho). Veremos esses tipos de planejamento com exemplos na área de Engenharia de Software. Completamente Casualizado Blocos Casualizados Quadrado Latino Fatorial

EXEMPLO: Considere o problema em que se quer comparar cinco diferentes métodos de projeto (design) para fazer evolução de software (A, B, C, D e E) em termos de tempo de desenvolvimento. Realizou-se o experimento com cinco repetições (5 projetos desenvolvidos com cada método), aleatorizando os 25 projetos, desenvolvidos por um mesmo profissional. Método Repetições A B C D E 1 4,65 4,58 5,80 5,18 4,14 2 4,58 5,10 5,13 5,12 3,71 3 4,84 5,60 6,10 4,70 4,68 4 4,10 4,92 4,86 4,31 4,79 5 4,36 5,50 4,81 5,40 3,93 Soma 22,5 25,7 26,7 24,7 21,3 Média 4,51 5,14 5,34 4,94 4,25

Delineamento Completamente Casualisado (DCC) Quando as unidades experimentais são homogêneas, não existe um fundamento lógico para formação de grupos (blocos) de unidades experimentais. No delineamento completamente casualizado cada unidade experimental recebe por sorteio um dos tratamentos que deverão ser comparados. Nesse caso nenhuma restrição é imposta quanto à casualização/aleatorização, ou seja, a atribuição dos tratamentos às unidades experimentais é feita considerando o conjunto completo das unidades experimentais.

Análise de Variância: Tabela ANOVA Causas de variação GL SQ QM F Tratamentos t - 1 SQT QMT QMT (Entre tratamentos) QME Erro Experimental t(r 1) SQE QME (Dentro dos tratamentos) Total rt - 1 SQTotal A hipótese de nulidade (H 0 ) que se formula é de que não há diferença entre as médias dos tratamentos H 0 : µ = µ = L = 1 2 µ t O teste da hipótese é dado por: QMTratamentos F = = QMErroExperimental QMT QME

Voltando ao exemplo... Análise no Software R Para iniciar a análise, salvamos os dados em um arquivo.txt Importando o banco de dados e definindo os fatores do experimento. dados_dcc<-read.table("c:/.../dcc.txt",header=t) attach(dados_dcc) Metodo = as.factor(metodo)

Análise no Software R Análise Descritiva boxplot(tempo~metodo,ylab="tempo",xlab="metodo")

Análise no Software R Procedimento para a ANOVA Análise de Variância modelo_aux = aov(tempo ~ Metodo) anova(modelo_aux) Conclui-se que existe diferença significativa entre os Métodos no que diz respeito ao tempo de desenvolvimento

Análise no Software R Pressupostos da ANOVA par(mfrow=c(2,2)) plot(modelo_aux)

Análise no Software R Comparações Múltiplas comparacoes = TukeyHSD(modelo_aux, "Metodo", ord=t, conf.level=0.95)

Análise no Software R Comparações Múltiplas gráfico com IC plot(comparacoes)

Análise no Software R Comparações Múltiplas sistema de letras install.packages("agricolae") require(agricolae) df<-df.residual(modelo_aux) Ms.erro<-deviance(modelo_aux)/df letras=hsd.test(tempo,metodo,df,ms.erro, alpha=0.05,group=t) Conclui-se que o Método E deveria ser escolhido por obter o menor tempo de desenvolvimento.

EXEMPLO: Considere o problema em que se quer comparar cinco diferentes métodos de projeto (design) para fazer evolução de software (A, B, C, D e E) em termos de tempo de desenvolvimento. Realizou-se o experimento com cinco desenvolvedores diferentes. Um mesmo desenvolvedor trabalhou em cinco projetos utilizando cada um dos métodos. Método Desenvolvedor A B C D E Soma Média 1 4,65 4,58 5,80 5,18 4,14 24,4 4,87 2 4,58 5,10 5,13 5,12 3,71 23,6 4,73 3 4,84 5,60 6,10 4,70 4,68 25,9 5,18 4 4,10 4,92 4,86 4,31 4,79 23,0 4,60 5 4,36 5,50 4,81 5,40 3,93 24,0 4,80 Soma 22,5 25,7 26,7 24,7 21,3 120,9 Média 4,51 5,14 5,34 4,94 4,25 4,84

Delineamento em Blocos Casualisados (DBC) O delineamento em blocos casualizados é um dos mais importantes delineamentos experimentais utilizados nas pesquisas em diferentes áreas. É um delineamento experimental com uma restrição na aleatorização, onde as unidades experimentais são primeiro organizadas em grupos homogêneos, chamados blocos, para então os tratamentos serem alocados aleatoriamente dentro de cada bloco. Reduz a variância do erro experimental, aumentando a precisão e a validade das inferências sobre os efeitos de tratamentos. Os tratamentos são repetidos nos vários blocos.

DBC - Análise de Variância A tabela apresenta o modelo geral de análise de variância para o delineamento blocos casualizados. Causas da Variação GL SQ QM F Blocos r - 1 SQB QMB QMB/QME Tratamentos t - 1 SQT QMT QMT/QME Erro experimental (t - 1)(r - 1) SQE QME Total rt - 1 SQ Total H = µ 0 : µ 1 = µ 2 =... t

Voltando ao exemplo... Análise no Software R Para iniciar a análise, salvamos os dados em um arquivo.txt Importando o banco de dados e definindo os fatores do experimento. dados_dbc<-read.table("c:/.../dbc.txt",header=t) attach(dados_dbc) Metodo = as.factor(metodo) Desenvolvedor = as.factor(desenvolvedor)

Análise no Software R Análise Descritiva boxplot(tempo~metodo,ylab="tempo",xlab="metodo") boxplot(tempo~desenvolvedor,ylab="tempo",xlab="desenvolvedor")

Análise no Software R Procedimento para a ANOVA Análise de Variância modelo_aux = aov(tempo ~ Metodo+Desenvolvedor) anova(modelo_aux) Conclui-se que existe diferença significativa entre os Métodos no que diz respeito ao tempo de desenvolvimento

EXEMPLO: Considere o problema em que se quer comparar cinco diferentes métodos de projeto (design) para fazer evolução de software (A, B, C, D e E) em termos de tempo de desenvolvimento. Realizou-se o experimento com cinco desenvolvedores diferentes e cinco projetos com diferentes complexidades. Projeto Desenvolvedor 1 2 3 4 5 Soma Média 1 (A) 4,65 (D) 5,12 (C) 6,10 (E) 4,79 (B) 5,50 26,2 5,23 2 (C) 5,80 (A) 4,58 (E) 4,68 (B) 4,92 (D) 5,40 25,4 5,08 3 (D) 5,18 (B) 5,10 (A) 4,84 (C) 4,86 (E) 3,93 23,9 4,78 4 (E) 4,14 (C) 5,13 (B) 5,60 (D) 4,31 (A) 4,36 23,5 4,71 5 (B) 4,58 (E) 3,71 (D) 4,70 (A) 4,10 (C) 4,81 21,9 4,38 Soma 24,4 23,6 25,9 23,0 24,0 120,9 Média 4,87 4,73 5,18 4,60 4,80 4,84 Método A B C D E Soma 22,5 25,7 26,7 24,7 21,3 Média 4,51 5,14 5,34 4,94 4,25

Quadrado Latino - Caracterização No quadrado latino as unidades experimentais que devem receber os tratamentos são agrupadas em duas séries de blocos: linhas e colunas. É igual o número de linhas e o número de colunas. Cada tratamento aparece uma vez em cada linha e cada coluna, tendo, portanto, o mesmo número. Através de análise apropriada é possível separar do erro experimental a variabilidade devida a diferenças, tanto entre linhas como entre colunas, ou seja, às duas fontes de variação controladas pelo experimento. O quadrado latino é mais útil para experimentos em que se comparam 5 a 8 tratamentos.

Quadrado Latino - ANOVA A soma dos quadrados da variação total é decomposta em 4 partes, correspondentes à variação entre linhas, entre colunas, entre tratamentos e o erro experimental.

Voltando ao exemplo... Análise no Software R Para iniciar a análise, salvamos os dados em um arquivo.txt Importando o banco de dados e definindo os fatores do experimento. dados_dql<-read.table("c:/.../dql.txt",header=t) attach(dados_dql) Metodo = as.factor(metodo) Desenvolvedor = as.factor(desenvolvedor) Projeto = as.factor(projeto)

Análise no Software R Análise Descritiva boxplot(tempo~metodo,ylab="tempo",xlab="metodo") boxplot(tempo~desenvolvedor,ylab="tempo",xlab="desenvolvedor") boxplot(tempo~projeto,ylab="tempo",xlab="projeto")

Análise no Software R Procedimento para a ANOVA Análise de Variância modelo_aux = aov(tempo ~ Metodo+Desenvolvedor+Projeto) anova(modelo_aux) Conclui-se que existe diferença significativa entre os Métodos no que diz respeito ao tempo de desenvolvimento

EXEMPLO: Considere o problema em que se quer comparar cinco diferentes métodos de projeto (design) para fazer evolução de software (A, B e C) e três projetos com complexidades diferentes (P1, P2 e P3), sendo avaliado o tempo de desenvolvimento. Realizou-se o experimento com cinco repetições para cada combinação método x projeto. Método Projeto A B C 6,82 7,83 7,88 7,01 7,6 7,05 P1 7,24 7,91 7,53 6,9 7,63 7,58 7,07 7,54 7,03 8,02 9,35 9,67 7,43 8,12 8,67 P2 8,34 8,72 9,44 7,74 8,15 8,59 8,17 8,83 9,85 6,54 6,48 6,85 6,54 6,83 6,98 P3 5,87 6,03 6,14 7,16 6,58 7,38 7,84 7,1 7,95 Soma 108,7 115,0 119,0 Média 7,25 7,65 7,91 Soma Média 110,6 7,37 129,1 8,61 102,3 6,82 342,0 7,60

Experimentos Fatoriais Num experimento, em vez de se estudar uma série apenas de tratamentos, duas ou mais séries de tratamentos poderão ser incluídas. Cada série de tratamentos constitui-se um fator. Vários fatores estudados simultaneamente, em todas as combinações possíveis dos respectivos níveis, constituem um experimento fatorial ou, simplesmente, um fatorial. O efeito de um fator é definido como a variação na resposta produzida pela mudança no nível do fator EFEITO PRINCIPAL. Em alguns experimentos, a diferença na resposta entre os níveis de um fator não é a mesma em todos os níveis dos outros fatores INTERAÇÃO.

Exemplo 1: Interação Nula Exemplo 2: Interação Positiva A para b 2 (-) Exemplo 3: A para b 1 (+) Interação Negativa

Fatorial - Análise de Variância Fonte de Variação Soma de Quadrados GL Quadrados Médios Teste F A SQA (a-1) QMA QMA/QME B SQB (b-1) QMB QMB/QME AB SQAB (a-1)(b-1) QMAB QMAB/QME Erro SQE ab(r-1) QME Total SQT abr-1 Para o fator A: Para o fator B: Para a interação AB: H 0 : µ 1 = µ 2 =... = µ a H 1 : Pelo menos duas médias diferem H 0 : µ 1 = µ 2 =... = µ b H 1 : Pelo menos duas médias diferem H 0 : µ 11 = µ 12 =... = µ ab H 1 : Pelo menos duas médias diferem

Voltando ao exemplo... Análise no Software R Para iniciar a análise, salvamos os dados em um arquivo.txt Importando o banco de dados e definindo os fatores do experimento. dados_fat2<-read.table("c:/.../fat2.txt",header=t) attach(dados_fat2) Metodo = as.factor(metodo) Projeto = as.factor(projeto)

Análise no Software R Análise Descritiva boxplot(tempo~metodo,ylab="tempo",xlab="metodo") boxplot(tempo~projeto,ylab="tempo",xlab="projeto") boxplot(tempo~metodo*projeto,ylab="tempo",xlab="metodo*projeto")

Análise no Software R Análise Descritiva install.packages("lattice") require("lattice") xyplot(tempo~metodo, group=projeto, type=c("p","a"), auto.key=list(space="bottom",columns=3)) xyplot(tempo~projeto, group=metodo, type=c("p","a"), auto.key=list(space="bottom",columns=3))

Análise no Software R Procedimento para a ANOVA Análise de Variância modelo_aux = aov(tempo ~ Metodo+Projeto+Metodo*Projeto) anova(modelo_aux) Conclui-se que existe diferença significativa entre os Métodos no que diz respeito ao tempo de desenvolvimento

Análise no Software R Comparações Múltiplas para o projetos comparacoes_p = TukeyHSD(modelo_aux, "Projeto", ord=t, conf.level=0.95) Como já era esperado todos os tipos de projeto diferem entre si no que diz respeito ao tempo médio de desenvolvimento. Mas essa conclusão não tem muito interesse.

Análise no Software R Comparações Múltiplas para métodos comparacoes_m = TukeyHSD(modelo_aux, "Metodo", ord=t, conf.level=0.95) Somente os métodos A e C diferem significativamente entre si, sendo o método A melhor no que se refere ao tempo médio de desenvolvimento. Mas essa conclusão não tem muito interesse, pois, se a interação existe, a conclusão pode ser diferente ao se considerar os diferentes projetos.

Análise no Software R Comparações Múltiplas fixando o tipo de projeto install.packages("phia") library(phia) testinteractions(modelo_aux, pairwise="metodo", fixed="projeto") Existe diferença significativa somente entre os métodos A e C para o projeto P2, sendo que o método A leva menos tempo de desenvolvimento.

Referências ARANHA, E.; FERRAZ, C.; BORBA, P. Projeto de Experimentos em Engenharia de Software. SBES 2009. Disponível em: http://twiki.cin.ufpe.br/twiki/pub/spg/talks/aranha_tutorial_sbes2009.pdf BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística para Cursos de Engenharia e Informática. Atlas. 3ed. 2010. CIRILO, E. Projeto de Experimento Controlado com Quadrado Latino by Example. PUC-Rio. Disponível em: http://www.inf.pucrio.br/~inf2921/2013_2/notasaula.html MONTGOMERY, D. C. Design and Analysis of Experiments. John Wiley. 6ed. 2005. GOMES, F. P. Curso de Estatística Experimental. FEALQ. 15ed. 2009. RIBOLDI, J. Planejamento e Análise de Experimentos. Porto Alegre, UFRGS/Instituto de Matemática. Série B, n.29. 1995. STEEL, R. G.; TORRIE, J. H.; DICKEY, D. A. Principles and Procedures of Statistical: A Biometrical Approach. McGraw-Hill. 1997.