Um Algoritmo de Otimização Aplicado ao Problema de Estratificação Univariada. José André de Moura Brito

Documentos relacionados
Clóvis de Araújo Peres Cargo: Professor Titular de Estatística da USP UNIFESP Formação: PhD em Estatística pela Universidade WISCONSIN - USA

AMOSTRAGEM. É a parte da Teoria Estatística que define os procedimentos para os planejamentos amostrais e as técnicas de estimação utilizadas.

Algoritmo Genético. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Aspectos metodológicos de pesquisas domiciliares por amostra

TÉCNICAS DE AMOSTRAGEM

Algoritmos Genéticos. Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

Inteligência Artificial

TIPOS DE AMOSTRAGEM Amostragem Probabilística e Não-Probabilística. Amostragem PROBABILÍSTICA: Amostragem Aleatória Simples: VANTAGENS:

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

17/07/2017. Semiprobabilística. Amostra. Amostra Probabilística. Estatística. Amostra Não probabilística TÉCNICAS DE AMOSTRAGEM NOÇÕES DE AMOSTRAGEM

Noções de Amostragem

01/06/2016. Semiprobabilística. Amostra. Amostra Probabilística. Bioestatística. Amostra Não probabilística TÉCNICAS DE AMOSTRAGEM

COMPARAÇÃO ENTRE FROTA HOMOGÊNEA E HETEROGÊNEA EM PROBLEMAS DE ROTEAMENTO DE VEÍCULOS CAPACITADOS

A Importância do Desenho Amostral. Donald Pianto Departamento de Estatística UnB

Conceitosintrodutórios Planejamentode Experimentos. Prof. Dr. Fernando Luiz Pereira de Oliveira Sala1 ICEB I DEMAT

Em várias ocasiões há de se proceder à coleta de dados diretamente na origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo.

UM ALGORITMO GENÉTICO PARA O PROBLEMA DOS K-MÉDOIDES

Experimentos e Resultados

Conceito de Estatística

Complexidade de Algoritmos

OTIMIZAÇÃO FUNÇÕES UTILIZANDO ALGORITMOS GENÉTICOS NO APLICATIVO MS EXCEL RESUMO INTRODUÇÃO

Amostragem Objetivos - Identificar as situações em que se deve optar pela amostragem e pelo censo. - Compreender e relacionar AMOSTRA e POPULAÇÃO.

Em várias ocasiões há de se proceder à coleta de dados diretamente na origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo.

Inteligência Artificial

Lista de Exercícios Programação Inteira. x 2 0 e inteiros.

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

Estatística Descritiva

FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO

INTRODUÇÃO À PROBABILIDADE E ESTATÍSTICA

Um Algoritmo Genético para o Problema de Roteamento de Veículos com Janelas de Tempo

TÉCNICAS DE AMOSTRAGEM

Otimização. Unidade 6: Algoritmo Genético. Jaime Arturo Ramírez. 7. Teoria do processo evolutivo num GA. 8. Aspectos avançados

Planejamento e Otimização de Experimentos

Modelos: Verificação, Validação e Experimentação

INVESTIGANDO O PROBLEMA DA MOCHILA IRRESTRITA EM SUA VERSÃO BIDIMENSIONAL

Lista de Exercícios Programação Inteira. x 2 0 e inteiros.

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

Residentes em domicílios particulares permanentes na zona urbana do território brasileiro

Prof. Dr. Engenharia Ambiental, UNESP

CONTROLE ESTATÍSTICO DE PROCESSOS

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

, logo, para se obter uma boa precisão seria necessário aumentar, e muito, o número de

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR MÉTODO SIMPLEX. Prof. Angelo Augusto Frozza, M.Sc.

Técnicas de Amostragem. É o estudo de um pequeno grupo de elementos retirado de uma população que se pretende conhecer.

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

Algoritmos Genéticos Fundamentos e Aplicações. Prof. Juan Moisés Mauricio Villanueva

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

ALGORITMOS DE OTIMIZAÇÃO APLICADOS AO PROBLEMA DE ESTRATIFICAÇÃO MULTIVARIADA

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

ESTATÍSTICA Medidas de Síntese

Introdução a Algoritmos Genéticos

Buscas Informadas ou Heurísticas - Parte II

Medidas de Dispersão 1

Métodos de Busca. Inteligência Artificial. Algoritmos Genéticos. Algoritmos Evolucionários. Prof. Ms. Luiz Alberto Contato:

SOLUÇÕES HEURÍSTICAS PARA O JOGO DE DAMAS

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Medidas Estatísticas NILO FERNANDES VARELA

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

SEXO POPULAÇÃO AMOSTRA

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

1. Introdução. 1.1.Objetivo

Amostragem. Amostragem. Técnica: possibilita realizar a pesquisa em universos infinitos.

DESENVOLVIMENTO DE UM MÓDULO DE PROGRAMAÇÃO LINEAR NO PROGRAMA OPTIMI

Pesquisa Operacional Introdução. Profa. Alessandra Martins Coelho

INTRODUÇÃO A ESTATISTICA PROF. RANILDO LOPES

INTELIGÊNCIA COMPUTACIONAL EM AMBIENTES DE PROCESSAMENTO PARALELO. Lamartine N. F. Guimarães.

Resumo. Como um agente busca de seqüência de ações para alcançar seus objetivos.

MEDIDAS DE DISPERSÃO. Os dados a seguir referem-se ao índice pluviométrico de três cidades no Estado de São Paulo, em 3 diferentes ocasiões

UMA COMPARAÇÃO EMPÍRICA DE OPERADORES DE CROSSOVER PARA O PROBLEMA DE JOB SHOP COM DATAS DE ENTREGAS

Estatística Descritiva (I)

Elementos de Estatística

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

CONT.NÚM. Como usar estatística no excel. Este conteúdo faz parte da série: Excel Estatística Básica Ver 3 posts dessa série

Medidas Resumo. Medidas de Posição/ Medidas de Dispersão. A intenção desse trabalho é introduzir os conceitos de Medidas de posição e de dispersão.

Distribuição de frequências:

Medida do Tempo de Execução de um Programa. David Menotti Algoritmos e Estruturas de Dados II DInf UFPR

PLANEJAMENTO EXPERIMENTAL

5 Modelo Kernel PCA Genético para Ajuste de Histórico

6 Validação Metrológica

Pesquisa Operacional aplicada ao Planejamento e Controle da Produção e de Materiais Programação Linear

Um Algoritmo GRASP Aplicado ao Problema de Estratificação

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Principais Conceitos em Estatística

A Influência da Amostragem na Representatividade dos Dados

Amostragem do IMC 2011

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

PROJETO DE ARRANJO FÍSICO MODULAR: UMA ABORDAGEM POR ALGORITMO GENÉTICO DE AGRUPAMENTO

VERSÃO RESPOSTAS PROVA DE MÉTODOS QUANTITATIVOS

O que é população? O que é amostra? Curso de Bacharelado em Educação Física e Saúde

APLICAÇÃO DE META-HEURÍSTICAS À ENGENHARIA DE PRODUÇÃ O

Noções de Amostragem. Universidade Estadual de Santa Cruz Gustavo Fragoso

SSC546 Avaliação de Sistemas Computacionais Parte 1 -Aula 3 Sarita Mazzini Bruschi

Cap. 11 Testes de comparação entre duas amostras

Bioestatística. Aula 3. MEDIDAS SEPARATRIZES Quartis, Decis e percentis. Profa. Alessandra Bussador

AMOSTRAGEM 1. O QUE É AMOSTRAGEM?

Transcrição:

Um Algoritmo de Otimização Aplicado ao Problema de Estratificação Univariada José André de Moura Brito Escola Nacional de Ciências Estatísticas - ENCE Rua André Cavalcanti,106 - sala 403 -Santa Teresa, Rio de Janeiro RJ e-mail: jose.m.brito@ibge.gov.br Resumo: O presente trabalho traz uma proposta de resolução para o problema de estratificação univariada. Nesse problema, devem ser construídos L estratos populacionais de forma que a variância seja a menor possível. Esse problema é de grande importância na área de amostragem probabilística e tem elevada complexidade computacional. De modo a resolvê-lo e, consequentemente, produzir soluções de boa qualidade, propõe-se um algoritmo de estratificação baseado em algoritmos genéticos. O final deste trabalho traz um conjunto resultados computacionais obtidos a partir da aplicação do algoritmo a um conjunto de dados reais. 1.Introdução A amostragem probabilística é uma técnica estatística que permite a investigação de várias características de uma população, mediante a observação de apenas uma parte do seu universo de estudo, denominado amostra. A população que será o objeto de investigação, bem como os custos da pesquisa, o nível de precisão desejado, são alguns dos fatores que estão intrinsecamente associados com o método de amostragem que será aplicado na pesquisa, ou seja, como será efetuado o planejamento amostral [8] da mesma. Neste sentido, muitas das pesquisas realizadas pelos órgãos de estatística oficial trabalham com um plano amostral que agrega a conglomeração e a estratificação. Em particular, a utilização de um plano amostral que incorpore a estratificação estatística tende a produzir estimativas mais precisas (com um menor erro padrão associado). De forma a trabalhar com a expressão de variância associada com o plano amostral estratificado e produzir soluções de boa qualidade, propõe-se no presente trabalho um algoritmo de estratificação baseado em algoritmo genéticos [7],[9]. Os algoritmos genéticos têm sido aplicados com sucesso em diversos problemas de otimização, dentre os quais, problemas de agrupamento [3][5]. Este trabalho está dividido da seguinte forma: A seção 2 traz uma descrição detalhada do problema de estratificação. Na seção três é feita uma descrição concisa da metaheurística algoritmos genéticos e do algoritmo de estratificação proposto. E finalmente, na seção quatro, são apresentados e discutidos um conjunto de resultados computacionais obtidos a partir da aplicação do algoritmo, considerando dados do censo demográfico. 2. O Problema de Estratificação A aplicação de um plano amostral com estratificação [8] consiste na divisão de uma população em um número fixo de grupos mutuamente exclusivos e cuja união corresponde a toda a população. A opção por um plano amostral estratificado é motivada pelas seguintes questões: Deseja-se melhorar a precisão das estimativas; produzir estimativas para diversos segmentos da população (domínios); deseja-se que a amostra tenha a mesma composição da população segundo algumas características básicas e por questões administrativas ou operacionais. Em particular, no que concerne à amostragem estratificada, uma população com N unidades definidas por pessoas, domicílios, setores censitários (compostos domicílios), dentre outras unidades, é dividida em L subpopulações com N 1,N 2,...,N h,...,n L unidades, respectivamente, chamadas de estratos. Essas subpopulações não se superpõem e, juntas, abrangem a totalidade da população, de forma que: N 1 +N 2 +...+N L =N. Depois de definidos os estratos, selecionam-se amostras independentes em cada um deles, considerando algum esquema de amostragem, como por exemplo, a amostragem aleatória simples. Neste caso, temos uma amostragem estratificada simples. Os tamanhos das amostras que serão selecionadas em cada um dos estratos são denotados respectivamente por n 1,n 2,...,n h,...,n L, sendo a soma desses valores correspondente ao tamanho total n da amostra fixado a priori. Cabe observar que a precisão (um maior ou menor erro padrão) das estimativas produzidas a partir das amostras selecionadas em cada um dos estratos depende do grau de homogeneidade dos L estratos construídos em relação a uma variável, sendo essa variável denotada como variável da estratificação da pesquisa [1]. A homogeneidade é avaliada a partir do cálculo da variância total em relação aos estratos, ou seja, aplicando a equação (1) abaixo (S 2 hx = variância dentro de cada estrato) associada à variância total de ou a equação (2) associada ao coeficiente de variação (cv) de (t x = total da variável ). Quanto menor for o valor dessa variância ou do cv, mais homogêneos serão os estratos. Essa homogeneidade melhora não apenas a estimativa para, mas também 1 81

para um conjunto variáveis de interesse Y 1,...,Y m [1] que sejam investigadas na pesquisa e que tenham um bom grau de correlação com. V L = h= 1 2 S Nh. n 2 hx h nh.(1 ) N h (1) cv = V / t (2) A partir da descrição do problema de estratificação, observa-se que o mesmo está associado a um problema de agrupamento [5] sem restrições e que agrega uma particular função objetivo (variância). A literatura de Cluster Analysis mostra que a obtenção do ótimo global para os problemas de agrupamento é muito difícil, sendo essa dificuldade decorrente de que o número de soluções viáveis para este tipo de problema cresce exponencialmente à medida que o número de objetos a serem agrupados aumenta. De forma a contornar a complexidade intrínseca ao problema de estratificação e trabalhar com a função de variância desse problema, propõe-se neste trabalho a aplicação de um algoritmo estratificação baseado em algoritmos genéticos (AG) [7], [9]. Assim como em outros problemas de otimização, com a aplicação de um AG será possível obter soluções com boa qualidade em um tempo computacional satisfatório. 3.Algoritmos Genéticos O algoritmo genético (AG) é uma metaheurística que tem sido aplicada com êxito em diversos problemas de otimização [4]. Um algoritmo genético [7] parte de uma população inicial de cromossomos (soluções) gerados aleatoriamente ou utilizando alguma heurística de construção, faz a avaliação de cada um, seleciona os melhores utilizando, por exemplo, o método da roleta ou do torneio [7] e aplica manipulações genéticas, como cruzamento e mutação, com o objetivo de criar uma nova população. Primeiramente, devese determinar uma estrutura para a representação dos cromossomos, o que comumente é feito através de vetores. A população inicial pode ser gerada aleatoriamente ou utilizando alguma heurística de construção, produzindo p soluções S=(s 1, s 2,..., s p ), sendo p o tamanho da população de S. Essas soluções correspondem a um pequeno subconjunto do espaço total de soluções viáveis para o problema. Após a geração dessa população, seguido da avaliação da função objetivo para cada solução s i (i=1,...,p), são aplicados operadores genéticos [7], [9] à população na seguinte ordem: seleção, cruzamento e mutação. Normalmente, são considerados os seguintes critérios de parada neste algoritmo: (i) número máximo gerações; (ii) tempo máximo de processamento ou um número máximo gerações sem que ocorra melhoria no valor da função objetivo. A melhor solução produzida durante as gerações do algoritmo corresponderá à solução do problema. 3.1 Algoritmo Proposto Representação da População - Assim como em outros problemas de otimização, o primeiro passo à aplicação de um AG consiste na definição da estrutura que será utilizada na representação de cada cromossomo (solução) que comporá a população. Em função das características do problema de estratificação, optou-se pela representação baseada no group-number. Dessa forma, cada cromossomo terá N posições (correspondente ao número de elementos da população) e atribui-se a cada posição um valor aleatório entre 1 e L. Esse valor corresponde ao número do estrato ao qual cada elemento será inicialmente alocado. Geração da População Inicial - Ao aplicar este procedimento foram geradas 10.000 soluções (cromossomos com N valores entre 1 e L gerados aleatoriamente), selecionando-se, dentre estas, cem soluções (tamanho_pop=100) para compor a população inicial. A seleção dessas soluções é feita utilizando o método da roleta [7] (avalia o valor da variância). As soluções restantes são armazenadas, sendo utilizadas posteriormente para substituição de soluções inviáveis (eventualmente geradas no cruzamento ou na mutação) e para a substituição de um percentual de 5% das soluções atuais a cada 100 gerações. Mais especificamente, neste último caso, serão substituídas algumas soluções repetidas (mediante seleção aleatória). No caso do presente problema, gerar uma solução inviável corresponde a produzir um cromossomo tal que pelo menos um dos estratos h (h=1,...,l) fique vazio, ou seja, nenhum dos N objetos seja alocado a esse estrato. Após a definição do conjunto inicial de soluções, ou seja, uma vez efetuada a alocação dos elementos aos estratos, ficam definidos os valores de N h e S 2 hx. Para a definição dos tamanhos de amostra que serão alocados a cada um dos estratos, optou-se pela utilização de uma formulação de programação inteira proposta por [2] que utiliza como parâmetros de entrada os valores de N h e S 2 hx, além do tamanho de amostra n. Observa-se que essa formulação produz a solução ótima no que concerne ao problema de alocação em amostras estratificadas. Essa formulação também foi implementada em linguagem R, utilizando o pacote lpsolve (resolve problemas de programação linear e de programação inteira) disponível no R. Cruzamento Uniforme - Considerando uma probabilidade de cruzamento definida a priori, são selecionadas m (par) soluções dentre as 100, definindo-se um vetor V com os índices destas soluções. Em seguida, são selecionadas em sequência, as soluções associadas às posições 2i-1 e 2i (i=1,..., m div 2) de V. E, para cada 2 82

duas soluções é gerado um vetor M (uma máscara ) com N posições contendo valores 0 e 1 (gerado aleatoriamente segundo uma distribuição uniforme). Para as posições de M que tiverem o valor 1, será efetuada a troca de valores entre as duas soluções selecionadas (cromossomos). Cruzamentos de um ponto e de dois pontos - Novamente, considerando a mesma probabilidade de cruzamento, são selecionadas m (par) soluções dentre as 100, definindo um vetor V com os índices destas soluções. Em seguida, são selecionadas em sequência as soluções associadas às posições 2i-1 e 2i (i=1,...,m div 2) de V. E, para cada duas soluções é selecionado aleatoriamente um valor k entre 1 e N. Este valor corresponderá ao ponto de corte aplicado às duas soluções, tal que os valores entre as posições k+1 e N nestas duas soluções serão trocados. No caso do cruzamento de dois pontos, a diferença está na seleção de dois valores k 1 e k 2 entre 1 e N e a troca dos valores entre estas posições, considerando as duas soluções. Mutação - Considerando uma probabilidade de mutação (pmut) definida a priori, são selecionados aleatoriamente q (q=inteiro(pmut x N)) valores i entre 1 e (N x tamanho_pop) definindo um vetor I={i 1, i 2,..., i q }. Neste caso, o número e a posição da solução que será alterada, são respectivamente obtidos através das seguintes operações: (i j div N)+1 (divisão inteira) e (i j mod N)+1 (resto da divisão inteira) (j=1,...,q). Por exemplo, supondo pmut=0.03, N=200 e tamanho_pop=100 teremos q=6 valores que serão sorteados entre 1 e 20000. Os valores associados a cada uma das posições destas soluções serão substituídos por um valor aleatório selecionado entre 1 e L (excluindo o valor atual). Seleção - Para a seleção das soluções que serão promovidas para a próxima geração, optou-se pela aplicação do método da roleta [7]. Neste caso, avaliou-se a expressão da variância total (equação 1). Além disso, foi adotada uma estratégia de elitismo que consistiu na seleção das quatro melhores soluções obtidas até a geração atual e a sua promoção para a geração seguinte. 4.Resultados Computacionais O algoritmo de estratificação e a formulação proposta em [2] foram desenvolvidos em linguagem R (versão 2.14) [6]. Em particular, no caso do algoritmo de estratificação, foram desenvolvidas três versões a partir da combinação dos três tipos de cruzamento (uniforme, de um ponto e de dois pontos) com os procedimentos de mutação e de seleção. Em particular, denotaremos por AG1 a versão que combina o cruzamento uniforme com os procedimentos de mutação e de seleção, por AG2 a versão que combina o cruzamento de um ponto com os procedimentos de mutação e de seleção e, finalmente por AG3, a versão que combina o cruzamento de dois pontos com os procedimentos de mutação e de seleção. De forma a avaliar o desempenho de cada uma dessas versões, foi realizado um conjunto de experimentos computacionais com dados reais do universo do censo demográfico de 2000. Mais especificamente, foram selecionados 24 municípios do Brasil (instâncias) e para cada um desses, disponibilizou-se, por setor censitário, a média dos rendimentos nominais das pessoas responsáveis pelos domicílios contidos no setor. Essa variável foi utilizada no cálculo da variância total (equação 1) e, por consequência, para a definição de estratos constituídos pelos setores censitários. Todos os experimentos computacionais foram efetuados em um computador com 16GB de memória RAM e dotado de oito processadores de 2.93 GHz (I7-870). Neste experimento o número de setores variou de 249 (município de Itacaquacetuba) até 2172 (município de Fortaleza). Em todos os experimentos realizados o tamanho da população foi definido como 100, o número de gerações foi fixado em 1000 e as probabilidades de cruzamento e de mutação foram definidas, respectivamente, em 50% e 5%. Esses parâmetros foram ajustados previamente, considerando a aplicação das três versões do AG (definidas no início desta seção) em seis instâncias (dentre as 24 selecionadas). As três versões citadas acima foram aplicadas em cada uma das 24 instâncias, considerando o número de estratos variando entre três e sete, e um tamanho de amostra n que correspondente a 20% do total da população (N). Segundo [1], um número de estratos maior não produz ganhos substanciais em relação ao valor da variância ou, equivalentemente, do coeficiente de variação. Acrescenta-se, ainda, que o tamanho de amostra foi utilizado como um parâmetro de entrada na formulação de programação inteira apresentada em [2] e que produz a solução ótima para o problema de alocação em amostras estratificadas. Nesta seção, optou-se em apresentar os resultados sobre a homogeneidade utilizando o coeficiente de variação, tendo em vista a sua utilização nos trabalhos sobre estratificação [1]. Doravante, denotaremos simplesmente por melhor solução, a melhor solução obtida (menor coeficiente de variação) para cada uma das vinte e quatro instâncias, considerando as versões 1, 2 e 3 do AG. O Gráfico 1 possibilita uma comparação entre as performances dessas três versões, no que concerne ao número de melhores soluções encontradas. Neste caso, a versão três (AG3) foi a que teve o melhor desempenho, produzindo um quantitativo de 48 soluções melhores que as soluções produzidas pelas outras duas versões do AG (1 e 2), dentre as 120 produzidas (número de estratos x número de instâncias), ou seja, em 40% dos casos o AG3 produziu a melhor solução. 3 83

Número de Melhores Soluções Quantitativo de Melhores Soluções Encontradas por Estrato e em relação ao Total 60 50 40 30 20 10 0 3 4 5 6 7 Total Número de Estratos AG1 AG2 AG3 Gráfico 1 Melhores Soluções por Algoritmo e por Estrato A Tabela 1 traz (por estrato) as medidas-resumo em relação aos gaps (em percentual) calculados entre as soluções produzidas pelos algoritmos 1, 2 e 3, sendo cada gap calculado a partir da seguinte expressão: Gap ij =100*(cv i -cv j )/cv j (i=1,2,3 tq i j) Onde cv j é o coeficiente de variação do algoritmo j (1, 2 ou 3) que produziu a melhor solução e cv i corresponde ao coeficiente de variação dos outros algoritmos. Por exemplo, no caso do Gap 21, o valor médio de 2,3 (1ª coluna) corresponde à média dos gaps entre os cvs de todas as instâncias nas quais a solução do AG1 foi melhor que a solução do AG2. Prosseguindo com a análise dessa tabela e, particularmente, considerando os casos em que o AG1 foi melhor do que o AG2 e o AG3, a média, a mediana e o 3º quartil dos gaps deste algoritmo foram maiores (excetuando-se três estratos) do que a média, a mediana e o 3º quartil dos outros dois algoritmos. Este fato indica que as melhores soluções desse algoritmo foram melhores que as dos algoritmos AG2 e AG3. No que diz respeito aos tempos de processamento, foi observado um equilíbrio entre as três versões do AG, tendo em vista que os seus tempos mediano e médio ficaram próximos (tabela 2). Tabela 1 Medidas-Resumo dos Gaps entre os Algoritmos Estratos 3 4 5 Algoritmo AG1 AG2 AG3 AG1 AG2 AG3 AG1 AG2 AG3 Gap Gap21 Gap31 Gap12 Gap32 Gap13 Gap23 Gap21 Gap31 Gap12 Gap32 Gap13 Gap23 Gap21 Gap31 Gap12 Gap32 Gap13 Gap23 Min 0,4 0,4 1,1 0,8 0,3 0,1 5,7 1,9 0,2 0,7 0,5 0,3 2,9 1,0 0,6 0,3 2,0 0,5 Q1 0,7 1,0 4,3 2,4 1,2 0,9 6,8 3,0 2,8 4,0 2,5 4,1 5,4 8,0 4,7 2,0 4,7 1,3 Mediano 1,3 2,0 6,7 3,6 5,0 1,2 9,7 5,4 5,9 5,9 4,5 5,9 8,4 11,8 6,8 3,9 5,9 3,9 Médio 2,3 3,6 7,1 5,5 6,0 2,7 10,8 6,2 6,4 8,0 4,4 7,8 8,4 10,3 6,9 5,0 7,0 4,7 Q3 2,0 5,0 9,5 6,9 8,0 3,0 13,1 9,1 9,3 10,3 5,3 11,6 11,4 13,4 9,3 7,6 8,3 8,1 Máximo 7,1 9,9 15,3 13,7 19,1 11,4 18,7 11,4 13,5 22,5 9,5 19,3 14,2 16,6 12,9 11,6 18,1 10,7 Tabela 2 Medidas-Resumo dos Tempos de Processamento (em segundos) dos Algoritmos 5. Conclusões e Trabalhos Futuros Os comentários e as análises efetuadas na seção anterior indicam que as versões do AG propostas nesse trabalho são uma boa alternativa à resolução do problema de estratificação univariada. Em trabalhos futuros, pretende-se desenvolver versões mais eficientes do AG para a estratificação, considerando as probabilidades de cruzamento e mutação variáveis [7], outros tipos de cruzamento [9] e procedimentos construtivos para a geração da população inicial, utilizando, por exemplo, a metaheurística GRASP [4]. Referências Bibliográficas Estratos = 3 Estratos = 4 Estratos = 5 Estratos = 6 Estratos = 7 Tempos AG1 AG2 AG3 AG1 AG2 AG3 AG1 AG2 AG3 AG1 AG2 AG3 AG1 AG2 AG3 Mediano 21 18 19 21 18 19 31 36 38 45 32 36 41 38 50 Médio 34 35 30 34 35 30 62 57 58 75 72 73 75 67 76 6 7 AG1 AG1 AG2 AG3 AG1 AG2 AG3 Gap21 Gap31 Gap12 Gap32 Gap13 Gap23 Gap21 Gap31 Gap12 Gap32 Gap13 Gap23 0,9 1,0 3,6 0,6 0,3 0,2 0,3 2,0 0,6 1,1 0,4 0,8 3,4 2,2 5,3 1,1 1,5 2,5 6,6 4,4 2,7 2,6 1,0 1,0 6,0 6,0 7,0 2,2 2,5 7,7 13,5 7,1 5,3 4,2 3,2 6,1 9,0 6,6 6,9 2,2 5,3 6,5 13,2 8,9 5,1 3,6 5,3 6,2 11,2 9,8 8,5 3,3 7,3 10,7 19,9 11,4 7,2 4,7 10,9 7,8 32,7 18,1 10,0 3,8 17,4 11,7 25,1 23,8 9,7 5,4 13,1 14,5 [1] Azevedo, R.V, Estudo Comparativo de Métodos de Estratificação Ótima de Populações Assimétricas, Dissertação de Mestrado, Escola Nacional de Ciências e Estatísticas (ENCE/IBGE), 2004. [2] Brito, J. A. M, Uma Formulação de Programação Inteira para o Problema de Alocação Ótima em Amostras Estratificadas. Simpósio Brasileiro de Pesquisa Operacional (Sobrapo), Gramado - RS. Anais do VII do SOBRAPO, v. 1. p. 1851-1859, 2005. [3] Cruz, M.D. e Ochi, L.S. Um Algoritmo Evolutivo com Memória Adaptativa para o Problema de Clusterização Automática. Learning and Nonlinear Models (L&NLM) Journal of the Brazilian Neural Network Society, v. 8, Iss. 4, pp. 227-239, 2010. [4] Glover, F. e Kochenberger, G. A. Handbook of Metaheuristics, 1 ª ed., Norwell: K1uwer Academic Publishers, 2002. 4 84

[5] Guojun G., Chaogun M and Jianhong W. (2007). Data Clustering: Theory, Algorithms, and Applications. (ASA- SIAM Series on Statistics and Applied Probability). [6] Jones, O., Maillardet, R. and Robinson A. (2009). Introduction to Scientific Programming and Simulation using R. [7] Linden, R, Algoritmos Genéticos Uma Importante Ferramenta da Inteligência Computacional, Editora Brasport, 2008. [8] Lohr, S.L., Sampling: Design Analysis. Brooks/Cole, Cengage Learning, 2010. [9] Sivanandam, S.N. and Deepa S. N. Introduction to Genetic Algorithms, Springer, 2008. 5 85