UNIVERSIDADE FEDERAL DE PERNAMBUCO UFPE CENTRO DE INFORMÁTICA CIN PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA DISCIPLINA PRINCÍPIOS E TÉCNICAS DA ANÁLISE ESTATÍSTICA EXPERIMENTAL PROJETO DE ANÁLISE ESTATÍSTICA EXPERIMENTAL Equipe: Ítalo Marinho E. de Barros, Maria Silva Ito e Patrícia Vieira da S. Barros Professora: Dra. Renata Maria Cardoso Rodrigues de Souza
1. Justificativa A demanda crescente dos consumidores por serviços de vídeo móvel é um dos principais impulsionadores da evolução de novas soluções multimídia sem fio, exigindo a exploração de novas formas para otimizar futuras redes sem fio para serviços de vídeo, além de fornecer maior capacidade e qualidade de experiência (QoE). Uma dessas soluções fundamentais é o Adaptive streaming, o qual foi recentemente difundido como uma forma de difusão de entrega de vídeo de internet e está previsto para ser implantado de forma mais ampla ao longo dos próximos anos. 2. Fundamentação Teórica Adaptive streaming é um método cada vez mais promissor de entrega de vídeos para usuários finais, permitindo melhorias na qualidade e eficiência da largura de banda da rede. A tecnologia visa otimizar e adaptar as configurações de vídeo ao longo do tempo, a fim de oferecer a melhor qualidade de vídeo possível para o usuário a qualquer momento. A maior parte da ampla adoção esperada de transmissão adaptável será impulsionada por novos desenvolvimentos sobre a infra-estrutura da Web existente, baseada no protocolo de transferência de hipertexto (HTTP), e este tipo de transmissão é conhecido aqui como HTTP Adaptive streaming (HAS). 3. Objetivo da Pesquisa Estudar o comportamento do tráfego de uma adaptive streaming, fazendo uma análise do comportamento dos dados trafegados em diferentes situações dentro de uma mesma rede. 4. Especificação da Amostra Para essa pesquisa, foram utilizados três computadores (laptops) conectados em uma mesma rede para a coleta de dados: o primeiro permaneceu gerando tráfego cruzado, o segundo trabalhou recebendo o tráfego e o terceiro garantiu o acesso ao Netflix. Com o ambiente funcionando, se deu o processo de coleta em si, para isso foi escolhida uma animação da Galinha Pintadinha com duração de cinco minutos. O vídeo foi assistido cinco vezes, sendo uma sem interferência e as outras com interferências de 21600kbps, 32400kbps, 43200kbps e 64800kbps. Conforme o vídeo passava, capturava-se os pacotes com um software denominado Wireshark [4], cujo um dos recursos é a de captura de dados e informações detalhadas. A métrica que foi avaliada nesse trabalho foi a de taxa de transmissão. Além disso, a modelagem dos dados foi realizada com a ajuda da ferramenta de estatística R [2], que fornece uma linguagem e um ambiente para cálculos estatísticos e representações gráficas. Um teste estatístico utilizado para demonstrar os resultados da pesquisa foi o método da máxima verossimilhança, visto que esse método permite a estimação de parâmetros de uma dada distribuição. Para verificar a qualidade da estimação, foi utilizado o cálculo da medida de discrepância. O segundo teste utilizado foi o teste t de Student emparelhado, para averiguar se a média da taxa de transmissão diminui com o aumento da interferência. 2
5. Análise Exploratória Seguem os gráficos (histogramas e ECDF) de bitrate das capturas realizadas, com interferências de 64800kbps (bit_rate_4), 43200kbps (bit_rate_3), 32400kbps (bit_rate_2), 21600kbps (bit_rate_1) e sem interferência (bit_rate_0).como se pode ver, quanto maior a interferência aumenta a proximidade da pdf observada com a distribuição normal.
6. Metodologia (Formulação das Hipóteses) A fim de analisar se o conjunto de dados se encaixa bem na distribuição com os parâmetros estimados, um gráfico quantil-quantil (QQ Plot) foi realizado. Nesta parcela, os quartis correspondentes de distribuições empíricos e analíticos são representados graficamente um contra o outro, de modo que os desvios podem ser facilmente identificados. Também foi utilizado o método de Estimação da Máxima Verossimilhança (MLE), como também o método da medida de discrepância Lambda-Square ( 2 ), visto que este estabelece que quanto menor o valor da medida de discrepância, melhor o modelo. De acordo com [3], tradicionalmente os testes de ajustes, como a Chi-Square ( 2 ) e Kolmogorov-Smirnov (Ks), costumam falhar com modelos analíticos para o tráfego de Internet, porque eles são tendenciosos para grandes conjuntos de dados. O mesmo ocorre quando os dados apresentam uma significativa auto-correlação [2].
7. Análise dos Resultados Para se traçar um perfil de adaptive streaming, estudou-se a bit rate da captura com maior interferência, isto é, bit_rate_4. Para fins de simplificação, os dados apresentados são de bit_rate_4/10000. Ao se observar a pdf da mesma, pode-se ver a semelhança desta com a distribuição lognormal. Portanto, usou-se essa como base do cálculo de máxima verossimilhança. Os parâmetros encontrados foram: meanlog: 1.09685773 sdlog: 0.74380168 A lognormal ajustada e o Qplot obtidos foram respectivamente: A seguir foi realizado o cálculo da medida de discrepância, obtendo-se, o que nos permite a conclusão de que, apesar da leve discrepância na cauda observada no Qqplot, o ajuste foi bem realizado. Para testar a hipótese de que a média da taxa de transmissão diminui conforme o aumento da interferência realizou-se o teste t emparelhado, com nível de confiança de 5%. A hipótese H0 de que a média de taxa de transmissão do vídeo sem interferência é maior que a média de taxa de transmissão do vídeo com interferência de 64800kbps e a hipótese H1 de que a média de taxa de transmissão do vídeo sem interferência é maior que a média de taxa de transmissão do vídeo com interferência de 64800kbps. A realização do teste nos levou à rejeição de H0, o que significa que há forte 2 1,5 evidência de que 0 4, confirmando a suspeita inicial. 2
8. Referencias [1] Borella, M.S. Source Models of Network Game Traffic. Computer Communications, Volume 23, Number 4, 15 February 2000, pp. 403-410(8). [2] L.J. Glesser, D.S. Moore, "The effect of dependence on chi-squared and. empiric distribution tests of fit". The Annals of Statistics, 11:1100 1108, 1983. [3] R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051- 07-0, URL http://www.r-project.org. [4] Wireshark packet analyzer. http://www.wireshark.org.