Mineração de dados sobre base de dados de corridas de táxis

Tamanho: px
Começar a partir da página:

Download "Mineração de dados sobre base de dados de corridas de táxis"

Transcrição

1 Mineração de dados sobre base de dados de corridas de táxis Luciano Urgal Pando 1 Universidade Tecnológica Federal do Paraná (UTFPR) - CPGEI / PPGCA Av. Sete de Setembro, Curitiba, PR Brasil lucianourgal@hotmail.com Resumo. O artigo consiste na análise e extração de informações de uma base de dados aberta, que contém dados acerca de corridas de táxis da cidade de Porto, a segunda maior cidade Portuguesa. Os dados de movimentação de táxis contém informações valiosas a cerca dos padrões de deslocamento humano nas cidades. 1. Introdução Compreender o padrão de movimento humano é fundamental para o planejamento urbano. Desde a década de 80, foram desenvolvidas técnicas (entre métodos estatísticos ou de programação matemática [Bera and Rao, 2011]) para compreender o tráfego a partir de dados disponíveis até então, de sensores fixos nas vias. No entanto, existe uma presença crescente de veículos equipados com rastreadores GPS, ou até mesmo conectados a internet, que possibilita novas formas de compreender os padrões de movimento humano. A partir destes dados mais ricos, é possível, além de poder compreender de que região para que região as pessoas costumam se deslocar em determinados horários do dia, encontrar comportamentos atípicos em determinados dias, regiões ou corridas através da detecção de anomalias nos dados, criar divisões espaciais para outras aplicações (por exemplo, para geração de uma matriz de origem-destino), inferir tempos de viagem, entre outros. Neste trabalho, o dataset original é transformado de forma que é possível aplicar técnicas de mineração de dados para detectar anomalias em corridas e em dias, e também gerar um agrupamento adequado para a geração de uma matriz de origem-destino. Durante a execução deste trabalho, foi utilizado um computador com processador AMD Phenom II de 4 núcleos a uma frequência de 3.6 Ghz, 6GB de memória e sistema operacional Windows 10. A ferramenta de mineração de dados utilizada foi o Weka, que foi desenvolvida pela universidade de Waikato, na Nova Zelândia. 2. Desenvolvimento 2.1. Base de Dados O dataset a ser utilizado no trabalho foi doado para a UCI (University of California) em 11/07/2015, e corresponde a cidade de Porto, localizada na região norte de Portugal. A área urbana de tal cidade se extende além dos limites do município, com uma população de 2,1 milhões habitantes distribuídos em uma área de 389 kilometros quadrados em O dataset pode ser obtido através de [UCI, 2015], e é de livre acesso. Como principais características do dataset, temos:

2 Viagens de 442 táxis, entre 01/07/2013 e 30/06/2014; Intervalo de 15 segundos entre localizações registradas; registros de viagens de táxi (com o táxi ocupado); 1, 8 GB em um único arquivo de extensão csv. Os atributos do dataset são 9, e possuem as características indicadas na Tabela 1. Tabela 1. Descrição dos atributos Nome do Campo Tipo Descrição TRIP ID String Identificador único da viagem CALL TYPE Char Forma como o serviço foi pedido, podendo ser: A, para viagem despachada pela central; B, para pedido direto para o taxista em ponto de táxi; C, para outros casos. ORIGIN CALL Integer Identificador único de ponto de táxi, se CALL TYPE = B TAXI ID Integer Identificador único de taxista que fez a viagem TIMESTAMP Integer Unix Timestamp em segundos, para início da viagem. DATATYPE Char Informação quanto ao dia em que a viagem começou, sendo B, para final de semana ou outros dias especiais; C, para um dia anterior a um dia tipo B; A, para outros dias. MISSING DATA Boolean Indica se sequência de localizações está completa POLYLINE String Lista de coordenadas GPS (pares de latitude e longitude), em formato WGS84, em ordem sequencial da viagem Pré processamento A depender da aplicação, alguns atributos do dataset não são relevantes, ou então, não estão em formato adequado. Desta forma, foi necessário reconstruir o dataset em formatos específicos para cada aplicação, através de um programa capaz de ler o dataset, o processar, para em seguida criar novos arquivos nos formatos desejados. Para cada geração de datasets derivados a partir do dataset principal, foram necessárias 6h30 de processamento. A descrição de tais datasets é apresentada na seção de resultados, quando utilizados Técnicas utilizadas Valor LOF Proposto em [Breunig et al., 2000], o LOF (do inglês, Local Outlier Factor) de um objeto é igual a média da razão de alcançabilidade local do objeto em relação a seus k vizinhos mais próximos. Quanto mais baixa a densidade de alcançabilidade local do objeto, maior será seu valor LOF. Serve para classificar como outlier local, uma instância cuja densidade local é relativamente baixa quando comparada as densidades locais de seus k vizinhos mais próximos. Para utilização do LOF no Weka, é preciso acessar a aba de Pré processamento, em seguida selecionar a pasta de filtros não supervisionados sobre atributos.

3 KMeans Considerando um conjunto de n pontos em um espaço d dimensional, o k means, que foi proposto em [Lloyd, 1982], divide as n instâncias em k grupos, sendo k um valor pré definido, de forma a minimizar a variação intra classe, mais especificamente, minimizando a soma da distância quadrada dos pontos de cada ponto em relação ao centro do cluster a que pertence. O kmeans inicia os k pontos iniciais aleatoriamente, porém, existe uma forma diferenciada de inicialização do algoritmo, que foi apresentada em [Arthur and Vassilvitskii, 2007] como kmeans++, a fim de melhorar a qualidade dos clusters formados. No decorrer deste trabalho, a inicialização utilizada é a do kmeans++. No Weka, o método é encontrado com o nome de SimpleKMeans, dentro da aba Cluster. Para utilizar a inicialização do kmeans++, basta selecionar tal opção como método de inicialização Agrupamento baseado em densidade O agrupamento espacial baseada em densidade é um dos algoritmos de clusterização mais comuns. A partir de um grupo de pontos em um espaço d dimensional, o algoritmo agrupa pontos que possuem muitos vizinhos próximos. A idéia básica é que os clusters são entendidos como áreas densas. Uma das vantagens é que tal método pode encontrar clusters de formato arbitrário. Em [Moreira-Matias L. and L., 2016], artigo que também realiza agrupamento espacial, é utilizada o agrupamento por densidade. O método é encontrado com o nome de MakeDensityBasedClusterer, dentro da aba Cluster. Neste método do Weka, outro algoritmo deve ser escolhido para ser englobado, sendo que o padrão é SimpleKMeans, podendo também se utilizar da inicialização do kmeans KMeans em cascata O método realiza uma série de testes utilizando o kmeans, e seleciona o melhor valor de k, de acordo com o critério definido em [Caliński and Harabasz, 1974], que basicamente se utiliza de um teste F a partir de uma fórmula que faz referência ao número de instâncias, número de clusters, e soma de erros quadrados intra e inter clusters. No Weka, o método é encontrado com o nome de CascadeSimpleKMeans, dentro da aba Cluster, e é possível definir um intervalo de valores que k pode assumir. Para utilizar a inicialização do kmeans++, é necessário selecionar uma opção dentro do menu do CascadeSimpleKMeans Máxima Verossimilhança Em estatística, é um procedimento iterativo explicado e batizado em [Dempster et al., 1977], usado para encontrar parâmetros de máxima verossimilhança

4 localmente. No caso do agrupamento, é iniciado com um valor k 1, sendo obtido um valor médio de loglikelihood entre n execuções. Caso o valor de loglikelihood aumente em relação a um valor anterior de k, k é acrescido em uma unidade. A partir da condição de parada, chegasse a um valor k de máxima verossimilhança. No Weka, o método é encontrado com o nome de EM (abreviação de Expectation Maximisation, dentro da aba Cluster. É possível selecionar o número de clusters a priori, ou permitir que o método encontre um valor através da cross validation, que foi utilizada neste trabalho Regressão linear A regressão linear coloca pesos nos atributos, de forma que encontra uma função que minimiza o erro, ao encontrar um valor contínuo como retorno, a partir dos valores dos atributos. Além da utilização dos valores encontrados nos atributos, é possível realizar transformações, para então aplicar a regressão linear, e obter melhores resultados. No Weka, o método é encontrado com o nome de SimpleLinearRegression, dentro da aba Classify. 3. Resultados 3.1. Detecção de anomalias Considerando horário da viagem, origem e destino das instâncias, é possível detectar viagens de táxi com comportamento anômalo, de tempo de viagem maior ou menor do que o esperado, ou com par origem destino incomum. É possível também agregar os dados em dias ao invés de corridas, para encontrar dias com comportamento anômalo, possibilitando encontrar feriados não catalogados, ou épocas com grandes variações no comportamento do trânsito. Foi necessário realizar diferentes transformações no formato dos dados para cada uma das aplicações, de forma que o algoritmo de detecção de anomalias pudesse ser aplicado Detecção de anomalias em dias A detecção de anomalias em dados agrupados por dia foi a mais simples de se obter neste trabalho, sendo gasto menos de 1 segundo de processamento no Weka para calcular o LOF utilizando configurações padrão, nas 364 instâncias do dataset. O tamanho do arquivo do dataset é de apenas 62KB, e possui como atributos os percentis 5, 10, 20, 35, 50, 65, 80, 90 e 95, tanto para a distância percorrida das corridas em cada dia, quanto para o tempo gasto nas corridas. Além destes 18 atributos, possui um último atributo que indica quantas corridas foram realizadas no dia. A média de LOF foi 1, 024, com desvio padrão de 0, 048, mínimo 0, 997 e máximo 1, 378. Desta forma, optou-se por classificar como outliers os pontos com valor LOF superior a média acrescida de 3 desvios padrão, ou seja, instâncias com valores LOF superiores a 1, 168. O histograma dos valores LOF pode ser visualizado na Figura 1.

5 LOF histogram.png Figura 1. Histograma de valores LOF encontrados Das 364 instâncias, apenas 10 possuem um valor LOF superior ao valor referência. As instâncias podem ser visualizadas em ordem decrescente de valor LOF na Tabela 2, onde dx representa o percentil x de deslocamento das viagens do dia em metros, tx representa o percentil x de tempo de viagem em minutos. É possível notar que os outliers foram identificados somente no ano de 2014, não havendo nenhum no ano de Basicamente, os outliers se concentraram em duas épocas do ano: Entre os dias 04/05 e 11/05/2014, em que houveram 6 outliers em 8 dias, e por volta na metade de fevereiro, em que houve um outliers no dia 14/02/2014, e outro em menos de uma semana, no dia 20/02/2014. Os dias 04/05(domingo), 06/05(terça feira), 08/05(quinta feira), 09/05(sábado) e 05/06(quinta feira) de 2014 possuem um comportamento em comum: O tempo gasto nas corridas foi um pouco acima da média, porém com deslocamentos bem maiores que o normal, o que indica variações na matriz de origem destino nestes dias. Além disso, é importante notar que os dias 06/05 e 09/05 apresentam uma quantidade de viagens superior á media acrescida de 2 desvios padrão. Uma possível explicação para este comportamento é que no domingo de 04/05, foi comemorado o dia das mães, e muitas pessoas poderiam estar se deslocando de forma incomum, ao visitar seus parentes. Da mesmo forma, os dias 05/05(segunda feira) e 07/05(quarta feira) de 2014 possuem em comum os deslocamentos acima da média, mas tempos próximos da média. Tal característica indica a possibilidade de mudança na matriz de origem destino de forma

6 Tabela 2. Instâncias de dia com maior valor LOF d5 d35 d65 d95 t5 t35 t65 t95 Viagens Média ,62 4,34 6,52 12, Desv padrão ,4 0,27 0,44 1,1 839 Med -2 DP ,82 3,8 5,6 10, Med +2 DP ,42 4,88 7,4 15, /05/ , , /05/ ,75 6, /05/ ,75 6, /06/ ,5 4,5 7 13, /05/ ,75 6, /05/ ,75 4,25 6,25 12, /05/ ,75 4,25 6,25 12, /05/ ,75 4,5 6,75 12, /02/ ,5 4,25 6,75 13, /02/ ,5 4,5 7 14, que o trânsito fluiu rapidamente. O dia 11/05/2014(domingo) se destaca de forma bastante positiva, ao possuir tempos de viagem um pouco menores que o normal, ao mesmo tempo em que apresenta deslocamentos consideravelmente maiores que o normal. Tal comportamento indica variações na matriz de origem destino, e trânsito leve. Dentro da faixa de LOF estudada, os únicos dias que se destacam por um comportamento pior do que o esperado foram os dias 14/02 (sexta feira) e 20/02 (quinta feira) de 2014, em que o tempo de viagem foi próximo maior no primeiro caso, e próximo do médio no segundo, mas com deslocamento abaixo da média em ambos os casos. Além da provável mudança na matriz de origem destino no dia, é possível que algum fator tenha atrapalhado o trânsito. A fim de tornar os dados mais homogêneos para criação da matriz de origem destino, existe a possibilidade dos dados provenientes de dias classificados como outliers serem descartados, por serem dias com observação de fenômenos fora do comum Detecção de anomalias em viagens O dataset utilizado possui informações de localização geográfica inicial e final, horário de início, duração da viagem e táxi utilizado, sendo o último atributo ignorado no cálculo do LOF. Em relação a detecção de anomalias anterior, tratasse de uma tarefa muito mais pesada em termos de memória e processamento, por lidar com cerca de instâncias no total, concentrados em um arquivo de 105MB. Devido a limitações do Weka, foi necessário reduzir o dataset, para em torno de instâncias concentradas no mês de julho de 2013, em um arquivo com tamanho de 10MB. Ainda assim, com donotcheck- Capabilities setado como true e tendo o número k de vizinhos utilizados para cálculo do LOF reduzido em 40% para melhorar o desempenho, o processamento levou 1h.

7 A média de LOF foi 1, 129, com valor mínimo de 0, 98, valor máximo de 3, 9, e desvio padrão de 0, 262. Adotando um limite de 3 desvios padrão acima da média, instâncias com LOF acima de 1, 915 foram classificadas como outlier. Mesmo com o dataset em sua versão reduzida, foram encontradas 1376 instâncias com LOF que superam o limite imposto, sendo exibidos os táxis com maiores ocorrências de viagens outlier na Tabela 3. Tabela 3. Táxis com mais corridas outliers registradas Código do Táxi Outliers Corridas no período Porcentagem de outliers ,5% ,5% ,5% ,9% ,5% ,5% ,2% ,0% ,5% ,9% ,0% Total ,9% Entre os 442 táxis estudados, alguns possuem uma taxa maior de viagens outliers, chegando a 6, 2%. Como referência, a a porcentagem de outliers no conjunto completo de dados é de apenas 0, 9%, o que comprova que existem táxis com comportamentos consideravelmente fora do comum. Ter um número maior de viagens outliers não significa necessariamente que o taxista costume ser mais lento ou rápido que os outros para determinados tipos de viagens. Pode indicar, por exemplo, um indicativo de que tal taxista atende pares origem-destino mais incomuns, trabalhe em horários incomuns, ou atenda corridas que se utilizam de trajetos diferenciados, para deixar mais passageiros ao longo do caminho, por exemplo. As corridas detectadas como outliers não representam um problema para a geração da matriz de origem destino, e por este motivo, permanecem no dataset que será utilizado para geração dos clusters espaciais na próxima seção, que por sua vez, são ponto chave na formação da matriz de origem-destino. Uma observação importante é que algumas viagens classificadas como outliers podem ser casos em que uma corrida atende dois ou mais passageiros com destinos diferentes, deixando um ou mais no decorrer da corrida. Embora isso não seja um problema para a obtenção do par de origem e destino original da corrida, ocorre a possibilidade de se estar perdendo o par origem-destino de passageiros que ficam no meio do caminho, sendo que estes pares de origem-destino poderiam enriquecer a matriz O-D Agrupamento espacial A fim de formar a Matriz de origem destino, é necessário encontrar uma divisão de regiões na cidade. Tal divisão não pode ser meramente espacial e arbitrária, como

8 seria o caso de grids de igual tamanho. Deve formar regiões de comportamento semelhante, sendo este um problema que pode ser resolvido através de agrupamento. [Moreira-Matias L. and L., 2016] Foi novamente utilizado um dataset derivado do original, contendo somente localizações (latitude e longitude). Para cada instância do dataset original, foi gerada uma instância para origem, e outra para destino. Não é possível realizar o agrupamento com todos os pontos do dataset por limitações de memória do Weka, e por isso, o conjunto de dados foi reduzido. Outra adaptação feita, desta vez como um pós processamento, foi a exclusão de clusters muito pequenos, de forma a despoluir a matriz O-D sem que haja perda considerável de informação. Após a geração de diversos conjuntos de clusters sob mesmas condições, não era possível se obter uma boa conclusão somente a partir da visualização dos mesmos no mapa. Por isso, para definir quais dos conjuntos de clusters gerados pelo mesmo algoritmo nas mesmas condições fosse escolhido, foram adotadas duas métricas de avaliação: Minimização da porcentagem de viagens que começam e terminam num mesmo cluster (PVA). Minimização de desvio padrão entre os valores encontrados na matriz O-D gerada com determinada definição de clusters (DP-MOD). Para a obtenção destas métricas a partir dos arquivos de saída do Weka (extensão arff, com indicação de clusters por instâncias), é necessário gerar a matriz O-D com base no dataset original, sendo esta uma tarefa de 15 minutos. Além disso, a fim de manter uma boa compreensibilidade da matriz O-D, o número de clusters não pode ser elevado, uma vez que para um número k de clusters, a matriz será de k linhas por k colunas. Por isso optou-se por manter o valor próximo do número de clusters identificados nos dois primeiros métodos. Inicialmente, foram utilizados os métodos de ExpectationMaximisation e CascadeSimpleKMeans, que identificam um número ideal de clusters. Tais métodos determinaram uma quantidade indicada de clusters, ao custo de utilizar um tempo considerável de processamento. Em seguida, foram utilizados os outros métodos disponíveis, sendo realizados 3 testes com diferentes sementes para cada um dos métodos, com armazenamento somente do melhor resultado, de acordo com as métricas pré definidas. Um resumo das informações está exibido na Tabela 4. Para todos os testes, foi utilizada a inicialização com kmeans++. É importante notar que é natural que os valores PVA e DP-MOD se reduzam conforme o valor de k aumenta, e por isso, são utilizados somente para referência em valores iguais de k. Ainda assim, não existem diferenças muito significativas nos valores de PVA e DP-MOD entre métodos diferentes (ou mesmo em diferentes execuções de um mesmo método) num mesmo valor de k, sendo a maior diferença nesses quesitos observada na comparação entre SimpleKMeans e DensityBased com k 14. Na Figura 2, gerada com auxílio da ferramenta online [Ward, 2017], é possível perceber que os conjuntos de clusters gerados pelo kmeans (coluna esquerda, com k crescente a partir da segunda linha) possuem formatos semelhantes entre si, assim como os conjuntos de clusters gerados pelo agrupamento baseado em densidade (coluna direita, com k crescente a partir da segunda linha) possuem formatos semelhantes entre si. Entre

9 Tabela 4. Avaliação dos conjuntos de clusters gerados Algoritmo Tempo Clusters PVA DP-MOD Clusters mantidos ExpectationMax. 9h ,65% 2598,17 12 CascadeKMeans 32min 12 37,7% 3050,56 9 DensityBased 24s 14 35,49% 2842,70 12 SimpleKMeans 18s 14 33,10% DensityBased 21s 17 31,50% 1986,91 14 SimpleKMeans 13s 17 31,80% 1755,39 13 DensityBased 28s 20 27,55% 1328,97 17 SimpleKMeans 14s 20 27,10% 1256,12 17 os conjuntos gerados através do kmeans e do agrupamento baseado em densidade, a principal diferença a ser notada é que o agrupamento baseado em densidade cria clusters mais ovais, várias vezes de tamanho semelhante, enquanto que com o kmeans ocorrem alguns clusters finos e compridos, como é característico do método. Como era de se esperar, o kmeans em cascata (primeira linha, coluna direita) gerou clusters com formato semelhante aos gerados com o kmeans simples. O método de máxima verossimilhança (primeira linha, coluna esquerda), por outro lado, gerou clusters arredondados e de tamanhos diversos, não se assemelhando ao formato encontrado nos outros conjuntos de clusters.

10 maps.jpg Figura 2. Melhores mapas gerados em todas as configurac o es

11 Considerando o que seria um formato de clusters mais natural para o problema analisado, ao mesmo tempo em que se mante m um nu mero de clusters pro ximo aos valores encontrados nos me todos iterativos de kmeans e ma xima verosimilhanc a, com uma matriz de O-D compreensı vel, o melhor conjunto de clusters encontrado foi o gerado pelo MakeDensityBasedClusterer configurado para encontrar 17 clusters, mantendo somente 14, e com semente 10. Tal definic a o de clusters pode ser visualizada de forma ampliada na Figura 3. A partir desta formac a o de clusters e de todos os dados contidos no dataset original, foi gerada a matriz de origem-destino completa, que pode ser visualizada na Tabela 7, onde a linha representa a origem, e a coluna, o destino. Alternativamente, podem se formadas matrizes de origem destino especificas para intervalos de dias ou hora rios, como por exemplo, para entre 6h30 e 8h30 da manha. Um resumo das informac o es pertinentes aos clusters na Tabela 5, onde e possı vel notar que a quantidade de origens e destinos na o e proporcional a a rea, existindo clusters relativamente pequenos com grande movimentac a o, como o c2 ou c10, e clusters de grande extensa o com pouca movimentac a o, como e o caso de c14 e c9. 17c T1.png Figura 3. Agrupamento por densidade com 17 clusters (14 mantidos)

12 Tabela 5. Resumo de informações do clusters Cluster Área (km) Origens Destinos c c c c c c c c c c c c c c Regressão linear Neste trabalho, a regressão linear é aplicada busca estimar o tempo de viagem, de acordo com origem / destino, horário e regiões pelas quais a viagem passa, sem considerar a topologia da rede em si. Utilizar uma variável por aresta do grafo do mapa não é uma opção, pois há fluxo de táxis registrados em mais de arestas diferentes, de um total de arestas. Para uso desta função, foi necessária nova transformação do dataset, de forma a criar atributos que indiquem se uma instância de viagem passou por determinada região ou não. Tal transformação acabou por gerar um grande número de atributos, com muitos deles sendo pouco utilizados. Dividindo a área em quadrados de 1km de lateral, foram gerados 1240 atributos. Por limitação de memória do Weka, os primeiros testes, demonstrados na Tabela 6, foram realizados com somente instâncias. Além do longo tempo de processamento, o método de regressão linear não foi capaz de trazer bons resultados, ao ter valores elevados de erro, e um coeficiente de correlação baixo. Desta forma, foi utilizada a seleção de atributos, com o PCA (PrincipalComponents) formando 200 atributos, a partir dos 1240 atributos iniciais. O tempo de processamento da regressão linear caiu de 1h45 para 7 minutos, mas os erros se tornaram ainda maiores. Alguns testes foram realizados também com o uso de redes neurais, que não demonstraram muita praticidade por ter tempos de processamento mais de 60 vezes superiores, com piores resultados em relação a regressão linear. Além disso, utilizar uma regressão linear sobre o dataset utilizado na seção 3.1.2, em que são indicadas as localizações inciais e finais, além do tempo de ínicio da corrida, também não traria bons resultados, pois a regressão acabaria fazendo cálculos somente com relação a distância, quando o tempo de viagem não é linear em relação a distância, e sim aos locais em que a viagem passa. Por fim, para prever o tempo de viagem de uma corrida, a regressão linear não aparenta ser a melhor solução disponível.

13 Tabela 6. Avaliação dos conjuntos de clusters gerados Regressão linear Regressão linear após PCA Tempo de processamento 1h45 7min Coeficiente de correlação 0,3865 0,1516 Erro médio 2,5535 2,9507 Erro quadrado médio 7, ,1273 Erro absoluto relativo 84,74% 97,93% Erro quadrado médio relativo 117,58% 266,67% 4. Conclusão Foi possível perceber que os dados contém muitas informações além do que pode ser visto diretamente nos atributos e instâncias, de forma que nem sempre (ou talvez, raramente) a informação está disponível de forma óbvia, e é necessária alguma criatividade para perceber as oportunidades de descoberta de informação que se encontram nos dados brutos. Vários desafios foram encontrados no decorrer do trabalho, tais como a necessidade de transformar o formato do dataset a depender da aplicação, limitações de memória, e a necessidade de demonstrar visualmente os clusters no mapa real de Porto. No entanto, foi possível chegar a resultados interessantes, explorar algumas técnicas de mineração de dados, e perceber algumas dificuldades de problemas mais práticos, como a necessidade de transformar o dataset antes de realizar a aplicação dos métodos. Após ter os dados já transformados no formato adequado, o processo de detecção de anomalias foi simples, mas ainda assim, de forma a trazer resultados interessantes. Foi possível encontrar os dias do ano em que há maiores mudanças no fluxo de pessoas e indicar que corridas ou taxistas com comportamento diferenciado, que justificaria uma investigação mais aprofundada nestes casos. Através do uso do Weka, foi possível encontrar diversas formações de clusters, ficando a dificuldade por conta da escolha de qual a formação de clusters é a mais adequada para a formação de uma matriz de origem-destino. A quantidade reduzida de dados utilizada na formação dos clusters não chegou a ser um problema, por ter sido feita com uma amostra de tamanho próximo a 10% do dataset completo, e pelo fato de que através do processo de detecção de anomalias, detectou-se que existe somente uma variação moderada entre os dias, tendo os dias outliers já identificados. Por fim, nota-se que seria vantajoso ter também informações heurísticas para compreender melhor o ambiente, como por exemplo, no caso dos dados estudados, entender como costumam ser as viagens próximas ao feriado do dias das mães em Portugal, quais regiões da cidade atraem turistas, entre outros. Referências Arthur, D. and Vassilvitskii, S. (2007). K-Means++: the Advantages of Careful Seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 8: Bera, S. and Rao, K. (2011). Estimation of origin-destination matrix from traffic counts: the state of the art. European Transport, v. 49, pages 3 23.

14 Breunig, M. M., Kriegel, H.-P., Ng, R. T., and Sander, J. (2000). LOF: Identifying Density-Based Local Outliers. Proceedings of the 2000 Acm Sigmod International Conference on Management of Data, pages Caliński, T. and Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in Statistics, 3(1):1 27. Dempster, A., Laird, N., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society Series B Methodological, 39(1):1 38. Lloyd, S. P. (1982). Least Squares Quantization in PCM. IEEE Transactions on Information Theory, 28(2): Moreira-Matias L., Gama J., F. M. M.-M. J. and L., D. (2016). Time-evolving od matrix estimation using high-speed gps data streams. Expert Systems with Applications, vol. 44, pages UCI (2015). Dataset de viagens de táxi de porto, portugal. uci.edu/ml/datasets/taxi+service+trajectory+-+prediction+ Challenge,+ECML+PKDD+2015#. Ward, D. (2017). Ferramenta de plotagem de pontos em mapa. darrinward.com/lat-long/.

15 Tabela 7. Matriz de origem destino c0 c1 c2 c4 c5 c6 c7 c c c c c c c c c c c c c c c8 c9 c10 c11 c12 c13 c14 c c c c c c c c c c c c c c

DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO

DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO Aluno: Leandro M. Gimenez Orientador: Prof. Dr. José Paulo Molin INTRODUÇÃO A geração de

Leia mais

Análise de Redes Sociais Introdução ao Gephi

Análise de Redes Sociais Introdução ao Gephi Análise de Redes Sociais Introdução ao Gephi Eduardo Silva easilva@gmail.com Laboratório de Políticas Públicas Participativas Gestão da Informação - UFG Análise de Redes Sociais? Ciências Sociais = avaliam-se

Leia mais

1 - A capacidade de fluxo que corresponde a capacidade máxima que pode passar pelo arco.

1 - A capacidade de fluxo que corresponde a capacidade máxima que pode passar pelo arco. CONCEITOS DE REDE Uma rede é formada por um conjunto de nós, um conjunto de arcos e de parâmetros associados aos arcos. Nós Arcos Fluxo Interseções Rodovias Veículos Rodoviários Aeroportos Aerovia Aviões

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Prof. Daniela Barreiro Claro

Prof. Daniela Barreiro Claro O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2

Leia mais

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME: DEPARTAMENTO DE MATEMÁTICA DA UNIVERSIDADE DE COIMBRA Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME: Observação: A resolução completa das perguntas inclui a justificação

Leia mais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis: Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização

Leia mais

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. Fundamentos de Computação Gráfica

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. Fundamentos de Computação Gráfica 1. Imagens sísmicas Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática Fundamentos de Computação Gráfica Aluno: Stelmo Magalhães Barros Netto Relatório do trabalho Imagens Sísmicas

Leia mais

GISMEDIA: UM ORGANIZADOR AUTOMÁTICO DE FOTOS GEOREFERENCIADAS

GISMEDIA: UM ORGANIZADOR AUTOMÁTICO DE FOTOS GEOREFERENCIADAS Universidade Federal de Campina Grande - UFCG Centro de Engenharia Elétrica e Informática - CEEI Departamento de Sistemas e Computação DSC Pós-Graduação em Informática COPIN Disciplina: Mineração de Dados

Leia mais

Um estudo computacional de dois algoritmos de programação dinâmica com utilização eficiente de cache

Um estudo computacional de dois algoritmos de programação dinâmica com utilização eficiente de cache Um estudo computacional de dois algoritmos de programação dinâmica com utilização eficiente de cache Guilherme S. Ribeiro 1, Marcus Ritt 1, Luciana S. Buriol 1 1 Instituto de Informática Universidade Federal

Leia mais

FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO

FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO Objetivos: - QUANTIFICAR OS ERROS COMETIDOS NA CLASSIFICAÇÃO - MEDIR A QUALIDADE DO TRABALHO FINAL - AVALIAR A APLICABILIDADE OPERACIONAL DA CLASSIFICAÇÃO Fontes de erro das classificações temáticas Os

Leia mais

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Maria das Vitórias Alexandre Serafim 1 Manuel Rivelino Gomes de Oliveira 2 Divanilda Maia Esteves 3 Paulo José Duarte-Neto

Leia mais

Matéria: Matemática Assunto: Variância e desvio padrão Prof. Dudan

Matéria: Matemática Assunto: Variância e desvio padrão Prof. Dudan Matéria: Matemática Assunto: Variância e desvio padrão Prof. Dudan Matemática VARIÂNCIA Na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão

Leia mais

Processamento de Imagem. Compressão de Imagens Professora Sheila Cáceres

Processamento de Imagem. Compressão de Imagens Professora Sheila Cáceres Processamento de Imagem Compressão de Imagens Professora Sheila Cáceres Porque comprimir? Técnicas de compressão surgiram para reduzir o espaço requerido para armazenamento e o tempo necessário para transmissão

Leia mais

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza INF2608 - Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza Trabalho 02 Visualização de Imagens Sísmicas e Detecção Automática de Horizonte Resumo Este trabalho

Leia mais

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16) Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16) Resumo: Veremos nesta aula tabelas, cálculos de porcentagem e gráficos; amostras e tipo de amostragem; Medidas de tendência central e medidas

Leia mais

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI 1 Sumário 2 Introdução Técnicas de ESDA Matrizes de Proximidade Espacial Média Espacial Móvel (m i ) Indicadores Globais de Autocorrelação Espacial Índices Globais de Moran (I), Geary (C) e Getis e Ord

Leia mais

5 Análise Experimental

5 Análise Experimental 5 Análise Experimental 5.1. Base de dados para testes Foram gravados diversos vídeos que serviram para realizar os testes realizados nesta dissertação. Cada um dos vídeos gerados para medir qualidade da

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de

Leia mais

SKATER. Esse arquivo deve conter as informações de cada área dispostas em uma linha, seguindo a estrutura abaixo:

SKATER. Esse arquivo deve conter as informações de cada área dispostas em uma linha, seguindo a estrutura abaixo: SKATER 1) Arquivos de entrada: ======= = ====== Para fazer a análise espacial, o SKATER necessita de dois arquivos de entrada O primeiro deles, chamado de ARQUIVO DE COORDENADAS, deve conter os rótulos

Leia mais

TABELAS ESTATÍSTICAS Em geral, uma tabela estatística deve apresentar a seguinte estrutura: Título; Corpo; Rodapé.

TABELAS ESTATÍSTICAS Em geral, uma tabela estatística deve apresentar a seguinte estrutura: Título; Corpo; Rodapé. UNIVERSIDADE FEDERAL DA PARAÍBA TABELAS E GRÁFICOS Departamento de Estatística Luiz Medeiros TABELAS ESTATÍSTICAS Em geral, uma tabela estatística deve apresentar a seguinte estrutura: Título; Corpo; Rodapé.

Leia mais

Redes Complexas Aula 7

Redes Complexas Aula 7 Redes Complexas Aula 7 Aula retrasada Lei de potência Distribuição Zeta Propriedades Distribuição Zipf Exemplo Wikipedia Aula de hoje Distribuição de Pareto Medindo lei de potência Estimando expoente Exemplos

Leia mais

MouseCam: aplicação de controle do mouse via câmera

MouseCam: aplicação de controle do mouse via câmera MouseCam: aplicação de controle do mouse via câmera Introdução ao Processamento de Imagens COS756 PESC/COPPE/UFRJ 2013 1 Renan Garrot garrot@cos.ufrj.br 1. Introdução O processo de tracking por vídeo consiste

Leia mais

Exercício Área - SPRING

Exercício Área - SPRING Exercício Área - SPRING Figura 01 - Visualização dos dados contidos no projeto ativo. Comentários - Nesta etapa foi aberto o banco de dados, neste caso denominado São Paulo e foi definido o projeto, também

Leia mais

Trabalho Final de Processamento de Imagens: Panografia

Trabalho Final de Processamento de Imagens: Panografia Trabalho Final de Processamento de Imagens: Panografia 1. Introdução Vítor Silva Sousa 1 1 Escola Politécnica Universidade Federal do Rio de Janeiro (UFRJ) Rio de Janeiro RJ Brasil vitor.silva.sousa@gmail.com

Leia mais

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva Computação Evolutiva Algoritmos Genéticos A computação evolutiva (CE) é uma área da ciência da computação que abrange modelos computacionais inspirados na Teoria da Evolução das Espécies, essencialmente

Leia mais

3 Aprendizado por reforço

3 Aprendizado por reforço 3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina

Leia mais

Ministrantes: Alex Lemos e Marco Malagodi

Ministrantes: Alex Lemos e Marco Malagodi Ministrantes: Alex Lemos e Marco Malagodi O que é Geotecnologia? Base vetorial: ponto, linha e polígono Atividade I Apresentação: Google Earth > Ferramentas Atividade II Atividade III Atividade IV Agenda

Leia mais

Experimentos e Resultados

Experimentos e Resultados 6 Experimentos e Resultados Neste capítulo apresentamos os experimentos realizados e os resultados obtidos pelas heurísticas apresentadas. A primeira parte do capítulo aborda os experimentos e resultados

Leia mais

Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante (TSP)

Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante (TSP) Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante

Leia mais

Variáveis e Memória. Revisão. Conceitos. Operações sobre a memória

Variáveis e Memória. Revisão. Conceitos. Operações sobre a memória Variáveis e Memória Revisão Estudamos, na Introdução, que os programas de computador implementam algoritmos, os quais manipulam um conjunto de dados para produzir um resultado. O algoritmo é um conjunto

Leia mais

5 Análise dos resultados

5 Análise dos resultados 5 Análise dos resultados Os dados foram analisados utilizando o software SPSS (Statistical Package for Social Sciences) base 18.0. Para Cooper e Schindler (2003) a análise de dados envolve a redução de

Leia mais

Redes Neurais no WEKA

Redes Neurais no WEKA Redes Neurais WEKA http://www.cs.waikato.ac.nz/ml/weka/ Redes Neurais no WEKA Introdução ao WEKA Base Benchmark Estudo de Casos Análise de Crédito Bancário 1 Redes Neurais no Weka WEKA (Waikaito Environment

Leia mais

COMPARAÇÃO ENTRE FROTA HOMOGÊNEA E HETEROGÊNEA EM PROBLEMAS DE ROTEAMENTO DE VEÍCULOS CAPACITADOS

COMPARAÇÃO ENTRE FROTA HOMOGÊNEA E HETEROGÊNEA EM PROBLEMAS DE ROTEAMENTO DE VEÍCULOS CAPACITADOS COMPARAÇÃO ENTRE FROTA HOMOGÊNEA E HETEROGÊNEA EM PROBLEMAS DE ROTEAMENTO DE VEÍCULOS CAPACITADOS Rosiana da Silva Lopes Danilo César Rodrigues Azevedo rosianalopes16@gmail.com danilo.azevedo@ufpi.edu.br.com

Leia mais

Memória. Memória Cache

Memória. Memória Cache Memória Memória Cache Revisão - Memória Principal Memória que armazena os dados e programas em linguagem de máquina em execução corrente Razoavelmente barata Tempo de acesso da ordem de nano-segundos a

Leia mais

Reconhecimento de Faces com PCA e Redes Neurais

Reconhecimento de Faces com PCA e Redes Neurais Reconhecimento de Faces com Sandro Santos Andrade Programa de Pós-graduação em Mecatrônica Setembro / 2003 Visão Computacional Computacional Computação Computação Visual Computação Computação Gráfica Introdução

Leia mais

PCC173 - Otimização em Redes

PCC173 - Otimização em Redes PCC173 - Otimização em Redes Marco Antonio M. Carvalho Departamento de Computação Instituto de Ciências Exatas e Biológicas Universidade Federal de Ouro Preto 31 de maio de 2017 Marco Antonio M. Carvalho

Leia mais

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE CE225 - Modelos

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular WEKA Tópicos Introdução Simuladores de MD Principais módulos André C. P. L. F. de Carvalho Monitor: Váléria Carvalho André Ponce de Leon de Carvalho 2 Usando MD

Leia mais

Figura 1. Tela de inicialização do WEKA. 2. Será apresentada a seguinte janela, que iremos utilizar para testar as respostas do WEKA.

Figura 1. Tela de inicialização do WEKA. 2. Será apresentada a seguinte janela, que iremos utilizar para testar as respostas do WEKA. WEKA: Prática 1 Nesta primeira prática vamos usar o Explorer, para treinar o WEKA e depois testarmos a eficiência das respostas de acordo com a base de conhecimento informada. 1. Iniciando o WEKA Explorer

Leia mais

Estatísticas e Relatórios. Treinamento OTRS Help Desk

Estatísticas e Relatórios. Treinamento OTRS Help Desk Estatísticas e Relatórios Treinamento OTRS Help Desk Sumário Estatística... 3 Visão Geral... 3 Gerando Relatórios... 4 Criação de Relatórios... 5 Lista de Chamado... 7 Acumulação de Chamados...10 Tempo

Leia mais

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Mineração de Dados Espaciais B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Roteiro 2 Introdução Mineração de Dados Estado da Arte Artigo apresentado Conclusão

Leia mais

Benchmarks. 1. Introdução

Benchmarks. 1. Introdução Benchmarks 1. Introdução Um Benchmark é um programa de teste de desempenho que analisa as características de processamento e de movimentação de dados de um sistema de computação com o objetivo de medir

Leia mais

CINEMÁTICA CONCEITOS BÁSICOS

CINEMÁTICA CONCEITOS BÁSICOS CINEMÁTICA CONCEITOS BÁSICOS PENSAR É MOVER-SE NO INFINITO (HENRI LACORDAIRE) DIVISÕES PEDAGÓGICAS DA FÍSICA: FÍSICA - MECÂNICA (movimentos) - TERMOLOGIA (calor) - ÓPTICA (luz) - ONDULATÓRIA (ondas) -

Leia mais

4 Testes e experimentos realizados 4.1. Implementação e banco de dados

4 Testes e experimentos realizados 4.1. Implementação e banco de dados 32 4 Testes e experimentos realizados 4.1. Implementação e banco de dados Devido à própria natureza dos sites de redes sociais, é normal que a maior parte deles possua uma grande quantidade de usuários

Leia mais

CURSO A DISTÂNCIA DE GEOESTATÍSTICA Instituto Agronômico Dr. Sidney Rosa Vieira

CURSO A DISTÂNCIA DE GEOESTATÍSTICA Instituto Agronômico Dr. Sidney Rosa Vieira CURSO A DISTÂNCIA DE GEOESTATÍSTICA Instituto Agronômico Dr. Sidney Rosa Vieira O QUE É GEOESTATÍSTICA. Todas as amostras retiradas de algum ponto no espaço ou no tempo devem ser consideradas como parte

Leia mais

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS PROJETO PEDAGÓGICO CAMPO LIMPO PAULISTA 2015 1. Público

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

SISTEMA GUARDIÃO. Manual de Usuário

SISTEMA GUARDIÃO. Manual de Usuário SISTEMA GUARDIÃO Manual de Usuário Resumo Neste documento é apresentada uma breve descrição das funcionalidades e da utilização do sistema integrado de detecção de anomalias em redes GUARDIÃO. Versão 1.0

Leia mais

Organização de Arquivos e Acesso a Arquivos

Organização de Arquivos e Acesso a Arquivos Organização de Arquivos e Acesso a Arquivos Cristina D. A. Ciferri Thiago A. S. Pardo Leandro C. Cintra M.C.F. de Oliveira Moacir Ponti Jr. Organização de Arquivos Por que Organizar Arquivos? Considere

Leia mais

Introdução aos Algoritmos

Introdução aos Algoritmos Introdução aos Algoritmos Aula 05 Diogo Pinheiro Fernandes Pedrosa http://www2.ufersa.edu.br/portal/professor/diogopedrosa diogopedrosa@ufersa.edu.br Universidade Federal Rural do Semiárido Bacharelado

Leia mais

4 Casamento de Padrões

4 Casamento de Padrões 4 Casamento de Padrões O casamento de padrões é uma técnica que tem por objetivo localizar os elementos constituintes de uma seqüência em um conjunto de outras seqüências. Chamemos de padrão a seqüência

Leia mais

Lista de Exercícios Programação Inteira. x 2 0 e inteiros.

Lista de Exercícios Programação Inteira. x 2 0 e inteiros. Lista de Exercícios Programação Inteira ) Resolva os problemas a seguir usando o método B&B a) Max z = 5 x + 2 y s.a x + y 2 x + y 5 x, y 0, x e y inteiros b) Max z = 2 x + y s.a x + 2y 0 x + y 25 x, y

Leia mais

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,

Leia mais

A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti

A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti A análise de dados espaciais pode ser empreendida sempre que as informações estiverem espacialmente localizadas e

Leia mais

Mais Informações sobre Itens do Relatório

Mais Informações sobre Itens do Relatório Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo

Leia mais

Redes Neurais não Supervisionadas: SOM

Redes Neurais não Supervisionadas: SOM Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Redes Neurais não Supervisionadas: SOM DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Tópicos

Leia mais

Organização de Arquivos

Organização de Arquivos Construção de Sistemas de Gerência de Bancos de Dados DI PUC-Rio Prof: Sérgio Lifschitz Organização de Arquivos Organização de Arquivos Tipos básicos de arquivos: heap files (entry sequenced files) sorted

Leia mais

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução 3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução Como já mencionado na seção 1.1, as SVMs geram, da mesma forma que redes neurais (RN), um "modelo caixa preta" de

Leia mais

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

Leia mais

BOLETIM CLIMATOLÓGICO TRIMESTRAL DA ESTAÇÃO METEOROLÓGICA DO IAG/USP - DJF 2013/ VERÃO -

BOLETIM CLIMATOLÓGICO TRIMESTRAL DA ESTAÇÃO METEOROLÓGICA DO IAG/USP - DJF 2013/ VERÃO - BOLETIM CLIMATOLÓGICO TRIMESTRAL DA ESTAÇÃO METEOROLÓGICA DO IAG/USP - DJF 2013/2014 - - VERÃO - Seção Técnica de Serviços Meteorológicos Instituto de Astronomia, Geofísica e Ciências Atmosféricas. Universidade

Leia mais

F- Classificação. Banda A

F- Classificação. Banda A F- Classificação Classificação Digital é associar determinado pixel a determinada categoria por meio de critérios estatísticos Banda B? da d b dc Espaço dos Atributos Classes Banda A Classificação: ordenar,

Leia mais

Introdução à Probabilidade e Estatística I

Introdução à Probabilidade e Estatística I Introdução à Probabilidade e Estatística I População e Amostra Medidas resumo Prof. Alexandre G Patriota Sala: 298A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota Passos iniciais O primeiro

Leia mais

Material baseado nos slides de: Marcos José Santana Regina Helena Carlucci Santana

Material baseado nos slides de: Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC643 -Avaliação de Desempenho de Sistemas Computacionais Aula 3 Sarita Mazzini Bruschi

Leia mais

Aperfeiçoamento do método Clause-Column Table para a geração eficiente de implicantes primos para minimização de funções booleanas.

Aperfeiçoamento do método Clause-Column Table para a geração eficiente de implicantes primos para minimização de funções booleanas. Aperfeiçoamento do método Clause-Column Table para a geração eficiente de implicantes primos para minimização de funções booleanas. Alexandre C. R. da Silva, Caroline D. P. N. Barbieri, Depto. de Engenharia

Leia mais

Classificação e Pesquisa de Dados. Aula 23 Organização de Arquivos: Arquivos Indexados, Diretos e Arquivos Invertidos

Classificação e Pesquisa de Dados. Aula 23 Organização de Arquivos: Arquivos Indexados, Diretos e Arquivos Invertidos Classificação e Pesquisa de Dados Aula 23 Organização de Arquivos: Arquivos Indexados, Diretos e Arquivos Invertidos UFRGS INF1124 Arquivo indexado - AI Indicação de uso Baixa freqüência de acessos seqüenciais

Leia mais

4 Detecção de Silhueta

4 Detecção de Silhueta 4 Detecção de Silhueta No decorrer deste capítulo é proposto um modelo de detecção da silhueta da mão capaz de lidar com os erros da segmentação e ruídos na sua morfologia. Num primeiro passo são considerados

Leia mais

Prova Escrita de Matemática Aplicada às Ciências Sociais

Prova Escrita de Matemática Aplicada às Ciências Sociais EXAME NACIONAL DO ENSINO SECUNDÁRIO Decreto-Lei n.º 74/2004, de 26 de março Prova Escrita de Matemática Aplicada às Ciências Sociais 10.º e 11.º Anos de Escolaridade Prova 835/1.ª Fase Critérios de Classificação

Leia mais

Manual SISTEMA GERENCIADOR DE SENHAS Versão SERVIDOR

Manual SISTEMA GERENCIADOR DE SENHAS Versão SERVIDOR Manual SISTEMA GERENCIADOR DE SENHAS Versão 22.4.0 SERVIDOR Índice I INTRODUÇÃO... 3 II INSTALAÇÃO DO SOFTWARE... 4 III UTILIZAÇÃO DO SOFTWARE... 6 ANEXO 1 GUIA DE REFERÊNCIA RÁPIDA... 16 ANEXO 2 SOLUÇÕES

Leia mais

Compressão de Imagens Usando Wavelets: Uma Solução WEB para a Codificação EZW Utilizando JAVA. Utilizando JAVA. TCC - Monografia

Compressão de Imagens Usando Wavelets: Uma Solução WEB para a Codificação EZW Utilizando JAVA. Utilizando JAVA. TCC - Monografia Compressão de Imagens Usando Wavelets: Uma Solução WEB para a Codificação EZW Utilizando JAVA TCC - Monografia Wanderson Câmara dos Santos Orientador : Prof. Dr. Luiz Felipe de Queiroz Silveira 1 Departamento

Leia mais

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

Análise de Clusters. Aplicações da formação de Grupos (Clustering) Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos

Leia mais

Resultados Obtidos 49

Resultados Obtidos 49 4 Resultados Obtidos Foram realizados testes para avaliar o desempenho do NCBI BLAST usando o BioProvider. Os testes foram feitos em um computador Pentium 4 com processador de 3 GHz de velocidade e 512

Leia mais

Clusterização de dados sobre Comunicação de Acidente de Trabalho 1

Clusterização de dados sobre Comunicação de Acidente de Trabalho 1 Clusterização de dados sobre Comunicação de Acidente de Trabalho 1 Alessandro Rizzatto Pignata Clusterização Clusterização (clustering) é um conjunto de técnicas de mineração de dados que dividem as amostras

Leia mais

NOTA TÉCNICA: Conversão da escala do NSE médio das escolas e criação de grupos. Maria Teresa Gonzaga Alves 1

NOTA TÉCNICA: Conversão da escala do NSE médio das escolas e criação de grupos. Maria Teresa Gonzaga Alves 1 1 NOTA TÉCNICA: Conversão da escala do NSE médio das escolas e criação de grupos Maria Teresa Gonzaga Alves 1 Flávia Pereira Xavier José Francisco Soares GAME-FAE/UFMG 1. Conversão da escala A escala original

Leia mais

i. Considerando os meses citados na conta, qual é a média mensal de consumo do Sr. Luiz José Dias?

i. Considerando os meses citados na conta, qual é a média mensal de consumo do Sr. Luiz José Dias? INTRODUÇÃO À FUNÇÃO Você já prestou atenção à sua conta de água? Entender as diversas contas que chegam às nossas casas é importante para nos informarmos a respeito de desperdícios e mau uso dos diversos

Leia mais

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO PROCESSAMENTO DE IMAGENS Introdução Conceitos básicos Pré-processamento Realce Classificação PROCESSAMENTO DE IMAGENS Extração de Informações

Leia mais

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ Marcela Ribeiro Carvalho marcela@enecar.com.br IFG/Câmpus Goiânia Hipólito Barbosa Machado Filho hipolito.barbosa@ifg.edu.br IFG/Câmpus Goiânia Programa Institucional

Leia mais

Prova Escrita de Matemática Aplicada às Ciências Sociais

Prova Escrita de Matemática Aplicada às Ciências Sociais EXAME NACIONAL DO ENSINO SECUNDÁRIO Decreto-Lei n.º 74/2004, de 26 de Março Prova Escrita de Matemática Aplicada às Ciências Sociais 10.º e 11.º Anos de Escolaridade Prova 835/2.ª Fase 9 Páginas Duração

Leia mais

RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS. Nielsen Castelo Damasceno

RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS. Nielsen Castelo Damasceno RESTAURAÇÃO E RECONSTRUÇÃO DE IMAGENS Nielsen Castelo Damasceno Restauração de imagem Procura recuperar uma imagem corrompida com base em um conhecimento a priori do fenômeno de degradação. Restauração

Leia mais

Análise espacial da incidência de Dengue no município de São Paulo

Análise espacial da incidência de Dengue no município de São Paulo Análise espacial da incidência de Dengue no município de São Paulo João Vitor, Joyane, Nayara e Rafael TRABALHO FINAL - ETAPA III - MTI QUADRIMESTRE 2015.2 Introdução ESCALA: Distrital TEMPO: 2010 O uso

Leia mais

Solicitação de Manifestação de Interesse

Solicitação de Manifestação de Interesse SQC n º 032/2015 Sustainable Transport and Air Quality Program (STAQ) Doação N o : TF 095978 Atividade D-08 Solicitação de Manifestação de Interesse Contratação de Serviço de Consultoria para Identificação

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 18 Aprendizado Não-Supervisionado Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor

Leia mais

Técnicas de Projeto de Algoritmos

Técnicas de Projeto de Algoritmos UNIVERSIDADE NOVE DE JULHO - UNINOVE Pesquisa e Ordenação Técnicas de Projeto de Algoritmos Material disponível para download em: www.profvaniacristina.com Profa. Vânia Cristina de Souza Pereira 03 _ Material

Leia mais

Conceitos matemáticos:

Conceitos matemáticos: Conceitos matemáticos: Para entender as possíveis mudanças quantitativas que ocorrem, ao nível de uma amostra de sementes, é preciso compreender alguns princípios básicos de cálculo. Tendo sido desenvolvido

Leia mais

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE: A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE: ESELAW 09 MARCOS ANTÔNIO P. & GUILHERME H. TRAVASSOS) 1 Aluna: Luana Peixoto Annibal

Leia mais

Análise empírica de algoritmos de ordenação

Análise empírica de algoritmos de ordenação Análise empírica de algoritmos de ordenação Mario E. Matiusso Jr. (11028407) Bacharelado em Ciências da Computação Universidade Federal do ABC (UFABC) Santo André, SP Brasil mario3001[a]ig.com.br Resumo:

Leia mais

AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa

AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa AUTOCORRELAÇÃO ESPACIAL Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Junho de 2015 AULAS ANTERIORES A importância analítica do espaço para o Planejamento Territorial

Leia mais

Uso da Rede Neural Artificial Self Organizing Maps (SOM) na clusterização de dados meteorológicos

Uso da Rede Neural Artificial Self Organizing Maps (SOM) na clusterização de dados meteorológicos Trabalho apresentado no CMAC-Sul, Curitiba-PR, 2014. Uso da Rede Neural Artificial Self Organizing Maps (SOM) na clusterização de dados meteorológicos Jorge V. R. Bonato, Paulo H. Siqueira Programa de

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de

Leia mais

Universidade Federal de Uberlândia Faculdade de Computação. Linguagem C: tipos de dados definidos pelo programador: struct union enum typedef

Universidade Federal de Uberlândia Faculdade de Computação. Linguagem C: tipos de dados definidos pelo programador: struct union enum typedef Universidade Federal de Uberlândia Faculdade de Computação Linguagem C: tipos de dados definidos pelo programador: struct union enum typedef Prof. Renato Pimentel 1 Introdução Tipos de variáveis vistos

Leia mais

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Eduardo Delazeri Ferreira, Francieli Zanon Boito, Aline Villavicencio 1. Introdução 1 Instituto de Informática - Universidade

Leia mais

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas usuário processador de E/S gerador de respostas Uso de Índices na Otimização e Processamento de Consultas Profa. Dra. Cristina Dutra de Aguiar Ciferri analisador controle de autorização verificador de

Leia mais

Lista de Exercícios Programação Inteira. x 2 0 e inteiros.

Lista de Exercícios Programação Inteira. x 2 0 e inteiros. Lista de Exercícios Programação Inteira ) Resolva os problemas a seguir usando o método B&B a) Max z = 5 x + y s.a x + y x + y 5 b) Max z = x + y s.a x + y 0 x + y 5 c) Max z = x + y s.a x + 9y 6 8 x +

Leia mais

Coleta e Análise de Características de Fluxo para Classificação de Tráfego em Redes Definidas por Software

Coleta e Análise de Características de Fluxo para Classificação de Tráfego em Redes Definidas por Software Coleta e Análise de Características de Fluxo para Classificação de Tráfego em Redes Definidas por Software Rodolfo Vebber Bisol, Anderson Santos da Silva, Cristian Cleder Machado, Lisandro Zambenedetti

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Modelos Probabilísticos

Modelos Probabilísticos Modelos Probabilísticos Somente para lembrar... Modelos são extremamente importantes para o estudo do desempenho de um sistema antes de implementá-lo na prática! Foguete proposto tem confiabilidade? Devemos

Leia mais

Classificação Linear. André Tavares da Silva.

Classificação Linear. André Tavares da Silva. Classificação Linear André Tavares da Silva andre.silva@udesc.br Roteiro Introduzir os o conceito de classificação linear. LDA (Linear Discriminant Analysis) Funções Discriminantes Lineares Perceptron

Leia mais