Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico

Tamanho: px
Começar a partir da página:

Download "Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico"

Transcrição

1 Universidade do Algarve Faculdade de Ciências e Tecnologia Licenciatura em Informática Ramo Tecnológico Técnicas de clustering Relatório Discentes: Ricardo Seromenho, N.º Docente: Prof.º Doutor Patrício Serendero 7 de Julho de 2008

2 Índice 1 Introdução 3 2 Objectivo 3 3 Data Mining O que é? Os dados Funcionalidades Classificação Clustering Regressão Linear Previsão 7 4 Clustering K-Means Expectation Maximization COBWEB 9 5 Descrição do Problema 9 6 Preparação dos dados 10 7 Análise dos dados Preparação (Preprocess) Clustering Para k = Para k = Para k = Re-clustering Para k = Para k = Para k = Conclusões e Trabalho Futuro 22 9 Referências 23 Índice de Tabelas Tabela 1 5 Tabela 2 10 Tabela 3 12 Tabela

3 1. Introdução O data mining é uma evolução natural das bases de dados. Com o crescimento das bases de dados tornou-se quase uma necessidade ter ferramentas que extraíssem alguma informação útil da grande brutidade de dados ali existentes. Desde à muito que o Homem tem a tendência para fazer registos do que quer que seja. Os dados climatéricos não são excepção, e é com base nos dados climatéricos de 2003 da Ria Formosa em Faro que efectuarei o meu trabalho. 2. Objectivo O objectivo deste trabalho é estudar algumas das técnicas de clustering que existem. Compreender o que é o clustering e para que serve. Das técnicas estudadas escolher apenas uma, aplicá-la a um conjunto de dados e mostrar os resultados. 3

4 3. Data Mining As capacidades para gerar e guardar dados têm vindo a aumentar nas últimas décadas [6]. Podemos, talvez, até dizer que a Lei de Moore [5] também se aplica à quantidade de informação produzida. Calcula-se que até ao final de 1999 já se teria produzido 12 exabytes de informação, e no final de 2002 já íamos em 24 exabytes [3]. Do avanço da tecnologia que nos permitiu produzir/armazenar maior quantidade dados, rapidamente surgiu a necessidade de arranjar forma de os analisar. 3.1 O que é? Duas definições comummente aceites de Data Mining são: Procura de padrões de interesse numa determinada forma de representação, ou conjunto de representações: classificação, árvores de decisão, regras de indução, regressão, segmentação, e assim por diante (Fayyad e tal., 1996) [1] e Exploração e análise, através de meios automáticos ou semi-automáticos, de grandes quantidades de dados com o objectivo de daí descobrir padrões e regras com interesse [2]. Data mining não é mais do que uma ferramenta que nos permite extrair informações úteis de grandes quantidades de dados, os quais, em bruto, podem nem significar nada. É utilizado em várias áreas, nomeadamente, por empresas para obterem conhecimento dos seus dados concretos e com esse conhecimento poderem melhorar as suas campanhas de marketing, aumentar as suas vendas e muito mais. Outros exemplos são as agências financeiras, a ciência, o comércio electrónico, a astronomia, entre outros. 3.2 Os dados Os dados são um conjunto de medidas ou de observações retiradas de qualquer ambiente ou de um processo [7]. No caso mais simples, temos uma colecção de n objectos, e para cada objecto temos um conjunto das mesmas medidas p. Neste caso podemos pensar numa colecção de medidas nos n objectos numa matriz de forma n x p. As n linhas representam os objectos para os quais as medidas foram tiradas (por exemplo: utentes de um consultório, clientes de um cartão de crédito, jogadores de 4

5 futebol). Essas linhas devem ser referenciadas como indivíduos, entidades, objectos ou registos, dependendo do contexto. A outra dimensão da nossa matriz de dados contém o conjunto de p medidas em cada objecto. Normalmente, assume-se que todas as medidas p são registadas individualmente em cada objecto, contudo poderão existir conjuntos de dados em que isso não aconteça (por exemplo: diferentes testes médicos em diferentes pacientes). As p colunas da matriz podem ser referenciadas como variáveis, campos, atributos ou características; neste caso, também o nome depende do contexto no qual estamos a trabalhar. Tabela 1 Exemplo de um conjunto de dados. (Melhores marcadores - bwin LIGA 2007/2008 [8]) # Nome Clube Posição Golos Jogos Média 1 Lisandro Porto Avançado ,89 2 Cardozo Benfica Avançado ,45 3 Weldon Belenenses Médio ,44 4 Wesley P. Ferreira Avançado ,50 5 Liedson Sporting Avançado ,42 6 Linz Braga Avançado ,41 7 Marcelinho Naval Avançado ,35 8 Lito Académica Médio ,33 9 João Paulo Leiria Médio ,47 10 Jorge Ribeiro Boavista Defesa ,31 Os tipos de dados podem ser vários, como por exemplo: categorias, sequências, intervalos ou booleanos [10]. Uma variável discreta tem elementos que tanto podem ser numeráveis, como números inteiros ou ainda, um conjunto finito. 3.3 Funcionalidades Existem várias funcionalidades de data mining que são utilizadas como base da aplicação. Estas funcionalidades servem para especificar o tipo de padrões a encontrar nas tarefas de data mining. Em geral, estas funcionalidades podem ser classificadas em 5

6 dois tipos: descritivas e preditivas [3]. As descritivas procuram identificar um conjunto de categorias para a descrição dos dados, enquanto as preditivas procuram fazer inferência nos dados, para poder prever valores futuros ou desconhecidos de outras variáveis [1]. De seguida, explicarei sucintamente em que consistem algumas das funcionalidades de data mining: Classificação Para classificar temos de adquirir o conhecimento que nos vai fazer prever a classe de um objecto [1]. Por exemplo, na Vodafone Portugal existem classes para os telemóveis que estão à venda, tais como Vodafone live!, Vodafone live! 3G, etc; e conceitos para os clientes, dividindo-os em duas grandes classes: clientes empresariais e clientes particulares Clustering Clustering é o processo pelo qual objectos discretos são atribuídos a grupos com características similares [9]. É assim possível identificar um conjunto finito de categorias ou segmentos para descrever os dados. Este processo não descobre um número de classes definidas pelo utilizador, descobre sim, um número de classes naturais existentes nos dados Regressão Linear A regressão linear consiste em encontrar uma função para a previsão de uma variável. E consiste na procura de uma variável que represente, de uma forma aproximada, comportamentos de variáveis [1]. Os métodos de regressão linear permitem a discriminação dos dados através da combinação dos atributos de entrada 6

7 3.3.4 Previsão A previsão tenta encontrar valores futuros desconhecidos de variáveis de interesse, com base nas variáveis que temos em nosso poder. O objectivo é quase como que saber o futuro, ou seja, o que vai acontecer a seguir. 4. Clustering O clustering é uma funcionalidade descritiva do data mining, pois permite identificar um conjunto finito de categorias ou segmentos para descrever os dados [1]. O processo de clustering consiste em agrupar os dados em clusters para que esses dados tenham, dentro de um cluster, um grande grau de semelhança entre si. Para além disso, esses dados têm que ser muito diferentes dos dados de outros clusters. As diferenças ou as semelhanças entre os dados são descobertas com base nos atributos de cada objecto. De seguida apresentarei 3 algoritmos de clustering. Os algoritmos que escolhi apresentar são o Cobweb, o K-Means e o Expectation-Maximization, três dos cinco que vêm, por defeito, no pacote do WEKA. O WEKA é uma aplicação que, automaticamente, analisa grandes quantidades de dados e decide qual é a informação mais relevante [13]. 4.1 K-Means Este algoritmo aceita k como parâmetro de entrada. Este k é o número de partições em que os n objectos vão ficar divididos, k < n. A semelhança entre os clusters é medida em relação aos centróides dos clusters, que podem ser vistos como o centro de gravidade dos clusters [6]. Como funciona o algoritmo? Primeiramente, selecciona ao acaso k objectos. Cada um desses k objectos representa, inicialmente, o centro (centróide) de um cluster ou um mean. No que diz respeito ao resto dos objectos, cada um deles é atribuído ao cluster que é mais semelhante, baseado na distância entre o objecto e o centróide. Depois são actualizados os valores dos centróides em cada cluster. Este processo continua até à convergência dos clusters ou outro critério de paragem [9]. 7

8 Uma vez que este algoritmo aceita o parâmetro de entrada k e os centróides são escolhidos ao acaso, as soluções encontradas podem nem sempre ser as mesmas. Pode-se dizer que é relativamente eficiente, pois a ordem de complexidade do algoritmo é O(tkn), onde n corresponde ao número de objectos, k ao número de clusters e t ao número de iterações do algoritmo. 4.2 Expectation Maximization Expectation-maximization, ao qual me referirei como EM, é um algoritmo que pertence à família de algoritmos de distribuição de probabilidades e densidades. É parecido ao K-means na medida em que o conjunto de dados é computado até que o valor de convergência desejado seja atingido. Trata-se de obter a FDP (Função de Densidade de Probabilidade) desconhecida a que pertencem o conjunto de todos os dados. Esta FDP pode-se calcular mediante uma combinação linear de componentes. Cada cluster corresponde a uma amostra de dados na qual pertence cada uma das densidades que se mede. Pode-se fazer uma estimativa da FDP de forma aleatória, utilizando FDP normais, Brernoulli, Poission O ajuste dos parâmetros do modelo requer uma medida likeihood. Essa medida é a decisão de o quão bem se encaixa os dados sobre a distribuição que estamos a utilizar. Trata-se então de ir à procura destes parâmetros. Maximizar o likelihood é conhecido como ML-Máximo likelihood. Normalmente, quando se quer calcular, utiliza-se o logaritmo log-likelihoo que tem uma forma analítica de cálculo, por isso fácil de determinar. Depois temos uma série de iterações de EM, cuja expectation utiliza os valores dos parâmetros iniciais ou proporcionados por Maximization, e Maximization obtém novos valores para os parâmetros. Finalmente, obtêm-se um conjunto de clusters que agrupam os objectos originais. Cada um destes clusters estará definido pelos parâmetros da distribuição normal. 8

9 4.3 COBWEB Este algoritmo pertence à categoria de clustering hierárquico. O clustering hierárquico trabalha agrupando os objectos numa árvore de clusters [6]. O clustering COBWEB cria o seu trabalho utilizando a forma de uma árvore. As folhas representam cada objecto e o nó de raiz representa todo o conjunto de dados. Os ramos representam o que se pretende obter, ou seja, os clusters. E se existirem subramos, estes representam os sub-clusters. Não existe limite para o número total de ramos e de sub-ramos da árvore sem ser, claro, o imposto pelo número de objectos que o conjunto de dados tem [17]. Como funciona o algoritmo? O COBWEB começa a sua árvore contendo apenas o nó de raiz, todo o conjunto de dados. A partir daí os objectos são adicionados um a um, com a árvore a ser actualizada a cada etapa do algoritmo. Quando um objecto é adicionado, é necessário encontrar o melhor sítio para o incluir. Esta operação pode requerer toda a reestruturação da árvore, incluindo a criação de um novo ramo e/ou a fusão de ramos já existentes, ou ainda, no caso mais simples, incluir o objecto num ramo que já exista. A função para actualizar a árvore denomina-se de utilidade de categoria, que mede a qualidade geral de uma partição de instâncias num cluster. A reestruturação que obtenha maior função de utilidade de categoria é a que se utiliza nesse passo. C1, C2,, CK são os k clusters; ai é o atributo que toma os valores vi1, vi2, ; Pr[a] refere-se à probabilidade do evento A ocorrer e Pr[A B] refere-se á probabilidade do evento A ocorrer condicionado pelo evento B. 5. Descrição do Problema Nós associamos o Inverno aos dias de frio, de chuva e algum vento e, por outro lado, o Verão aos dias de calor, pouco húmidos e apenas com uma aragem de vento. O conjunto de dados no qual decidi aplicar a técnica de clustering incide nas análises climatéricas referentes ao ano de 2003 em Faro. As medições de vento, precipitação e temperatura efectuadas ao longo do dia permitiram ao Instituto Superior de Agronomia tirar médias diárias e, com as mesmas, 9

10 fazer a respectiva média mensal ao longo do ano. Assim sendo, o conjunto dos dados é composto por 12 objectos, sendo que cada um tem 4 atributos. Os objectos correspondem aos 12 meses do ano, e os atributos utilizados foram: o nome do mês; e as médias mensais para o vento, a precipitação e a temperatura. 6. Preparação dos dados Os dados foram retirados de um artigo do Instituto de Conservação da Natureza e da Biodiversidade [15]. Primeiramente, coloquei os dados numa tabela, pois estavam espalhados ao longo de todo o relatório. Tabela 2 Conjunto de dados Mês Precipitação Vento Temperatura Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Os dados serão analisados no WEKA. O WEKA tem um formato de ficheiro próprio, o arff [16]; isto é, tem um cabeçalho que contém o nome da relação e a lista dos atributos da relação. A título de exemplo: 10

11 % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall % (c) Date: July, sepallength sepalwidth petallength petalwidth class {Iris-setosa,Iris-versicolor,Iris-virginica} E depois tem o conjunto dos dados. Cada objecto é escrito numa linha e os atributos são separados por vírgulas. A título de 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa 4.4,2.9,1.4,0.2,Iris-setosa 4.9,3.1,1.5,0.1,Iris-setosa Posto isto, a estrutura do ficheiro para dar como entrada de dados do WEKA MES PRECIPITACAO VENTO TEMPERATURA 1,73.6,13.4,12.4 2,70.9,14.6,12.7 3,45.1,14,13.8 4,27.7,14.6,15.3 5,19.6,14.6,17.3 6,10.9,13.5,21 7,1.4,12.9,23.8 8,3.9,12.4,23.9 9,11.9,12.2, ,58.6,12.2, ,86.2,12.5, ,87.9,13.1,

12 7. Análise dos dados Os dados serão analisados utilizando o programa WEKA que o professor sugeriu. O algoritmo que decidi utilizar é um dos que vem no pacote, por defeito, do WEKA, e um acerca do qual encontrei mais referências enquanto efectuei a minha pesquisa em livros e na internet: o K-Means. 7.1 Preparação (Preprocess) Numa primeira fase abre-se o ficheiro arff criado para o efeito e podemos desde logo tirar alguns valores dos vários atributos de cada mês. De relembrar que os dados correspondem ao ano de Tabela 3 Preprocess Valores observados Estatística Precipitação Vento Temperatura Mínimo Máximo Mean Desvio Padrão O WEKA tem o poder de mostrar visualmente como estão dispostos os valores em todas as funcionalidades de que se dispõe no programa. No Preprocess conseguimos observar como estão distribuídos os valores, tendo em conta os dados estatísticos da tabela anterior: Desta primeira análise dos dados, no que diz respeito à precipitação, podemos concluir que esta está bem dividida ao longo do ano, pois temos seis meses que se 12

13 encontram entre o valor mínimo e o valor central e outros 6 meses entre o valor central e o máximo. Quanto ao vento podemos observar que existem cinco meses em que faz mais vento (os meses encontram-se acima do valor central) e sete meses em que a força do vento é menor, pois encontram-se abaixo do valor central. Já com a temperatura não se passa o mesmo que com a precipitação e o vento, em que tínhamos mais ou menos o mesmo número de meses, acima ou abaixo do valor central, durante o ano. A temperatura teve quatro meses acima do valor central e oito meses abaixo do valor central. 7.2 Clustering Uma vez que estamos a falar de clima ao longo de um ano parece-me que faz algum sentido fazer clustering para vários valores de k e daí tentar tirar alguma conclusão. Irei correr o algoritmo três vezes com k=2, k=3 e k = 4. K é o número de clusters que irei ter ao fim de correr o algoritmo. Na visualização cada cor corresponderá a um cluster. No final de cada visualização direi a que meses correspondem cada cluster. 13

14 7.2.1 Para k = 2 O output do clustering é o seguinte: === Run information === Scheme: weka.clusterers.simplekmeans -N 2 -S 10 Relation: CLIMA Instances: 12 Attributes: 4 MES PRECIPITACAO VENTO TEMPERATURA Test mode: evaluate on training data === Model and evaluation on training set === kmeans ====== Number of iterations: 3 Within cluster sum of squared errors: Cluster centroids: Cluster 0 Mean/Mode: Std Devs: Cluster 1 Mean/Mode: Std Devs: Clustered Instances 0 7 ( 58%) 1 5 ( 42%) Precipitação Cluster0 Janeiro, Fevereiro, Março, Abril, Maio, Cluster1 Junho, Julho, Agosto, Setembro, Outubro, Novembro, Dezembro São notórios os clusters que se formam se dividirmos os meses do ano em dois clusters. Temos praticamente metade do ano de um lado e a outra metade do outro. 14

15 Vento Cluster0 Janeiro, Fevereiro, Março, Abril, Maio Cluster1 Junho, Julho, Agosto, Setembro, Outubro, Novembro, Dezembro Quanto ao vento observa-se a mesma coisa. Consegue-se verificar, sem nenhuma dúvida, que os meses mais ventosos de 2003 foram os cinco primeiros meses do ano, seguindo-se meses com pouco índice de vento. Temperatura Cluster0 Janeiro, Fevereiro, Março, Abril, Maio Cluster1 Junho, Julho, Agosto, Setembro, Outubro, Novembro, Dezembro Se optarmos por ter uma visualização da temperatura, observamos que a temperatura vai subindo até ao mês de Junho e ganha o seu pico nos meses de Julho e Agosto, voltando, depois, a baixar. Clusters 15

16 7.2.2 Para k = 3 O output do clustering é o seguinte: === Run information === Scheme: weka.clusterers.simplekmeans -N 3 -S 10 Relation: CLIMA Instances: 12 Attributes: 4 MES PRECIPITACAO VENTO TEMPERATURA Test mode: evaluate on training data === Model and evaluation on training set === kmeans ====== Number of iterations: 3 Within cluster sum of squared errors: Cluster centroids: Cluster 0 Mean/Mode: Std Devs: Cluster 1 Mean/Mode: Std Devs: Cluster 2 Mean/Mode: Std Devs: Clustered Instances 0 4 ( 33%) 1 5 ( 42%) 2 3 ( 25%) Precipitação Cluster0 Janeiro, Fevereiro, Março, Abril, Maio Cluster1 Junho, Julho, Agosto, Setembro Cluster2 Outubro, Novembro, Dezembro A precipitação dividida em três partes dá mais ou menos quatro meses para cada parte. Podemos então dizer que as partes estão quase bem divididas. Temos um cluster até ao mês de Maio, a partir de Junho, quando o tempo começa a ficar mais quente, 16

17 temos outro, (como se irá verificar mais à frente na análise do gráfico da temperatura). Depois em Outubro dá-se o início de mais outro cluster. Vento Cluster0 Janeiro, Fevereiro, Março, Abril, Maio Cluster1 Junho, Julho, Agosto, Setembro Cluster2 Outubro, Novembro, Dezembro O vento tem exactamente os mesmo clusters que a precipitação. Os primeiros cinco meses do ano são mais ventosos, mas chegada a altura do Verão, o vento fica menos forte/intenso. Quando o Outono começa inicia-se outro cluster. Também podemos verificar que o mês de Dezembro é semelhante ao mês de Janeiro. Temperatura Cluster0 Janeiro, Fevereiro, Março, Abril, Maio Cluster1 Junho, Julho, Agosto, Setembro Cluster2 Outubro, Novembro, Dezembro A temperatura vem confirmar o que foi observado nos gráficos anteriores. O ano de 2003 ficaria quase bem dividido, se o dividíssemos em três clusters. Os clusters são os mesmos que para os gráficos anteriores. 17

18 Clusters Para k = 4 O output do clustering é o seguinte: === Run information === Scheme: weka.clusterers.simplekmeans -N 4 -S 10 Relation: CLIMA Instances: 12 Attributes: 4 MES PRECIPITACAO VENTO TEMPERATURA Test mode: evaluate on training data === Model and evaluation on training set === kmeans ====== Number of iterations: 3 Within cluster sum of squared errors: Cluster centroids: Cluster 0 Mean/Mode: Std Devs: Cluster 1 Mean/Mode: Std Devs: Cluster 2 Mean/Mode: Std Devs: Cluster 3 Mean/Mode: Std Devs: Clustered Instances 0 3 ( 25%) 1 3 ( 25%) 2 3 ( 25%) 3 3 ( 25%) 18

19 Precipitação Cluster0 Janeiro, Fevereiro, Março Cluster1 Abril, Maio, Junho Cluster2 Julho, Agosto, Setembro Cluster3 Outubro, Novembro, Dezembro Com o ano dividido em quatro clusters podemos constatar que em 2003, existiram quatro períodos distintos entre si. Os meses de menor precipitação foram Julho, Agosto e Setembro. Vento Cluster0 Janeiro, Fevereiro, Março Cluster1 Abril, Maio, Junho Cluster2 Julho, Agosto, Setembro Cluster3 Outubro, Novembro, Dezembro Fevereiro, Abril e Maio foram os meses em que a força do vento mais se fez sentir. Depois em Setembro, Outubro e Novembro deu-se o oposto, ou seja, quase que não houve vento. Temperatura Cluster0 Janeiro, Fevereiro, Março Cluster1 Abril, Maio, Junho Cluster2 Julho, Agosto, Setembro Cluster3 Outubro, Novembro, Dezembro 19

20 Os dois primeiros e os dois últimos meses do ano foram os meses em que tivemos as temperaturas mais baixas, Sendo que o pico foi atingido, como era de esperar, em Julho e Agosto. Clusters 7.3 Re-clustering O termo que estou a utilizar para descrever este ponto do relatório pode não existir, mas o que quero dizer com isto é que fiz de novo o clustering aos dados. Não fiquei contente com a separação dos clusters, pois não me fazia sentido não constarem no mesmo cluster, por exemplo, meses como Janeiro e Dezembro. Então fiz o clustering mas com o atributo mês a não entrar nas contas do K-Means. Os valores dos atributos visualizados para a precipitação, o vento e a temperatura são os mesmos que no ponto anterior, por isso vou apenas mostrar os resultados dos clusters obtidos com este novo clustering. Com base nos valores do ponto 7.2, em que se pode ver a precipitação, o vento e a temperatura, as conclusões retiradas dos clusters são as apresentadas nos pontos seguintes: Para k = 2 Cluster0 Junho, Julho, Agosto, Setembro, Outubro Cluster1 Janeiro, Fevereiro, Março, Abril, Maio, Novembro, Dezembro 20

21 O ano de 2003 teve os primeiros meses do ano até Maio incluídos num cluster e de Junho a Outubro noutro cluster. Novembro e Dezembro pertenceram ao primeiro cluster. Daqui podemos concluir que ao longo do ano, de um modo geral, o cluster0 tem os meses mais quentes, menos ventosos e húmidos Para k = 3 Cluster0 Junho, Julho, Agosto, Setembro Cluster1 Fevereiro, Março, Abril, Maio Cluster2 Janeiro, Outubro, Novembro, Dezembro Se dividirmos o ano em três grupos de meses, verificamos que temos o mesmo número em cada grupo Para k = 4 Cluster0 Junho, Julho, Agosto, Setembro Cluster1 Março, Abril, Maio Cluster2 Outubro, Novembro Cluster3 Janeiro, Fevereiro, Dezembro Esta era a análise pela qual eu estava à espera. Não no sentido de saber o que iria dar, mas porque verifiquei que talvez possa ter errado no ponto 7.2, quando coloquei o número do mês nas contas do K-Means para analisar os dados. Temos aqui quatro clusters quase bem distribuídos. Mas ao contrário da primeira análise do ponto 7.2 em que os meses estavam agrupados de seguida no mesmo cluster, 21

22 esta análise, na minha opinião, é a correcta, pois tem em conta apenas os atributos de precipitação, vento e temperatura, obtendo assim uma distribuição verdadeira dos meses. Sabendo que as estações do ano estão distribuídas da seguinte forma: Tabela 4 Estações do ano Estação Data Início Primavera 20 de Março Verão 20 de Junho Outono 22 de Setembro Inverno 21 de Dezembro Então, esta distribuição dos clusters quase que corresponde às estações do ano. Poderíamos atribuir a cada cluster uma estação do ano. O cluster0 seria o Verão, o cluster1 a Primavera, o cluster2 o Outono e, por fim, o cluster3 o Inverno. 8. Conclusões e Trabalho Futuro Consegui efectuar o clustering a um conjunto de dados. Esse conjunto de dados era pequeno, mas deu para perceber e compreender a ideia geral do que é o clustering. Só à segunda tentativa é que entendi um erro que tinha cometido na tentativa anterior. Na primeira tentativa estava a obter sempre os meses seguidos, começando em Janeiro o mesmo cluster. O ano de 2003 não foi um ano fora do normal, pois teoricamente o ano tem quatro períodos distintos, e isso foi confirmado no segundo clustering que fiz com k = 4. Não foi muito fácil encontrar este tipo de dados estatísticos. Para trabalho futuro seria interessante obter mais dados de anos anteriores e posteriores a 2003 e ter uma quantidade mais ou menos razoável de dados para se poder comparar a evolução dos clusters em cada ano. As partes interessantes deste trabalho futuro poderiam ser, por exemplo, concluir se na zona da Ria Formosa a temperatura está a aumentar e a precipitação a diminuir (resultante do efeito de estufa que se possa fazer sentir na zona), ou ainda utilizar os dados para poder prever os anos vindouros. 22

23 9. Referências [1] DATA MINING Descoberta de Conhecimento em Base de Dados, M Santos Carla Sousa Azevedo, [2] Data Mining Techniques For Marketing, Sales, and Customer Support, Michael J. A. Berry, Gordon Linoff [3] Patricio Serendero. Apontamentos de aula. Acedido a 29 de Março de 2008, in [4] Apache Software Fundation (2007). What is Apache Derby. Acedido a 7 de Fevereiro de 2008, in [5] Intel, Moore's Law Made real by Intel innovation. Acedido a 2 de Junho de 2008, in [6] Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber [7] Principles of Data Mining, David Hand, Heikki Mannila, Padhraic Smyth [8] Liga Portuguesa de Futebol Profissional, Estatísticas de jogos. Acedido a 5 de Junho de 2008, in [9] Patricio Serendero, Clustering. Acedido a 6 de Junho de 2008, in [10] Patricio Serendero, Dados e o seu domínio. Acedido a 6 de Junho de 2008, in 0o%20seu%20dominio.pdf [11] Microsoft, Rafal Lukawiecki Introduction to Data Mining. Visualizado a 8 de Junho de 2008, in [12] Ian H. Witten and Eibe Frank (2005) "Data Mining: Practical machine learning tools and techniques", 2nd Edition, Morgan Kaufmann, San Francisco, [13] WEKA The University of Waikato, Machina Learning Project. Acedido a 18 de Junho, in [14] The EM Algorithm for Unsupervised Clustering. Acedido a 22 de Junho, in [15] Revisão do Plano de Ordenamento do Parque Natural da Ria Formosa. Acedido a 26 de Junho de 2008, in 23

24 [16] Attribute-Relation File Format (ARFF) Acedido a 27 de Junho de 2008, in [17] 3.11 COBWEB. Acedido a 28 de Junho de 2008, in 24

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior barbon@uel.br. 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior barbon@uel.br 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa I Etapa II Inteligência de Negócios Visão

Leia mais

BETA - FRAMEWORK PARA APLICAÇÃO DA TÉCNICA DE BEHAVIOR TARGETING RUDIMAR IMHOF

BETA - FRAMEWORK PARA APLICAÇÃO DA TÉCNICA DE BEHAVIOR TARGETING RUDIMAR IMHOF BETA - FRAMEWORK PARA APLICAÇÃO DA TÉCNICA DE BEHAVIOR TARGETING RUDIMAR IMHOF SUMÁRIO 1 INTRODUÇÃO 2 FUNDAMENTAÇÃO TEÓRICA 3 DESENVOLVIMENTO 4 CONCLUSÕES REFERÊNCIAS BIBLIOGRÁFICAS 1. INTRODUÇÃO WEB 3.0

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 6 Abril 09 5 Modelos preditivos para classificação 5. Introdução Os modelos descritivos, tal como apresentados atrás, limitam-se à sumarização dos dados

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

Data Mining II Modelos Preditivos

Data Mining II Modelos Preditivos Data Mining II Modelos Preditivos Prof. Doutor Victor Lobo Mestre André Melo Mestrado em Estatística e Gestão de Informação Objectivo desta disciplina Fazer previsões a partir de dados. Conhecer os principais

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1.

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1. APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1. SQUIZANI, Cleonice Schell 2 ; MORALES, Yuri 2 ; VIEIRA, Sylvio André Garcia 2 1 Trabalho de pesquisa - UNIFRA

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 4 de Maio 09 5 Modelos preditivos para classificação (continuação) 5.6 Modelos naive Bayes - classificador bayesiano simples O método ganha a designação

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

Aplicação do algoritmo SimpleKMeans em experimento de milho verde

Aplicação do algoritmo SimpleKMeans em experimento de milho verde Aplicação do algoritmo SimpleKMeans em experimento de milho verde Wesley Viana 1, Prof. MSc. Marcos de Moraes Sousa 1, Prof. MSc. Júnio César de Lima 1 Prof. Dr. Milton Sérgio Dornelles 1 1 Instituto Federal

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I

Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Faculdade de Economia Universidade de Porto Extracção de Conhecimento de Dados I PROBLEMAS DE CLASSIFICAÇÃO Manuel José Ferreira Monteiro Novembro

Leia mais

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer II Semana de Tecnologia da Informação IFBA Campus Vitória da Conquista 27 a 30 de maio de 2014 WEKA: The bird Ferramenta Weka Waikato Environment for Knowledge Analysis Prof. MSc Pablo Freire Matos Informática

Leia mais

Ambiente Weka Waikato Environment for Knowledge Analysis

Ambiente Weka Waikato Environment for Knowledge Analysis Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Classificação

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

CURSO DE PÓS-GRADUAÇÃO

CURSO DE PÓS-GRADUAÇÃO CURSO DE PÓS-GRADUAÇÃO EM ANÁLISE DE DADOS E GESTÃO DE INFORMAÇÃO Grupo de trabalho Armando Mendes Áurea Sousa Fátima Brilhante Rita Marques Brandão Osvaldo Silva Fevereiro 2010 Enquadramento e justificação

Leia mais

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012 Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

Copyright 2008 GrupoPIE Portugal, S.A.

Copyright 2008 GrupoPIE Portugal, S.A. WinREST Sensor Log A Restauração do Séc. XXI WinREST Sensor Log Copyright 2008 GrupoPIE Portugal, S.A. 2 WinREST Sensor Log Índice Índice Pag. 1. WinREST Sensor Log...5 1.1. Instalação (aplicação ou serviço)...6

Leia mais

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining Clustering - agrupamento Baseado no capítulo 8 de Introduction to Data Mining de Tan, Steinbach, Kumar Clustering - agrupamento 1 O que é Clustering? Encontar grupos de objectos tal que os objectos dentro

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Data Mining & Optimização Victor Lobo Objectivos gerais Abrir horizontes em temas actuais Aprender técnicas usadas em Sistemas de apoio à decisão ou Business Intelligence Métodos

Leia mais

Disciplina de Text Mining

Disciplina de Text Mining Disciplina de Text Mining Fabrício J. Barth fabricio.barth@gmail.com Pós Graduação em Big Data - Faculdade BandTec Novembro de 2015 Objetivo O objetivo deste curso é apresentar a área de Text Mining. Serão

Leia mais

Tarefa Orientada 18 Tabelas dinâmicas

Tarefa Orientada 18 Tabelas dinâmicas Tarefa Orientada 18 Tabelas dinâmicas Análise de dados através de tabelas dinâmicas. Conceitos teóricos As Tabelas Dinâmicas são tabelas interactivas que resumem elevadas quantidades de dados, usando estrutura

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 18 de Maio 09 6 Modelos de regressão (continuação) 6.1 Interpretação do modelo ajustado Os coeficientes do modelo de regressão múltipla podem ser interpretados

Leia mais

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1 Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1 Rafaela Giroto, 10º módulo de Ciência da Computação,

Leia mais

MESTRADO EM PESQUISA DE MERCADOS 2006 2007

MESTRADO EM PESQUISA DE MERCADOS 2006 2007 MESTRADO EM PESQUISA DE MERCADOS 2006 2007 PROGRAMA DAS DISCIPLINAS 1 1º trimestre PESQUISA DE MERCADOS Objectivos Pretende-se que os alunos: (a) adquiram os conceitos e semântica próprios do tema, (b)

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

Web Data Mining com R

Web Data Mining com R Web Data Mining com R Fabrício J. Barth fabricio.barth@gmail.com VAGAS Tecnologia e Faculdade BandTec Maio de 2014 Objetivo O objetivo desta palestra é apresentar conceitos sobre Web Data Mining, fluxo

Leia mais

ZS Rest. Manual Avançado. Menus. v2011 - Certificado

ZS Rest. Manual Avançado. Menus. v2011 - Certificado Manual Avançado Menus v2011 - Certificado 1 1. Índice 2. Introdução... 2 3. Iniciar o ZSRest... 3 4. Menus... 4 b) Novo Produto:... 5 i. Separador Geral.... 5 ii. Separador Preços e Impostos... 7 iii.

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Ferramentas Livres de Armazenamento e Mineração de Dados

Ferramentas Livres de Armazenamento e Mineração de Dados Ferramentas Livres de Armazenamento e Mineração de Dados JasperBI, Pentaho, Weka 09/2009 Eng. Pablo Jorge Madril pmadril@summa.com.br Summa Technologies www.summa.com.br Eng. Pablo Jorge Madril pmadril@summa.com.br

Leia mais

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth Algoritmos de Agrupamento - Aprendizado Não Supervisionado Fabrício Jailson Barth Abril de 2013 Sumário Introdução e Definições Aplicações Algoritmos de Agrupamento Agrupamento Plano Agrupamento Hierárquico

Leia mais

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Resumo Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados Autoria: Elizabeth de Oliveira Carpenter, Gerson Lachtermacher O

Leia mais

Inferência Estatística-Macs11ºano

Inferência Estatística-Macs11ºano INFERÊNCIA ESTATÍSTICA Inferência Estatística-Macs11ºano Estatística Descritiva: conjunto de métodos para sintetizar e representar de forma compreensível a informação contida num conjunto de dados. Usam-se,

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

Perguntas e Respostas via WebCast Roadshow Mais PHC 2009 O novo SNC

Perguntas e Respostas via WebCast Roadshow Mais PHC 2009 O novo SNC Perguntas e Respostas via WebCast Roadshow Mais PHC 2009 O novo SNC PERGUNTAS VIA WEB CAST: Dado que vamos ter necessariamente durante o período de transição que efectuar lançamentos manuais na contabilidade,

Leia mais

Recuperação de Informação em Bases de Texto. Aula 10

Recuperação de Informação em Bases de Texto. Aula 10 Aula 10 1 Agrupamento/ clustering de documentos: Agrupar os documentos em classes/grupos, de acordo com a sua semelhança Aprendizagem não supervisionada Sem conjunto de treino/exemplos 2 3 Agrupamento/

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 11 de Maio 09 6 Modelos de regressão 6.1 Introdução No capítulo anterior foram apresentados alguns modelos preditivos em que a variável resposta (a variável

Leia mais

PLANO DE ENSINO. Mestrado em Matemática - Área de Concentração em Estatística

PLANO DE ENSINO. Mestrado em Matemática - Área de Concentração em Estatística 1. IDENTIFICAÇÃO PLANO DE ENSINO Disciplina: Estatística Multivariada Código: PGMAT568 Pré-Requisito: No. de Créditos: 4 Número de Aulas Teóricas: 60 Práticas: Semestre: 1º Ano: 2015 Turma(s): 01 Professor(a):

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

Exemplos de aplicação. Mineração de Dados 2013

Exemplos de aplicação. Mineração de Dados 2013 Exemplos de aplicação Mineração de Dados 2013 Luís Rato Universidade de Évora, 2013 Mineração de dados / Data Mining 1 Classificação: Definição Dado uma conjunto de registos (conjunto de treino training

Leia mais

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Carlos Eduardo R. de Mello, Geraldo Zimbrão da Silva, Jano M. de Souza Programa de Engenharia de Sistemas e Computação Universidade

Leia mais

Curriculum DeGóis Guia de preenchimento do Curriculum Vitae (Informação mínima necessária)

Curriculum DeGóis Guia de preenchimento do Curriculum Vitae (Informação mínima necessária) Curriculum DeGóis Guia de preenchimento do Curriculum Vitae (Informação mínima necessária) /curriculum Julho de 2008 Versão 1.1 1 Introdução O objectivo deste guia é auxiliar o utilizador da Plataforma

Leia mais

Dois Quentes, Dois Frios

Dois Quentes, Dois Frios Descrição Geral Dois Quentes, Dois Frios Nesta actividade, os estudantes irão trabalhar com as temperaturas utilizando as escalas Celsius e Fahrenheit. Os estudantes irão recolher dados para serem analisados

Leia mais

Mineração de dados em triagem de risco de saúde

Mineração de dados em triagem de risco de saúde Mineração de dados em triagem de risco de saúde Thales Vaz Maciel 1 ; Vinicius Rosa Seus 2 ; Karina dos Santos Machado 3 ; Eduardo Nunes Borges 4 1234 Centro de Ciências Computacionais, Fundação Universidade

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo UNIVERSIDADE DE SÃO PAULO Faculdade de Arquitetura e Urbanismo DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO AUT 516 Estatística Aplicada a Arquitetura e Urbanismo 2 DISTRIBUIÇÃO AMOSTRAL Na aula anterior analisamos

Leia mais

Manual de utilização do Moodle

Manual de utilização do Moodle Manual de utilização do Moodle Iniciação para docentes Universidade Atlântica Versão: 1 Data: Fevereiro 2010 Última revisão: Fevereiro 2010 Autor: Ricardo Gusmão Índice Introdução... 1 Registo no Moodle...

Leia mais

ZS Rest. Manual de Iniciação. BackOffice

ZS Rest. Manual de Iniciação. BackOffice Manual de Iniciação BackOffice 1 1. Índice 2. Introdução... 2 3. Iniciar o ZSRest... 3 a) BackOffice:... 4 b) Acesso BackOffice:... 4 4. Zonas... 6 c) Criar Zona:... 7 d) Modificar Zona:... 8 e) Remover

Leia mais

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS Hugo Marques Casarini Faculdade de Engenharia de Computação

Leia mais

Manual de Utilizador do SABI

Manual de Utilizador do SABI Manual de Utilizador do SABI 1) Pesquisa O software do SABI permite ao utilizador realizar pesquisas de acordo com diversos tipos de critérios: Nome Nº. Contribuinte Localização (País ou região do país).

Leia mais

ANÁLISE DA VARIABILIDADE ESPAÇO-TEMPORAL DA PRECIPITAÇÃO PLUVIOMÉTRICA NO ESTADO DO RIO GRANDE DO SUL

ANÁLISE DA VARIABILIDADE ESPAÇO-TEMPORAL DA PRECIPITAÇÃO PLUVIOMÉTRICA NO ESTADO DO RIO GRANDE DO SUL ANÁLISE DA VARIABILIDADE ESPAÇO-TEMPORAL DA PRECIPITAÇÃO PLUVIOMÉTRICA NO ESTADO DO RIO GRANDE DO SUL RAQUEL STUCCHI BOSCHI 1 STANLEY ROBSON DE MEDEIROS OLIVEIRA 2 ANA MARIA HEUMINSKI DE ÁVILA 3 RESUMO:

Leia mais

Data Mining com a Ferramenta Weka

Data Mining com a Ferramenta Weka Data Mining com a Ferramenta Weka Eduardo Corrêa Gonçalves Escola Nacional de Ciências Estatísticas (IBGE/ENCE) Rua André Cavalcanti, 106, Centro 20.231-050 Rio de Janeiro RJ eduardo.correa@ibge.gov.br

Leia mais

Manual do Utilizador

Manual do Utilizador Faculdade de Ciências e Tecnologia da Universidade de Coimbra Departamento de Engenharia Electrotécnica e Computadores Software de Localização GSM para o modem Siemens MC35i Manual do Utilizador Índice

Leia mais

PHC TeamControl CS. A gestão de equipas e de departamentos

PHC TeamControl CS. A gestão de equipas e de departamentos PHC TeamControl CS A gestão de equipas e de departamentos A solução que permite concretizar projetos no tempo previsto e nos valores orçamentados contemplando: planeamento; gestão; coordenação; colaboração

Leia mais

CRM e Prospecção de Dados

CRM e Prospecção de Dados CRM e Prospecção de Dados Marília Antunes aula de 2 Março 09 1 Introdução à Prospecção de Dados 1.1 Introdução O progresso da tecnologia que permite a aquisição de dados e seu armazenamento resultaram

Leia mais

ESTATÍSTICA. Professor: Ricardo Vojta

ESTATÍSTICA. Professor: Ricardo Vojta ESTATÍSTICA Ciências Contábeis Professor: Ricardo Vojta RAMOS DA ESTATÍSTICA A estatística dedutiva (também conhecida como Estatística Descritiva) se encarrega de descrever o conjunto de dado desde a elaboração

Leia mais

Excel - Ficha de Trabalho

Excel - Ficha de Trabalho Excel - Ficha de Trabalho Facturação Avançada O trabalho que se segue consistirá numa folha de cálculo com alguma complexidade, em que existirão diferentes folhas no mesmo livro. Neste serão criadas Bases

Leia mais

Agenda. 5 - Microsoft Excel. Conceitos Fórmulas em Excel Operadores Endereços Funções em Excel. ISEG - Instituto Superior de Economia e Gestão/

Agenda. 5 - Microsoft Excel. Conceitos Fórmulas em Excel Operadores Endereços Funções em Excel. ISEG - Instituto Superior de Economia e Gestão/ ISEG - Instituto Superior de Economia e Gestão/ FMH - Instituto de Motricidade Humana 5 - Microsoft Excel EXCEL V - 1 Agenda Conceitos Fórmulas em Excel Operadores Endereços Funções em Excel EXCEL V -

Leia mais

Aprendendo a Interpretar Dados Financeiros de uma Empresa Usando Estatística de Forma Simples e Prática

Aprendendo a Interpretar Dados Financeiros de uma Empresa Usando Estatística de Forma Simples e Prática Aprendendo a Interpretar Dados Financeiros de uma Empresa Usando Estatística de Forma Simples e Prática Ederson Luis Posselt (edersonlp@yahoo.com.br) Eduardo Urnau (dudaurnau@gmail.com) Eloy Metz (eloy@softersul.com.br)

Leia mais

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha WCGE II Workshop de Computação Aplicada em Governo Eletrônico Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini

Leia mais

Data Mining: Ferramenta JAVA

Data Mining: Ferramenta JAVA Data Mining: Ferramenta JAVA JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software. WEKA: JAVA

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Revisão de Probabilidade e Estatística Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Conceitos Básicos Estamos

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

E se conseguisse reduzir os seus custos de energia até 20%?

E se conseguisse reduzir os seus custos de energia até 20%? E se conseguisse reduzir os seus custos de energia até 20%? Uma solução eficaz de Gestão Energética para o Retalho Eficiência Energética no Retalho Será que está a gastar mais em energia do que necessita?

Leia mais

Indicações para a elaboração do trabalho a realizar em horário extra lectivo

Indicações para a elaboração do trabalho a realizar em horário extra lectivo Instituto Politécnico de Viseu Escola Superior de Tecnologia Curso: Eng a Mecânica e G. I. Ano: 1 o Semestre: 2 o Ano Lectivo: 2005/2006 Indicações para a elaboração do trabalho a realizar em horário extra

Leia mais

Manual de Utilizador de Clínicas. www.softwhere.com.pt

Manual de Utilizador de Clínicas. www.softwhere.com.pt Manual de Utilizador de Clínicas www.softwhere.com.pt Formulário de login de Clínicas Utilizador : Administrador Password: 123 Formulário Principal do Software de Clínicas Este formulário lista todos os

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Classificação Automática de Usuários de uma Rede Social utilizando Algoritmos Não-Supervisionados

Classificação Automática de Usuários de uma Rede Social utilizando Algoritmos Não-Supervisionados Classificação Automática de Usuários de uma Rede Social utilizando Algoritmos Não-Supervisionados Vinicius P. Machado 1, Bruno V. A. de Lima 1, Sanches W. I. Araújo 1 1 Departamento de Informática e Estatística

Leia mais

CAPÍTULO 4 Implementação do modelo num programa de cálculo automático

CAPÍTULO 4 Implementação do modelo num programa de cálculo automático CAPÍTULO 4 Implementação do modelo num programa de cálculo automático Neste capítulo, será feita a demonstração da aplicação do modelo num programa de cálculo automático, desenvolvido em linguagem de programação

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Tarefa 18: Criar Tabelas Dinâmicas a partir de Listas de Excel

Tarefa 18: Criar Tabelas Dinâmicas a partir de Listas de Excel Tarefa 18: Criar Tabelas Dinâmicas a partir de 1. Alguns conceitos sobre Tabelas Dinâmicas Com tabelas dinâmicas podemos criar dinâmica e imediatamente resumos de uma lista Excel ou de uma base de dados

Leia mais

Microsoft Innovation Center

Microsoft Innovation Center Microsoft Innovation Center Mineração de Dados (Data Mining) André Montevecchi andre@montevecchi.com.br Introdução Objetivo BI e Mineração de Dados Aplicações Exemplos e Cases Algoritmos para Mineração

Leia mais

BPstat. manual do utilizador. Banco de Portugal BPstat Estatísticas online Manual do Utilizador 1/24

BPstat. manual do utilizador. Banco de Portugal BPstat Estatísticas online Manual do Utilizador 1/24 BPstat manual do utilizador Banco de Portugal BPstat Estatísticas online Manual do Utilizador 1/24 BANCO DE PORTUGAL Av. Almirante Reis, 71 1150-012 Lisboa www.bportugal.pt Edição Departamento de Estatística

Leia mais

EXCEL TABELAS DINÂMICAS

EXCEL TABELAS DINÂMICAS Informática II Gestão Comercial e da Produção EXCEL TABELAS DINÂMICAS (TÓPICOS ABORDADOS NAS AULAS DE INFORMÁTICA II) Curso de Gestão Comercial e da Produção Ano Lectivo 2002/2003 Por: Cristina Wanzeller

Leia mais

A gestão completa dos seus recursos humanos

A gestão completa dos seus recursos humanos PHC Recursos Humanos CS DESCRITIVO Optimize a selecção e recrutamento, proceda à correcta descrição de funções, execute as avaliações de desempenho e avalie as acções de formação. PHC Recursos Humanos

Leia mais

PHC TeamControl CS. A gestão de equipas e de departamentos

PHC TeamControl CS. A gestão de equipas e de departamentos PHC TeamControl CS A gestão de equipas e de departamentos A solução que permite concretizar projectos no tempo previsto e nos valores orçamentados contemplando: planeamento; gestão; coordenação; colaboração

Leia mais

MICROSOFT ONENOTE E TOSHIBA CASE STUDY SOLUÇÃO DE CLIENTE

MICROSOFT ONENOTE E TOSHIBA CASE STUDY SOLUÇÃO DE CLIENTE CASE STUDY MICROSOFT ONENOTE E TOSHIBA CASE STUDY SOLUÇÃO DE CLIENTE AGENTE DA WEB AUMENTA A PRODUTIVIDADE E TIRA PARTIDO DE TRABALHO EM EQUIPA MAIS EFICAZ COM PORTÁTEIS TOSHIBA E ONENOTE O acesso partilhado

Leia mais

MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP

MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP 1 Data de entrega dos originais à redação em 15/03/2013 e recebido

Leia mais

Wincrm Gestão das Oportunidades de Negócio

Wincrm Gestão das Oportunidades de Negócio Wincrm Gestão das Oportunidades de Negócio Wincrm Gestão das Oportunidades de Negócio Soluções Com o módulo WinCRM, aumente drasticamente a produtividade comercial e o volume de negócios da organização.

Leia mais

3. PLANEAMENTO DA PRODUÇÃO (NÍVEL 1)

3. PLANEAMENTO DA PRODUÇÃO (NÍVEL 1) 3. PLANEAMENTO DA PRODUÇÃO (NÍVEL 1) Neste ponto, são abordados os módulos de planeamento da produção do software BaaN. Este software dispõe dos seguintes três módulos complementares de planeamento: MPS

Leia mais

PHC Letras CS BUSINESS AT SPEED

PHC Letras CS BUSINESS AT SPEED PHC Letras CS A gestão de todas as tarefas relacionadas com Títulos de Dívida A execução de todos os movimentos com títulos de dívida a receber ou a pagar e o controle total da situação por Cliente ou

Leia mais

3. Características amostrais. Medidas de localização e dispersão

3. Características amostrais. Medidas de localização e dispersão Estatística Descritiva com Excel Complementos. 77 3. Características amostrais. Medidas de localização e dispersão 3.1- Introdução No módulo de Estatística foram apresentadas as medidas ou estatísticas

Leia mais

Pré processamento de dados II. Mineração de Dados 2012

Pré processamento de dados II. Mineração de Dados 2012 Pré processamento de dados II Mineração de Dados 2012 Luís Rato Universidade de Évora, 2012 Mineração de dados / Data Mining 1 Redução de dimensionalidade Objetivo: Evitar excesso de dimensionalidade Reduzir

Leia mais

Complementos de Base de Dados Enunciados de Exercícios

Complementos de Base de Dados Enunciados de Exercícios INSTITUTO SUPERIOR DE CIÊNCIAS DO TRABALHO E DA EMPRESA DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO Pós Graduação em Desenvolvimento de Sistemas de Informação 2006 2007 Complementos de Base de

Leia mais

PRO FOR WINDOWS (FPW)

PRO FOR WINDOWS (FPW) INTRODUÇÃO OAO FORECAST PRO FOR WINDOWS (FPW) Considerações Básicas Introdução ao Forecast Pro Software para análise e previsão de séries temporais. Características importantes Roda sob as diversas versões

Leia mais

PROGRAMAÇÃO LINEAR. Resolução de problemas de programação linear usando o comando Solver, no Excel.

PROGRAMAÇÃO LINEAR. Resolução de problemas de programação linear usando o comando Solver, no Excel. PROGRAMAÇÃO LINEAR Resolução de problemas de programação linear usando o comando Solver, no Excel. Para além da resolução pelo método gráfico e/ou outros métodos, é possível resolver um problema de PL

Leia mais