- PDF Free Download

Documentos relacionados

A Grande Importância da Mineração de Dados nas Organizações

Preparando sua empresa para o forecasting:

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

NOKIA. Em destaque LEE FEINBERG

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

ERP. Enterprise Resource Planning. Planejamento de recursos empresariais

Introdução à Computação

CRM. Customer Relationship Management

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Tema: Big Data, Analytics...a Tecnologia a Favor do RH Palestrante: Alberto Roitman

INQUÉRITO REALIZADO A ALUNOS LABORATÓRIO DE CÁLCULO. Trabalho realizado por Lucília Rodrigues Macedo

6 Modelo proposto: projeto de serviços dos sites de compras coletivas

Gestão de Relacionamento com o Cliente CRM

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Cinco principais qualidades dos melhores professores de Escolas de Negócios

OBSERVATÓRIO DE GESTÃO DA INFORMAÇÃO. Palavras-chave: Gestão da Informação. Gestão do conhecimento. OGI. Google alertas. Biblioteconomia.

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Programa de Parcerias e Submissão de Propostas 2014/15

FERRAMENTAS E SOLUÇÕES DE APOIO À GESTÃO E MANUTENÇÃO DE ATIVOS

Material de Apoio. Sistema de Informação Gerencial (SIG)

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CURSO SUPERIOR DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Programa de assistência técnica alargada da Kaspersky

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

Usando o Arena em Simulação

PHC XL CS. Reporting Financeiro em Microsoft Excel. O que ganha com este software:

Esta dissertação apresentou duas abordagens para integração entre a linguagem Lua e o Common Language Runtime. O objetivo principal da integração foi

w w w. y e l l o w s c i r e. p t

Governança de TI. ITIL v.2&3. parte 1

COMO FAZER A TRANSIÇÃO

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

FLUXO DE CAIXA: Módulo BI (Business Intelligence)

Introdução a Banco de Dados Aula 03. Prof. Silvestri

Guia para RFP de Outsourcing

CHECK - LIST - ISO 9001:2000

Solução de Telecontagem. Gestão de Contratos. Esta solução é indicada para sistemas de contagem de caudal usando um mínimo de recursos.

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Base de Dados para Administrações de Condomínios

Trabalho sobre Social Media Como implementar Social Media na empresa

XI Mestrado em Gestão do Desporto

Aplicação Prática de Lua para Web

Acesso remoto a servidores Gestores de monitorização de tráfego de redes

Avanços na transparência

PHC dteamcontrol Externo

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

MBA Analytics em Big Data

Apresentação da Solução. Divisão Área Saúde. Solução: Gestão de Camas

Oracle Hyperion Essbase

CAPITULO 4 A ARQUITETURA LÓGICA PARA O AMBIENTE

Noções de. Microsoft SQL Server. Microsoft SQL Server

Curso superior de Tecnologia em Gastronomia

ADM041 / EPR806 Sistemas de Informação

Núvem Pública, Privada ou Híbrida, qual adotar?

COMUNICAÇÃO NA ERA DO BIG DATA

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO - TIC 10º C. Planificação de. Curso Profissional de Técnico de Secretariado

Fábrica de Software 29/04/2015

REFORÇO DE PROGRAMAÇÃO ESTRUTURADA EM LINGUAGEM C PARA GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

A cloud concebida para a sua empresa.

MODELAGEM E SIMULAÇÃO

Desenvolvimento de Interfaces Prototipação

Universidade Federal de Alfenas

5. Links de bibliotecas (off-line) Localiza bibliotecas que tenham uma cópia imp 6. Como entender um resultado de pesquisa. Sobre o Google Acadêmico

15 Computador, projeto e manufatura

Serviço Cloud. Sustentabilidade

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009

Simulação Computacional de Sistemas, ou simplesmente Simulação

Processos de Desenvolvimento de Software

Cartilha Explicativa sobre o Software de Medição de Qualidade de Conexão (Serviço de Comunicação Multimídia)

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web

UNIVERSIDADE ESTADUAL DA PARAÍBA CENTRO DE CIÊNCIAS E TECNOLOGIA DEPARTAMENTO DE QUÍMICA CURSO DE LICENCIATURA EM QUÍMICA LINDOMÁRIO LIMA ROCHA

Fornecendo Inteligência, para todo o mundo, a mais de 20 anos.

CENTRO UNIVERSITÁRIO ESTÁCIO RADIAL DE SÃO PAULO SÍNTESE DO PROJETO PEDAGÓGICO DE CURSO 1

APLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Seção 2/E Monitoramento, Avaliação e Aprendizagem

Ciência dos Dados. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

Mestrado em Sistemas Integrados de Gestão (Qualidade, Ambiente e Segurança)

VERIFIQUE SE SEUS SITES ESTÃO PRONTOS PARA O BLACK FRIDAY 11 MANEIRAS DE ACABAR COM OS PROBLEMAS DE DESEMPENHO

Módulo 15 Resumo. Módulo I Cultura da Informação

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP.

EQUIPE: ANA IZABEL DAYSE FRANÇA JENNIFER MARTINS MARIA VÂNIA RENATA FREIRE SAMARA ARAÚJO

CONSULTORIA E SERVIÇOS DE INFORMÁTICA

1. NÍVEL CONVENCIONAL DE MÁQUINA

Banco de Dados - Senado

Azul cada vez mais perto de seus clientes com SAP Social Media Analytics e SAP Social OnDemand

Sinopse das Unidades Curriculares Mestrado em Marketing e Comunicação. 1.º Ano / 1.º Semestre

Transcrição:

UNIVERSIDADE DE LISBOA A Faculdade de Ciências Departam mento de Informática FERRAMENTA DE BUSINESSS ANALYTICS PARA UM SISTEMA DE ATENDIMENTO João Paulo Figueiras Ribeiro DISSERTAÇÃO VERSÃO PÚBLICA MESTRADO EM INFORMÁTICAA 2013

UNIVERSIDADE DE LISBOA Faculdade de Ciências s Departamento de Informática FERRAMENTA DE BUSINESS ANALYTICS PARAA UM SISTEM MA DE ATENDIMENTO João Paulo Figueiras Ribeiro DISSERTAÇÃO Trabalho orientado pela Prof. Doutoraa Ana Luísa do Carmo Correia C Respício e co-orientado por Prof. Doutor João Carlos Balsaa da Silva MESTRADO EM INFORMÁTICA 2013

Agradecimentos Aos meus pais por me terem apoiado em tudo neste projeto e aos meus Professores Orientadores por terem tido a paciência por me aturarem neste projeto.

Este trabalho é dedicado aos funcionários que possam organizar atempadamente o seu trabalho.

Resumo Em qualquer tipo de prestação de serviços existe sempre o problema da formação de filas de espera, resultantes dum aumento da procura do serviço face a disponibilidade do atendimento. A capacidade de antecipar as necessidades faz-se principalmente recorrendo a uma análise do histórico de acontecimentos ocorridos no serviço em causa, recorrendo, por exemplo, a técnicas de data mining. Neste trabalho, é desenvolvida uma aplicação que incorpora técnicas de data mining e teoria das filas de espera, constituindo uma ferramenta auxiliar na gestão de um sistema de atendimento, com três funcionalidades principais: monitorização do estado corrente; fornecimento de indicações sobre o fluxo esperado; e fornecer informação histórica do sistema. Em particular, este trabalho pode vir a contribuir para melhorar o desempenho de um sistema de atendimento, permitindo uma melhor organização do tempo dos funcionários no que diz respeito à sua afetação a tarefas de atendimento ao público. A ferramenta desenvolvida utiliza os dados guardados pelo sistema de senhas existente para determinar, em tempo real, o fluxo de pessoas a aceder a um serviço concreto, de modo a poder adaptar o número de balcões abertos. Palavras-chave: filas de espera, prospeção de dados, análise preditiva, monitorização, Aplicações de análise de negócio i

ii

Abstract In any type of service there is always the problem of queue formation resulting from a rise in demand for the service relatively to service availability. The ability to anticipate the needs is done mainly through the analysis of historical events of the service in question using, for instance, data mining techniques. In this work, we developed an application that incorporates data mining techniques and queuing theory, constituting an auxiliary tool in the management of a service system with three main functionalities: monitoring its current state, providing guidance on the expected flow of arrivals; and provide historical information. In particular, this work is meant to assist the attendance system, allowing for a better organization of the employees working time regarding their assignment to service tasks. The developed tool uses the historical data stored by the system to determine, in real time, the flow of people expected to access a specific service, in order to adapt the number of open services. Keywords: queues, data mining, predictive analyses, monitoring, Business Analytics applications iii

iv

Índice Capítulo 1 Introdução... 1 1.1 Motivação e contexto do projeto... 1 1.2 Contribuições... 2 1.3 Estrutura do documento... 2 1.4 Objetivos... 2 1.5 Contexto subjacente... 2 1.6 Metodologia... 3 1.7 Planeamento... 3 Capítulo 2 Trabalho Relacionado... 5 2.1 Prospeção de dados... 5 2.1.1 Rexer Analytics Analytic and CRM Consulting... 5 2.1.2 KDNuggets.com... 7 2.2 Adequação ao problema em estudo... 11 2.3 Teoria das filas de espera... 11 Capítulo 3 Análise dos dados históricos do sistema... 15 3.1 Análise do sistema de atendimento... 15 3.2 Análise dos Dados... 15 Capítulo 4 Aplicação... 17 4.1 Introdução... 17 4.2 Arquitetura... 18 4.3 Funcionalidades... 19 Capítulo 5 Simulação e Avaliação... 21 Capítulo 6 Conclusões... 23 Capítulo 7 Bibliografia... 25 v

vi

Lista de Figuras Figura 1: Instantes de chegada de clientes num sistema de filas marcados no eixo dos tempos... 13 Figura 2: Tempos entre chegadas de clientes num sistema de filas marcados no eixo dos tempos... 13 Figura 3: Esquema conceptual da aplicação... 18 vii

viii

Lista de Tabelas Tabela 1 - Algoritmos de data mining encontrados no survey [3]... 6 Tabela 2 - Áreas aplicacionais de data mining... 8 Tabela 3 - Popularidade de Linguagens de programação/estatística... 9 Tabela 4 - Popularidade de Software para data mining... 10 ix

Capítulo 1 Introdução 1.1 Motivação e contexto do projeto Existe um Serviço de Atendimento ao público que presta serviço a mais de 5000 pessoas. Tendo em conta este número e o fato que existirem alturas de grande afluência de pessoas, considerou-se este Serviço de Atendimento como caso de estudo para a conceção de uma ferramenta informática que permita analisar o comportamento do sistema de atendimento e que pudesse informar atempadamente a afluência que o serviço pudesse vir a ter. Como o Serviço de Atendimento possui um sistema de gestão de senhas próprio, este tem vindo a registar informação de senhas tiradas para uma base de dados o que torna possível identificar períodos de maior afluência e padrões de ocorrências para um determinado serviço. Fazer a análise a um histórico de acontecimentos é considerado uma unidade de negócio nas grandes empresas e esta informação pode ajudar as empresas nos processos de tomada de decisão, isto é Business Intelligence. Visto que se trata de um serviço de atendimento, faz sentido que os atributos para a análise provenham da Teoria de Filas de Espera. Este é um ramo da probabilidade que estuda a formação de filas, através de análises matemáticas precisas e propriedades mensuráveis, permitindo criar modelos para demonstrar previamente o comportamento de um sistema que oferece serviços cuja exigência cresce aleatoriamente, o que possibilita dimensionar o serviço de modo a satisfazer os clientes e a ser viável economicamente para o prestador do serviço, evitando desperdícios, congestionamentos e desistências de clientes. 1

1.2 Contribuições Como contribuições desta dissertação destacam-se: i. Uma análise do histórico de atendimentos; ii. Um protótipo de uma ferramenta computacional para monitorizar o sistema. Esta ferramenta vem contribuir para uma melhor gestão de recursos humanos no escalonamento de trabalho para o serviço ao público ou no trabalho de BackOffice, ou seja, permite fornecer aos funcionários informações sobre quais os serviços que são mais requisitados num determinado dia ou semana, permitindo assim saber que funcionários específicos devem estar mais tempo a atender visto que existem funcionários específicos para cada tipo de serviço que existe no Serviço de Atendimento. 1.3 Estrutura do documento Este documento está organizado da seguinte forma: Capítulo 2 Trabalho Relacionado Capítulo 3 Análise de dados históricos Capítulo 4 Aplicação Capítulo 5 Validação e Avaliação Capítulo 6 Conclusões 1.4 Objetivos 1) Analisar os dados do passado tentando encontrar padrões de comportamento; 2) Desenvolver uma aplicação que auxilie os serviços de atendimento a fornecerem informação sobre o estado de afluência de pessoas aos serviços e assim tomarem as decisões necessárias para cada estado em que os serviços se encontrem. 1.5 Contexto subjacente Em grandes empresas, é normal fazerem-se estudos de mercado para analisar quais são os períodos em que certos produtos são mais vendidos numa época ou que produtos são mais vendidos com outros, e esta análise ajuda os gestores das empresas a tomarem a decisão de que produtos e respetivas quantidades devem disponibilizar naquela altura porque preveem que a procura dos mesmos possa vir a ser muito grande. O mesmo sucede com os serviços de atendimento a pessoas. A afluência de pessoas nem sempre é constante devido a prazos de entregas ou pagamentos, por exemplo. Nos serviços de atendimento é preciso então ter em conta estas variações de afluência, para que não 2

existam filas de espera demasiado grandes que possam levar a que pessoas desistam de serem atendidas. Tem-se assim como objetivo manter uma determinada qualidade de serviço. 1.6 Metodologia A metodologia aplicada neste trabalho é a que é normalmente aplicada por gestores de projeto em empresas, ou seja, o projeto está dividido em 3 fases importantes: 1. Observação e análise análise dos requisitos dos clientes, análise do sistema onde é implementada a ferramenta, análise dos dados para verificação se é possível satisfazer os requisitos dos clientes. 2. Planeamento e desenvolvimento fase onde se elabora um plano de construção da ferramenta e desenvolvimento da mesma. 3. Implementação e avaliação fase de implementação da ferramenta e avaliação desta com os requisitos definidos pelos clientes. 1.7 Planeamento O planeamento definido inicialmente foi: 1. Estudar a por bibliografia na área da Prospeção de Dados e analisar o software existente na área mencionada para verificar qual se adequa melhor para integrar a ferramenta final. 2. Desenvolver processos de análise de dados e identificação de padrões. 3. Desenvolver um modelo de simulação para análise preditiva. 4. Criação da ferramenta protótipo. 5. Validação/avaliação. O trabalho foi iniciado em Dezembro de 2012. Os dados foram disponibilizados apenas no final de Janeiro de 2013, após autorização da Direção da instituição e atendendo à observância dos dispositivos legais vigentes. O primeiro ponto levou cerca de 2 meses a realizar, que depois resultou no relatório preliminar. O tempo consumido foi maioritariamente ocupado com variados testes sobre os diferentes softwares mencionados no relatório preliminar. Estive a verificar a facilidade, usabilidade, propriedades e recursos que os softwares podem oferecer aos utilizadores e que estão acessíveis em termos de licenças para depois decidir sobre a necessidade de usar certos aplicativos para a ferramenta final. O resto tempo estive a estudar sobre a Teoria de Filas de Espera que foi uma matéria que nunca tinha estudado academicamente. Ao mesmo tempo que pesquisava sobre as teorias de Filas de Espera, estive a pesquisar igualmente informação sobre o que se fazia e o que se usava em Data Mining. 3

O segundo ponto foi o que levou mais tempo em dias, cerca de 4 meses, mas foi o que menos tempo estive dedicado a ele por causa do tempo ocupado com cadeiras que estava ainda a realizar. Este ponto foi o mais complicado de realizar, visto que precisei de arranjar um sistema rápido de poder trabalhar com os dados que me foram fornecidos em Excel, e a melhor solução que eu encontrei era mesmo simular as tabelas fornecidas num sistema de base dados, onde apliquei vários processos de ETL 1 sobre os dados originais para criar outra informação que não se encontra explícita nos mesmos. A partir dos dados criados, procurei vários métodos de agrupamento com diferentes atributos selecionados para ver se encontrava grupos distintos nos dados que me pudessem identificar diferentes tipos de acontecimentos, mas o estudo tornou-se inconclusivo e difícil de analisar a informação. Mais tarde e com um pouco mais de estudo e aplicar com o que se pretendia com o trabalho inicial, verifiquei que é possível ainda fazer data mining sobre os dados. Neste caso falo de aplicar modelos de classificação sobre um atributo e usá-los para previsão de acontecimentos. Uma vez feita a análise dos dados e estabelecidos os requisitos que pretendia na criação da aplicação passei para o quarto ponto do planeamento. O terceiro ponto decidi realizá-lo durante a criação da aplicação para assim verificar que o produto final cria o que se pretendia com este ponto. O quarto ponto demorou cerca de 3 meses devido à pouca experiência que tenho com a programação em Java e a falta de conhecimento de existência de bibliotecas Java. Por isso, levei tempo para pesquisar e aprender como utilizar as respetivas bibliotecas para tirar proveito delas da melhor forma possível para os requisitos da aplicação. Depois de ter tudo o que precisava a criação da aplicação ficou mais simples e foi só montar e testar para procurar defeitos da aplicação e corrigi-los. O quinto ponto não foi possível de realizar porque não se encontrou tempo de testar a aplicação junto do cliente. No entanto, no capítulo 5, apresentam-se alguns resultados de testes. 1 Extract, Transform and Load significa Extração, Transformação e Carregamento de dados. Normalmente este processo ocorre quando um utilizador retira informação de diferentes tipos de sistemas de informação para um sistema de informação próprio, transformando e limpando os dados conforme a necessidade do utilizador precise. 4

Capítulo 2 Trabalho Relacionado 2.1 Prospeção de dados Como referido anteriormente, os dados que foram analisados se encontram numa base de dados e o método que é utilizado para analisar os dados é usar a técnica de Prospeção de Dados [1], que é um processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detetar relacionamentos sistemáticos entre variáveis, detetando assim novos subconjuntos de dados. É um tópico recente em ciências da computação, mas utiliza várias técnicas da estatística, recuperação de informação, inteligência artificial e reconhecimento de padrões. Assim sendo, existem ferramentas que usam algoritmos de aprendizagem ou classificação baseados em redes neuronais e estatística que são capazes de explorar conjuntos de dados, extraindo ou evidenciar padrões nesses dados e criar nova informação. Essa informação pode ser apresentada pelas mesmas ferramentas de diversas formas: agrupamentos, regras, árvores de decisão, grafos ou dendrogramas. 2.1.1 Rexer Analytics Analytic and CRM Consulting A empresa Consultora Norte Americana Rexer Analytics Analytic and CRM Consulting e o sítio da Internet kdnuggets.com dedicam-se a realizar inquéritos e levantamento de informação sobre data mining, que processos de análise de dados são mais utilizados, que aplicações são mais usadas, que tipos de linguagem são mais usados para o processo de análise de dados, etc. O último survey que a Rexer Analytics fez foi em 2011 [2] e obtiveram-se os seguintes resultados para os seguintes aspetos: 1) ALGORITMOS: árvores de decisão, regressão e análise de cluster continuam a formar uma tríade de algoritmos básicos para os data miners na maioria dos dados. No entanto, uma grande variedade algoritmos está a ser utilizada. Um terço dos data miners estão atualmente usar a text-mining e outro terço planeiam num futuro 5

próximo ussá-lo. Text mining m é maais frequenteemente usad do para anaalisar inquérritos a clientes e blogs b / ferram mentas sociiais. 2) FERRAME ENTAS: A aplicação R continuou u a sua ascensão nessee ano de 20 011 e agora está a ser usadaa por cercaa de metadee de todos os data miiners (47% %). Os utilizadoress relatam qu ue preferem m o R por ser gratuito, open-sourcce, e porque tem uma grandde variedadee de algoriitmos. Muiitos utilizad dores tambéém citam a sua flexibilidadde e a força da comuniidade de utiilizadores. STATISTIC S CA é selecio onada como a prinncipal ferraamenta usadda pela maio oria dos datta miners (117%). A maaioria dos data miiners relatam m que usam m uma médiia de quatro ferramentaas de softwaare no total. As ferramentas f STATISTIICA, KNIM ME, Rapid Miner e SSalford Sisttemas receberam fortes f índices de satisfa fação em 2011. Tabelaa 1 - Algoritmoos de data minin ng encontrados no survey [3] 3) TECNOLO OGIA USADA: Nestee survey [2] verificou-se que fazzer data mining m ocorre maais frequen ntemente nnum deskto op ou num m computtador lapto op e, frequentem mente, os dados sãoo armazen nados locaalmente. O Os modelos de Classificaçãão são criaados tipicam mente usan ndo o mesm mo softwarre utilizado para desenvolveer os modelo os. 4) VISUALIZ ZAÇÃO DE E RESULT TADOS: Os O data min ners usam frequentem mente técnicas de visualizaçãão de dadoss. Mais de quatro q em cada c cinco uutilizam téccnicas de visualizzação para explicar oss resultados. O MS Office O é a fferramenta mais utilizada paara visualizzação de daados. O uso o extensivo de visualizzação de daados é menos prevvalente na reegião da Ássia-Pacífico do que em outras partees do mund do. 6

5) CAPACIDADE ANALÍTICA E SUCESSO: Apenas 12% dos correspondentes empresariais classificam a sua empresa como tendo uma capacidade de análise com um elevado nível de sofisticação. No entanto, empresas com melhores capacidades analíticas estão a superar os seus pares. Os entrevistados relatam que analisam o seu sucesso analítico através do indicador Retorno sobre o Investimento (ROI), e através da análise da validade preditiva ou precisão dos seus modelos. Os desafios para medir o sucesso analítico incluem cooperação dos clientes ou utilizadores e na disponibilidade de dados e na qualidade destes. As cinco metodologias mencionadas pela maioria dos data miners foram: a) Modelos de desempenho; b) Desempenho financeiro (ROI e outras medidas financeiras); c) Desempenho de um grupo de controlo ou outro; d) O feedback dos utilizadores, clientes ou gestão; e) Validação cruzada. 6) FUTURO: Os data miners estão otimistas sobre o crescimento continuado na adoção do data mining e o impacto positivo que o data mining terá. Como em anos anteriores, tem-se observado um crescimento no número de projetos nesta área. Alguns participantes apontaram para o cuidado que deve ser tomado para proteger a privacidade quando se está a fazer data mining. Os data miners também compartilharam muitos exemplos de impacto positivo que o data mining pode trazer para beneficiar a sociedade. A Saúde foi a área de maior impacto positivo identificado pela maioria dos data miners. As cinco áreas mais frequentemente mencionadas foram: a) Saúde / Medicina; b) Negócios/Finanças; c) Comunicações personalizadas e Marketing; d) Deteção de Fraude; e) Ambiental. 2.1.2 KDNuggets.com Quanto ao site KDNuggets.com, o que o site faz é criar vários tipos de inquéritos diferentes e comparar resultados com os obtidos em anos anteriores. Visto que o site é reconhecido mundialmente como o site líder em data mining e com registo de mais de 50 000 visitantes mensais, os inquéritos que realiza conseguem obter uma distribuição 7

de respondentess a nível mundial, de variadíssimos tipos de d empresass e sectores. Os inquéritos mais relevantes para este trabalho e começando pelo mais recente foram: A Tabela 2 apresenta os resultados do inquérito [4] realizado emm 2012 sobre as industrias/áreas de maior aplicação do data mining. Comparando com os resultados r de 2011 notou-se que a área de maior uso de data mining continua a ser o CRM 2 /Análise de Consumidor, mas m as áreas da Saúde e o Comércio aumentaram de popularidad de. Indústrias / Áreas onde foi aplicado mais o data mining em 2012? [196 eleitores] 2012 % de eleitores 2011 % de eleitores CRM/Análise de Marketing Direto/ Angariações 28.6% Consumidor (56) (19) 25.0% 2 Saúde/ Recursos Motores dee busca / Conteúdo 16.3% Humanos (32) Web mining (16) 16.7% Comércio (29) 14.8% 10.5% Biotecnologia/Genética (15) Banca (28) 14.3% 18.9% Seguros (15) Educação (28) 14.3% 16.2% Crédito Financeiro (14) Publicidade (26) 13.3% 7.0% Manufaturação (14) Deteção de Fraude Medicina/ Farmacologia (13) 12.8% (25) 14.0% Redes Sociais e Media Telecomunicações / Cabo (13)) 12.2% (24) 13.2% Ciência (23) 11.7% 13.6% Utilização Web mining (13) Finanças (20) 10.2% Software (11) 11.4% Tabela 2 - Áreas aplicacionais de data mining Comércio Eletrónico (10) 9.7% 12.3% Governo/Militar (10) 8.2% 5.3% Entretenimento / Musica/ 7.7% TV/Filmes (9) 9.2% Investimento / Stocks (8) 7.7% 12.3% Segurança / Anttiterrorismo 7.1% (7) 12.7% Viagens / Hospittalidade (6) 7.1% 5.3% 6.6% 9.6% 6.6% 11.0% % 6.6% 7.0% 5.6% 7.0% Politica Social /Análise de inquéritos (2) Junk email / Anti ti-spam (1) Outros (20) 5. 1% 5. 3% 5. 1% 7.5% 4.6% 3.5% 4.1% 4.4% 3.6% 1.8% 3.1% 7.5% 1.0% 1.8% 0.5% 1.3% 10.2% 7.5% Os maiores aumentos de 2012 em relação a 2011, calculados da forma f (percentagem 2012 percentagem 2011)/percentagem 2011, foram: 1. Publicidade, 89.0% 2. Motores de busca / Conteúdo Web mining, 55.1% 3. Comércio, 40.6% 4. Outros, 36.9% 5. Manufaturação, 35.7% 2 CRM significa Customer Relationship Management que em Portugal é conhecido por Gestão de Relação com o Cliente. [21] 8

As indústrias com o maior declínio em popularidade foram: 1. Medicina / Farmacologia, -31.3% 2. Governo/Militar, -31.6% 3. Seguros, -37.7% 4. Telecomunicações / Cabo,, -39.5% 5. Crédito Financeiro, -43.8% A Tabela 3 apresenta os resultados do inquérito relativo àss linguagens de programação/estatística que foram utilizados nos últimos 12 meses [5]. Este inquérito foi realizado em 2012 e apresentam-se tambémm as respetivas percentagens para o ano de 2011. Que linguagens de programação/estatística foram usadas em data mining nos passados 12 meses? [579 eleitores] % utilizadores em 2012 % utilizadores em 2011 R (304 voters in C/C++ (83) Ruby 52.5% % 14.3% 2012) (22) 45.1% 12.8% Python ( 209) MATLAB (76) Scala 36.1% 13.1% (14) 24.6% 14.6% SQL (186) 32.1% 32.3% Perl (52) 9.0% 7.9% Julia (2) Java (123) Pig, Hive, or otherr Hadoop-based Other 21.2% 6.7% languages (39) (66) 24.4% 6.1% SAS (114) GNU Octave (34) None 19.7% 5.9% (4) N/A N for 2011 21.2% Unix shell/awk/sed Lisp/Clojure (25) 14.7% (85) 4.4% 10.4% 0.7% (Lisp only) Tabela 3 - Popularidade de Linguagens de programação/estatística 3.8% N/A for 2011 2.4% N/A for 2011 0.3% N/A for 2011 11.6% 12.3% 0.7% 1.2% Comparando com os resultados r do ano de 2011, as linguagens usadas com o maior aumento de uso foram: 1. Lisp/Clojure, aumentou 525%,, para 4.4% em 2012 (para( Lisp/Clojure) de 0.7% em 2011 (só Lisp). No entanto, o uso desta linguagem é pouco significativo (< 5%) ). 2. Python, aumentou 47%, de 24. 6% para 36.1%. 3. Unix shell/awk/sed,, aumentou 44%, de 10.4% para 14.5%. 4. R, aumentou 16%, de 45.1% para 52.5%. A Tabela 4 apresenta um comparativo das ferramentas em projetos, entre oss anos de 2011 e 2012, de acordo com o inquérito [6]. Dentro das propostas, 28% usaram software comercial e não gratuito, 30% usou software gratuito e não comercial e 41% usou ambos. 9

R, Excel, e RapidMiner são as ferramentas mais populares, com Statsoft Statistica a tornar-se na ferramenta comercial maiss popular, obtendo mais votos quee SAS. Por entre as ferramentas com até 10 eleitores, as ferramentas com o maior aumento em percentagem de utilização foram: Oracle Data Miner o que aumentou 505% de 0.7% emm 2011 paraa 4.4% em 2012; Orange o que aumentou 315% de 1.3% em 2011 paraa 5.3% em 2012; TIBCO Spotfire / S+ / Minero que aumentou 169% de d 1.7% emm 2011 para 4.6% em 2012; Stata o que aumentou 130% dee 0.8% em 2011 para 1.9% em 2012; Bayesia o que aumentou 115% de 0.8% em 2011 paraa 1.8% em 2012. Que Software foi usado para data mining noss passados 12 meses num projeto e não para avaliação? [798 eleitores] Legenda: Software Gratuito/Open Source Software Comercial R (245)) Excel (238) Rapid-I RapidMiner (213) KNIME (174) Weka / Pentaho (118) StatSoft Statistica (112) SAS (101) Rapid-I 10.4% RapidAnalytics not asked in 2011 (83) MATLAB (80) IBM SPSS Statistics (62) IBM SPSS Modeler (54) SAS Enterprise Miner (46) Orange (42) 6.8% 8.3% 5..8% 7.1% 5.3% 1.3% 8.5% 12.1% 10.0% 7.2% 7.8% 7.2% 14.8% 11.8% 14.0% 12.7% 13.6% 30.7% 23.3% 29.8% 21.8% 21.8% 26.7% 27.7% Microsoft Server (40) Other r free analytics/data miningg software (39) TIBCOO Spotfire / S+ / Miner (37) Oraclee Data Miner (35) Tableau (35) JMP (32) Other r commercial analytics/data miningg software (32) Mathematica (23) Miner3D (19) IBM Cognos (16) Stata (15) Bayesia (14) KXENN (14) SQL 4.4% 0..7% 2.9% 1.6% 11 Ants Analytics A (4) 2.4% 1.3% Teradata Miner (4) 2.0% not asked in 2011 1.9% 0..8% 1.8% 0..8% 1.8% 1.4% 5.0% 4.9% 4.9% 4.1% % utilizadores em 2012 % utilizadores em 2011 Zementiss (14) C4.5/C5. 0/See5 (13) Revolution Computing (11) 4.6% 1.7% 4.4% 2.6% 4.0% 5.7% 4.0% 3.2% Salford SPM/CART/MARS/ S TreeNet/ RF (9) Angoss ( 7) SAP (including BusinessObjects/Sybase/Hana)(7) XLSTAT (7) RapidInsight/Veera (5) Predixionn Software (3) WordStatt (3) Tabela 4 - Popularidade de Software para dataa mining 1.8% 3.7% 1.6% 1.9% 1.4% 1.4% 1.1% 0.9% 0.8% 0.9% not asked inn 2011 0.9% 0.9% 0.6% not asked inn 2011 0.5% 5.6% 0.5% not asked inn 2011 0.4% 0.5% 0.4% 0.5% 10.6% 10

2.2 Adequação ao problema em estudo A análise dos dados depende muito das aplicações que o analista está mais familiarizado em usar para analisar e de como os dados são fornecidos, se estão numa base de dados ou ficheiros Excel e se os mesmos precisam de serem tratados. Para entregar uma aplicação ou uma solução para o cliente é preciso ter em conta onde a aplicação vai estar, a quê que se tem de ligar e se está acessível para os clientes puderem trabalhar. Assim sendo, para a análise dos dados, usei o Rattle e para a aplicação desenvolvida usei o Weka. O Rattle [7] é uma aplicação de código aberto com uma interface gráfica que faz uso da linguagem de programação estatística do R. O Rattle fornece consideráveis funcionalidade em data mining ao explorar a linguagem R através de uma interface gráfica. O Rattle é usado como mecanismo de ensino para aprender a linguagem R visto que a aplicação contém um sistema de registo de atividade que replica o código R para qualquer atividade feita na interface. O Rattle pode ser usado para análise estatística ou geração de modelos, e permite que o conjunto de dados possa ser particionado como dados de treino, validação e teste, e permite que os dados possam ser visualizados e editados. O Weka (Waikato Environment for Knowledge Analysis) [8] é uma aplicação conhecida em data mining escrita em Java, desenvolvida na Universidade de Waikato, Nova Zelândia. O Weka contém uma coleção de ferramentas de visualização e de algoritmos para análise de dados e modelação preditiva, acessível através de uma interface gráfica própria. O Weka é usado em muitos áreas aplicacionais, em particular em educação e investigação. As suas vantagens incluem a sua gratuitidade através da licença GNU [9], portabilidade visto que é implementada através da linguagem Java e com isso funcionar em qualquer plataforma computacional, uma coleção considerável de pré processamento de dados e técnicas de modelação e a facilidade de uso graças à sua interface gráfica. O Weka suporta várias tarefas usadas em data mining como aglomeração, classificação, regressão, visualização e seleção de atributos. 2.3 Teoria das filas de espera Então para a Prospeção de Dados que queremos, precisamos de definir qual é a informação relevante e necessária para um sistema de atendimento quando a maior preocupação é a monitorização e gestão das filas de espera. Para isso precisamos de saber como estas funcionam através de uma teoria já bem estudada e formulada na área das probabilidades que é a Teoria das Filas de Espera. A matéria abordada de seguida é adaptada da Ref. [10]. 11

Mas o que é uma fila de espera? Forma-se uma fila de espera quando a procura de um serviço excede num dado instante a capacidade do sistema de fornecer o serviço. Em análises de sistemas de filas de espera normalmente desejamos obter informações objetivas sobre a capacidade de serviço que deve ser disponibilizada aos clientes e os custos operacionais envolvidos desde a espera até o atendimento. A teoria de filas de espera trabalha, portanto, com objetivos conflituosos. Dado um modelo, a principal motivação para o seu estudo está na pesquisa de soluções que representem um ponto de equilíbrio entre os conflitos. O comportamento que os clientes tomam para acederem a um sistema de filas de espera pode ser descrito por uma distribuição de probabilidades empírica e este pode ser representada por um modelo analítico conhecido da probabilidade. O modelo de Poisson é comumente usado para descrever a forma como os clientes entram para o sistema. Para definir completamente essa distribuição, é necessário ter apenas a taxa média de chegadas. Um aspeto importante associado à fila é a ordem com que os clientes são selecionados para o atendimento. Isto é referido como disciplina da fila. Por exemplo, o critério adotado pode ser primeiro a chegar, primeiro a ser atendido (FIFO), ou alguma outra ordem. No caso em estudo, usa-se esta política. O tempo transcorrido desde o começo do atendimento até a sua conclusão para um consumidor que está usar o serviço é o tempo de serviço. Para descrever o atendimento, devemos especificar uma distribuição de probabilidade para os tempos de serviço. A distribuição mais comumente especificada para tempos de serviço é a distribuição exponencial. Falemos agora de parâmetros usados na teoria das filas. O primeiro parâmetro é a taxa de chegada a um sistema que é definida pelo número de utilizadores ou clientes que chegam ao sistema num determinado tempo, e é normalmente representado por λ. = A frequência ou a velocidade com a qual os clientes são atendidos ou recebem o serviço é denominado por taxa de atendimento, representada por μ. = Os problemas de filas de espera consistem em ajustar adequadamente a taxa de atendimento do processo com a taxa de chegada do trabalho a ser feito. Do ponto de vista do programador, isto é feito através do correto dimensionamento do número de servidores do sistema de filas. 12

O parâmetro λ é um dado de entrada muito importante nas análises de sistemas de filas. Vamos supor a chegada de, por exemplo, 5 clientes num sistema de filas hipotético. Suponhamos também que os instantes de chegada dos clientes, são t i, com i=1, 2, 3, 4, 5, medidos a partir do instante zero. Esses tempos são marcados no eixo dos tempos, como ilustra a Figura 1. Figura 1: Instantes de chegada de clientes num sistema de filas marcados no eixo dos tempos Identificamos na Figura 2 os tempos entre chegadas consecutivac as, de modoo que para cada cliente é possível associar um único dessess tempos. Neste exemplo, associamos os tempos entree chegadas aos clientes na seguintee ordem: 1º º cliente: T 1 = t 1 0 2º cliente: T 2 = t 2 t 1 3º cliente: T 3 = t 3 t 2 4º cliente: T 4 = t 4 t 3 5º cliente: T 5 = t 5 t 4 Ou seja: Figura 2: Tempos entre chegadas de clientes num sistema de filas marcados no eixo dos tempos Se aplicarmos este exemplo à definição do parâmetro λ, obtemos então: 5 = Daqui constatamos que a taxa dee chegada é o inverso da média dos tempos entre chegadas (TMC), e visto que a taxa de atendimento segue a mesma lógica de taxa de chegada, a taxaa de atendimento é igualmente o inverso da média dos tempos de atendimento ou serviço (TMS): = 1 = 1 É interessante notar que a taxa de chegadas λ em geral g não permite qualquer controlo, uma vez que este valor é determinado pela fonte de clientes. Já a taxa de 13