Métodos e Algoritmos de Data Mining(parte 2)
|
|
|
- Juan Benke Aldeia
- 10 Há anos
- Visualizações:
Transcrição
1 Robert Groth Métodos e Algoritmos de Data Mining(parte 2) Usama Fayyad et al 1 Métodos e Algoritmos de Data Mining Soluções distância (K-NN e clustering) Naïve-Bayes Arvores de decisão Regras de associação Redes neuronais Algoritmos genéticos. Combinação de múltiplos métodos de predição. Alguns prós e contras das tecnologias mais comuns; ferramentas mais relevantes e suas características 2 1
2 Árvores de Decisão 3 Trata-se de um modelo que é simultaneamente preditivo e descritivo. o seu nome deriva do facto do modelo resultante ser apresentado na forma de uma estrutura em árvore; cada ramo da árvore traduz uma questão de classificação; as folhas da árvore são partições dos dados com a sua classificação. Aspectos descritivos: o débito parece não ter qualquer papel na determinação do risco as pessoas com baixo rendimento são sempre de risco pobre o rendimento é o factor mais significativo na determinação do risco Árvores de Decisão 4 2
3 Árvores de Decisão Outro exemplo de árvore de decisão, relativa a exemplo de classificação de clientes que não renovam os contratos relativos a telemóveis (ditos churn ) Observações: divide os dados em cada nó, sem perder qualquer dado (o nº de registos total num dado nó, é igual à soma dos registos contidos nas suas duas folhas) o n.º de clientes que não renovaram e renovaram o contrato é conservado, à medida que se sobre ou desce na árvore é fácil compreender como o modelo está a ser criado (em contraste com os modelos das redes neuronais ou estatística standard) é fácil utilizar este modelo ao pretender-se atingir os clientes em vias de não renovar o contrato, com ofertas de marketing pode criar algumas intuições acerca da base de dados de clientes: Ex. clientes há vários anos e que tenham telemóveis actuais, são muito leais 5 Árvores de Decisão - generalidades A apresentação visual torna o modelo de muito fácil compreensão e assimilação, o que motivou que a técnica se tenha tornado muito popular: são normalmente utilizados para classificação (predizer a que grupo pertence um caso); podem ser também utilizadas para regressão (predizer um valor específico); de uma perspectiva de negócio, as árvores de decisão podem ser entendidas como uma segmentação dos dados originais (cada segmento será uma das folhas da árvore); a segmentação é feita por uma determinada razão - para predição de algum pedaço importante de informação. Os registos que caiam dentro de cada segmento, estão lá porque têm semelhança com respeito à informação predita - não só porque são semelhantes (sem que a semelhança seja bem definida). 6 3
4 Árvores de Decisão - Score Medida Automatização Clareza ROI Descrição As árvores de decisão apresentam uma técnica muito favorável para automatizar a maioria do processo de data mining e modelação predictiva. As suas soluções automatizadas embebidas para coisas como prevenção de sobreadaptação e manuseamento de dados em falta que, em muitas outras técnicas, sobrecarregam o utilizador. O modelo criado pelas árvore de decisão pode ser facilmente visualizado como uma árvore de decisão simples baseadas em predictores familiares ou como um conjunto de regras. O utilizador pode confirmar a árvore de decisão à mão ou modificá-la e dirigi-la, com base na sua própria experiência. dado que as árvores de decisão trabalham bem com bases de dados relacionais, traduzindo modelos de árvores de decisão em SQL para tratamento da base de dados, proporcionam soluções bem integradas, com modelos muito precisos. 7 Resumo da Árvores de Decisão O output primário do algoritmo de árvore de decisão é a própria árvore O processo de treino é denominado de indução - requer um número pequeno de passagens (normalmente menos de 100) Eficiência: Naïve-Bayes > Árvores de Decisão > Redes Neuronais É um método muito popular, dada a facilidade de compreensão de resultados Muitos produtos também traduzem a árvore para regras tipo: Se Rendimento = Alto e Anos de trabalho > 5 Então Risco Crédito = Bom De facto os algoritmos de árvores de decisão são muito semelhantes aos algoritmos de regras de indução, que produzem conjuntos sem uma árvore de decisão 8 4
5 História das Árvores de Decisão Resulta da evolução das técnicas surgidas durante o desenvolvimento de disciplinas de machine learning: cresceram a partir de uma abordagem analítica chamada de AID (Automatic Interaction Detection), desenvolvida na univ. de Michigan. AID - trabalha através de teste automático de todos os valores nos dados p/ identificar quais estão mais fortemente associados com o item de saída escolhido para análise. Os valores encontrados que tenham uma associação forte, serão os predictores chave ou factos explanatórios, normalmente chamados de regras. CHAID - ChiSquared + AID, sendo desenvolvido a partir deste, expandindo as suas capacidades através da adição da fórmula estatística do qui-quadrado. 9 História das Árvores de Decisão Na Austrália surge a tecnologia que permitiu o grande crescimento das árvores de decisão - muitas pessoas consideram o prof. Ross Quinland da Univ. Sidney o pai das árvores de decisão. Contribuição - família de algoritmos: ID3, 1983 e suas evoluções ID4, ID6, C4.5 e C5.0 que produzem regras relacionadas pelas sua importância, gerando um modelo de árvore de decisão dos factos que afectam o item de saída Novos algoritmos de árvore de decisão, como GINI, inventado por Ron Bryman, com bom desempenho e capacidades alargadas de processar números e texto. 10 5
6 Indução da Árvore A maioria dos algoritmos de árvores de decisão operam em duas fases: crescimento da árvore - processo iterativo que envolve a divisão dos dados em subconjuntos progressivamente menores; poda (pruning) - técnica que permite tornar a árvore mais genérica, evitando a sobreadaptação. se a árvore cresce até ao máximo, reflectirá todos os detalhes da base de dados, o que, além de tornar a árvore mais complexa, torna-a menos precisa, já que dará como predição, muitas vezes, o resultado de um caso específico. Depois da indução da árvore, há ainda o necessário teste, para validar o modelo, utilizando um data set independente. só depois de determinada a precisão e considerada aceitável. a árvore (ou as suas regras) está pronta a ser utilizada como predictor. 11 Indução da Árvore - Crescimento Crescimento da Árvore ocorre por divisão dos ramos: os dados são divididos em subconjuntos progressivamente menores; cada iteração considera os dados num só nó; a 1ª iteração considera o nó raiz, que conterá todos os dados; iterações subsequentes trabalham na derivação dos nós que conterão subconjuntos dos dados. Ao algoritmo colocam-se duas questões: que variável independente utilizar para a divisão; que valor considerar para a divisão. 12 6
7 Indução da Árvore - Crescimento O algoritmo começa por analisar os dados para encontar a variável independente (como rendimento, estado civil, débito) que, quando utilizada com uma regra de divisão, resulta em nós que sejam mais diferentes uns dos outros, em relação à variável dependente (valor de predição) e homogéneos em cada um. mede a alteração das densidades dos valores de predição depois da divisão ser feita, tenta a redução da desordem do segmento original, dividindo-o em segmentos mais pequenos, mais ordenados (mais concentrados em valores particulares de predição). As medidas a utilizar para avaliar a diferença, podem ser diversas: algumas implementações utilizam apenas uma, outras deixam o utilizador escolher a medida a utilizar. Ex. entropia, rácio de ganho de entropia, gini e qui-quadrado. Independentemente da medida utilizada, todos os métodos requerem uma tabulação cruzada entre a variável dependente e cada uma das variáveis independentes. 13 Característica Importante do Algoritmo de Divisão O algoritmo de divisão da árvore é Greedy: permite assim que as decisões seja locais e não globais. Vantagem: permite reduzir enormemente a complexidade e tempo de indução; Desvantagem: A análise de decisão não é global e, assim: quando se decide da divisão num determinado nó, um algoritmo greedy não olha para trás na árvore para ver se outra decisão num nó anterior (avaliada em conjunto com a decisão do nó actual) produziria um melhor resultado global. Ou seja, poderia haver uma divisão anterior (mais próxima da raiz) que não era melhor (se avaliada apenas localmente), mas que, se tivesse sido utilizada, resultaria numa árvore com uma melhor precisão global (avaliada em conjunto com a possível divisão agora em consideração) 14 7
8 Exemplo Tabulação Cruzada Voltando ao set relativo ao caso de empréstimo da instituição de crédito, criando a tabela cruzada, teremos: Nome Débito Rendim. Casado? Risco Joaquim Alto Alto Sim Bom Susana Baixo Alto Sim Bom João Baixo Alto Não Pobre Maria Alto Baixo Sim Pobre Frederico Baixo Baixo Sim Pobre temos de avaliar qual será o predictor com maior influência no resultado; neste caso, bastará tomar aquele que tiver o maior número de instâncias na sua diagonal principal. Risco Débito Débito Rendim. Rendim. Casado Solteiro Alto Baixo Alto Baixo Bom Pobre Esta medida é menos ad hoc do que parece, pois que vai ser escolhida a divisão que tenha um menor n.º de instâncias que se desviam do valor predominante da variável dependente em cada nó formado pela divisão. neste caso será o rendimento (4 instâncias) 15 Indução da Árvore - Quando Parar o Crescimento Nós puros (que contenham apenas instâncias com o mesmo valor da variável dependente), não serão mais divididas; Outras regras de paragem, baseadas em: profundidade máxima da árvore; número mínimo de elementos num nó considerado para divisão; Em muitas implementações o utilizador pode alterar estes parâmetros. 16 8
9 Profundidade Máxima da Árvore Porque não criar a árvore até à sua profundidade máxima? Teríamos uma árvore pura, desde que não houvesse registos em conflito nos dados de treino registos em conflito - serão aqueles que têm os mesmos valores para as colunas independentes, mas valores diferentes para a coluna dependente. Não há maneira de criar uma divisão para os diferenciar, a não ser que nova coluna seja introduzida Mas uma árvore com profundidade máxima será desejável? alguns algoritmos começam por criar este tipo de árvore (precisão máxima para o conjunto de treino) mas essa árvore é, em regra, sobreadaptada (overfit) uma arvore overfit (sobreadaptada) pode ser vista em termos de predição como tentando encontar um registo do set de treino que seja em tudo semelhante ao novo registo, predizendo o valor da variável dependente, baseado no valor encontrado nesse registo Problema: uma árvore com profundidade máxima é uma árvore demasiado específica, não encontrando os princípios gerais que estejam subjacentes nos dados. Assim: ou se limita o crescimento para evitar a sobreadaptação ou se executa a poda (pruning) 17 Sobreadaptação (Overfit) da Árvore À medida que são adicionados novos nós (com o ID3), no crescimento de uma árvore de decisão, a precisão da árvore, medida relativamente aos exemplos do set de treino, cresce monotonicamente. Contudo, quando medida relativamente a um conjunto de teste, independente dos dados de treino, a precisão cresce de início, depois desce. 18 9
10 Poda (pruning) da Árvore Operação suplementar de simplificação, que, como se fala em árvores, por analogia, se chama de pruning (poda). Utilizada para tornar a árvore mais genérica. Necessária porque: a árvore pode revelar nós ou subárvores que sejam indesejáveis por causa da sobreadaptação; pode conter regras que o perito no domínio sente serem desapropriadas. Pode ser: controlada por parâmetros especificados pelo utilizador; ex. a diferença de precisão calculada entre os nós resultantes e o original seja insignificante e abaixo de um determinado limitar; invocada automaticamente, em algoritmos que induzem árvores com profundidade máxima; poda interactiva. 19 Funcionamento do Algoritmo de Poda A poda é normalmente boa ideia, mas como determina o algoritmo onde podar a árvore? Há várias formas, mas a mais apelativa será: Utilizar uma amostra de controlo com relacionamentos conhecidos e verificados entre as variáveis independentes e dependente; Comparando o desempenho de cada nó (medido pela sua precisão) relativo às subárvores, torna-se óbvio que divisões têm de ser podadas para atingir a precisão geral mais elevada
11 Efeito do Pruning na Redução de Erros Efeito do pruning na precisão da árvore de decisão produzida com o algoritmo ID3 (mostrada anteriormente). Note-se o aumento em precisão relativamente ao conjunto de treino à medida que nós são podados na árvore. 21 Como Trabalham as Árvores de Decisão Vamos exemplificar para o caso do algoritmo ID3. Principais conceitos: entropia - utilizada para encontrar o parâmetro mais significativo na caracterização da classificação; árvore de decisão - modo eficiente, interpretável e intuitivo de organizar os descritores que podem ser utilizados como função preditiva. O ID3 encontra os preditores e os seus valores de divisão na base do ganho em informação que essas divisões proporcionam
12 Como Trabalham as Árvores de Decisão Ganho significa aqui a diferença entre a quantidade de informação necessária para efectuar uma predição correcta antes e depois da divisão ser feita. se a quantidade de informação for muito menor, depois da divisão, então terá diminuído a desordem relativamente ao único segmento original; ganho é definido, como a diferença entre a entropia do segmento original e as entropias acumuladas dos segmentos resultantes da divisão. A entropia dos segmentos folhas são acumuladas pesando a sua contribuição para a entropia da divisão efectuada, de acordo com o número de registos que contem. 23 Como Trabalham as Árvores de Decisão Divisão Esquerda Divisão Direita Divisão A Divisão B Mas este segmento de entropia = 0 tem apenas um registo, e dividir um registo de cada vez, não criará uma árvore de decisão muito útil. Um segmento com 1 registo não deverá proporcionar padrões úteis repetíveis. A divisão A é muito melhor do que a B, porque separa mais os dados, apesar da divisão B criar um novo segmento que é perfeitamente homogéneo (entropia 0) Assim, o cálculo (métrica) a utilizar para determinar a divisão escolhida, deve levar em conta dois efeitos principais: quanto baixou a desordem nos novos segmentos? como seria pesada a desordem em cada segmento? 24 12
13 Métrica Utilizada em ID3 Métrica de Entropia (derivada dos trabalhos de Claude Shannon e Warren Weaven, sobre teoria de informação) A equação é: - plg 2 (p) p - probabilidade do valor de predição ocorrer num nó particular da árvore (terá um valor mínimo de 0 e máximo de 1, e assim a entropia terá um valor mínimo de 0 e máximo de 1) Para verificar: se tivermos um segmento com 100 clientes, em que 100 não renovam e 0 renovam, teremos uma entropia 0 (mínimo de desordem): -1.0 * lg 2 (1.0) * lg 2 (0.0) = 1 * * -inf. = 0 para os mesmos 100 clientes, se tivermos 50 que renovem e 50 que não renovem, teremos um máximo de desordem: -0.5*lg 2 (0.5) * lg 2 (0.5) = -0.5* *-1 = 1 25 Métrica Utilizada em ID3 Divisão Esquerda Divisão Direita Entropia Esquerda Divisão A /5lg(4/5) + -1/5lg(1/5)=0.72 Divisão B /9lg(5/9) + -4/9lg(4/9)=0.99 Entropia Direita -1/5lg(1/5) + -4/5lg(4/5) =0.72-1/1lg(1/1) + -0/1lg(0/1)=0 Entropia total: Divisão A = = 1.44 Entropia total: Divisão B = = 0.99 Conclusão: Com esta medida de entropia, a divisão B seria muito melhor do que a A, contrariando o dito atrás (o facto de na divisão B, termos um segmento de um só registo, o que se fosse geral, não levaria a divisões úteis) 26 13
14 Métrica Utilizada em ID3 Divisão Esquerda Divisão Direita Entropia Esquerda Divisão A /5lg(4/5) + -1/5lg(1/5)=0.72 Divisão B /9lg(5/9) + Peso: 5 registos em 10-4/9lg(4/9)=0.99 Entropia Direita -1/5lg(1/5) + -4/5lg(4/5) =0.72-1/1lg(1/1) + -0/1lg(0/1)=0 Pesar a desordem em cada segmento, com o número de registos em cada segmento resultante da divisão: Divisão A = 1/2 * /2 * 0.72 = 0.72 Divisão B = 9/10 * /10 * 0 = 0.89 Conclusão: já seria escolhida a divisão A É ainda introduzida uma nova melhoria na métrica, que leva em conta a cardinalidade do predictor - Rácio do Ganho - que será menor se a cardinalidade do predictor for alta (para evitar a formação de segmentos pequenos em predictores de alta cardinalidade) 27 Cálculo da Entropia em ID3 (1) Consiste em três fases: 1 - Entropia antes do teste - a entropia é calculada para o data set (relativo ao nó em análise); 2 - Entropia de cada ramo - a entropia é calculada para cada um dos subconjuntos formados pela divisão do set principal, com respeito a descritor; Somatório das Entropias dos ramos - as entropias calculadas são multiplicadas pelo tamanho do subconjunto com respeito ao data set inicial. São então adicionadas para formar a entropia resultado da divisão; 3 - Ganho de entropia - a diferença entre a entropia total original e a entropia dos ramos. Esta é a medida do quão significativo o descritor é relativamente ao classificador
15 Cálculo da Entropia em ID3 (2) Tabela de Distribuição (para descritor binário) C é um Classificador binário (valores= true, false) D é um Descritor binário (valores true, false) C verdade D verdade D falso Totais tt tf ct C falso ft ff cf Totais dt df t Cálculo de Entropia para divisão relativamente ao descritor D 1 - Entropia antes : E = -(ct/t) lg(ct/t) - (cf/t) lg (cf/t) 2 - Entropia dos Ramos Entropia de (D é verdade): e1 = -(tt/dt) lg(tt/dt) - (ft/dt) lg(ft/dt) Entropia de (D é falso): e2 = -(tf/dt) lg(tf/dt) - (ff/dt) lg(ff/dt) Entropia da divisão: e = (dt/t) e1 + (df/t) e2 3 - Ganho de entropia G = E - e 29 C4.5 Melhora ID3 Melhora o desempenho do ID3 nas seguintes áreas: podem ser utilizados predictores com valores em falta; podem ser utilizados predictores com valores contínuos; é introduzida a poda; podem ser derivadas regras
16 CART Algoritmo de exploração e predição desenvolvido mas Univ. de Stanford e Berkeley. a selecção de cada predictor é baseada na sua habilidade de separar os registos de diferentes predições uma das medidas a utilizar é a métrica de entropia já vista no ID3 outras métricas: índice de diversidade Gini 1 Σ (probabilidade para cada predição) 2, pesada pela probabilidade do segmento Será maior quando a proporção de cada valor da predição forem equivalentes (maior entropia) e menor (zero) quando o segmento for homogéneo. métrica twoing, similar ao Gini, mas tende a favorecer divisões mais balanceadas (segmentos com tamanhos mais equivalentes) - evitando o problema dos nós dangling a divisão escolhida cria um segmento muito pequeno, enquanto que a maioria dos registos fica num segmento filho quase igual ao original 31 CART faz uma divisão em predictores não ordenados (ex. cor dos olhos) impondo uma ordem aos valores; efectua a validação automática da árvore: inicia-se pela criação de uma árvore muito complexa segue-se a fase da poda, criando uma árvore geral óptima, com maior probabilidade de trabalhar bem em dados novos. suporta o manuseamento de dados em falta, quando a árvore está a ser criada, não considerando o registo particular na determinação da divisão óptima na fase de predição, valores em falta, são tratados via substitutos (ex. tamanho do sapato para substituir altura) 32 16
17 CHAID CHAID - Chi Square Automatic Interaction Detector para selecção das divisões, em vez de utilizar a entropia ou métrica Gini, utiliza a técnica do Qui-quadrado, utilizando tabelas de contingência para determinar que predictor categórico está mais longe da independência face aos valores de predição; todos os predictores devem ser categóricos ou transformados em categóricos via binning, dado que se baseia em tabelas de contingência; embora o binning possa ter consequência perniciosas, o desempenho actual do CART E CHAID são comparáveis em modelos reais utilizados em direct marketing. 33 Tendências Futuras em Árvores de Decisão Continua a investigação para melhorar os algoritmos de árvores de decisão: algoritmo C5.0 inclui boosting - técnica que combina árvores de decisão múltiplas num classificador simples. um outro produto - MineSet permite que árvores de decisão múltiplas (ou subárvores) coexistam como opções. Cada opção faz uma predição e depois vota-se a predição consensual.estas técnicas tratam a questão dos problemas de suboptimização resultantes do aspecto greedy dos algoritmos de árvores de decisão. Outros trabalhos incluem suporte de variáveis contínuas e árvores oblíquas: árvores com divisões multivariáveis
18 Regras de Associação 35 Regras de Associação Trata-se da forma de Data Mining que de mais perto se assemelha ao processo que a maioria das pessoas lhe associa Minar uma grande base de dados à procura da pepita de ouro Aqui a pepita de ouro significa: Uma regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente, além de ser algo de interesse 36 18
19 Regras de Associação Os gestores de marketing gostam de regras como: 90% das mulheres possuidoras de carros de desporto vermelhos e cães pequenos, usam Chanel Nº5 Este tipo de regras descritivas mostra perfis claros dos clientes que poderão constituir alvos das suas acções de marketing. Estas regras são chamadas de Regras de Associação, sendo um dos outputs possíveis de várias técnicas de Data Mining. as regras de associação são sempre definidas em termos de atributos binários é possível encontrar associações em grandes bases de dados mas além de associações de interesse encontrar-se-ão muitas associações de pouco valor, já que o número de associações será quase infinito. 37 Regras de Associação Sob a forma de regras relativamente simples, como: Se forem adquiridas baguetes, então creme de queijo sê-lo-á também 90% das vezes e esse padrão ocorrerá em 3 % de todos os cestos de compras. Se forem adquiridas plantas então será adquirido adubo 60% das vezes e esses dois itens serão adquiridos em conjunto em 6% dos cestos de compras. Força - Retira todas as possíveis regras de interesse (não deixa nenhuma minério por peneirar) Fraqueza - O utilizador pode facilmente ver-se submergido com tão grande quantidade de regras, sendo difícil avaliálas todas (seria necessária uma 2.ª passagem DM para encontrar as mais valiosas pepitas de entre as encontradas)
20 Regras de Associação - Valor p/ o Negócio Medida de DM Automatização Clareza ROI Descrição Tendem a ser altamente automatizadas na construção, ordenação e apresentação das regras. Muitas vezes é pedido ao utilizador a avaliação de cada uma de muitas regras por forma a determinar a importância de cada uma. As regras são geralmente simples e fáceis de compreender, embora o porquê da sua ocorrência possa não ser fácil de saber. Dado o grande número de regras, alguma clareza pode perder-se e o utilizador pode ver-se submergido com regras obscuras que não façam sentido ou regras óbvias, já conhecidas. Embora possam ser utilizadas para predição, são quese sempre utilizadas para aprendizagem não supervisionada para encontra algo não conhecido. É mais difícil de quantificar o ROI das regras interessantes do que avaliar do ROI quando temos um problemas de predição com alvo bem conhecido. 39 Regras de Associação Problema: Separar a informação válida do mero ruído Solução: Introduzir algumas medidas para distinguir associações com possível interesse daquelas sem interesse Uma regra de associação representa-se: Revista_Música, Revista_Casas --> Revistas_Carros Descrição: alguém que lê revistas de música e de casas, será, possivelmente, um leitor de revistas de carros
21 O que é uma Regra? Se são comprados pickles, então também é comprado Ketchup Antecedente: pode ser uma ou mais condições, que devem ser todas verdadeiras por forma ao consequente seja verdadeira, dada a precisão Consequente: Geralmente só uma condição e não uma combinação múltipla. Para uma regra ser útil, além da própria regra, há que fornecer dois suplementos: 1. Precisão - Quantas vezes está correcta a regra? É a probabilidade de que se o antecedente for verdadeiro, então o consequente será verdade. Precisão alta, significa estar em presença de uma regra de alta confiança, daí ser também chamada de confiança. 2. Cobertura - Quantas vezes se aplica a regra? Relacionado com a % da base de dados que é coberta pela regra. Alta cobertura significa que a regra se aplica muitas vezes e que também é pouco provável que se trate de algo espúrio introduzido pela técnica de amostragem ou ideosincrasias. 41 Exemplos de Precisão e Cobertura de Regras Regra Se forem comprados cereais p/ pequeno almoço, então será comprado leite Precisão (%) Cobertura (%) Se for comprado pão, então será comprado queijo suíço 15 6 Se o cliente tiver 42 anos e comprar salgadinhos e amendoins torrados, então cerveja será comprada A precisão e a cobertura são ambos importantes na determinação da utilidade duma regra. A primeira regra é um padrão que ocorre muito e é quase sempre verdade. A a terceira regra quase nunca está errada, mas também quase não é aplicável
22 Como Avaliar uma Regra Em Estatística: Cobertura - É simplesmente a probabilidade a priori da ocorrência do antecedente Precisão - É a probabilidade condicional do consequente no antecedente Ex. Num supermercado a regra compra de leite implica a aquisição de ovos T = 100 = n.º total de cestos de compras na base de dados E = 20 = n.º de cestos de compras com ovos M = 40 = n.º de cestos de compras com leite B = 20 = n.º de cestos de compras com ovos e leite Precisão = n. de cestos de compras com ovos e leite / n.º de cestos de compras com leite = 20 / 40 = 50% Cobertura = n.º de cestos de compra com leite / n.º total de cestos de compra = 40 / 100 = 40% 43 Regras (Representação Gráfica) Nem ovos nem leite Cestos de compras com ovos Cestos de compras com leite Representação gráfica da regra, compra de leite implica a aquisição de ovos. O circulo exterior representa o total dos cestos de compras A cobertura será representada pelo tamanho relativo do circulo interior a branco (que corresponde ao leite) A precisão será o tamanho da sobreposição entre os dois círculos interiores (ovos e leite) Adquiridos ovos e leite 44 22
23 O que Fazer com uma Regra? 1. Alvo o Antecedente - regras que tenham um dado valor no antecedente são procuradas e mostradas ao utilizador. Ex. um armazém de ferramentas pode pedir todas as regras que contenham pregos, parafusos e porcas no antecedente por forma a tentar saber as consequências que poderão advir na aquisição de produtos de margem elevada, se os primeiros forem descontinuados - caso: pessoas que adquirem pregos, adquirem também martelos caros. 2. Alvo o Consequente - Conhecer o que vai afectar o consequente - Pode ser útil conhecer regras que contenham café no consequente e assim colocar o café e o item assim encontrado perto, aumentando as vendas de ambos. 3. Alvo baseado na Precisão - Algumas vezes a coisa mais importante para o utilizador é a precisão da regra. Regras com grande precisão (90-95%) implicam relacionamentos fortes que podem ser explorados, mesmo se tiverem cobertura baixa. Ex. uma regra que tenha 0.1% de cobertura, mas precisão de 95%, poderá ser aplicada uma em cada 1000x, mas terá grande probabilidade de se verificar, entaõ se der muito lucro, poderá ser uma regra valiosa. 45 O que Fazer com uma Regra? 4. Alvo baseado na Cobertura - Olhar para as regras ordenadas por cobertura. Pode assim ficar-se com uma visão de alto nível do que acontece na base de dados na maior parte do tempo. Trata-se do conjunto de regras mais prontas aplicar. 5. Alvo baseado no Interesse - As regras serão interessantes quando tiverem cobertura e precisão alta e se desviarem da norma. Tem havido muitas formas de ordenar essas regras por alguma medida de interesse, e assim poder pesar-se entre a cobertura e precisão. Interesse - Trata-se de uma medida bastante difícil de estimar, pois que as regras mostram relacionamentos entre os valores nos predictores da base de dados e não um alvo bem definido para predição
24 Descoberta com Regras Proporcionam: 1. Uma visão detalhada dos dados onde ocorrem padrões significativos um pequeno número de vezes - Micro Nível - regras fortes que cobrem poucas situações, mas podem aplicar-se a algo muito valioso (clientes lucrativos, p.ex.), ou representam um pequeno subgrupo, mas em crescimento, indicando uma deslocação de mercado. 2. Uma visão genérica dos dados e padrões globais contidos na base de dados - Macro-Nível - Padrões que cobrem muitas situações podem ser utilizados muitas vezes e com grande confiança; também podem ser utilizados para sumarizar a base de dados. 47 Predição com Regras Uma regra pode efectuar predição - o consequente é o alvo e a precisão da regra será a precisão da predição. Mas... como há muitas regras, pode haver conflitos e inconsistências dadas as precisões diversas. Como calcular a precisão combinada? Antecedente Consequente Precisão (%) Cobertura (%) Baguetes Creme de Queijo 80 5 Baguetes Sumo de Laranja 40 3 Baguetes Café 40 2 Baguetes Ovos 25 2 Pão Leite Manteiga Leite Ovos Leite Queijo Leite
25 Precisão versus Cobertura Alta Cobertura Precisão Baixa A regra raramente está correcta, mas pode ser utilizada muitas vezes Precisão Alta A regra está correcta muitas vezes e pode ser utilizada amiúde Baixa Cobertura A regra raramente está correcta e só pode ser utilizada muito raramente A regra está correcta muitas vezes, mas só pode ser utilizada raramente 49 Definição de Interesse O interesse deverá ter a ver com a precisão e a cobertura, mas deverá possuir mais algumas características: 1. O interesse será = 0 se a precisão for igual à precisão geral (probabilidade a priori do consequente) Antecedente Consequente Precisão (%) Cobertura (%) Sem constrangimentos Se saldo cliente > 3000 Se o cliente tem olhos azuis Se o n. Seg. social = Então o cliente sairá Então o cliente sairá Então o cliente sairá Então o cliente sairá O interesse aumenta à medida que a precisão aumenta e inversamente, mantendo a cobertura 3. O interesse aumenta aumenta ou diminui com a cobertura para uma dada precisão 4. O interesse diminui com a cobertura para um certo número de respostas correctas (dado que a precisão = n.º de respostas correctas / cobertura) 50 25
26 Outras Medidas úteis em Regras Suporte: quão frequentemente as regras (antecedente e consequente) ocorrem; ex. o suporte será a percentagem de registos da base de dados de subscritores de revistas que verifiquem a regra revista_música, revista_casa --> revista_carros ou seja, a percentagem de subscritores que lêem as três revistas. Significância: diz-nos quão diferente o padrão mostrado na regra é comparado com a ocorrência aleatória de fenómenos independentes; Simplicidade: ajuda ao utilizador na construção de intuições e confirmação da regra via intuições; Novidade: ajuda ao utilizador a encontrar regras que ocupam regiões no espaço de predição onde estão novas regras. Confiança: mostra o grau de força da associação, ou seja, mede a ligação entre os registos à esquerda e à direita da regra (semelhante à precisão). Ex. no caso da regra revista_música, revista_casa--> revista carros será a percentagem dos registos de leitores de revistas de música e casas que tb. lêem revistas de carros. 51 Como funciona a Indução de Regras Embora os algoritmos variem, têm muitos passos comuns: 1. Pré-processamento dos dados por forma a que cada predictor tenha intervalos bem-definidos em vez de valores contínuos (estes serão os constrangimentos que serão adicionados às regras um de cada vez para serem criadas regras mais complexas); 2. Gerar regras iniciais para dados com um constrangimento apenas; 3. A partir dos registos, gerar regras que tenham um constrangimento adicional à regras dadas; 4. Manter o grupo de regras que sejam boas candidatas de terem constrangimentos adicionais; 52 26
27 Como funciona a Indução de Regras 5. Continuar a adicionar constrangimentos às regras até que o critério de paragem tenha sido atingido para todas as regras (normalmente algum patamar mínimo de precisão, cobertura ou suporte); adicionar constrangimentos pode no máximo não afectar a cobertura e suporte, mas o mais provável é que diminuirão decerto os seus valores, nunca decerto os aumentarão; se uma regra já tiver um mínimo de cobertura ou suporte, pode não fazer qualquer sentido expandi-la, pois que, mesmo se a precisão for alta, há um valor abaixo do qual a regra não revelará qualquer valor - se a regra nunca é utilizada, não interessa que precisão poderá ter; 6. Organizar as regras com base na sua utilidade (precisão, suporte, confiança, significância, simplicidade e novidade). 53 Como funciona a Indução de Regras Em resumo: A geração começa simplesmente por tomar cada valor de cada predictor de cada registo e emparelhá-lo com todos os outros valores dos predictores Estes pares representam a primeira passagem de regras simples if-then Destas é possível determinar que regras são boas candidatas para expansão para novos constrangimentos (passar algum patamar mínimo de precisão e cobertura) Continuar o processo até que nenhuma regra passe o patamar 54 27
28 Algoritmo Força-Bruta p/ Geração de Regras 1. Gerar todos os pares de predictores/valor para cada registo como 1.º conjunto de regras 2. Contar o n.º de ocorrências para cada regra e o antecedente por si 3. Calcular a precisão, cobertura e suporte e eliminar as regras que não satisfaçam o limiar mínimo requerido 4. Para cada registo, ver que regras se lhe aplicam e adicionar a cada regra um constrangimento adicional (valor de predictor) do registo 5. Voltar ao passo 1 até que as regras se tornem demasiado complexas ou que o patamar p/ a cobertura mínima ou suporte não seja satisfeito 55 Algoritmo Força-Bruta p/ Geração de Regras O algoritmo anterior, é computacionalmente caro, mas pode ser eficientemente implementado via algoritmos de sort ou hashing, muito bem adaptados a processamento paralelo Podem ser utilizados métodos heurísticos para saber que constrangimentos novos serão os elegíveis para cada regra, mas o crescimento do desempenho dos computadores, torna o algoritmo realizável 56 28
29 Regras de Associação - Forças produz regras fáceis de perceber relativamente fácil de desenvolver muito úteis em descoberta e predição não sensível a valores em falta ou ruído, pois que são extraídos todos os padrões de interesse semelhantes à tomada de decisão por comités - muitos membros votam e a maioria oferece a decisão todas as regras que contribuem para a predição final asseguram que uma só regra ou valor em falta ou passo em falso de um algoritmo greedy, não levarão a incorrecção na predição 57 Regras de Associação - Limitações A procura e descoberta de associações é muito lata: actualmente não há algoritmo algum de data mining que nos dê, de forma automática, tudo o que seja de interesse relativo a uma dada base de dados. temos de ter já uma ideia geral do que procuramos, pois que: um algoritmo que encontre muitas regras úteis, encontrará, decerto, montanhas de regras inúteis; já um algoritmo que encontre um número limitado de associações, sem ajuda de sintonia fina,decerto passará em falso, informação interessante. Dada a decisão por consenso, assiste-se ao obscurecimento da simplicidade da regra individual que mostra a probabilidade condicional da decisão ser tomada 58 29
30 Construção de Regras (sobreadaptação) Quando o suporte a uma regra fica demasiado pequeno há poucos registos na B.D. que consubstanciem a regra a própria regra pode ser inteiramente espúria (resultado de ruído ou variações estatísticas devidas à pequenez da amostra) Se o algoritmo, no limite, não parar por falta de suporte o sistema criará regras que contêm só um valor para cada predictor um só registo a ser coberto por cada regra fenómeno de sobreadaptação produção de regras não gerais Na realidade o limiar requerido para o suporte e cobertura: são tentativas de limitar a sobreadaptação leva a produzir regras mais gerais, utilizáveis em novas situações 59 Regras versus Árvores de Decisão As árvores de decisão, como vimos, produzem regras que são mutualmente exclusivas e colectivamente exaustivas com respeito à base de dados de treino, enquanto que os sistemas de regras de indução produzem regras não mutualmente exclusivas e que podem ser colectivamente exaustivas os algoritmos de indução de regras vão de baixo para cima e coligem todos os padrões possíveis que possam ser interessantes, utilizando-os depois para alguns alvos de predição as árvores de decisão trabalham com um alvo de predição à vista, de cima para baixo, numa procura greedy, procurando a melhor divisão no próximo passo (não olhando mais do que o próximo passo) 60 30
31 Ofertas Correntes e Melhoramentos Futuros Disponíveis: Information Discovery Attar Software IBM e outros No futuro: melhor visualização das regras cluster de regras e produção de hierarquias avanços em: saber das regras efectivamente interessantes (difícil, pois que é tb. uma arte) algoritmos mais deterministas e embebidos no próprio DW surgir de noção mais genérica dos aspectos comuns a algoritmos de predição e descoberta e assim desvanecer a separação entre técnicas de NN, regras e árvores de decisão. 61 Regras de Associação - Tipos de Associações As associações podem ser: binárias - entre cada 2 tipos de leitores de revistas (um exemplo apresentado abaixo) de múltiplos atributos (entre leitores de vários tipos de revistas) Tem 25 possíveis regras de associação p/ associações binárias Para associações entre múltiplos atributos, o número crescerá exponencialmente Vemos que há uma correlação alta entre leitores de revistas de humor e música e entre leitores de revistas de carros e música 62 31
32 Regras de Associação - Exemplo Os níveis de suporte e confiança foram colocados a 3% e 33%, respectivamente, ou seja, não estamos interessados em subgrupos < 3% da base de dados e, de entre esses, só queremos associações que sejam verificadas em pelo menos 33% dos registos. Neste caso, seleccionámos a revista_carros como atributo alvo: isto é, estamos interessados em leitores de revistas de carros, vamos investigar possíveis associações desses leitores a outras revistas Como se vê, a ferramenta proporciona um ambiente interactivo que permite conhecer detalhes de conjuntos de regras consideradas interessantes. 63 Regras de Associação - Exemplo 1ª fase da nossa investigação: todos os atributos relevantes são investigados para a revista de casas não é encontrada associação, dados os níveis de confiança e suporte especificados são encontrados 3 grupos de associações: revista_desporto--> revista_carros revista_música--> revista_carros revista_humor--> revista_carros a mais interessante, pois que tem um nível de confiança de 96% com suporte de 15% 64 32
33 Regras de Associação - Exemplo 2ª fase: investigar as regras que parecem mais interessantes, neste caso, a segunda encontram-se 3 novas regras: revista_música, revista_casas --> revista_carros revista_música, revista_desporto --> revista_carros revista_música, revista_humor --> revista_carros a mais interessante, pois que tem um nível de confiança alto (97%) com um suporte ainda alto (9%) 65 Regras de Associação - Exemplo 3ª fase: expandir novamente a regra interessante atrás encontrada obtem-se: revista_música, revista_casas, revista_desporto --> revista_carros mas o nível de confiança e suporte não aumenta, não se consegue melhor do que o caso anterior Parece que o melhor que se pode obter é: todos os leitores de revistas de música e casas, são também leitores de revistas de carros com uma confiança de 97% e suporte de 9%
O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2
3.2 O Espaço Nulo de A: Resolvendo Ax = 0 11 O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2 Esta seção trata do espaço de soluções para Ax = 0. A matriz A pode ser quadrada ou retangular. Uma solução imediata
MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas [email protected]
MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas [email protected] Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para
Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu
1 Programação Não Linear Aula 25: Programação Não-Linear - Funções de Uma única variável Mínimo; Mínimo Global; Mínimo Local; Optimização Irrestrita; Condições Óptimas; Método da Bissecção; Método de Newton.
Utilização do SOLVER do EXCEL
Utilização do SOLVER do EXCEL 1 Utilização do SOLVER do EXCEL José Fernando Oliveira DEEC FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO MAIO 1998 Para ilustrar a utilização do Solver na resolução de
CAP. I ERROS EM CÁLCULO NUMÉRICO
CAP. I ERROS EM CÁLCULO NUMÉRICO 0. Introdução Por método numérico entende-se um método para calcular a solução de um problema realizando apenas uma sequência finita de operações aritméticas. A obtenção
DEMONSTRAÇÕES FINANCEIRAS COMBINADAS
24 DEMONSTRAÇÕES FINANCEIRAS COMBINADAS Os mercados de capitais na Europa e no mundo exigem informações financeiras significativas, confiáveis, relevantes e comparáveis sobre os emitentes de valores mobiliários.
3 Classificação. 3.1. Resumo do algoritmo proposto
3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.
4 Segmentação. 4.1. Algoritmo proposto
4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças
Começo por apresentar uma breve definição para projecto e para gestão de projectos respectivamente.
The role of Project management in achieving Project success Ao longo da desta reflexão vou abordar os seguintes tema: Definir projectos, gestão de projectos e distingui-los. Os objectivos da gestão de
Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados
Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:
Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho
20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam
Dadas a base e a altura de um triangulo, determinar sua área.
Disciplina Lógica de Programação Visual Ana Rita Dutra dos Santos Especialista em Novas Tecnologias aplicadas a Educação Mestranda em Informática aplicada a Educação [email protected] Conceitos Preliminares
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca
O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I
O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit
MÓDULO 6 INTRODUÇÃO À PROBABILIDADE
MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para
Segurança e Higiene no Trabalho
Guia Técnico Segurança e Higiene no Trabalho Volume III Análise de Riscos um Guia Técnico de Copyright, todos os direitos reservados. Este Guia Técnico não pode ser reproduzido ou distribuído sem a expressa
APROG - Civil. Excel. Técnicas de pesquisa de informação em tabelas. Instituto Superior de Engenharia do Porto 2000-2007
APROG - Civil Excel Técnicas de pesquisa de informação em tabelas Instituto Superior de Engenharia do Porto 2000-2007 Elaborado por: António Silva (DEI-ISEP) Pesquisa de Informação em Tabelas O Excel
ISO 9001:2008. Alterações e Adições da nova versão
ISO 9001:2008 Alterações e Adições da nova versão Notas sobe esta apresentação Esta apresentação contém as principais alterações e adições promovidas pela edição 2008 da norma de sistema de gestão mais
Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II
O seguinte exercício contempla um processo com três estágios. Baseia-se no Inquérito de Satisfação Fase II, sendo, por isso, essencial compreender primeiro o problema antes de começar o tutorial. 1 1.
ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000
ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário Gestão da Qualidade 2005 1 As Normas da família ISO 9000 ISO 9000 descreve os fundamentos de sistemas de gestão da qualidade e especifica
Modelo Cascata ou Clássico
Modelo Cascata ou Clássico INTRODUÇÃO O modelo clássico ou cascata, que também é conhecido por abordagem top-down, foi proposto por Royce em 1970. Até meados da década de 1980 foi o único modelo com aceitação
A Gestão, os Sistemas de Informação e a Informação nas Organizações
Introdução: Os Sistemas de Informação (SI) enquanto assunto de gestão têm cerca de 30 anos de idade e a sua evolução ao longo destes últimos anos tem sido tão dramática como irregular. A importância dos
Arquitetura de Rede de Computadores
TCP/IP Roteamento Arquitetura de Rede de Prof. Pedro Neto Aracaju Sergipe - 2011 Ementa da Disciplina 4. Roteamento i. Máscara de Rede ii. Sub-Redes iii. Números Binários e Máscara de Sub-Rede iv. O Roteador
Avanços na transparência
Avanços na transparência A Capes está avançando não apenas na questão dos indicadores, como vimos nas semanas anteriores, mas também na transparência do sistema. Este assunto será explicado aqui, com ênfase
Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse
Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas
Avaliando o que foi Aprendido
Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função
UWU CONSULTING - SABE QUAL A MARGEM DE LUCRO DA SUA EMPRESA? 2
UWU CONSULTING - SABE QUAL A MARGEM DE LUCRO DA SUA EMPRESA? 2 Introdução SABE COM EXATIDÃO QUAL A MARGEM DE LUCRO DO SEU NEGÓCIO? Seja na fase de lançamento de um novo negócio, seja numa empresa já em
CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES
CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES 3.1 - IDENTIFICADORES Os objetos que usamos no nosso algoritmo são uma representação simbólica de um valor de dado. Assim, quando executamos a seguinte instrução:
Engenharia de Software
Conceitos básicos sobre E.S: Ambiência Caracterização do software Fases de desenvolvimento 1 Introdução Aspectos Introdutórios Crise do Software Definição de Engenharia do Software 2 Crise do Software
Módulo 4. Construindo uma solução OLAP
Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de
Tarefa Orientada 18 Tabelas dinâmicas
Tarefa Orientada 18 Tabelas dinâmicas Análise de dados através de tabelas dinâmicas. Conceitos teóricos As Tabelas Dinâmicas são tabelas interactivas que resumem elevadas quantidades de dados, usando estrutura
I.3 Indução de Árvores de Decisão
I.3 Indução de Árvores de Decisão Nesta seção serão apresentados alguns conceitos básicos da técnica de indução de árvores de decisão a partir de um exemplo sobre o efeito dos raios solares sobre algumas
1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior
MRP II Introdução A lógica de cálculo das necessidades é conhecida há muito tempo Porém só pode ser utilizada na prática em situações mais complexas a partir dos anos 60 A partir de meados da década de
ZS Rest. Manual Avançado. Menus. v2011 - Certificado
Manual Avançado Menus v2011 - Certificado 1 1. Índice 2. Introdução... 2 3. Iniciar o ZSRest... 3 4. Menus... 4 b) Novo Produto:... 5 i. Separador Geral.... 5 ii. Separador Preços e Impostos... 7 iii.
Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste
Unidade VI Validação e Verificação de Software Teste de Software Profa. Dra. Sandra Fabbri Conteúdo Técnicas de Teste Funcional Estrutural Baseada em Erros Estratégias de Teste Teste de Unidade Teste de
PHC Serviços CS. A gestão de processos de prestação de serviços
PHC Serviços CS A gestão de processos de prestação de serviços A solução que permite controlar diferentes áreas de uma empresa: reclamações e respectivo tratamento; controlo de processos e respectivos
Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.
Discussão sobre Nivelamento Baseado em Fluxo de Caixa. Item aberto na lista E-Plan Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em
PROGRAMAÇÃO DE MICROPROCESSADORES 2011 / 2012
Departamento de Engenharia Electrotécnica PROGRAMAÇÃO DE MICROPROCESSADORES 2011 / 2012 Mestrado Integrado em Engenharia Electrotécnica e de Computadores 1º ano 2º semestre Trabalho Final Reservas de viagens
Capítulo. Sistemas de apoio à decisão
Capítulo 10 1 Sistemas de apoio à decisão 2 Objectivos de aprendizagem Identificar as alterações que estão a ter lugar na forma e função do apoio à decisão nas empresas de e-business. Identificar os papéis
Pisa 2012: O que os dados dizem sobre o Brasil
Pisa 2012: O que os dados dizem sobre o Brasil A OCDE (Organização para Cooperação e Desenvolvimento Econômico) divulgou nesta terça-feira os resultados do Programa Internacional de Avaliação de Alunos,
Departamento de Matemática - UEL - 2010. Ulysses Sodré. http://www.mat.uel.br/matessencial/ Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.
Matemática Essencial Extremos de funções reais Departamento de Matemática - UEL - 2010 Conteúdo Ulysses Sodré http://www.mat.uel.br/matessencial/ Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.
Correlação e Regressão Linear
Correlação e Regressão Linear A medida de correlação é o tipo de medida que se usa quando se quer saber se duas variáveis possuem algum tipo de relação, de maneira que quando uma varia a outra varia também.
Regulamento de Vigilâncias de Provas Escritas de Avaliação do DEEC
Regulamento de Vigilâncias de Provas Escritas de Avaliação do DEEC Autores: Aprovação: Comissão Executiva do DEEC Comissão Executiva do DEEC Data: 3 de Fevereiro de 2011 Distribuição: Docentes do DEEC
Curso de Data Mining
Curso de Data Mining Sandra de Amo Aula 2 - Mineração de Regras de Associação - O algoritmo APRIORI Suponha que você seja gerente de um supermercado e esteja interessado em conhecer os hábitos de compra
DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004)
DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004) por Mónica Montenegro, Coordenadora da área de Recursos Humanos do MBA em Hotelaria e
UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014.
UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014. Tanto as pessoas físicas quanto as jurídicas têm patrimônio, que nada mais é do que o conjunto
Rock In Rio - Lisboa
Curso de Engenharia Informática Industrial Rock In Rio - Lisboa Elaborado por: Ano Lectivo: 2004/05 Tiago Costa N.º 4917 Turma: C Gustavo Graça Patrício N.º 4757 Turma: C Docente: Professora Maria Estalagem
DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE
DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento
NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária
NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária Alcance 1. Uma entidade que prepara e apresenta Demonstrações Contábeis sob o regime de competência deve aplicar esta Norma
Orientação a Objetos
1. Domínio e Aplicação Orientação a Objetos Um domínio é composto pelas entidades, informações e processos relacionados a um determinado contexto. Uma aplicação pode ser desenvolvida para automatizar ou
6 Construção de Cenários
6 Construção de Cenários Neste capítulo será mostrada a metodologia utilizada para mensuração dos parâmetros estocásticos (ou incertos) e construção dos cenários com respectivas probabilidades de ocorrência.
Como melhorar a Qualidade de Software através s de testes e nua. Cláudio Antônio de Araújo 22/11/2008
Como melhorar a Qualidade de Software através s de testes e integração contínua. nua. Cláudio Antônio de Araújo 22/11/2008 Objetivos Fornecer uma visão geral da área de testes de software, com ênfase em
Tarefa Orientada 14 Subconsultas
Tarefa Orientada 14 Subconsultas Objectivos: Subconsultas não correlacionadas Operadores ALL, SOME e ANY Subconsultas correlacionadas Operador EXISTS Subconsultas incluídas na cláusula FROM de uma consulta
Usando o Excel ESTATÍSTICA. A Janela do Excel 2007. Barra de título. Barra de menus. Barra de ferramentas padrão e de formatação.
Barra de deslocamento ESTATÍSTICA Barra de menus Barra de título Barra de ferramentas padrão e de formatação Barra de fórmulas Conjuntos e Células (Intervalos) Área de trabalho Separador de folhas Barra
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de
Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ
Resoluções comentadas das questões de Estatística da prova para ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Realizada pela Fundação João Goulart em 06/10/2013 41. A idade média de todos
PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)
PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL) Melhor método para avaliar investimentos 16 perguntas importantes 16 respostas que todos os executivos devem saber Francisco Cavalcante([email protected])
Aula 4 Estatística Conceitos básicos
Aula 4 Estatística Conceitos básicos Plano de Aula Amostra e universo Média Variância / desvio-padrão / erro-padrão Intervalo de confiança Teste de hipótese Amostra e Universo A estatística nos ajuda a
ADM041 / EPR806 Sistemas de Informação
ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes
CURSO ON-LINE PROFESSOR GUILHERME NEVES
Olá pessoal! Neste ponto resolverei a prova de Matemática Financeira e Estatística para APOFP/SEFAZ-SP/FCC/2010 realizada no último final de semana. A prova foi enviada por um aluno e o tipo é 005. Os
Transição de POC para SNC
Transição de POC para SNC A Grelha de Transição surge no âmbito da entrada em vigor, no ano de 2010, do Sistema de Normalização Contabilística (SNC). O SNC vem promover a melhoria na contabilidade nacional,
Perguntas mais frequentes
Estas informações, elaboradas conforme os documentos do Plano de Financiamento para Actividades Estudantis, servem de referência e como informações complementares. Para qualquer consulta, é favor contactar
O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.
O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar
ORGANIZAÇÃO DO TRABALHO
Organização, Processo e Estruturas 1 Organização Processo de estabelecer relações entre as pessoas e os recursos disponíveis tendo em vista os objectivos que a empresa como um todo se propõe atingir. 2
GESTÃO DE ESTOQUES. Gestão Pública - 1º Ano Administração de Recursos Materiais e Patrimoniais Aula 4 Prof. Rafael Roesler
GESTÃO DE ESTOQUES Gestão Pública - 1º Ano Administração de Recursos Materiais e Patrimoniais Aula 4 Prof. Rafael Roesler Sumário Gestão de estoque Conceito de estoque Funções do estoque Estoque de segurança
Software PHC com MapPoint
Software PHC com MapPoint A análise de informação geográfica A integração entre o Software PHC e o Microsoft Map Point permite a análise de informação geográfica, desde mapas a rotas, com base na informação
Criatividade e Inovação Organizacional: A liderança de equipas na resolução de problemas complexos
Criatividade e Inovação Organizacional: A liderança de equipas na resolução de problemas complexos Dizer que o grande segredo do sucesso das empresas, especialmente em tempos conturbados, é a sua adaptabilidade
Fundamentos de Teste de Software
Núcleo de Excelência em Testes de Sistemas Fundamentos de Teste de Software Módulo 2- Teste Estático e Teste Dinâmico Aula 4 Projeto de Teste 1 SUMÁRIO INTRODUÇÃO... 3 ANÁLISE E PROJETO DE TESTE... 3 1.
Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões
Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos
UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo
UNIVERSIDADE DE SÃO PAULO Faculdade de Arquitetura e Urbanismo DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO AUT 516 Estatística Aplicada a Arquitetura e Urbanismo 2 DISTRIBUIÇÃO AMOSTRAL Na aula anterior analisamos
1-Outras Informações, 2-Balanço (Ativo e Passivo), 3-DRE (Custos, Despesas e Resultado), 4- DLPA, 5-REFIS e 6-PAES.
Prezado Cliente, Para exportar os dados do programa JBCepil- Windows para a -2012 (Declaração de Informações Econômico-Fiscais da Pessoa Jurídica), segue configurações abaixo a serem realizadas. Configurações
OFICIAL DA ORDEM MILITAR DE CRISTO MEDALHA DE EDUCAÇÃO FÍSICA E BONS SERVIÇOS. Circular n.º 029/2014 PORTAL FPT Abertura aos atletas
Circular n.º 029/2014 PORTAL FPT Abertura aos atletas Exmo. Sr. Presidente, Após muitos meses de desenvolvimento e melhorias contínuas na nova plataforma informática onde se inclui o amplamente divulgado
Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)
Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO) Parte: 1 Prof. Cristóvão Cunha Objetivos de aprendizagem
CADEX. Consultoria em Logística Interna. Layout de armazém. Objectivos. Popularidade. Semelhança. Tamanho. Características
CADEX Consultoria em Logística Interna Layout de armazém fonte: Wikipédia O layout de armazém é a forma como as áreas de armazenagem de um armazém estão organizadas, de forma a utilizar todo o espaço existente
Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores
UNIVERSIDADE TÉCNICA DE LISBOA INSTITUTO SUPERIOR TÉCNICO Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores Primeiro Teste 21 de Outubro de 2006, 9:00H 10:30H Nome: Número:
DESENVOLVENDO HABILIDADES CIÊNCIAS DA NATUREZA I - EM
Olá Caro Aluno, Você já reparou que, no dia a dia quantificamos, comparamos e analisamos quase tudo o que está a nossa volta? Vamos ampliar nossos conhecimentos sobre algumas dessas situações. O objetivo
Disciplina: Unidade III: Prof.: E-mail: Período:
Encontro 08 Disciplina: Sistemas de Banco de Dados Unidade III: Modelagem Lógico de Dados Prof.: Mario Filho E-mail: [email protected] Período: 5º. SIG - ADM Relembrando... Necessidade de Dados Projeto
PHC XL CS. Reporting Financeiro em Microsoft Excel. O que ganha com este software:
PHC XL CS O que ganha com este software: Apoio à tomada de decisão Relatórios pormenorizados Análises sobre áreas vitais Personalização de funcionalidades Criação automática de mapas e gráficos Importação
Exercícios Teóricos Resolvidos
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Matemática Exercícios Teóricos Resolvidos O propósito deste texto é tentar mostrar aos alunos várias maneiras de raciocinar
3 Metodologia de Previsão de Padrões de Falha
3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar
Localização dos inquéritos de rua para Arroios e Gulbenkian
Project IAAPE Pedestrian Accessibility and Attractiveness Indicators: Tool for Urban Walkability Assessment and Management Working Paper No. WP-8 Localização dos inquéritos de rua para Arroios e Gulbenkian
QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO
QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de
Disciplina de Didáctica da Química I
Disciplina de Didáctica da Química I Texto de Apoio Concepções Alternativas em Equilíbrio Químico Autores: Susana Fonseca, João Paiva 3.2.3 Concepções alternativas em Equilíbrio Químico Tal como já foi
TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.
Conceitos relativos à Informação 1. Informação O que á a informação? Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. 2. Dados Em informática designa-se
MANUAL DO UTILIZADOR
MANUAL DO UTILIZADOR Versão 1.6 PÁGINA DE PESQUISA A página principal do PacWeb permite a realização de um número muito variado de pesquisas, simples, ou pelo contrário extremamente complexas, dependendo
Como elaborar um Plano de Negócios de Sucesso
Como elaborar um Plano de Negócios de Sucesso Pedro João 28 de Abril 2011 Fundação António Cupertino de Miranda Introdução ao Plano de Negócios Modelo de Negócio Análise Financeira Estrutura do Plano de
5. Métodos ágeis de desenvolvimento de software
Engenharia de Software 5. Métodos ágeis de desenvolvimento de software Nuno Miguel Gil Fonseca [email protected] Desenvolver e entregar software o mais rapidamente possível é hoje em dia um dos
Internet Update de PaintManager TM. Manual de instalação e utilização do programa de actualização
Internet Update de PaintManager TM Manual de instalação e utilização do programa de actualização ÍNDICE O que é o programa Internet Update? 3 Como se instala e executa o programa? 3 Aceder ao programa
Representação de Dados
Representação de Dados Introdução Todos sabemos que existem diferentes tipos de números: fraccionários, inteiros positivos e negativos, etc. Torna-se necessária a representação destes dados em sistema
Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?
Índice Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação? Como efectuar uma operação de confirmação de estimativas? Como aceder ao Serviço de Certificação
ARTIGO TÉCNICO. Os objectivos do Projecto passam por:
A metodologia do Projecto SMART MED PARKS ARTIGO TÉCNICO O Projecto SMART MED PARKS teve o seu início em Fevereiro de 2013, com o objetivo de facultar uma ferramenta analítica de confiança para apoiar
BRINCANDO COM GRÁFICOS E MEDINDO A SORTE
BRINCANDO COM GRÁFICOS E MEDINDO A SORTE Elizabeth Pastor Garnier SEE/RJ Pedro Carlos Pereira - FAETEC Projeto Fundão IM/UFRJ Os Parâmetros Curriculares Nacionais propõem a introdução do tópico Tratamento
Gestão da Qualidade. Identificação e Quantificação de Indicadores de Desempenho nos SGQ. 09-12-2009 11:12 Natacha Pereira & Sibila Costa 1
Gestão da Qualidade Identificação e Quantificação de Indicadores de Desempenho nos SGQ 09-12-2009 11:12 Natacha Pereira & Sibila Costa 1 Indicador de Desempenho definição Um Indicador de Desempenho é uma
Árvores Binárias de Busca
Árvores Binárias de Busca Uma Árvore Binária de Busca T (ABB) ou Árvore Binária de Pesquisa é tal que ou T = 0 e a árvore é dita vazia ou seu nó contém uma chave e: 1. Todas as chaves da sub-árvore esquerda
GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL
GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL Versão: 1.0 Data: 05-06-2009 Índice Acesso e estados dos Formulários... 3 Escolha do Formulário e submissão... 4 Bases para a navegação
