Medidas de Avaliação
|
|
|
- Sônia Tuschinski Oliveira
- 8 Há anos
- Visualizações:
Transcrição
1 Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema; Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e os documentos recuperados não são exatos e precisam ser ordenados de acordo com sua relevância em relação à expressão de busca. Para avaliar um sistema de recuperação de informação é necessário medir a sua capacidade em atender as necessidades de informação do usuário. Isso é naturalmente problemático, dada a variabilidade de interpretação de um mesmo conjunto de resultadas de uma busca; 1
2 O que se almeja ao fazer uma busca em uma base documental é encontrar documentos que sejam úteis para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis; Relevante, pertinente são termos frequentemente utilizados para se referir a itens úteis ; Avaliação da recuperação é um processo sistemático no qual se associa uma métrica quantitativa aos resultados produzidos por um sistema de RI em resposta a um conjunto de buscas. Essa métrica deve ser diretamente associada à relevância dos resultados para os usuários. Uma abordagem comum para calcular tal métrica é comparar o resultado produzido pelo sistema com os resultados sugeridos por humanos para o mesmo conjunto de buscas. BAEZA-YATES; RIBEIRO-NETO, 2013 Paradigma de Cranfield 2
3 Paradigma de Cranfield Avaliação sistemática de sistema de RI é resultado de experimentos iniciados no anos de 1950 por Cyril Cleverdon, que culminaram com os chamados experimentos de Cranfield. Fornecem a base para a avaliação de sistemas de RI. Paradigma de Cranfield Cranfield-1 Indexação manual de 18 mil documentos sobre engenharia aeronáutica (em 4 diferentes sistemas de indexação) e avaliação de consultas; Os 4 sistemas de indexação eram praticamente equivalentes; 3
4 Paradigma de Cranfield Cranfield-2 Indexação manual de documentos e 279 consultas; Os 4 sistemas de indexação eram praticamente equivalentes; Seis estudantes passaram três meses examinando cada documento em relação a cada consulta e decidindo quais documentos eram relevantes; Resultados: coleção de documentos, consultas e julgamentos de relevância para cada par documento-consulta; Paradigma de Cranfield Cranfield-2 Resultados: Coleção de documentos, consultas e julgamentos de relevância para cada par documento-consulta; Relação (inversa) entre precisão e revocação; Em situações práticas, a maioria das buscas não requer revocação alta, pois os usuários requerem apenas algumas respostas relevantes. Conclusão válida para o contexto da Web; Estabeleceu a base para a experimentação moderna em RI; Precisão e Revocação são métricas estabelecidas e amplamente utilizadas; 4
5 Paradigma de Cranfield Cranfield-2 Desvantagens: Simplista Necessidade de informação o usuário é considerada estática e a relevância de um documento é considerada independente da relevância de outros documentos; Supõe que o julgamento de relevância é uniforme para uma população de usuários; Considerando o ambiente Web, todas essas premissas são violadas. Porém, o processo de avaliação dos experimentos Cranfield-2 continua a ser amplamente adotado. Medidas de Avaliação 5
6 Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Relevantes não-relevantes Recuperados não recuperados Medidas de Avaliação Documentos úteis para atender a necessidade de informação do usuário Documentos que não são úteis para o usuário Para qualquer necessidade sempre haverá mais documentos não úteis (-) do que úteis (+); O problema está em recuperar o maior número possível de itens úteis e o menor número possível de itens inúteis; O quadrado menor representa o resultado de uma busca. 6
7 precisão (precision) Expressa o quanto o sistema é capaz de recuperar apenas itens úteis. Foram recuperados 20 itens, sendo 6 úteis e 14 inúteis nº docs relevantes recuperados Precisão = nº docs recuperados 6 Precisão = = 20 Precisão = 30% 0,3 Medidas de Avaliação revocação (recall) Expressa o quanto o sistema é capaz de recuperar todos os itens úteis. Dos 12 documentos úteis existente no corpus, apenas 6 foram recuperados nº docs relevantesrecuperados Revocação = nº docs relevantes 6 Revocação = = 12 Revocação = 50% 0,5 7
8 revocação x precisão Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior. 9 Revocação = = 0,75 = 75% 12 9 Precisão = 0,18 = 18% 49 Revocação Precisão Medidas de Avaliação Revocação x Precisão 8
9 Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas: A revocação máxima para uma determinada busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível; Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas; Medidas de Avaliação outras medidas Média harmônica 2 F( j) = r( j) P( j) Calcula a média harmônica entre as medidas Precisão ( P ) e Revocação ( r ) Medida E 2 1+ b E( j) = 2 b 1 + r( j) P( j) Esta medida permite ao usuário escolher se ele está mais interessado em Revocação ou em Precisão. b > 1 o usuário está mais interessado em precisão. b < 1 o usuário está mais interessado em revocação. 9
10 medidas orientadas ao usuário As medidas Revocação e Precisão são baseadas na suposição de que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário. Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou qual não é. Para enfrentar esse problema, algumas medidas orientadas ao usuário foram criadas. Medidas de Avaliação medidas orientadas ao usuário Cobertura ( coverage ) Expressa a quantidade de documentos relevantes conhecidos pelo usuário que foram recuperados; Um alto valor de coverage indica que o sistema está encontrando a maioria dos documentos relevantes que o usuário esperava. Novidade ( novelty ) Expressa a quantidade de documentos relevantes recuperados que não eram conhecidos (previamente) pelo usuário; Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele. 10
11 medidas orientadas ao usuário Coverage : Documentos relevantes (recuperados) conhecidos pelo usuário K R A R documentos relevantes A documentos recuperados K documentos conhecidos Novelty: Documentos relevantes (recuperados) não conhecidos Coleções para Teste 11
12 Coleções para Teste Críticas à Information Retrieval Falta fundamentação básica A natureza subjetiva da tarefa de decidir a relevância de um documento dificulta uma fundamentação teórica Carece de campo de provas e medidas consistentes Nos anos de Conferência anual chamada TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos; Coleções para Teste Também chamado coleções de referência É composta por um conjunto de documentos pré-selecionados, um conjunto de descrições de necessidades de informação usados para teste e um conjunto de julgamentos de relevância binários associados a cada par documento-consulta; O julgamento de relevância é binário: um documento é ou não relevante para uma dada consulta 12
13 Coleções para Teste TREC Coleção de documentos de diversas fontes Wall Street Journal Associated Press US Patents Financial Times etc... CACM ISI Coleção de artigos publicados no periódico Communications of the ACM, cujo primeiro número foi publicado em 1958; Primeiro periódico em Ciência da Computação; Institute of Scientific Information (ISI) 1460 documentos Conclusão A avaliação é uma parte vital da Recuperação; 13
Recuperação de Informação
Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Aula 2: Planejamento da RS
Universidade de São Paulo Instituto de Ciências Matemática e de Computação SSC 5905 - Revisão Sistemática Aula 2: da RS Profa. Dra. Elisa Yumi Nakagawa 1. Semestre de 2013 Processo de Revisão Sistemática
Desenvolvimento de um Web Crawler para indexação de documentos científicos
Desenvolvimento de um Web Crawler para indexação de documentos científicos Heitor de Sousa Miranda¹, Rafael Gonçalves Barreira², Edeilson Milhomem da Silva³ Curso de Sistemas de Informação - CEULP/ULBRA
SSC643 -Avaliação de Desempenho de Sistemas Computacionais Sarita Mazzini Bruschi
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC643 -Avaliação de Desempenho de Sistemas Computacionais Sarita Mazzini Bruschi Material
SSC546 -Avaliação de Desempenho Parte 1 Sarita Mazzini Bruschi
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC546 -Avaliação de Desempenho Parte 1 Sarita Mazzini Bruschi Material baseado nos slides
Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília
Linguagens Documentárias Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília Contexto Organização da Informação...... procura criar métodos e instrumentos para elaborar
Realimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
SSC643 -Avaliação de Desempenho de Sistemas Computacionais -
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC643 -Avaliação de Desempenho de Sistemas Computacionais - Aula 2 Sarita Mazzini Bruschi
Avaliação Sistemas de Recuperação da Informação
Avaliação Sistemas de Recuperação da Informação Prof. Rodrigo Tripodi Calumby DEXA / UEFS [email protected] Por que? Ex.: Projeto de Aviões Teste em simuladores e experimentos Construção e teste
POLÍTICA DE INDEXAÇÃO PARA BIBLIOTECAS UNIVERSITÁRIAS
M ESA REDONDA: O RGANIZAÇÃO DA INFORMAÇÃO E DO CONHECIMENTO EM CONTEXTOS COLABORATIVOS E INTEGRADOS EM REDE POLÍTICA DE INDEXAÇÃO PARA BIBLIOTECAS UNIVERSITÁRIAS Dra. Mariângela Spotti Lopes Fujita (Nível
Avaliação de Desempenho
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Avaliação de Desempenho 1 Aula 1 Marcos José Santana Regina Helena Carlucci Santana Etapas
Introdução à Ciência da Computação II
Introdução à Ciência da Computação II 2semestre/200 Prof Alneu de Andrade Lopes Apresentação com material gentilmente cedido pelas profas Renata Pontin Mattos Fortes http://wwwicmcuspbr/~renata e Graça
Engenharia de Software II
Engenharia de Software II Aula 12 http://www.ic.uff.br/~bianca/engsoft2/ Aula 12-31/05/2006 1 Ementa Processos de desenvolvimento de software (Caps. 2, 3 e 4 do Pressman) Estratégias e técnicas de teste
Introdução à Revisão Sistemática da Literatura
Introdução à Revisão Sistemática da Literatura Maria Claudia Silva Boeres [email protected] Slides de autoria da professora Lucia Catabriga - UFES September 27, 2017 Maria Claudia Silva Boeres (UFES)
Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O
Aula 01 Planejamento de uma Pesquisa
Aula 01 Planejamento de uma Pesquisa Stela Adami Vayego - DEST/UFPR 1 Etapas usuais de uma pesquisa científica Tema, definição do problema, objetivos,... Planejamento da pesquisa Metolo- -logia estatística
Avaliação de Desempenho
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Avaliação de Desempenho Introdução Aula 1 Marcos José Santana Regina Helena Carlucci Santana
Lucas Santana da Cunha 27 de novembro de 2017
EXPERIMENTAÇÃO E ANÁLISE DE VARIÂNCIA Lucas Santana da Cunha http://www.uel.br/pessoal/lscunha/ Universidade Estadual de Londrina 27 de novembro de 2017 Experimentação A experimentação se difundiu como
Avaliação de Desempenho
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Avaliação de Desempenho Planejamento de Experimentos Aula 2 Marcos José Santana Regina
Descritores de Imagem (introdução)
Descritores de Imagem (introdução) André Tavares da Silva [email protected] Roteiro da aula Definição de descritor de imagem Extração de Característica Tipos Geral x Específico Global (cor, textura,
Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM
Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM Amostragem É o processo de seleção de amostras de uma população com o objetivo de fazer inferências sobre a população
Indexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília 1 Penso, logo existo. Brincadeira feita por Fernando Modesto MODESTIKUS, Bibliotecário Grego René Descartes
Estatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
ORGANIZAÇÃO DE ARQUIVOS INDEXADOS
ORGANIZAÇÃO DE ARQUIVOS INDEXADOS Um índice consiste numa coleção de entradas, uma para cada registro de dados, contendo o valor de uma chave de atribuição e um ponteiro de referência que acessa imediatamente
O Que Veremos. Introdução. Introdução. Definindo Desempenho. Definindo Desempenho. Avaliando e Compreendendo o Desempenho
Ciência da Computação Arq. e Org. de Computadores Avaliando e Compreendendo o Desempenho O Que Veremos Avaliando e compreendendo o desempenho: Introdução Definindo desempenho Medindo o desempenho e seus
Usando a Bibliometria para a Avaliação de informação e Gestão de Pesquisa e Publicação Científica
Usando a Bibliometria para a Avaliação de informação e Gestão de Pesquisa e Publicação Científica Deborah Dias Gerente Treinamento e Suporte - Brasil Thomson Reuters Scientific & Health Care Division [email protected]
SSC546 -Avaliação de Desempenho de Sistemas
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC546 -Avaliação de Desempenho de Sistemas Parte 1 -Aula 2 Sarita Mazzini Bruschi Material
Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados
Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados Aula 1 Introdução a Banco de Dados 1. Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído
Objetivo de Pesquisa e Revisão Bibliográfica
Objetivo de Pesquisa e Revisão Bibliográfica CEA427 - METODOLOGIA DE PESQUISA APLICADA À COMPUTAÇÃO Universidade Federal de Ouro Preto Profa. Msc. Helen de DECEA Cássia / S. João da
FUNDAMENTOS DE ENGENHARIA DE SOFTWARE. Professor: Paulo Vencio
FUNDAMENTOS DE ENGENHARIA DE SOFTWARE Professor: Paulo Vencio Bibliografia: Como o assunto é cobrado: Conceito de forma geral Bibliografia Específica Aplicação do Conceito Conteúdo Programático: Conceito
Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia
Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto [email protected]
Revisão/Mapeamento Sistemático
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação SSC0572 - Computadores, Sociedade e Ética Profissional Revisão/Mapeamento Sistemático Prof. Dr. José Carlos Maldonado PAE: Pedro
Técnicas de recuperação de informação: filtragem, agrupamento
Técnicas de recuperação de informação: filtragem, agrupamento 1 Nome usado para descrever uma variedade de processos envolvendo a entrega de informação para pessoas que precisam dela; Compreende um método
Consultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS
UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS Departamento de Estatística Tarciana Liberal MEDIDAS DE DISPERSÃO As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual,
SISTEMA INTEGRADO DE BIBLIOTECAS
POLÍTICA DE ATUALIZAÇÃO E DESENVOLVIMENTO DE ACERVO 1. OBJETIVOS A política de desenvolvimento da coleção tem os seguintes objetivos: Permitir o crescimento racional e equilibrado do acervo em todos os
Introdução à Avaliação de Desempenho
Introdução à Avaliação de Desempenho Tecnologia em Redes de Computadores IFSULDEMINAS Câmpus Inconfidentes Prof. Kleber Rezende [email protected] Motivação Para que se preocupar com Avaliação
Produtividade em Pesquisa
Produtividade em Pesquisa Ferramentas de apoio e indicadores Elisabeth Dudziak Biblioteca - EP-USP Setembro 2010 Sumário Como avaliar a ciência e a pesquisa? Critérios CNPq / CAPES Autores Periódicos Por
Sistemas de Recomendação Uma abordagem geral
Sistemas de Recomendação Uma abordagem geral Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação Mestrado em Ciência da Computação Disciplina: Seminários II Aluna: Késsia
Estatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Análise da dados através de gráficos Introdução a Simulação Aula de hoje Introdução à simulação Geração de números aleatórios Lei dos Grandes
Conceitosintrodutórios Planejamentode Experimentos. Prof. Dr. Fernando Luiz Pereira de Oliveira Sala1 ICEB I DEMAT
Conceitosintrodutórios Planejamentode Experimentos Prof. Dr. Fernando Luiz Pereira de Oliveira Sala1 ICEB I DEMAT Email: [email protected] Um planejamento de experimentos consiste em um teste ou umas
Extração de informação como base para descoberta de conhecimento em dados não estruturados
Extração de informação como base para descoberta de conhecimento em dados não Rui Gureghian Scarinci* José Palazzo Moreira de Oliveira** Resumo Métodos de Descoberta de Conhecimento em Texto ou Knowledge
Reflexões sobre elaboração de artigos científicos
Reflexões sobre elaboração de artigos científicos Prof. Stefano 1 Prof. Stefano Introdução; Definição do tema; Desenvolvimento; ; Artigo 2 1 INTRODUÇÃO Importância TCC & PROJETO INTEGRADOR Oportunidades
Teoria da computabilidade Indecidíveis Decidíveis
Bacharelado em Ciência da Computação Disciplina: Algoritmos e Estruturas de Dados I Professor: Mário Luiz Rodrigues Oliveira Teoria da computabilidade Indecidíveis Decidíveis Teoria da complexidade Intratáveis:
Prof a. Daniela Menezes. Unidade II. Gerenciamento de Produtos,
Prof a. Daniela Menezes Unidade II Gerenciamento de Produtos, Serviços e Marcas O poder das marcas Descubra o nome dessas empresas: Marcas É uma representação simbólica de algo que permite identificá-lo
Universidade Federal do Espírito Santo
Universidade Federal do Espírito Santo ELIEZER DE SOUZA DA SILVA Recuperação de conteúdo usando LSI e VSM SÃO MATEUS/ES 2010 Universidade Federal do Espírito Santo ELIEZER DE SOUZA DA SILVA Recuperação
Estatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Somas aleatórias Aula de hoje Introdução à simulação Geração de números aleatórios Lei dos Grandes Números Simulação de Sistemas Discretos É
Lucas Santana da Cunha de outubro de 2018 Londrina
e Lucas Santana da Cunha email: [email protected] http://www.uel.br/pessoal/lscunha/ 22 de outubro de 2018 Londrina 1 / 24 Obtenção de uma amostra Princípios básicos da experimentação Há basicamente duas
