Medidas de Avaliação

Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema; Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e os documentos recuperados não são exatos e precisam ser ordenados de acordo com sua relevância em relação à expressão de busca. Para avaliar um sistema de recuperação de informação é necessário medir a sua capacidade em atender as necessidades de informação do usuário. Isso é naturalmente problemático, dada a variabilidade de interpretação de um mesmo conjunto de resultadas de uma busca; 1

O que se almeja ao fazer uma busca em uma base documental é encontrar documentos que sejam úteis para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis; Relevante, pertinente são termos frequentemente utilizados para se referir a itens úteis ; Avaliação da recuperação é um processo sistemático no qual se associa uma métrica quantitativa aos resultados produzidos por um sistema de RI em resposta a um conjunto de buscas. Essa métrica deve ser diretamente associada à relevância dos resultados para os usuários. Uma abordagem comum para calcular tal métrica é comparar o resultado produzido pelo sistema com os resultados sugeridos por humanos para o mesmo conjunto de buscas. BAEZA-YATES; RIBEIRO-NETO, 2013 Paradigma de Cranfield 2

Paradigma de Cranfield Avaliação sistemática de sistema de RI é resultado de experimentos iniciados no anos de 1950 por Cyril Cleverdon, que culminaram com os chamados experimentos de Cranfield. Fornecem a base para a avaliação de sistemas de RI. Paradigma de Cranfield Cranfield-1 Indexação manual de 18 mil documentos sobre engenharia aeronáutica (em 4 diferentes sistemas de indexação) e avaliação de 1.200 consultas; Os 4 sistemas de indexação eram praticamente equivalentes; 3

Paradigma de Cranfield Cranfield-2 Indexação manual de 1.400 documentos e 279 consultas; Os 4 sistemas de indexação eram praticamente equivalentes; Seis estudantes passaram três meses examinando cada documento em relação a cada consulta e decidindo quais documentos eram relevantes; Resultados: coleção de documentos, consultas e julgamentos de relevância para cada par documento-consulta; Paradigma de Cranfield Cranfield-2 Resultados: Coleção de documentos, consultas e julgamentos de relevância para cada par documento-consulta; Relação (inversa) entre precisão e revocação; Em situações práticas, a maioria das buscas não requer revocação alta, pois os usuários requerem apenas algumas respostas relevantes. Conclusão válida para o contexto da Web; Estabeleceu a base para a experimentação moderna em RI; Precisão e Revocação são métricas estabelecidas e amplamente utilizadas; 4

Paradigma de Cranfield Cranfield-2 Desvantagens: Simplista Necessidade de informação o usuário é considerada estática e a relevância de um documento é considerada independente da relevância de outros documentos; Supõe que o julgamento de relevância é uniforme para uma população de usuários; Considerando o ambiente Web, todas essas premissas são violadas. Porém, o processo de avaliação dos experimentos Cranfield-2 continua a ser amplamente adotado. Medidas de Avaliação 5

Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Relevantes não-relevantes Recuperados não recuperados Medidas de Avaliação Documentos úteis para atender a necessidade de informação do usuário Documentos que não são úteis para o usuário Para qualquer necessidade sempre haverá mais documentos não úteis (-) do que úteis (+); O problema está em recuperar o maior número possível de itens úteis e o menor número possível de itens inúteis; O quadrado menor representa o resultado de uma busca. 6

precisão (precision) Expressa o quanto o sistema é capaz de recuperar apenas itens úteis. Foram recuperados 20 itens, sendo 6 úteis e 14 inúteis nº docs relevantes recuperados Precisão = nº docs recuperados 6 Precisão = = 20 Precisão = 30% 0,3 Medidas de Avaliação revocação (recall) Expressa o quanto o sistema é capaz de recuperar todos os itens úteis. Dos 12 documentos úteis existente no corpus, apenas 6 foram recuperados nº docs relevantesrecuperados Revocação = nº docs relevantes 6 Revocação = = 12 Revocação = 50% 0,5 7

revocação x precisão Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior. 9 Revocação = = 0,75 = 75% 12 9 Precisão = 0,18 = 18% 49 Revocação Precisão Medidas de Avaliação Revocação x Precisão 8

Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas: A revocação máxima para uma determinada busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível; Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas; Medidas de Avaliação outras medidas Média harmônica 2 F( j) = 1 1 + r( j) P( j) Calcula a média harmônica entre as medidas Precisão ( P ) e Revocação ( r ) Medida E 2 1+ b E( j) = 2 b 1 + r( j) P( j) Esta medida permite ao usuário escolher se ele está mais interessado em Revocação ou em Precisão. b > 1 o usuário está mais interessado em precisão. b < 1 o usuário está mais interessado em revocação. 9

medidas orientadas ao usuário As medidas Revocação e Precisão são baseadas na suposição de que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário. Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou qual não é. Para enfrentar esse problema, algumas medidas orientadas ao usuário foram criadas. Medidas de Avaliação medidas orientadas ao usuário Cobertura ( coverage ) Expressa a quantidade de documentos relevantes conhecidos pelo usuário que foram recuperados; Um alto valor de coverage indica que o sistema está encontrando a maioria dos documentos relevantes que o usuário esperava. Novidade ( novelty ) Expressa a quantidade de documentos relevantes recuperados que não eram conhecidos (previamente) pelo usuário; Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele. 10

medidas orientadas ao usuário Coverage : Documentos relevantes (recuperados) conhecidos pelo usuário K R A R documentos relevantes A documentos recuperados K documentos conhecidos Novelty: Documentos relevantes (recuperados) não conhecidos Coleções para Teste 11

Coleções para Teste Críticas à Information Retrieval Falta fundamentação básica A natureza subjetiva da tarefa de decidir a relevância de um documento dificulta uma fundamentação teórica Carece de campo de provas e medidas consistentes Nos anos de 1990. Conferência anual chamada TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos; Coleções para Teste Também chamado coleções de referência É composta por um conjunto de documentos pré-selecionados, um conjunto de descrições de necessidades de informação usados para teste e um conjunto de julgamentos de relevância binários associados a cada par documento-consulta; O julgamento de relevância é binário: um documento é ou não relevante para uma dada consulta 12

Coleções para Teste TREC Coleção de documentos de diversas fontes Wall Street Journal Associated Press US Patents Financial Times etc... CACM ISI Coleção de artigos publicados no periódico Communications of the ACM, cujo primeiro número foi publicado em 1958; Primeiro periódico em Ciência da Computação; Institute of Scientific Information (ISI) 1460 documentos Conclusão A avaliação é uma parte vital da Recuperação; 13