Pré-processamento de Sons para Reconhecimento Automático de Pássaros



Documentos relacionados
Pré-processamento de Sinais Sonoros de Aves Noturnas

RECONHECIMENTO DE AVES DE NOMES ONOMATOPÉICOS

1 Problemas de transmissão

Prof. Daniel Hasse. Multimídia e Hipermídia

Abordagem para Extração Automática de Características para Reconhecimento de Aves Tinamidae Baseada em Análise Espectral

Filtros Digitais. Filipe Medeiros de Almeida

A. MANUAL DO MÓDULO ATFAR DO ECGLAB

Controle de Múltiplos Pivôs Centrais com um único Conjunto Motor-Bomba

Engenheiro de Telecomunicações pelo Instituto de Estudos Superiores da Amazônia IESAM (Belém, Pará).

Filtros de sinais. Conhecendo os filtros de sinais.

RECONHECIMENTO DE PLACAS DE AUTOMÓVEIS ATRAVÉS DE CÂMERAS IP

NASCE A ERA DA COMUNICAÇÃO ELÉCTROMAGNÉTICA

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Considerações Finais. Capítulo Principais conclusões

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

O AMPLIFICADOR LOCK-IN

Sinal analógico x sinal digital. Sinal analógico. Exemplos de variações nas grandezas básicas. Grandezas básicas em sinais periódicos

Redes de Computadores sem Fio

Modos de Propagação. Tecnologia em Redes de Computadores 5º Período Disciplina: Sistemas e Redes Ópticas Prof. Maria de Fátima F.

3 Classificação Resumo do algoritmo proposto

Sensores Ultrasônicos

PROJETO DE REDES

Proposta de Trabalho para a Disciplina de Introdução à Engenharia de Computação PESQUISADOR DE ENERGIA

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

O Software Face Match

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

EAGLE TECNOLOGIA E DESIGN CRIAÇÃO DE SERVIDOR CLONE APCEF/RS

Monitor Cardíaco. Universidade Federal de Santa Maria Centro de Tecnologia Departamento de Eletrônica e Computação

Aula 8 Circuitos Integrados

RECEPTOR AM DSB. Transmissor. Circuito Receptor AM DSB - Profº Vitorino 1

4 Segmentação Algoritmo proposto

Pesquisa e organização de informação

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE ENGENHARIA ELÉTRICA E INFORMÁTICA UNIDADE ACADEMICA DE ENGENHARIA ELÉTRICA ELETRÔNICA

Tutorial Básico de Google Analytics

Multiplexação. Multiplexação. Multiplexação - FDM. Multiplexação - FDM. Multiplexação - FDM. Sistema FDM

Modelo Cascata ou Clássico

Descobertas do electromagnetismo e a comunicação

Figura 1. (19) Jhaimilson G. Biscassi.

Controle do Arquivo Técnico

GOVERNO DO ESTADO DE MATO GROSSO DO SUL SECRETARIA DE ESTADO DE EDUCAÇÃO CENTRO DE EDUCAÇÃO PROFISSIONAL EZEQUIEL F. LIMA ATERRAMENTO E BLINDAGEM

CAP. 5 FILTROS ATIVOS TE 054 CIRCUITOS ELETRÔNICOS LINEARES

3. No painel da direita, dê um clique com o botão direito do mouse em qualquer espaço livre (área em branco).

Aplicações de Escritório Electrónico

Versão Melhorias Melhorias Versão 6.0.1

Disciplina: Unidade III: Prof.: Período:

Noções Básicas de Excel página 1 de 19

Ruído. 1) Introdução. 2) Principais grandezas e parâmetros definidores do som

UPS. Unidades de Alimentação Ininterrupta

Imprimir. Influência das Harmônicas na Alimentação de Dispositivos Eletrônicos: Efeitos, e como eliminá-los

Análise Univariada de Sinais Mioelétricos

MICROSOFT POWER POINT

Microsoft Office PowerPoint 2007

O Ouvido Humano e a Audição

Lição 1 - Criação de campos calculados em consultas

UFSM-CTISM. Comunicação de Dados Capacidade de canal Aula-12

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

TONALIDADE X FREQUÊNICA

Universidade Federal do Rio de Janeiro - IM/DCC & NCE

Manual Administrador - Mídia System

Universidade Federal de Santa Maria UFSM Centro de Tecnologia CT. Power Point. Básico

O que caracteriza um som?

5 Conclusões e Recomendações

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

Introdução aos circuitos seletores de frequências. Sandra Mara Torres Müller

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

ANDRÉ APARECIDO DA SILVA APOSTILA BÁSICA SOBRE O POWERPOINT 2007

Estudo Básico sobre CROSSOVERS

CONTROLE DIGITAL DE VOLUME

Assunto: Redes Com Menos Gastos

Transmissão e comunicação de dados. Renato Machado

Conforme explicado em 2.4.3, o sinal de voz x(n) às vezes é alterado com a adição de ruído r(n), resultando num sinal corrompido y(n).

Retirando voz de músicas no SoundForge

TRANSMITINDO CONHECIMENTO ON-LINE

Escola de Engenharia de Lorena EEL USP Departamento de Engenharia Química - DEQUI Disciplina: Normalização e Controle da Qualidade NCQ

T-530. Características. Características técnicas TELE ALARME MICROPROCESSADO. Aplicação

UTILIZAÇÃO DE RECURSOS AVANÇADOS DO EXCEL TABELA

TRABALHO LABORATORIAL Nº 5

Manual do Painel Administrativo

Amostrador PAM A/D PCM D/A PAM Filtro. Figura 1 Digrama de Blocos PCM

UNIDADE I Aula 5 Fontes de Distorção de Sinais em Transmissão. Fonte: Rodrigo Semente

Tarefa Orientada 18 Tabelas dinâmicas

APRENDIZAGEM INDUSTRIAL

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

1 Introduc ao 1.1 Hist orico

O SOM. 2. Um fenómeno vibratório que produz essa sensação;

Sistema de Digitalização e Gerenciamento de Arquivos On-Line

Análise de Sinais no Domínio da Frequência

MANUAL DO USUÁRIO. Guia de orientações e conceitos para manipulação da plataforma Miraklon. VERSÃO Vigência

29/08/2011. Radiologia Digital. Princípios Físicos da Imagem Digital 1. Mapeamento não-linear. Unidade de Aprendizagem Radiológica

MODULAÇÃO AM E DEMODULADOR DE ENVELOPE

Introdução ao Ruído. Vibrações e Ruído (10375) 2014 Pedro V. Gamboa. Departamento de Ciências Aeroespaciais

Armazenamento de energia

Ondas II F-228 UNICAMP

SISTEMA FREQUENCIA MODULADA (FM)

Efeitos dinâmicos do Vento em Edifícios Altos. Byl Farney Rodrigues da CUNHA JR¹; Frederico Martins Alves da SILVA²;

Anexo III Funcionamento detalhado do Sistema Montador de Autoria

Transcrição:

Pré-processamento de Sons para Reconhecimento Automático de Pássaros Fernando Aparecido CARVALHO, Paulo César Miranda MACHADO Escola de Engenharia Elétrica e de Computação, UFG, Goiânia-GO 74001970 Email: feapca@gmail.com, pcmmachado@gmail.com Palavras-chave: Reconhecimento de padrões, filtros digitais, segmentação, espectograma INTRODUÇÃO Com o avanço da tecnologia de reconhecimento de padrões, sistemas cada vez mais automáticos se tornam possíveis. Um padrão é qualquer entidade da qual é possível extrair algum tipo de característica, seja ela simbólica ou numérica, e o que as técnicas computacionais de reconhecimento de padrões buscam, a partir destas características, é por uma maneira eficiente de organizarem estes padrões em agrupamentos ou classes que compartilhem determinadas semelhanças (NOGUEIRA, 2006). Exemplos de reconhecimento de padrões são: identificação de impressão digital, reconhecimento óptico de caracteres, identificação de seqüências de DNA, reconhecimento de fala, reconhecimento de sons de aves e animais, etc. O crescimento das cidades e a devastação do cerrado têm causado a migração de pássaros para regiões urbanizadas à procura de alimento. Muitos pássaros são encontrados em lixões a céu aberto ou até mesmo áreas alagadas próximas a aeroportos aumentando o risco de acidentes e incidentes com aeronaves. Com a degradação de ecossistemas, habitat de espécies nativas, o monitoramento dessas espécies por biólogos se torna necessário a fim de prever as possíveis conseqüências no meio-ambiente. O monitoramento pode ser feito por sistema automático de reconhecimento de som (vocalização) de aves. Os sons dos pássaros são divididos em cantos e chamadas. Cantos são geralmente mais longos e complexos e estão relacionados à procriação e a defesa territorial, enquanto chamadas são mais curtas e estão relacionadas a alarme, vôo e alimentação (FAGERLUND, 2007). Os métodos de reconhecimento de padrões são divididos em quatro fases: préprocessamento, extração de características, classificação, questões sobre classificação e pósprocessamento. O pré-processamento, tratado neste trabalho, consiste na normalização do sinal, remoção de ruído e segmentação. Revisado pelo orientador. Orientando: Fernando Aparecido Carvalho. Orientador: Paulo César Miranda Machado

METODOLOGIA Neste trabalho utilizaremos arquivos de sons coletados da internet (CORNELL LAB OF ORNITHOLOGY, WIKIAVES). Nosso enfoque será na Perdiz, ave da família dos Tinamídeos, por ter um som característico e que aparenta ser mais fácil de aplicar e adquirir domínio sobre as técnicas de pré-processamento. Como os arquivos de sons são coletados nos mais diversos formatos (mp3, flv, ra, etc), primeiramente convertem-se os arquivos para o mesmo formato, sendo escolhido o formato wav. Os arquivos coletados possuem, na sua maioria, a frequência de amostragem de 44100 Hz, o que é compatível com o espectro de som dos pássaros, que se situa entre 100 Hz e 8 khz (KWAN, 2006). O primeiro passo do pré-processamento é eliminar a componente contínua do sinal, calculando-se a média do sinal e subtraindo-a do próprio sinal a fim de se obter um sinal com média igual a zero. Em seguida, para que todos os sinais tenham a mesma intensidade, eles são normalizados isto é, cada sinal é dividido pelo seu valor máximo, obtendo-se um sinal normalizado entre -1 e 1 (KWAN, 2004), (SELIN, 2007). Como os sons são normalmente gravados no ambiente em que as aves vivem, as gravações estão sujeitas aos mais variados tipos de ruídos, dentre os quais foram encontrados os seguintes tipos: Estalos (cliques): são pontos de saturação, ou seja, valores muito diferentes dos valores vizinhos em localizações aparentemente aleatórias, que podem ser percebidos nitidamente através de análise gráfica. Esse tipo de ruído pode ser observado na Fig. 1. Figura1: Som de perdiz apresentando estalos.

Chuva: é um som contínuo e o pingar é bastante intenso e rápido (Fig. 2). A interação é majoritariamente entre líquido e sólido o que gera maiores cavidades de ressonância. A energia sonora encontra-se distribuída por todas as freqüências a partir de 500-700 Hz (DA SILVA, 2007). Figura 2: Forma de onda e espectro do som da chuva. Fonte: (DA SILVA, 2007). Grilos: os machos produzem um som roçando uma asa contra a outra (essas asas possuem uma série de pelos na borda) para atraírem a fêmea para a reprodução. Os machos produzem sons consecutivos de pequena duração cuja frequência é restrita a 2500 a 3000 Hz, conforme Fig. 3 (DA SILVA, 2007). Figura 3: Forma de onda e espectro do som do grilo. Fonte: (DA SILVA, 2007). Vento: apresenta sinal contínuo com aumento gradual do sinal até valores mais elevados (Fig.4). Apresenta maior energia para freqüências menores que 500 Hz, atingindo com menores taxas de energia cerca de 2000 Hz (DA SILVA, 2007). Figura 4: Forma de onda e espectro do som do vento. Fonte: (DA SILVA, 2007).

60 Hz e harmônicos: distorção do sinal apresentando altas taxas de energia para valores de frequência de 60 Hz e múltiplos (Fig. 5). Figura 5: Espectro de som de perdiz apresentando harmônicos em 60 Hz e múltiplos. O próximo passo do pré-processamento é a utilização de filtros para a eliminação dos ruídos. Os filtros utilizados foram Butterworth, Chebyshev do tipo 1 e 2, elíptico e Comb: Butterworth possui banda passante plana, porém, sua variação da magnitude é baixa sendo necessária altas ordens para implementação de certas especificações particulares. Chebyshev possui variação da magnitude maior que o Butterworth, mas possui ondulações (riples) na banda passante ou na banda de bloqueio. Chebyshev do tipo 1 apresenta ondulações na banda passante e grandes variações da magnitude a baixas ordens. Chebyshev do tipo 2 apresenta ondulações na banda rejeitada e possui menor variação de magnitude que o do tipo 1. Elíptico permite maior taxa de variação da magnitude, porém, apresenta ondulações na banda passante e na banda de rejeição. Comb (pente) adiciona uma parte do sinal, ao próprio sinal, levemente defasado cancelando partes indesejadas do sinal. A Fig. 6 mostra a resposta em freqüência do filtro Comb:

Figura6: Resposta em freqüência do filtro Comb. Fonte: http://www.mathworks.com/help/toolbox/dsp/ref/fdesign.comb.html parâmetros: A Fig. 7 mostra a resposta em freqüência dos demais filtros, todos com os mesmos Figura 7: Resposta em freqüência Butterworth, Chebyshev 1 e 2 e Elíptico. Fonte: http://pt.wikipedia.org/wiki/filtros_butterworth RESULTADOS E DISCUSSÃO Primeiramente foi retirada a componente contínua, sinal foi normalizado e utilizado o filtro Comb para eliminar a interferência de 60 Hz e seus harmônicos da vocalização de uma perdiz (Fig. 8).

Figura 8: Filtro Comb aplicado a um sinal contendo interferência da frequência de 60 Hz e seus múltiplos (harmônicos). A Fig. 9 mostra o sinal após a eliminação da interferência da freqüência de 60 Hz e seus harmônicos, verificando-se que o sinal ainda apresenta bastante ruído. A mesma figura mostra também o espectograma e o sinal no domínio da frequência. A este sinal aplicou-se quatro tipos de filtros diferentes, todos com a mesma ordem (no caso ordem 6) para verificar o efeito dos vários tipos de filtros na eliminação de ruídos em sinais de cantos de pássaros. As figuras de 10 a 13 mostram o sinal, seu espectograma e o sinal no domínio da frequência após o uso dos filtros Butterworth, Chebyshev1, Chebyshev2 e Elíptico, respectivamente.

Figura 9: Sinal com ruído, após a eliminação da interferência da freqüência de 60 Hz e seus harmônicos, seu espectograma e sinal no domínio da freqüência. Figura 10: Sinal após utilização do filtro Butterworth (ordem 6), seu espectograma e sinal no domínio da freqüência.

Figura 11: Sinal após utilização do filtro Chebyshev1 (ordem 6), seu espectograma e sinal no domínio da freqüência Figura 12: Sinal após utilização do filtro Chebyshev2 (ordem 6), seu espectograma e sinal no domínio da freqüência.

Figura 13: Sinal após utilização do filtro Elíptico (ordem 6), seu espectograma e sinal no domínio da freqüência. Todos os filtros são do tipo passa banda onde a frequência de corte superior e inferior são iguais a 120% e 80% da frequência de maior energia, respectivamente. Quando comparados os sinais das figuras de 10 a13, resultantes do processo de filtragem, embora todos os filtros tenham conseguido deixar bem evidente o sinal do canto da ave, nota-se vantagem do filtro Chebyshev2, pois o sinal está bem mais nítido. Ao analisar os espectrogramas nota-se que o filtro Chebyshev2 realmente conseguiu clarear mais o sinal, deixando permanecer no espectro uma faixa de frequência bem próxima aos limites máximo e mínimo definidos como parâmetro do filtro passa banda. Com base no espectrograma resultante da filtragem os valores da Densidade Espectral de Potência (PSD Power Spectral Density) Tempo-Frequência são analisados com o objetivo de realizar a segmentação das regiões de som e silêncio. Primeiramente é encontrado o valor da PSD relacionado à frequência mínima detectada e este valor é usado então como limiar. A partir de então é analisado cada segmento de tempo e verificado qual o seu valor máximo, criando um vetor com marcações das regiões de som e silêncio, definido como y[i]=1, se max(p(:,i)) for maior ou igual ao limiar; y[i]=0, se max(p(:,i)) for menor que o limiar; em que 0 representa silêncio, 1 representa som e P(:,i) são as colunas da matriz de PSD.

Após o vetor y ser gerado, este é analisado para verificar se as regiões marcadas como silêncio e som estão de acordo com limites pré-definidos. Para este trabalho foi definido um tempo superior a 2 segundos de pausa para ser considerado silêncio e 0.5 segundo de som para ser considerado canto. A figura 14 mostra o resultado da utilização da técnica para a segmentação do som de uma Perdiz com duas regiões de canto da ave. Percebe-se que neste caso a segmentação funcionou com estimativa bem precisa das regiões de som, mostrando claramente as duas regiões de canto da ave. Figura 14: Sinal após filtragem e segmentação. CONCLUSÕES Neste trabalho foram apresentados procedimentos para pré-processamento de sinais de cantos de pássaros como a retirada da componente contínua, normalização do canto, eliminação da interferência de 60Hz e harmônicos e filtragem dos variados tipos de ruídos. Assim, com os testes realizados, conclui-se que, de maneira geral, qualquer um dos filtros poderia ser escolhido como padrão para a etapa de pré-processamento, pois todos conseguiram eliminar os distúrbios e atenuar o ruído fora da faixa de frequência da ave. Entretanto, o filtro Chebyshev2 apresentou, levemente, um melhor desempenho, conseguindo clarear mais o espectro do sinal.

A metodologia utilizada para a segmentação do sinal mostrou-se eficiente, separando claramente as regiões de canto da ave das regiões de silêncio. Como trabalho futuro pretende-se estudar e implementar métodos de extração de características para o reconhecimento automático de aves. REFERÊNCIAS DA SILVA, S. M. C. Traços Acústicos e Perceptivos de Sons Não Verbais e da Fala, dissertação (mestrado em Ciências da Fala e da Audição) - Escola Superior de Saúde da Universidade de Aveiro, Aveiro-Portugal, 2007. NOGUEIRA, A.; AZEVEDO, J.; BAPTISTA, V.; SIQUEIRA, S. Um Overview Sobre Reconhecimento de Padrões, VIII SEGeT, pp. 1-11, 2006. FAGERLUND, S.; Bird Species Recognition Using Support Vector Machines, EURASIP Journal on Advances in Signal Processing, pp. 1-11, 2007. KWAN, C.; MEI, G.; ZHAO, X.; REN, Z.; XU, R.; STANFORD, V.; ROCHET, C.; AUBE, J.; HO, K. C. Bird Classification Algorithms: Theory and Experimental Results, ICASSP2004, pp. V289-V292, 2004. C. Kwan et al., An automated Acoustic System to Monitor and Classify Birds, Eurasip Journal on Applied Signal Processing, pp. 1-19, 2006. CORNELL LAB OF ORNITHOLOGY. Disponível em http://macaulaylibrary.org/. Acesso em 08/04/2011. WIKIAVES. Disponível em http://www.wikiaves.com.br/. Acesso em 08/04/2011. SELIN, A.; TURUNEN, J.; TANTTU, J. T. Wavelets in Recognition of Bird Sounds, EURASIP Journal on Applied Signal Processing, vol. 2007, pp. 1-9, 2007.