Hipótese das Palavras-Marca



Documentos relacionados
Segmentação Bilingue com base na Marker Hypothesis

Curso de Inglês Grátis Nível Básico

Curso de Inglês Grátis Nível Básico

01-A GRAMMAR / VERB CLASSIFICATION / VERB FORMS

05/12/2006. Discurso do Presidente da República

COMO ENSINEI MATEMÁTICA

18/11/2005. Discurso do Presidente da República

Equivalência da estrutura de uma frase em inglês e português

Como dizer quanto tempo leva para em inglês?

LONDRES Reunião do GAC: Processos Políticos da ICANN

Redação do Site Inovação Tecnológica - 28/08/2009. Humanos aprimorados versus humanos comuns

MINISTÉRIO DOS NEGÓCIOS ESTRANGEIROS

Aula 4 Estatística Conceitos básicos

Guião M. Descrição das actividades

Letra da música Gypsy da Lady Gaga em Português

Inglês com Inglesar Jota Filho

Distribuição de probabilidades

LONDRES Sessão de planejamento do GAC para a reunião em Los Angeles

Chegou a Hora da Nossa Feira Escolar de Matemática e Ciências

TALKING ABOUT THE PRESENT TIME

WELCOME Entrevista Au Pair Care

PCOV-AD Survey Statements in English and Portuguese

DEPARTAMENTO DE TAQUIGRAFIA, REVISÃO E REDAÇÃO NÚCLEO DE REDAÇÃO FINAL EM COMISSÕES TEXTO COM REDAÇÃO FINAL

Este documento resume a dissertação na extracção de recursos de tradução (Simões,

Abba - Take a Chance On Me

Objetivos. Material a ser utilizado. - Cópias da atividade em número suficiente. Procedimentos

Conteúdos: Pronomes possessivos e demonstrativos

Presidência da República Casa Civil Secretaria de Administração Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação

Resolução de sistemas lineares

Material Teórico - Aplicações das Técnicas Desenvolvidas. Exercícios e Tópicos Relacionados a Combinatória. Segundo Ano do Ensino Médio

DEPARTAMENTO DE TAQUIGRAFIA, REVISÃO E REDAÇÃO NÚCLEO DE REVISÃO DE COMISSÕES TEXTO COM REDAÇÃO FINAL

Meu nome é Rosângela Gera. Sou médica e mãe de uma garotinha de sete anos que é cega.

30/04/2009. Entrevista do Presidente da República

Jogos de Tabuleiro e Busca Competitiva

Supremo Tribunal Federal

Capítulo II O QUE REALMENTE QUEREMOS

A educadora avalia a formação de nossos professores para o ensino da Matemática e os caminhos para trabalhar a disciplina na Educação Infantil.

Os gráficos estão na vida

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

Transcrição da Teleconferência Resultados do 4T12 Contax (CTAX4 BZ) 26 de fevereiro de Tales Freire, Bradesco:

Exercícios de gramática do uso da língua portuguesa do Brasil

Entrevista coletiva concedida pelo Presidente da República, Luiz Inácio Lula da Silva, no hotel Skt. Petri

Ética no exercício da Profissão

TÉCNICAS DE PROGRAMAÇÃO

Sistemas de Apoio à Decisão

GRUPO PARLAMENTAR ASSEMBLEIA LEGISLATIVA REGIONAL DOS AÇORES VII Legislatura

DESENVOLVIMENTO DE SOFTWARE

Educação Ambiental: uma modesta opinião Luiz Eduardo Corrêa Lima

Os Pronomes. The Pronouns

Jogos de Tabuleiro e Busca Competitiva

Amy Winehouse - Tears Dry On Their Own

GUIÃO Domínio de Referência: CIDADANIA E MULTICULTURALISMO

Exemplos de Testes de Hipóteses para Médias Populacionais

Are you having a good time?

Lição 27: Preposições de direção. Como usar preposições de direção.

EXCEL NA ANÁLISE DE REGRESSÃO

São eles: SOME (Algum, alguma, alguns,algumas). É utilizado em frases afirmativas,antes de um substantivo. Ex.:

Lição 24: Preposições de tempo. Como usar preposições de tempo.

Após 41 anos de descontos e 65 de idade reformei-me. Fiquei com UMA SÓ reforma calculada a partir dos descontos que fiz nesses 41 anos.

LIÇÃO 2 AMOR: DECIDIR AMAR UNS AOS OUTROS

Discurso do Presidente da República, Luiz Inácio Lula da Silva, no encontro com a delegação de atletas das Paraolimpíadas de Atenas-2004

Presidência da República Casa Civil Secretaria de Administração Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação

Entrevista exclusiva concedida pelo Presidente da República, Luiz Inácio Lula da Silva, ao SBT

Aqui pode escolher o Sistema operativo, e o software. Para falar, faça download do Cliente 2.

5. Os primeiros pré-requisitos para a criatividade coletiva

Presidência da República Casa Civil Secretaria de Administração Diretoria de Gestão de Pessoas Coordenação Geral de Documentação e Informação

COMO MINIMIZAR AS DÍVIDAS DE UM IMÓVEL ARREMATADO

O momento do gol. Parece muito fácil marcar um gol de pênalti, mas na verdade o espaço que a bola tem para entrar é pequeno. Observe na Figura 1:

Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?

Regras Métodos Identificadores Variáveis Constantes Tipos de dados Comandos de atribuição Operadores aritméticos, relacionais e lógicos

CHAIR DRYDEN: Continuemos, vamos passar ao último tema do dia. Ainda temos 30 minutos.

Eventos independentes

COMISSÃO DE TRABALHO, DE ADMINISTRAÇÃO E SERVIÇO PÚBLICO PROJETO DE LEI Nº 4.481, DE 2012 VOTO EM SEPARADO DO DEPUTADO ROBERTO SANTIAGO

3ª LIÇÃO - AS 4 LEIS ESPIRITUAIS

To Be. Present Simple. You are (você é / está) He / she / it is (Ele ela é / está)(*) We were (Nos éramos / estávamos) You are (Voces são / estão)

Unidade 3: Acampamento Balaio

RELATÓRIO DE AVALIAÇÃO DE PORTUGAL 5º CICLO CRIMINALIDADE FINANCEIRA E INVESTIGAÇÕES FINANCEIRAS

Bem-vindo ao Inspector Stone uma produção da BBC Learning. Vamos começar o espetáculo.

Terça-feira, 5 de Maio de 2015 I Série A Número 2. da Assembleia Nacional REUNIÃO DA 3.ª COMISSÃO ESPECIALIZADA PERMANENTE DE 4 DE MAIO DE 2015

RESOLUÇÃO DAS QUESTÕES DE RACIOCÍNIO LÓGICO-MATEMÁTICO

Conceitos Fundamentais de Qualidade de Software

Deus: Origem e Destino Atos 17:19-25

Módulo 8 Estudos de Caso 5 e 6

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

RESOLUÇÃO Matemática APLICADA FGV Administração

UMA ESPOSA PARA ISAQUE Lição 12

SOCIEDADE BRASILEIRA DE MATEMÁTICA MESTRADO PROFISSIONAL EM REDE NACIONAL PROFMAT

o hemofílico. Meu filho também será?

Título do TCC. Nome do Aluno

Como Fotografar as Estrelas

Get Instant Access to ebook Alemao Ver Falar PDF at Our Huge Library

atividades fora da escola escolaridade obrigatória inscrição agenda escolar escola gratuita dificuldades escola maternal associações de pais Ensino

Dicas para investir em Imóveis

Modelos de cartas. Índice. 1. Modelo de carta acompanhando um documento - Português. pág Modelo de carta acompanhando um documento - Inglês

Jimboê. Português. Avaliação. Projeto. 4 o ano. 4 o bimestre

Técnicas de Computação Paralela Capítulo III Design de Algoritmos Paralelos

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Nome: N.º: endereço: data: Telefone: PARA QUEM CURSA O 9 Ọ ANO EM Disciplina: MaTeMÁTiCa

6. Programação Inteira

Transcrição:

Extracção de Recursos de Tradução com base na Alberto Manuel Brandão Simões ambs@di.uminho.pt Orientação José João Almeida Simpósio Doutoral da Linguateca 2007b

definição Em (Green, 1979) é definida a Marker Hypothesis, uma restricção psicolinguística na estrutura gramatical de ĺınguas naturais; Esta hipótese conjectura que todas as ĺınguas naturais têm a sua estrutura gramatical marcada (ou delimitada) por um conjunto fechado de lexemas ou morfemas. Este conjunto contém habitualmente preposições, pronomes, locuções, artigos, determinantes e alguns advérbios. Tem vindo a ser usada para a divisão em segmentos que em muitos casos se aproximam a sintagmas. Chunker básico e razoavelmente eficaz.

exemplo O João passou toda a tarde a brincar com os colegas. O João passou toda a tarde a brincar com os colegas. (O João passou) (toda a tarde) (a brincar) (com os colegas.)

exemplo O João passou toda a tarde a brincar com os colegas. O João passou toda a tarde a brincar com os colegas. (O João passou) (toda a tarde) (a brincar) (com os colegas.)

exemplo O João passou toda a tarde a brincar com os colegas. O João passou toda a tarde a brincar com os colegas. (O João passou) (toda a tarde) (a brincar) (com os colegas.)

para quê? Permite segmentar frases de forma eficaz: pelo menos na ĺıngua portuguesa e inglesa; algoritmo mais rápido do que chunkers habituais; Segmentação com alguma informação sintáctica: contrapor com os exemplos obtidos de forma ad-hoc ; Estruturalmente ricos: permitem a extracção de sub-relacionamentos de forma simples; Possibilidade de colaboração com peritos na área...

para quê? Permite segmentar frases de forma eficaz: pelo menos na ĺıngua portuguesa e inglesa; algoritmo mais rápido do que chunkers habituais; Segmentação com alguma informação sintáctica: contrapor com os exemplos obtidos de forma ad-hoc ; Estruturalmente ricos: permitem a extracção de sub-relacionamentos de forma simples; Possibilidade de colaboração com peritos na área...

para quê? Permite segmentar frases de forma eficaz: pelo menos na ĺıngua portuguesa e inglesa; algoritmo mais rápido do que chunkers habituais; Segmentação com alguma informação sintáctica: contrapor com os exemplos obtidos de forma ad-hoc ; Estruturalmente ricos: permitem a extracção de sub-relacionamentos de forma simples; Possibilidade de colaboração com peritos na área...

para quê? Permite segmentar frases de forma eficaz: pelo menos na ĺıngua portuguesa e inglesa; algoritmo mais rápido do que chunkers habituais; Segmentação com alguma informação sintáctica: contrapor com os exemplos obtidos de forma ad-hoc ; Estruturalmente ricos: permitem a extracção de sub-relacionamentos de forma simples; Possibilidade de colaboração com peritos na área...

lista de marcas A lista inglesa: foi oferecida por Andy Way (MaTrEx); A lista portuguesa: foi trabalho de estágio de um aluno (LEA); most maior; maioria much muito my meu; minha; meus; minhas near; nearby perto; próximo; quase neither tão-pouco; também não next seguinte; próximo; próxima nigh próximo now agora; uma vez que; considerando que of de; por; em on em; sobre; em cima de; de; relativa once desde que; uma vez que; se one um; uma only apenas; todavia; mas; contudo or ou; se não other outro; outra; outras; outros our nosso; nossa; nossos; nossas ours o nosso; a nossa; os nossos; as nossas over sobre; em cima de; por cima de owing to devido a: por consequência de; por causa de own próprio; ser proprietário past por; para além disso; fora de per por; através de; por meio de; devido a acção de such este; esse; aquele; isto; aquilo that aquele; aquela; aquilo; esse; essa; isso;... the o; a; os; as

exemplos de segmentos 34 137 da comissão 13 566 and gentlemen 17 277 do conselho 11 466 the commission 16 891 da união europeia 11 079 in order 11 379 em matéria 9 182 to make 9 880 de trabalho 8 712 to be 9 850 da união 8 356 to do 9 479 no sentido 7 992 of the european union 8 465 da europa 7 941 of the committee 8 454 da ue 7 814 to say 8 004 do parlamento 7 574 with regard 5 332 em primeiro lugar 7 814 to say 3 245 no que diz respeito 7 574 with regard 2 214 para o desenvolvimento 3 749 in the european union total de 3 070 398 segmentos total de 3 103 797 segmentos EuroParl

Produtividade... 815815 de 541197 to 557697, 471332 the 468409 a 440903 of 352064 da 400417, 297634 do 370161 and 232629 e 252298 of the 197922 que 214191 in 196801 o 152164 a 178537 em 131225 in the 156299 dos 112446 for [...] 105992 that 35394 para a 92180 on 33079 que o 91033 to the 32213 de um 78264 we 31539 nos 70578 on the 31492 muito 67805 this 30805 às 65092 that the Total de 243 242 marcas Total de 198 050 marcas

Segmentação Bilingue exemplo this decision shall take effect on 16 september 1999. a presente decisão produz efeitos em 16 de setembro de 1999. this decision shall take effect on 16 september 1999. a presente decisão produz efeitos em 16 de setembro de 1999. (this decision shall take effect) (on 16 september 1999.) (a presente decisão produz efeitos) (em 16) (de setembro) (de 1999.)

Segmentação Bilingue exemplo this decision shall take effect on 16 september 1999. a presente decisão produz efeitos em 16 de setembro de 1999. this decision shall take effect on 16 september 1999. a presente decisão produz efeitos em 16 de setembro de 1999. (this decision shall take effect) (on 16 september 1999.) (a presente decisão produz efeitos) (em 16) (de setembro) (de 1999.)

Segmentação Bilingue exemplo this decision shall take effect on 16 september 1999. a presente decisão produz efeitos em 16 de setembro de 1999. this decision shall take effect on 16 september 1999. a presente decisão produz efeitos em 16 de setembro de 1999. (this decision shall take effect) (on 16 september 1999.) (a presente decisão produz efeitos) (em 16) (de setembro) (de 1999.)

Segmentação Bilingue motivação Número de segmentos não é necessáriamente o mesmo! É necessário alinhar segmentos! Tirar partido do trabalho já realizado! Dicionários Probabiĺısticos de Tradução!

Segmentação Bilingue motivação Número de segmentos não é necessáriamente o mesmo! É necessário alinhar segmentos! Tirar partido do trabalho já realizado! Dicionários Probabiĺısticos de Tradução!

Segmentação Bilingue motivação Número de segmentos não é necessáriamente o mesmo! É necessário alinhar segmentos! Tirar partido do trabalho já realizado! Dicionários Probabiĺısticos de Tradução!

Segmentação Bilingue motivação Número de segmentos não é necessáriamente o mesmo! É necessário alinhar segmentos! Tirar partido do trabalho já realizado! Dicionários Probabiĺısticos de Tradução!

Alinhamento Bilingue matrizes de alinhamento this decision shall take effect on 16 september 1999 a presente decisão produz a% b% efeitos em 16 c% d% de setembro e% f % de 1999 g% h% Como calcular as probabilidades de tradução? A probabilidade de s α e s β serem traduções mútuas? A probabilidade de a tradução de s β estar contida em s α. (com s α > s β )

Alinhamento Bilingue matrizes de alinhamento this decision shall take effect on 16 september 1999 a presente decisão produz a% b% efeitos em 16 c% d% de setembro e% f % de 1999 g% h% Como calcular as probabilidades de tradução? A probabilidade de s α e s β serem traduções mútuas? A probabilidade de a tradução de s β estar contida em s α. (com s α > s β )

Alinhamento Bilingue matrizes de alinhamento this decision shall take effect on 16 september 1999 a presente decisão produz a% b% efeitos em 16 c% d% de setembro e% f % de 1999 g% h% Como calcular as probabilidades de tradução? A probabilidade de s α e s β serem traduções mútuas? A probabilidade de a tradução de s β estar contida em s α. (com s α > s β )

Alinhamento Bilingue algoritmo 1 2 3 4 5 6 7 Sejam s α e s β dois segmentos tal que s α < s β. Data: Sejam s α e s β dois segmentos, na ĺıngua L α e L β respectivamente, tal que s α < s β e, D α,β o dicionário probabiĺıstico de tradução entre essas ĺınguas. function quality(dic, Set 1, Set 2 ) Soma 0 for w α Set 1 do Trads wα T dic (w α) for w β Trads wα do if w β Set 2 then Soma Soma + P `w β Trads wα Soma 8 return size(set 1 ) 9 end ProbMarcas quality(d α,β, marcas (s α), marcas `s 10 β ) ProbTexto quality(d α,β, texto (s α), texto `s 11 β ) 12 Prob 0.1 ProbMarcas + 0.9 ProbTexto

Alinhamento Bilingue matrizes de alinhamento this decision shall take effect on 16 september 1999 a presente decisão produz 23.18% 5.86% efeitos em 16 0.00% 76.41% de setembro 0.00% 85.60% de 1999 0.00% 84.10% a presente decisão produz efeitos this decision shall take effect em 16 de setembro de 1999 on 16 september 1999

Resultados (1:1) 36883 senhor presidente ==1:1== mr president 8633 senhora presidente ==1:1== madam president 3152 espero ==1:1== i hope 2931 gostaria ==1:1== i would like 2572 o debate ==1:1== the debate 2511 penso ==1:1== i think 2356 está encerrado ==1:1== is closed 1939 penso ==1:1== i believe 1932 muito obrigado ==1:1== thank 1852 em segundo lugar ==1:1== secondly 1808 gostaria ==1:1== i should like 1638 ) senhor presidente ==1:1== mr president 1524 há ==1:1== there 1423 infelizmente ==1:1== unfortunately 1346 creio ==1:1== i believe 1257 estou ==1:1== i 1249 finalmente ==1:1== finally 1210 a votaç~ao terá lugar amanh~a ==1:1== the vote will take place tomorrow 1193 em terceiro lugar ==1:1== thirdly 1104 ( aplausos ==1:1== ( applause 1069 e senhores deputados ==1:1== and gentlemen 1067 em primeiro lugar ==1:1== firstly 1021 ( o parlamento aprova ==1:1== ( parliament adopted 926 na europa ==1:1== in europe

Resultados (1:2) 602, caros colegas ==1:2==, commissioner and gentlemen 252 caros colegas ==1:2== ladies and gentlemen 170, senhor comissário ==1:2== you very much, commissioner 147 senhores deputados ==1:2== ladies and gentlemen 143 devo dizer ==1:2== i have to say 142 lamento ==1:2== i am sorry 105 congratulo-me ==1:2== i am pleased 95 estou convencido ==1:2== i am convinced 90 vamos agora proceder ==1:2== we shall now proceed 90 e senhores deputados ==1:2== ladies and gentlemen 90 agradeço ==1:2== i am grateful 85, senhoras ==1:2==, commissioner, ladies 82, senhores deputados ==1:2==, commissioner and gentlemen 79 e outros, em nome ==1:2== and others, on behalf 76 refiro-me ==1:2== i am referring 72 muito obrigado ==1:2== thank you very 71 congratulo-me ==1:2== i am glad 70 passamos agora ==1:2== we shall now proceed 66 n~ao há dúvida ==1:2== there is no doubt 62, senhora comissária ==1:2== you very much, commissioner 61 a votaç~ao terá lugar quinta-feira ==1:2== the vote will take place on thursday

Resultados (2:1) 986 segue-se na ordem ==2:1== the next item 324 ( a sess~ao, suspensa ==2:1== ( the sitting was suspended 230 ( o presidente retira a palavra ==2:1== ( the president cut 222 ( a sess~ao é suspensa ==2:1== ( the sitting was closed 187 senhor presidente, senhor presidente ==2:1== mr president 169 senhor presidente em exercício ==2:1== mr president-in-office 148 da sess~ao de ontem ==2:1== of yesterday s sitting 142 ( o parlamento aprova a acta ==2:1== ( the minutes were approved 138 dos assuntos económicos e monetários ==2:1== and monetary affairs 113 a proposta da comiss~ao ==2:1== the commission s proposal 113 a proposta da comiss~ao ==2:1== the commission proposal 106 período de perguntas ==2:1== question time 101, em nome, sobre a proposta ==2:1==, on behalf 100 dos direitos do homem ==2:1== of human rights 84 dos direitos da mulher ==2:1== on women s rights 72 da direita do hemiciclo ==2:1== from the right 67 por interrompida do parlamento europeu ==2:1== of the european parliament adjourned 67 É muito importante ==2:1== it is very important 67 da comiss~ao da comiss~ao ==2:1== of the committee 64 estamos a falar ==2:1== we are talking

Resultados (outros...) 363 segue-se na ordem a discuss~ao conjunta ==3:1== the next item 83 ( o presidente retira a palavra à oradora ==3:1== ( the president cut 59 segue-se na ordem do dia ==3:1== the next item 42 que recebi de resoluç~ao, apresentadas ==3:1== have received 39 de aplicaç~ao do processo de urg^encia ==3:1== for urgent procedure 36, de pé um minuto de sil^encio ==3:1== a minute s silence 32 está encerrado o período de perguntas ==3:1== that concludes question time 31 nos termos do artigo 37 o do regimento ==3:1== pursuant to rule 37 30 ( a sess~ao, suspensa às 15h00 ==3:1== ( the sitting was suspended 29 segue-se na ordem o período ==3:1== the next item 28 está encerrado o período de votaç~oes ==3:1== that concludes voting time 26 está encerrado o período de votaç~ao ==3:1== that Hipótese concludes das Palavras-Marca voting time

Segmentos Bilingues conclusões permite segmentação do português e do inglês em segmentos lógicos; É possível o alinhamento destes segmentos para extracção de relacionamentos bilingues; Mais de 4 milhões de segmentos 1:1 extraídos; Pouco mais de 2 milhões destes segmentos são diferentes; Um bug detectado leva a que: a qualidade baixe (exemplos com segmentos repetidos numa das ĺınguas); o número de segmentos diferentes aumente;

Trabalho Futuro Corrigir bug detectado ontem!! Associar categoria/tipo a cada marca. Agrupar exemplos por marcas e tipo de marcas: generalização de exemplos; extracção de terminologia/nominais; Avaliação dos exemplos por amostragem; Comparar o uso deste tipo de exemplos com os extraídos com base em âncoras;