O L I S S I P O (Omnis Latinitatis Instrumentum Secundum Scholarum Instructionis Propositum Ordinatum) OLISSIPO è un progetto comune di ricerca inserito negli accordi scientifici tra il Consiglio Nazionale delle Ricerche (CNR) e il Gabinete de Relações Internacionais da Ciência E Ensino Superior (GRICES). OLISSIPO è uno strumento per l estrazione e l analisi statistica di un vocabolario di base del latino
2
pulsanti scelta funzioni 1 2 3 4 5 6 7 8 1 - seleziona il testo: serve per scegliere il testo da analizzare; 2 - analisi: per effettuare le elaborazioni del testo scelto; 3 - risultati: per visualizzare i risultati dell elaborazione; 4 - ricerca per forma: per effettuare ricerche nel testo utilizzando la forma; 5 - ricerca per lemma: per effettuare ricerche nel testo utilizzando il lemma; 6 - statistiche: visualizza le semplici statistiche fornite dal programma; 7 - lessico: serve per modificare le informazioni contenute nella base di dati; 8 - vocabolario basico: serve per aggiornare il vocabolario basico. 3
finestra analisi Consulta un formario costituito da circa 1800 entrate corrispondenti alla lista di lemmi compresi in Habestein et al. (1970) e a quelli con più di sessanta occorrenze presenti nello studio statistico di Delatte et al. (1981). è possibile scegliere un proprio formario si possono visualizzare i risultati sullo schermo per un primo controllo si può utilizzare il programma di etichettatura morfologica LEMLAT in modalità interattiva. 4
ricerca per forma 5
Colorazione degli elementi basici della frase 6
statistiche 7
creazione e aggiornamento vocabolario basico 8
L analizzatore morfologico per il latino LEMLAT Sviluppo e prospettive
Progetto CHLT Finanziato dalla CE e dalla NSF USA Fine: sviluppo di strumenti computazionali per la gestione e la fruizione di dati linguistici relativi all eredità culturale europea (digital libraries) Workpackage 5. ILC CNR, Pisa Fine: analizzatore morfologico del latino Mezzo: analizzatore LEMLAT; sviluppo di nuove funzioni 10
LEMLAT Brevetto C.N.R. ILC Università di Torino Andrea Bozzi, Giuseppe Cappelli, Nino Marinone
La base lessicale di LEMLAT Dizionari collazionati Georges Gradenwitz Oxford Latin Dictionary Numero di entrate: 64218 LES (parte invariabile di una forma flessa) 12
L analisi morfologica di LEMLAT 13
Lo sviluppo di LEMLAT
Cosa bisogna fare Aggiungere sull output Nuove informazioni morfologiche aquai LEMLAT: aqu-ai (forma segm.), aqua (lemma), n1 (COD LEM) CHLT LEMLAT: aqua (lemma) Common, Noun, I Decl., Gen., Sing., Fem. Nuove informazioni stilistiche e storico-linguistiche aquai CHLT LEMLAT: aqua (lemma) Common, Noun, I Decl., Gen., Sing., Fem., Poetic., Arch. 15
Come facciamo Segmentazione della parola Codifica degli elementi costitutivi della parola (LES, SM, SF) come portatori delle informazioni morfologiche Esempio Input: rosam Segmentazione: ros-am LES: ros n1, (femminile) SF: am N1 acc., sing. Output: rosa (lemma); nome comune, I decl., acc., sing., femm. 16
Posizioni dei codici e attributi ====== ================== Code P ATTRIBUTE ====== ================== 1 PoS 2 Type 3 Flexive Category 4 Mood 5 Tense 6 Case 7 Gender 8 Number 9 Person 10 Degree 17
Terza posizione: valori e codici = ===================== ===================== = P ATTRIBUTE VALUE C = ===================== ===================== = 3 Flexive Category I decl. A II decl. B III decl. C IV decl. D V decl. E I conjug. F II conjug. G III conjug. H IV conjug. L Conjug e/i M Exceptional Conjug. N No Flexive Category - 18
Esempi di codifica di SF a n1 NcA--bfs-- ros-a a n1 NcA--bms-- pirat-a a n1 NcA--nfs-- ros-a a n1 NcA--nms-- pirat-a a n1 NcA--vfs-- ros-a a n1 NcA--vms-- pirat-a a n1e NcA--bfs-- plastic-a a n1e NcA--bms-- poet-a a n1e NcA--nfs-- plastic-a a n1e NcA--nms-- poet-a a n1e NcA--vfs-- plastic-a a n1e NcA--vms-- poet-a abus n1e NcA--bfp-- de-abus abus n1e NcA--dfp-- de-abus 19
L attuale analisi morfologica di LEMLAT http://webilc.ilc.cnr.it/~ruffolo/ 20
21
Prospettive Disambiguatore sintattico delle omografie (LECTIO) Latin Lexical Database Analizzatore della struttura metrica Modulo in una postazione filologica multimodulare per edizioni critiche digitali Famiglie morfologiche e semantiche 22
Lectio (2003-2005) Centro de Estudos Clássicos (Univ. de Lisboa) Istituto di Linguistica Computazionale (CNR-Pisa) Financiamento: FCT, Programa Alfa Data de início: 1 de Fevereiro de 2003 23
Lematizador automático da língua latina anexo a uma base de dados contendo informação lexical e outra. Extracção e disponibilização de listagens de vocabulário básico a partir de qualquer texto latino. Módulo de estatísticas por categoria morfológica configurável pelo utilizador. Visualização do texto e possibilidade de pesquisa de ocorrências por forma ou por sequência de caracteres, com busca de palavra/ lema no texto. Gerador de concordâncias de configuração a definir pelo utilizador. Corpus de referência de autores hispânicos mediolatinos de interesse 24 para o actual território português
Os princípios básicos serão: 1. Multifuncionalidade. A aplicação destinar-se-á tanto à investigação, como ao ensino/aprendizagem (docentes e discentes). 2. Modularidade. Mediante os módulos pretendidos assim se adaptará às necessidades de cada utilizador. 3. Sistema aberto. O utilizador poderá configurar os níveis de informação proporcionados pela aplicação de acordo com as suas necessidades. 25
Resultado Final: Ferramenta assumidamente aberta, com a qual o utilizador possa elaborar as suas próprias análises textuais e estatísticas dos textos, reformular ou mesmo reconstituir a base de dados lexicais proposta, estabelecer os seus próprios elementos extra-linguísticos e ampliar o corpus de referência. 26