@INPROCEEDINGS{BIFFI_2026_INPROCEEDINGS_BCFGMS_580341, AUTHOR = {Biffi, M. and Cucurullo, S. and Favaro, M. and Guadagnini, E. and Montemagni, S. and Sassolini, E.}, TITLE = {From Print to Digital and Beyond: The Retrodigitization of a Historical Dictionary of Italian as a Hybrid Lexical Resource}, YEAR = {2026}, ABSTRACT = {This paper presents the retrodigitization project of the Grande Dizionario della Lingua Italiana (GDLI), the largest historical dictionary of the Italian language. The GDLI’s 23, 000 pages-originally designed for human consultation-constitute an exceptional repository of linguistic and cultural-historical information, while posing significant challenges to large-scale digitization and data structuring. The project, still ongoing, will result in the development of a set of interoperable and interlinked resources: (i) a TEI-XML edition of the dictionary text, encoding its complex lexicographic structure; (ii) an annotated corpus of the quoted examples, enabling linguistic and historical research across centuries; and (iii) a database of quoted authors and works. Together, these components form a hybrid lexical resource that establishes the foundations for innovative and advanced modes of accessing and exploring the rich and multifaceted content of this historical dictionary}, KEYWORDS = {Historical Dictionary, Retro-digitization, Knowledge Organization, e-Lexicography}, PAGES = {770-777}, DOI = {10.63317/338howsz93sg}, PUBLISHER = {European Language Resources Association (ELRA)}, ISBN = {9782493814494}, BOOKTITLE = {Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026)}, } @INPROCEEDINGS{FAVARO_2026_INPROCEEDINGS_FGSBM_580324, AUTHOR = {Favaro, M. and Guadagnini, E. and Sassolini, E. and Biffi, M. and Montemagni, S.}, TITLE = {When Lexicographic Quotations Become a Corpus: To Deduplicate or Not to Deduplicate?}, YEAR = {2026}, ABSTRACT = {Historical dictionaries are increasingly reused as sources for diachronic language corpora. In this context, lexicographic quotations represent a valuable yet challenging type of data, as they are both editorially curated and diachronically representative. A major issue in their computational reuse is the presence of duplicate and nearduplicate quotations. This paper addresses quotation deduplication in corpora derived from lexicographic resources. We introduce QRD (Quotation Reuse Detection), a multi-stage pipeline designed to identify, compare, and cluster quotations based on graded similarity rather than binary matching. The approach combines string-based similarity measures, iterative threshold analysis, and clustering, enabling both quantitative and qualitative investigation of quotation reuse. Our results show that deduplication in this context cannot be reduced to the automatic elimination of redundant data. The variability observed in the quotations-ranging from OCR-related noise to substantial editorial variation-reflects both technical and structural factors and calls for a more nuanced approach. QRD supports the identification of OCR-related errors and reveals patterns of textual reuse underlying the compilation of the dictionary. We argue that quotation deduplication should be conceived primarily as a task of identification and clustering. This perspective reframes deduplication from a data-cleaning operation into an analytical methodology for historically and editorially curated textual resources}, KEYWORDS = {Historical Corpora, Text Deduplication, Data Matching Process, Historical Lexicography}, PUBLISHER = {ELRA Language Resources Association}, ISBN = {9782493814586}, BOOKTITLE = {Fourth Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA 2026) @ LREC 2026}, } @INPROCEEDINGS{CININI_2025_INPROCEEDINGS_CMSM_579507, AUTHOR = {Cinini, A. and Marongiu, P. and Sassolini, E. and Monachini, M.}, TITLE = {Preserving Preserving and enhancing cultural heritage: the Digest project}, YEAR = {2025}, ABSTRACT = {Valorizzare e custodire il patrimonio culturale: alla scoperta del progetto Digesto. Il contributo vuole discutere delle attivita connesse alla salvaguardia e alla valorizzazione di corpora testuali di valore storicoculturale prodotti in un lungo arco temporale. Analizzeremo le problematiche legate al progresso delle tecnologie utilizzate per la creazione/elaborazione dei dati che sono mutate nel tempo, nonche l'arduo passaggio dai formati proprietari a quelli standard per una migliore condivisione e interoperabilita dei dati. Infine, descriveremo la non facile transizione verso paradigmi di dati aperti e i passaggi necessari per migrare i dati verso infrastrutture di ricerca internazionali. In particolare, descriveremo le fasi del progetto di traduzione del Digesto di Giustiniano che hanno richiesto il supporto tecnologico del nostro gruppo di ricerca, e come questo contributo e cambiato di pari passo con il progresso tecnologico. Vogliamo offrire alla comunita DH un punto di vista reale sull'evoluzione della digitalizzazione/informatizzazione di grandi risorse testuali. Nel caso specifico, discuteremo del supporto alla traduzione specializzata dal latino all'italiano con strumenti di analisi testuale, e della trasformazione dei testi originali e tradotti in un corpus bilingue parallelo; di come questo e stato convertito in formato XML TEI; infine, delle operazioni necessarie al deposito dei dati all'interno dell'infrastruttura di ricerca CLARIN}, KEYWORDS = {texts corpora, standard TEI format, digital preservation, corpora testuali, standard TEI, preservazione digitale}, PAGES = {600-607}, URL = {https://amsacta.unibo.it/id/eprint/8380/}, DOI = {10.6092/unibo}, PUBLISHER = {AIUCD (ITA)}, ISBN = {978-88-942535-9-7}, CONFERENCE_NAME = {Diversità, Equità e Inclusione: Sfide e Opportunità per l’Informatica Umanistica nell’Era dell’Intelligenza Artificiale}, CONFERENCE_PLACE = {ITA}, BOOKTITLE = {Diversità, Equità e Inclusione: Sfide e Opportunità per l’Informatica Umanistica nell’Era dell’Intelligenza Artificiale, Proceedings del XIV Convegno Annuale AIUCD, Verona 11-13 giugno 2025, Università di Verona}, EDITOR = {Rebora, S. and Rospocher, M. and Bazzaco, S.}, } @INPROCEEDINGS{CUCURULLO_2025_INPROCEEDINGS_CMSS_571181, AUTHOR = {Cucurullo, S. and Montemagni, S. and Saccoccio, R. and Sassolini, E.}, TITLE = {The Challenge of Obsolescence of Digital Archives in Cultural Heritage. A Case Study}, YEAR = {2025}, ABSTRACT = {This paper addresses the challenges of format, font, and software obsolescence, with a particular emphasis on cultural heritage archives. While technological impermanence is intrinsic to the digital domain, it poses serious risks to the accessibility and long-term preservation of humanities data. Focusing on intangible cultural heritage—specifically, dialect data—we explore both the problems and opportunities associated with the FAIRification of legacy resources. A case study of the Atlante Lessicale Toscano (ALT), a dialectal lexical atlas of Tuscany originally published as a digital archive in 2000, illustrates how painstakingly collected linguistic data can be transformed into sustainable, interoperable formats that ensure long-term usability and scholarly value}, KEYWORDS = {Humanities, Technological innovation, Relational databases, Linguistics, Cultural differences, Usability, Interoperability, Representation Standards, dialectal resources, digital obsolescence, FAIR data, heritage preservation}, PAGES = {506-512}, URL = {https://xplorestaging.ieee.org/document/11224142}, DOI = {10.1109/CiSt65886}, PUBLISHER = {IEEE (MAR)}, ISBN = {979-8-3315-4384-6}, CONFERENCE_NAME = {2025 IEEE 8th Congress on Information Science and Technology (CiSt)}, CONFERENCE_PLACE = {MAR}, BOOKTITLE = {Proceedings of the IEEE 8th Congress on Information Science and Technology (CiSt) 2025}, } @ARTICLE{BIFFI_2024_ARTICLE_BGMS_550304, AUTHOR = {Biffi, M. and Guadagnini, E. and Montemagni, S. and Sassolini, E.}, TITLE = {La stampa periodica citata nel GDLI: il rapporto tra voci e indice bibliografico e le prospettive per il dizionario strutturato}, YEAR = {2024}, ABSTRACT = {L’elemento caratterizzante del Grande dizionario della lingua italiana (GDLI) è il ricchissimo apparato degli esempi, allegati per documentare gli impieghi di ogni voce nel corso dei secoli: ne fanno parte anche passi estratti dalla stampa periodica, in una quantità che tende ad aumentare sensibilmente nella seconda metà del vocabolario. Questo contributo si articola in due parti: da un lato, saranno discussi metodi, risultati e prospettive per il collegamento – nella versione informatizzata del GDLI – tra gli esempi citati nelle voci e l’Indice degli autori citati e per il trattamento dei citati non indicizzati; d’altro canto, saranno presentati i primi risultati dell’analisi delle stringhe bibliografiche che occorrono nella sezione degli esempi (che sono state estratte automaticamente dalla prima versione digitale strutturata del dizionario), con riferimento alla stampa periodica}, KEYWORDS = {Lessicografia, Digital Humanities}, PAGES = {267-294}, URL = {https://iris.cnr.it/handle/20.500.14243/550304}, VOLUME = {41}, ISSN = {0392-5218}, JOURNAL = {STUDI DI LESSICOGRAFIA ITALIANA}, } @ARTICLE{BIFFI_2023_ARTICLE_BGMS_454366, AUTHOR = {Biffi, M. and Guadagnini, E. and Montemagni, S. and Sassolini, E.}, TITLE = {Il lemmario del «GDLI»: dati quantitativi e prime osservazioni}, YEAR = {2023}, ABSTRACT = {Dopo la realizzazione della versione elettronica del solo testo del "Grande dizionario della lingua italiana" (GDLI), si è avviato un progetto di graduale informatizzazione della sua struttura. Questo articolo ne presenta il primo risultato, vale a dire l'estrazione automatica del lemmario che è così per la prima volta quantificabile e individuabile. Una prima parte del testo è dedicata all'illustrazione della strutturazione dei contenuti del dizionario e la loro rappresentazione secondo standard internazionalmente riconosciuti (XML-TEI); la seconda presenta una prima elaborazione dei dati del lemmario estratto; la terza propone una prima analisi comparativa con i lemmari di altri dizionari della lingua italiana}, KEYWORDS = {Lessicografia, Lessicografia digitale, Lessicografia storica}, PAGES = {331-351}, URL = {https://accademiadellacrusca.it/it/riviste/articoli/slei-xl-2023/8679}, VOLUME = {40}, ISSN = {0392-5218}, JOURNAL = {STUDI DI LESSICOGRAFIA ITALIANA}, } @INPROCEEDINGS{FAVARO_2023_INPROCEEDINGS_FSCH_499985, AUTHOR = {Favaro, M. and Sassolini, E. and Cinini, A. and Haines, M.}, TITLE = {Un futuro digitale per gli archivi de ‘Gli Anni della Cupola’}, YEAR = {2023}, ABSTRACT = {L’articolo si inserisce tra le iniziative di recupero, salvaguardia e valorizzazione di archivi digitali conservati in formati non standard che l’Istituto di Linguistica Computazionale “A. Zampolli” sta promuovendo da alcuni anni con diverse strategie legate alla natura delle risorse testuali trattate [8, 9 e 10]. In queste iniziative l’istituto offre inoltre la possibilità di depositare gli output sull’infrastruttura internazionale CLARIN1, al fine di garantirne la preservazione a lungo termine e la divulgazione. In questo particolare caso sono discussi i metodi, le criticità e le strategie di conversione di dati digitali strutturati e codificati con un sistema software proprietario, in un nuovo formato di rappresentazione in linea con gli standard internazionali TEI. Il contenuto è costituito dall’edizione completa delle fonti amministrative conservate presso l’Opera di Santa Maria del Fiore di Firenze relative al periodo dal 1417 al 1436 quando fu progettata e costruita la Cupola di Brunelleschi. L’intervento intende proporre una riflessione metodologica sulla standardizzazione di edizioni digitali obsolete, la conservazione a lungo termine e sulle problematiche legate alla condivisione dei dati con la comunità scientifica. Gli archivi hanno infatti un interesse multidisciplinare, non solo per le informazioni storiche e artistiche che vi sono contenute, ma anche per le peculiarità che riguardano la lingua in cui gli atti originali sono stati redatti: una delle più antiche e autentiche attestazioni del volgare fiorentino, usato non con intenti letterari, ma pratici. Il processo di conversione riguarda tutti i materiali digitali, sia i metadati inseriti manualmente durante la preparazione dei testi, sia il contenuto originale degli atti, e mira a rappresentare opportunamente l’edizione digitale dei testi, ma vuole anche conservare l’apparato critico predisposto dai redattori che correda le schede di voci analitiche sulle quali si basano le funzioni di ricerca all’epoca realizzate}, KEYWORDS = {Digital Humanities, TEI mapping, corpora, knowledge discovery, knowledge representation}, PAGES = {78-84}, URL = {https://amsacta.unibo.it/id/eprint/7721/}, DOI = {10.6092/unibo/amsacta/7721}, PUBLISHER = {AIUCD-Associazione per l'informatica umanistica e la cultura digitale (SIENA, ITA)}, ISBN = {9788894253573}, CONFERENCE_NAME = {XII Convegno Annuale AIUCD: La memoria digitale}, CONFERENCE_PLACE = {SIENA}, BOOKTITLE = {La memoria digitale: forme del testo e organizzazione della conoscenza. Atti del XII Convegno Annuale AIUCD}, EDITOR = {Carbé, E.}, } @ARTICLE{BIFFI_2022_ARTICLE_BDFGMS_458632, AUTHOR = {Biffi, M. and De Blasi, F. and Favaro, M. and Guadagnini, E. and Montemagni, S. and Sassolini, E.}, TITLE = {Parole in rete / reti di parole. Possibili impieghi didattici dei grandi vocabolari storici digitalizzati}, YEAR = {2022}, ABSTRACT = {After a brief presentation of the great historical dictionaries of Italian, which are freeto use online thanks to the digitalisation work carried out by the Accademia dellaCrusca, the contribution offers a number of examples of how these tools can be usedfor educational purposes. Finally, further didactic uses are described, which will bemade possible thanks to the advanced digital tools that the Accademia della Cruscaand the Istituto di Linguistica Computazionale "Antonio Zampolli" del Consiglio Nazionaledelle Ricerche (ILC) are currently working on}, KEYWORDS = {Lessicografia italiana, Didattica dell'italiano, Lessicografia digitale}, PAGES = {143-188}, URL = {https://italianoascuola.unibo.it/article/view/14866}, VOLUME = {4}, DOI = {10.6092/issn.2704-8128/14866}, ISSN = {2704-8128}, JOURNAL = {ITALIANO A SCUOLA}, } @INPROCEEDINGS{FAVARO_2022_INPROCEEDINGS_FGSBM_533922, AUTHOR = {Favaro, M. and Guadagnini, E. and Sassolini, E. and Biffi, M. and Montemagni, S.}, TITLE = {Towards the Creation of a Diachronic Corpus for Italian: a Case Study on the GDLI Quotations}, YEAR = {2022}, ABSTRACT = {In this paper we describe some experiments related to a corpus derived from an authoritative historical Italian dictionary, namely the Grande dizionario della lingua italiana (‘Great Dictionary of Italian Language’, in short GDLI). Thanks to the digitization and structuring of this dictionary, we have been able to set up the first nucleus of a diachronic annotated corpus that selects—according to specific criteria, and distinguishing between prose and poetry—some of the quotations that within the entries illustrate the different definitions and sub-definitions. In fact, the GDLI presents a huge collection of quotations covering the entire history of the Italian language and thus ranging from the Middle Ages to the present day. The corpus was enriched with linguistic annotation and used to train and evaluate NLP models for POS tagging and lemmatization, with promising results}, KEYWORDS = {Diachronic Corpus, Adaptation of Annotation Tools, Historical Dictionaries}, PAGES = {94-100}, URL = {http://www.lrec-conf.org/proceedings/lrec2022/workshops/LT4HALA/pdf/2022.lt4hala2022-1.13.pdf}, PUBLISHER = {European Language Resources Association (ELRA) (Paris, FRA)}, ISBN = {979-10-95546-78-8}, CONFERENCE_NAME = {2nd Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA 2022)}, CONFERENCE_PLACE = {Paris}, BOOKTITLE = {Proceedings of the 2nd Workshop on Language Technologies for Historical and Ancient Languages}, EDITOR = {Sprugnoli, R. and Passarotti, M.}, } @INPROCEEDINGS{SASSOLINI_2021_INPROCEEDINGS_SBDGM_401787, AUTHOR = {Sassolini, E. and Biffi, M. and De Blasi, F. and Guadagnini, E. and Montemagni, S.}, TITLE = {La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo?}, YEAR = {2021}, ABSTRACT = {In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile}, KEYWORDS = {dizionari digitali, risorse linguistiche, estrazione dell'informazione, correzione del testo post OCR}, PAGES = {159-166}, URL = {https://aiucd2021.labcd.unipi.it/wp-content/uploads/2021/05/AIUCD2021_BOA-versione3A.pdf}, DOI = {10.6092/unibo/amsacta/6712}, ISBN = {9788894253559}, CONFERENCE_NAME = {AIUCD 2021-DH per la società: e-guaglianza, partecipazione, diritti e valori nell'era digitale}, } @INPROCEEDINGS{SASSOLINI_2020_INPROCEEDINGS_SB_401784, AUTHOR = {Sassolini, E. and Biffi, M.}, TITLE = {Strategie e metodi per il recupero di dizionari storici}, YEAR = {2020}, ABSTRACT = {The article describes ongoing work on the digitization of an authoritative and historically important Italian dictionary, namely Il Grande Dizionario della Lingua Italiana (GDLI) of S. Battaglia, with a focus on the stages of the conversion of this text into structured digital data. We report on the preliminary results of a collaboration between the Accademia della Crusca and Istituto di Linguistica Computazionale "A. Zampolli", which aims to extract the contents of the GDLI to convert them into structured digital data for human use, and/or to be integrated with other language resources, both dictionaries and corpora. The extraction process is articulated on the one hand in the definition of data extraction procedures, on the other hand in the adoption of strategies aimed at supporting the correction of errors}, KEYWORDS = {Archivi digitali, recupero e conservazione, estrazione dell'informazione}, PAGES = {235-239}, URL = {https://iris.cnr.it/handle/20.500.14243/401784}, DOI = {10.6092/unibo/amsacta/6316}, ISBN = {978-88-942535-4-2}, CONFERENCE_NAME = {IX Convegno annuale AIUCD: LA SVOLTA INEVITABILE: SFIDE E PROSPETTIVE PER L'INFORMATICA UMANISTICA}, } @INPROCEEDINGS{SASSOLINI_2019_INPROCEEDINGS_SFBMM_389211, AUTHOR = {Sassolini, E. and Fahad Khan, A. and Biffi, M. and Monachini, M. and Montemagni, S.}, TITLE = {Converting and structuring a digital historical dictionary of Italian: a case study}, YEAR = {2019}, ABSTRACT = {The paper describes ongoing work on the digitization of an authoritative historical Italian dictionary, namely Il Grande Dizionario della Lingua Italiana (GDLI), with a specific view to creating the prerequisites for advanced human-oriented querying. After discussing the general approach taken to extract and structure the GDLI contents, in the paper we report the encouraging results of a case study carried out against two volumes which have been selected for the different conversion issues raised. Dictionary content extraction and structuring is being carried out through an iterative process based on hand coded patterns: starting from the recognition of the entry headword, a series of truth conditions are tested which allow the building and progressive structuring, in successive steps, of the whole lexical entry. We also started to design the representation of extracted and structured entries in a standard format, encoded in TEI. An outline of an example entry is also provided and illustrated in order to show what the end result will look like}, URL = {https://iris.cnr.it/handle/20.500.14243/389211}, } @INPROCEEDINGS{SASSOLINI_2017_INPROCEEDINGS_SCC_335238, AUTHOR = {Sassolini, E. and Cucurullo, S. and Cinini, A.}, TITLE = {I corpora digitali: dall'obsolescenza tecnologica, alla salvaguardia e alla condivisione}, YEAR = {2017}, ABSTRACT = {Studio e implementazione di un protocollo di recupero, conservazione e valorizzazione di testi e corpora digitali interessati da problemi di obsolescenza tecnologica. Le strategie di salva-guardia adottate si spingono oltre il salvataggio dei testi e la conservazione in un formato di rappresentazione in linea con gli standard internazionali (XML TEI), si pongono come obiettivo la valorizzazione di questo patrimonio attraverso nuove modalità di fruizione dei contenuti. Lo scopo è affiancare le funzionalità classiche di analisi testuale, che da sempre caratterizzano le nostre attività di ricerca, a nuove modalità grafiche e visuali di fruizione dei dati e, in alcuni casi, migrare verso dispositivi mobili e tecnologie App. In questo articolo, oltre al protocollo di recupero, presentiamo due sperimentazioni di valorizzazione di contenuti testuali. Nel primo caso proponiamo tecniche di visual analytics applicate ad un corpus testuale semi strutturato riguardante corrispondenza redatta in lingua italiana del 1600. Nel secondo caso abbiamo realizzato un'applicazione per sistema Android finalizzata all'interrogazione di dati testuali relativi ad un progetto di censimento di architetture moderne della regione Liguria}, KEYWORDS = {Testi digitali, Analisi testuale, Preservazione dei dati, Diffusione dei risultati}, PAGES = {31-35}, URL = {https://www.garr.it/it/documenti/3529-conferenza-2016-selected-papers-sassolini-et-al/file}, DOI = {10.26314/GARR-Conf16-proceeedings-06}, PUBLISHER = {Consortium GARR (Roma, ITA)}, ISBN = {978-88-905077-6-2}, CONFERENCE_NAME = {Conferenza GARR 2016-The CreActive Network}, CONFERENCE_PLACE = {Roma}, } @INPROCEEDINGS{SASSOLINI_2017_INPROCEEDINGS_SC_335262, AUTHOR = {Sassolini, E. and Cinini, A.}, TITLE = {Approcci grafici all'analisi di corpora testuali}, YEAR = {2017}, ABSTRACT = {sperimentazioni finalizzate a combinare tecniche di "distant reading" e funzionalità classiche di Information Retrieval (IR) su dati testuali. Incrementare con sintesi grafiche e visuali l'offerta di strumenti di studio e di analisi dei dati testuali rappresenta una nuova frontiera del nostro ambito di ricerca consueto}, KEYWORDS = {analisi testuale, distant reading, visual analytics}, PAGES = {83-86}, URL = {http://aiucd2017.aiucd.it/wp-content/uploads/2017/01/book-of-abstract-AIUCD-2017.pdf}, CONFERENCE_NAME = {AIUCD 2017 Conference}, } @TECHREPORT{CININI_2017_TECHREPORT_CCS_373360, AUTHOR = {Cinini, A. and Cucurullo, S. and Sassolini, E.}, TITLE = {Rapporto Tecnico: Standardizzazione del corpus testuale del PRIN Crusca}, YEAR = {2017}, ABSTRACT = {Attività previste nella convenzione operativa tra ILC-CNR e Accademia della Crusca che riguardano la progettazione e lo sviluppo di una piattaforma Web modulare per l'archiviazione, la gestione e l'interrogazione di corpora testuali in lingua italiana, con funzionalità derivate dal DBT (Data Base Testuale) nelle sue diverse implementazioni. Il lavoro preliminare svolto riguarda anche la normalizzazione dei testi e la conversione nello standard di rappresentazione XML TEI}, KEYWORDS = {Codifica dei testi, Analisi testuale, formato XML TEI}, PAGES = {1-21}, URL = {https://iris.cnr.it/handle/20.500.14243/373360}, } @TECHREPORT{SASSOLINI_2017_TECHREPORT_SC_371867, AUTHOR = {Sassolini, E. and Cinini, A.}, TITLE = {DIGESTO: NUOVE FUNZIONALITÀ E SITO WEB}, YEAR = {2017}, ABSTRACT = {Realizzazione di un nuovo sito web per la consultazione dei testi bilingui, con sviluppo di nuove funzionalità di ricerca, non più solo per parola ma anche per Titolo, Frammento o Paragrafo. Realizzazione di una versione PDF scaricabile di parti ragionate dell'intero corpus}, KEYWORDS = {testi paralleli, sito web, analisi testuale, visual analytics}, PAGES = {1-12}, URL = {https://iris.cnr.it/handle/20.500.14243/371867}, } @ARTICLE{SASSOLINI_2016_ARTICLE_S_335259, AUTHOR = {Sassolini, E.}, TITLE = {Corpora digitali: dalla salvaguardia alla condivisione}, YEAR = {2016}, ABSTRACT = {Studio e sviluppo di metodi e tecniche che vanno nella direzione di una standardizzazione sia del formato dei file, in cui sono stati memorizzati i testi e/o la loro elaborazione software, con procedure di annotazione e arricchimento del testo; sia del set dei caratteri utilizzati in fase di digitalizzazione. L'obiettivo è recuperare il testo conservando tutte le preziose annotazioni che erano state oggetto di progetti e iniziative di ricerca. Data la grande varietà dei progetti ai quali ILC ha partecipato e mancando in passato un modello condiviso di rappresentazione delle varie caratteristiche contenute nei testi, i formati dei file trovati sono molto diversi. Il lavoro di recupero è divenuto quindi estremamente complesso. Parallelamente al recupero sono state attivate iniziative e strategie per la valorizzazione di questo patrimonio con l'intenzione di restituirlo alla comunità}, URL = {https://iris.cnr.it/handle/20.500.14243/335259}, ISSN = {2039-8271}, JOURNAL = {GARR NEWS}, } @INPROCEEDINGS{WIELING_2016_INPROCEEDINGS_WSCM_321018, AUTHOR = {Wieling, M. and Sassolini, E. and Cucurullo, S. and Montemagni, S.}, TITLE = {ALT Explored: Integrating an Online Dialectometric Tool and an Online Dialect Atlas}, YEAR = {2016}, ABSTRACT = {In this paper, we illustrate the integration of an online dialectometric tool, Gabmap, together with an online dialect atlas, the Atlante Lessicale Toscano (ALT-Web). By using a newly created url-based interface to Gabmap, ALT-Web is able to take advantage of the sophisticated dialect visualization and exploration options incorporated in Gabmap. For example, distribution maps showing the distribution in the Tuscan dialect area of a specific dialectal form (selected via the ALT-Web website) are easily obtainable. Furthermore, the complete ALT-Web dataset as well as subsets of the data (selected via the ALT-Web website) can be automatically uploaded and explored in Gabmap. By combining these two online applications, macro-and micro-analyses of dialectal data (respectively offered by Gabmap and ALT-Web) are effectively and dynamically combined}, KEYWORDS = {Lexicon, Lexical Database, Tools, Systems, Applications}, PAGES = {3265-3272}, URL = {http://www.lrec-conf.org/proceedings/lrec2016/index.html}, ISBN = {978-2-9517408-9-1}, CONFERENCE_NAME = {LREC 2016}, } @INPROCEEDINGS{SASSOLINI_2016_INPROCEEDINGS_SCC_335239, AUTHOR = {Sassolini, E. and Cucurullo, S. and Cinini, A.}, TITLE = {I corpora digitali: dall'obsolescenza tecnologica, alla salvaguardia e alla condivisione}, YEAR = {2016}, ABSTRACT = {Il progetto di recupero, nato pochi anni fa come iniziativa fortemente voluta da ILC, prosegue oggi con la collaborazione di molte istituzioni pubbliche e private, impegnate sullo stesso fronte. Approccio al recupero a tappe: inizialmente lavorando su testi che erano stati prodotti per essere indicizzati con le prime procedure di analisi testuale presenti all'ILC sin dalla fine degli anni '70 del secolo scorso. Definizione di criteri da adottare per la scelta dei testi, basati sullo studio di casi significativi e sull'importanza dei materiali, spesso legati alla realizzazione di autorevoli progetti nazionali e internazionali}, KEYWORDS = {recupero testi, conversione in formato XML, valorizzazione dei risultati}, PAGES = {1-3}, URL = {https://www.eventi.garr.it/it/conf16/home/materiali-conferenza-2016/paper}, CONFERENCE_NAME = {Conferenza GARR 2016-The CreActive Network}, } @TECHREPORT{SASSI_2016_TECHREPORT_SCSC_344119, AUTHOR = {Sassi, M. and Cinini, A. and Sassolini, E. and Cucurullo, S.}, TITLE = {La SALUTE MENTALE nel Web}, YEAR = {2016}, ABSTRACT = {Relazione annuale 2016 per la presentazione dei risultati raggiunti nell'ambito dell'Accordo di Collaborazione fra ILC-CNR e Coordinamento Toscano delle Associazioni per la Salute Mentale (Prot. ILC-CNR 0000856 del 4/10/2012) e del Contratto di sponsorizzazione Otsuka-Lundbeck del 2015, il cui Annesso Tecnico prevede le azioni descritte. Il progetto è articolato nei seguenti obiettivi, che verranno perseguiti mediante le Azioni dettagliate di seguito: 1. Realizzazione di un Sito dedicato alla Salute Mentale; 2. Servizio automatizzato di ricerca su Internet di informazioni e notizie che riguardano la salute mentale, con procedure di analisi linguistica. Tale relazione è stata presentata da Manuela Sassi al Corso finanziato dal CESVOT e organizzato dal Coordinamento Toscano delle Associazioni per la Salute Mentale a Lucca il 23 luglio 2016. Il sito realizzato viene aggiornato due volte al giorno e contiene i documenti recuperati in rete che hanno attinenza con la Salute Mentale tramite un dizionario di ricerca specializzato. Il periodo coperto inizia nel 2013 fino alla data odierna}, URL = {https://iris.cnr.it/handle/20.500.14243/344119}, } @TECHREPORT{SASSOLINI_2015_TECHREPORT_S_335264, AUTHOR = {Sassolini, E.}, TITLE = {Strategie per la conversione in XML-TEI dei testi della biblioteca di Galileo}, YEAR = {2015}, ABSTRACT = {Descrizione delle attività svolte nell'ambito dell'accordo di collaborazione scientifica tra ILC-CNR e Museo Galileo di Firenze, per la conversione di tutti i testi presenti nella biblioteca Galileiana in Edizione FAVARO, in un formato standard di rappresentazione (XML TEI)}, URL = {https://iris.cnr.it/handle/20.500.14243/335264}, } @INPROCEEDINGS{SASSOLINI_2014_INPROCEEDINGS_SSCCS_248752, AUTHOR = {Sassolini, E. and Sassi, M. and Cucurullo, S. and Cinini, A. and Sbrulli, S.}, TITLE = {Industrial Philology: Problems and techniques of data and archives preservation for future generations}, YEAR = {2014}, ABSTRACT = {The main objective of digital archiving of texts is their re-use and preservation. The concept that guides these initiatives is linked to structural and organizational needs which heavily influence the definition of the format specifications that describe the organisation of the archives at various levels and consists of a more or less complex document. A format specification provides the details needed to build a file from a text, establishes the admitted encodings and software applications that can decode the file and make its content accessible. These structural specifications can have an extremely variable size and they depend on the complexity of the format. Although some format specifications are, for the most part, independent of the specific software (for example, ASCII and Unicode codes), many of them are related to the historical period in which the texts were acquired and also by dated software technologies. The file format specification should evolve hand in hand with the related software, and the fate of one is in fact often linked to that of the other. It is therefore appropriate to face the issue of obsolescence of software together with the obsolescence of file formats and of storage medium}, KEYWORDS = {text management, text analysis}, PAGES = {168-172}, URL = {https://iris.cnr.it/handle/20.500.14243/248752}, ISSN = {1386-2316}, ISBN = {978-90-77484-22-7}, CONFERENCE_NAME = {GL15: Fifteenth International Conference on Grey Literature}, } @INPROCEEDINGS{SASSOLINI_2013_INPROCEEDINGS_SCP_227909, AUTHOR = {Sassolini, E. and Cucurullo, S. and Picchi, E.}, TITLE = {Semantic networks for improved access to biomedical databases}, YEAR = {2013}, URL = {https://iris.cnr.it/handle/20.500.14243/227909}, ISBN = {978-90-77484-20-3}, } @INPROCEEDINGS{SASSOLINI_2013_INPROCEEDINGS_SSCCSS_227915, AUTHOR = {Sassolini, E. and Sassi, M. and Cucurullo, S. and Cinini, A. and Sbrulli and Stefano}, TITLE = {I testi antichi: un patrimonio culturale da conservare e riutilizzare DIDAMATICA 2013, tecnologie e metodi per la didattica del futuro}, YEAR = {2013}, URL = {https://iris.cnr.it/handle/20.500.14243/227915}, ISBN = {978-88-98091-10-2}, } @TECHREPORT{CININI_2013_TECHREPORT_CPSS_333476, AUTHOR = {Cinini, A. and Picchi, P. and Sassi, M. and Sassolini, E.}, TITLE = {Digesto 3. 0: il nuovo sistema di navigazione delle traduzioni del Digesto}, YEAR = {2013}, ABSTRACT = {La sincronizzazione del testo latino e greco con la traduzione in italiano del Digesto si svolge nell'ambito del programma di ricerca PRIN 2008: Traduzione dei Digesta di Giustiniano: "Lessico giuridico storia e dogmatica", settore disciplinare IUS/18. Nell'ambito del progetto sono stati implementati negli anni alcuni software, sviluppati dal Dr. Eugenio Picchi e dal suo gruppo di ricerca, dell'Istituto di Linguistica Computazionale del CNR di Pisa, per l'allineamento dei testi paralleli bilingui, in latino e italiano. Il progetto ha una lunga storia, caratterizzata da 3 fasi di sviluppo diverse. Con il titolo Digesto 3. 0 abbiamo cercato di ricordare quest'ultima evoluzione del progetto, caratterizzata da un nuovo sistema di navigazione on-line}, URL = {https://iris.cnr.it/handle/20.500.14243/333476}, } @INPROCEEDINGS{SPADONI_2012_INPROCEEDINGS_STLRTSO_5167, AUTHOR = {Spadoni, F. and Tartarelli, A. and Loparco, L. and Rossi, R. and Tariffi, F. and Sassolini, E. and Ongaro, P.}, TITLE = {SMARTCITY: Customized and Dynamic Multimedia Content Production for Tourism Applications}, YEAR = {2012}, ABSTRACT = {This paper presents the SMARTCITY project experience: customized and dynamic multimedia content production for professional tourism applications}, KEYWORDS = {Corpus Annotation, Cultural Heritage, Access To The Culture Information}, PAGES = {132-137}, URL = {http://digital.casalini.it/9788866551300}, CONFERENCE_NAME = {Electronic Imaging \& the Visual Arts EVA 2012 Florence (EVA 2012 Florence)}, } @MISC{SPADONI_2012_MISC_STLRTSO_122972, AUTHOR = {Spadoni, F. and Tartarelli, A. and Loparco, L. and Rossi, R. and Tariffi, F. and Sassolini, E. and Ongaro, P.}, TITLE = {SMARTCITY: CUSTOMIZED AND DYNAMIC MULTIMEDIA CONTENT PRODUCTION FOR TOURISM APPLICATIONS}, YEAR = {2012}, ABSTRACT = {This paper presents the final results of the SMARTCITY project, co-funded by the Tuscany Region under the POR CREO 1. d program. The project proposes an innovative methodology as well as advanced technologies enabling professional services for cultural tourism applications in urban areas as well larger archaeological sites}, KEYWORDS = {Tourism application, Dynamic Multimedia Content Production, Semantic Annotation}, URL = {https://iris.cnr.it/handle/20.500.14243/122972}, } @INPROCEEDINGS{PICCHI_2011_INPROCEEDINGS_PS_333710, AUTHOR = {Picchi, E. and Sassolini, E.}, TITLE = {THE "MICRO SEMANTICS" FOR INTELLIGENT BROWSING}, YEAR = {2011}, ABSTRACT = {Study and development of methodologies to improve systems of "information retrieval". Our approach is based on the integration of techniques, originally created to disciplines such as philology, lexicography, literature, with linguistic and statistical tools for the extraction and analysis of information in the text. Also we experimented a special methodology, for the creation of specific semantic metadata for text materials. In this paper, we describe "SmartCity", a project in which we applied these strategies. The project aims at designing and developing multimedia content (audio-guide for the new generation of interactive media and off-line and on-line) for the use of custom-cultural tourist routes, both physical (in the context of museums and cities) and virtual}, URL = {https://iris.cnr.it/handle/20.500.14243/333710}, ISBN = {978-88-905639-8-0}, } @INPROCEEDINGS{PICCHI_2011_INPROCEEDINGS_PS_214957, AUTHOR = {Picchi, E. and Sassolini, E.}, TITLE = {The "Micro Semantics" for intelligent browsing}, YEAR = {2011}, ABSTRACT = {Study and development of methodologies to improve systems of "information retrieval". Our approach is based on the integration of techniques, originally created to disciplines such as philology, lexicography, literature, with linguistic and statistical tools for the extraction and analysis of information in the text. Also we experimented a special methodology, for the creation of specific semantic metadata for text materials. In this paper, we describe "SmartCity", a project in which we applied these strategies. The project aims at designing and developing multimedia content (audio-guide for the new generation of interactive media and off-line and on-line) for the use of custom-cultural tourist routes, both physical (in the context of museums and cities) and virtual}, KEYWORDS = {Semantic Analysis, Information Retrieval, Text Mining}, PAGES = {117-123}, URL = {https://iris.cnr.it/handle/20.500.14243/214957}, VOLUME = {4}, ISBN = {978-88-905639-8-0}, CONFERENCE_NAME = {5th International Congress on "Science and Technology for the Safeguard of Cultural Heritage in the Mediterranean Basin"}, } @INPROCEEDINGS{SPADONI_2011_INPROCEEDINGS_STS_214332, AUTHOR = {Spadoni, F. and Tariffi, F. and Sassolini, E.}, TITLE = {SMARTCITY: Innovative Technologies for customized and dynamic multimedia content production for Tourism applications}, YEAR = {2011}, ABSTRACT = {This paper presents the first results of the SMARTCITY project, co-funded by the Tuscany Region under the POR CREO 1. d program. the project proposess an innovative methodology as well as advanced technologies enabling professional services for cultural tourism applications in urban areas as well as larger archaeological sites}, KEYWORDS = {smartcity project, Tourism Applications, Dynamic Multimedia Content Production}, PAGES = {130-135}, URL = {https://iris.cnr.it/handle/20.500.14243/214332}, PUBLISHER = {Pitagora Editrice Bologna (Bologna, ITA)}, ISBN = {88-371-1837-6}, CONFERENCE_NAME = {EVA 2011 Florence Electronic Imaging and the Visual Arts}, CONFERENCE_PLACE = {Bologna}, EDITOR = {Cappellini, V.}, } @INPROCEEDINGS{SPADONI_2011_INPROCEEDINGS_STSE_333475, AUTHOR = {Spadoni, F. and Tariffi, F. and Sassolini, E. and , E.}, TITLE = {SMARTCITY: Innovative Technologies for customized and dynamic multimedia content production for Tourism applications}, YEAR = {2011}, ABSTRACT = {This paper presents the first results of the SMARTCITY project, co-funded by the Tuscany Region under the POR CREO 1. d program. the project proposess an innovative methodology as well as advanced technologies enabling professional services for cultural tourism applications in urban areas as well as larger archaeological sites}, URL = {https://iris.cnr.it/handle/20.500.14243/333475}, ISBN = {88-371-1837-6}, } @TECHREPORT{SASSOLINI_2011_TECHREPORT_SC_174755, AUTHOR = {Sassolini, E. and Cinini, A.}, TITLE = {SmartCity-II relazione scientifica: report tecnico}, YEAR = {2011}, ABSTRACT = {This technical report presents the use of NLP techniques (text mining, text analysis) to develop specific tools that allow to create linguistic resources related to the cultural heritage domain, particularly "Empoli e dintorni"}, KEYWORDS = {Corpus (creation, annotation, etc.), Cultural Heritage}, URL = {https://iris.cnr.it/handle/20.500.14243/174755}, } @TECHREPORT{SASSOLINI_2011_TECHREPORT_SC_183039, AUTHOR = {Sassolini, E. and Cinini, A.}, TITLE = {Metodologie di "thorough indexing" descrittivo, semantico e topologico delle risorse contenutistiche}, YEAR = {2011}, ABSTRACT = {D4 (deliverable) is the final result of task T2. 1. of Smartcity project. It analyzes the principles and methodologies of "Thorough indexing" of the text materials in order to define possible new rules for the application of a systematic approach to tagging of knowledge base}, KEYWORDS = {Term extraction, Analisi Semantica}, URL = {https://iris.cnr.it/handle/20.500.14243/183039}, } @TECHREPORT{SASSOLINI_2011_TECHREPORT_SS_174798, AUTHOR = {Sassolini, E. and Stefano, S.}, TITLE = {Primo report tecnico: tecnologie per il trattamento delle informazioni multimediali. ILC-CNR e STRAT-CRIT}, YEAR = {2011}, ABSTRACT = {Technologies for semantic annotation, automatic classification, clustering and browsing in textual databases, for realization of a multimedia on-line press review}, KEYWORDS = {Information Extraction, Information Retrieval}, URL = {https://iris.cnr.it/handle/20.500.14243/174798}, } @INPROCEEDINGS{PICCHI_2010_INPROCEEDINGS_PS_65171, AUTHOR = {Picchi, E. and Sassolini, E.}, TITLE = {"Text power": Tools for the cultural heritage}, YEAR = {2010}, ABSTRACT = {This article presents NLP techniques (text mining, text analysis) to create tools for the avaluation, analysis and classification of text materials available on the web. In particular we developed tools for the automatic extraction of mistic relevant information related to the cultural heritage domain and tools for linguistic resouces creation. On this knowledge basis, we also developed a system for text browsing}, KEYWORDS = {information extraction, named entity recognition, text bvrowsing}, PAGES = {435-439}, URL = {http://www.cairocongress.com/}, ISBN = {978-88-96680-31-5}, CONFERENCE_NAME = {4-th Intl. Congr. Science and Technology for the Safeguard of Cultural Heritage in the Mediterranean Basin}, BOOKTITLE = {Proceedings in: CHC 2010-4-th Intl. Congr. Science and Technology for the Safeguard of Cultural Heritage in the Mediterranean Basin (Il Cairo, 6-7-8/12/2009)}, EDITOR = {Ferrari, A.}, } @INPROCEEDINGS{SASSOLINI_2010_INPROCEEDINGS_SC_65138, AUTHOR = {Sassolini, E. and Cinini, A.}, TITLE = {Cultural Heritage: Knowledge Extraction from Web Documents}, YEAR = {2010}, ABSTRACT = {This article presents the use of NLP techniques (text mining, text analysis) to develop specific tools that allow to create linguistic resources related to the cultural heritage domain. The aim of our approach is to create tools for the building of an online "knowledge network", automatically extracted from text materials concerning this domain. A particular methodology was experimented by dividing the automatic acquisition of texts, and consequently, the creation of reference corpus in two phases. In the first phase, on-line documents have been extracted from lists of links provided by human experts. All documents extracted from the web by means of automatic spider have been stored in a repository of text materials. On the basis of these documents, automatic parsers create the reference corpus for the cultural heritage domain. Relevant information and semantic concepts are then extracted from this corpus. In a second phase, all these semantically relevant elements (such as proper names, names of institutions, names of places, and other relevant terms) have been used as basis for a new search strategy of text materials from heterogeneous sources. In this case also specialized crawlers (TP-crawler) have been used to work on a bulk of text materials available on line}, KEYWORDS = {Information Extraction, Information Retrieval, Text mining, Named Entity recognition}, PAGES = {3363-3368}, URL = {https://iris.cnr.it/handle/20.500.14243/65138}, ISBN = {978-2-9517408-6-0}, CONFERENCE_NAME = {Seventh International Conference on Language Resources and Evaluation}, } @MISC{PICCHI_2010_MISC_PS_106759, AUTHOR = {Picchi, E. and Sassolini, E.}, TITLE = {La tecnologia TextPower per la navigazione intelligente}, YEAR = {2010}, ABSTRACT = {Compito dell'ILC è di creare una rete di conoscenza linguistica, terminologica e semantica, estratta dai documenti, fatta di concetti che sintetizzano il valore semantico del documento. Questa rete di conoscenza individuata automaticamente costituisce la base conoscitiva necessaria alla classificazione e alla navigazione "intelligente" e rappresenta la ricchezza dello strumento e del servizio che l'Osservatorio può offrire}, KEYWORDS = {Text power, navigazione intelligente}, PAGES = {419-425}, URL = {http://oraal.ittig.cnr.it/oraal/}, VOLUME = {1}, ISBN = {88-14-17365-6}, CONFERENCE_NAME = {Convegno di inaugurazione dell'Osservatorio sulle Regole dell'Agricoltura e dell'Alimentazione}, EDITOR = {Sirsi, M. G. E.}, } @INCOLLECTION{QUOCHI_2009_INCOLLECTION_QDSBMC_50342, AUTHOR = {Quochi, V. and Del Gratta, R. and Sassolini, E. and Bartolini, R. and Monachini, M. and Calzolari, N.}, TITLE = {A Standard Lexical-Terminological Resource for the Bio Domain}, YEAR = {2009}, ABSTRACT = {The present paper describes a large-scale lexical resource for the biology domain designed both for human and for machine use. This lexicon aims at semantic interoperability and extendability, through the adoption of ISO-LMF standard for lexical representation and through a granular and distributed encoding of relevant information. The first part of this contribution focuses on three aspects of the model that are of particular interest to the biology community: the treatment of term variants, the representation on bio events and the alignment with a domain ontology. The second part of the paper describes the physical implementation of the model: a relational database equipped with a set of automatic uploading procedures. Peculiarity of the BioLexicon is that it combines features of both terminologies and lexicons. A set verbs relevant for the domain is also represented with full details on their syntactic and semantic argument structure}, KEYWORDS = {Lexical representation model, Lexical Database, Computational Lexicography, Special Domains, Standards}, PAGES = {325-335}, URL = {https://link.springer.com/chapter/10.1007/978-3-642-04235-5_28}, VOLUME = {5603}, DOI = {10.1007/978-3-642-04235-5_28}, PUBLISHER = {Springer (Berlin, Heidelberg, DEU)}, ISBN = {978-3-642-04235-5}, CONFERENCE_PLACE = {Berlin, Heidelberg}, BOOKTITLE = {Human Language Technology. Challenges of the Information Society}, } @INPROCEEDINGS{SASSOLINI_2009_INPROCEEDINGS_SP_65122, AUTHOR = {Sassolini, E. and Picchi, E.}, TITLE = {Text Power: tools for the Cultural Heritage}, YEAR = {2009}, KEYWORDS = {Text power, Text mining, Cultural Heritage}, URL = {https://iris.cnr.it/handle/20.500.14243/65122}, CONFERENCE_NAME = {4}, } @INPROCEEDINGS{SASSOLINI_2009_INPROCEEDINGS_SPEG_65116, AUTHOR = {Sassolini, E. and Picchi, E. and Ensini, M. and Guerriero, L.}, TITLE = {Il progetto SUBITO e l'analisi semantica come strumento utile all'innovazione biomedica}, YEAR = {2009}, KEYWORDS = {Biomedicina, Analisi Semantica, Progetto"Subito"}, URL = {https://iris.cnr.it/handle/20.500.14243/65116}, CONFERENCE_NAME = {10° Congresso Nazionale @ITIM 2009/, Monserrato, Cagliari, Italy}, } @TECHREPORT{PICCHI_2009_TECHREPORT_PSCE_183235, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S. and Ensini, M.}, TITLE = {WP3. 1 Tecniche di analisi semantica per l estrazione di ontologie bio-medicali}, YEAR = {2009}, KEYWORDS = {Ontologie, Semantica computazionale, Terminologia medica}, URL = {https://iris.cnr.it/handle/20.500.14243/183235}, } @TECHREPORT{SASSOLINI_2009_TECHREPORT_SH_333479, AUTHOR = {Sassolini, E. and Haines, M.}, TITLE = {Gli Anni della Cupola: NewDBT}, YEAR = {2009}, ABSTRACT = {programma NewDBT per l'Opera di Santa Maria del Fiore di Firenze. Sviluppo di una nuova versione di DBT strutturato per OPA in grado di indicizzare, gestire e interrogare il complesso archivio digitale riguardante la costruzione della cupola di Brunelleschi}, URL = {https://iris.cnr.it/handle/20.500.14243/333479}, } @INPROCEEDINGS{PICCHI_2008_INPROCEEDINGS_PSCB_65093, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S. and Bertagna, F.}, TITLE = {Mining the News with Semantic Press}, YEAR = {2008}, KEYWORDS = {Text mining, Press review}, URL = {https://iris.cnr.it/handle/20.500.14243/65093}, CONFERENCE_NAME = {LangTech 2008}, } @INPROCEEDINGS{PICCHI_2008_INPROCEEDINGS_PSCBB_65101, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S. and Bertagna, F. and Baroni, P.}, TITLE = {Semantic Press}, YEAR = {2008}, ABSTRACT = {In this paper Semantic Press, a tool for the automatic press review, is introduced. It is based on Text Mining technologies and is tailored to meet the needs of the eGovernment and eParticipation communities. First, a general description of the application demands emerging from the eParticipation and eGovernment sectors is offered. Then, an introduction to the framework of the automatic analysis and classification of newspaper content is provided, together with a description of the technologies underlying it}, KEYWORDS = {Text Mining, Tools, Systems, Applications}, PAGES = {2752-2756}, URL = {http://www.lrec-conf.org/proceedings/lrec2008/}, PUBLISHER = {European Language Resources Association (ELRA)-Evaluations and Language resources Distribution Agency (ELDA) (Paris, FRA)}, ISBN = {2-9517408-4-0}, CONFERENCE_NAME = {LREC 2008-Sixth International Conference on Language Resources and Evaluation}, CONFERENCE_PLACE = {Paris}, BOOKTITLE = {Proceedings of the Sixth International Conference on Language Resources and Evaluation}, EDITOR = {Calzolari, N. and Choukri, K. and Maegaard, B. and Mariani, J. and Odjik, J. and Piperidis, S. and Tapias, D.}, } @MISC{PICCHI_2008_MISC_PCS_192752, AUTHOR = {Picchi, E. and Cucurullo, S. and Sassolini, E.}, TITLE = {Semantic Press}, YEAR = {2008}, KEYWORDS = {Rassegna stampa, Estrazione di informazione}, URL = {https://iris.cnr.it/handle/20.500.14243/192752}, } @MISC{SASSOLINI_2008_MISC_SPBP_192751, AUTHOR = {Sassolini, E. and Picchi, E. and Bellone, G. and Porquier, E.}, TITLE = {Progetto per lo studio e la realizzazione di un sistema di erogazione on line in modalità multicanale, dei servizi sanitari prioritari per cittadini e imprese}, YEAR = {2008}, KEYWORDS = {Studi statistici, Patologia}, URL = {https://iris.cnr.it/handle/20.500.14243/192751}, } @MISC{SASSOLINI_2008_MISC_SPH_464694, AUTHOR = {Sassolini, E. and Picchi, E. and Haines, M.}, TITLE = {Gli anni della Cupola}, YEAR = {2008}, KEYWORDS = {Corpus trilingue di documenti antichi}, URL = {https://iris.cnr.it/handle/20.500.14243/464694}, } @INPROCEEDINGS{QUOCHI_2007_INPROCEEDINGS_QDSMC_65109, AUTHOR = {Quochi, V. and Del Gratta, R. and Sassolini, E. and Monachini, M. and Calzolari, N.}, TITLE = {Toward a Standard Lexical Resource in the Bio Domain}, YEAR = {2007}, ABSTRACT = {The present paper describes a large-scale lexical resource for the biology domain designed both for human and for machine use. This lexicon aims at semantic interoperability and extendability, through the adoption of ISO-LMF standard for lexical representation and through a granular and distributed encoding of relevant information. The first part of this contribution focuses on three aspects of the model that are of particular interest to the biology community: the treatment of term variants, the representation on bio events and the alignment with a domain ontology. The second part of the paper describes the physical implementation of the model: a relational database equipped with a set of automatic uploading procedures. Peculiarity of the BioLexicon is that it combines features of both terminologies and lexicons. A set verbs relevant for the domain is also represented with full details on their syntactic and semantic argument structure}, KEYWORDS = {Lexical representation model, Lexical Database, Computational Lexicography, Special Domains, Standards}, PAGES = {295-299}, PUBLISHER = {Fundacja Uniwersytetu im A. Mickiewicza (Poznan, POL)}, ISBN = {978-83-7177-413-3}, CONFERENCE_NAME = {LTC07-3rd Language and Technology Conference: Human Language Technology. Challenges of the Information Society}, CONFERENCE_PLACE = {Poznan}, } @TECHREPORT{DELGRATTA_2007_TECHREPORT_DMQSC_195940, AUTHOR = {Del Gratta, R. and Monachini, M. and Quochi, V. and Sassolini, E. and Calzolari, N.}, TITLE = {Bio-Lexicon DataBase: Architecture, Concepts and Loading Software}, YEAR = {2007}, URL = {https://iris.cnr.it/handle/20.500.14243/195940}, } @TECHREPORT{PICCHI_2007_TECHREPORT_PSC_195942, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Implementazione di procedure di Spidering per sistemi di Alerting}, YEAR = {2007}, URL = {https://iris.cnr.it/handle/20.500.14243/195942}, } @TECHREPORT{PICCHI_2007_TECHREPORT_PSC_195941, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Implementazione di procedure di Clustering}, YEAR = {2007}, URL = {https://iris.cnr.it/handle/20.500.14243/195941}, } @TECHREPORT{PICCHI_2007_TECHREPORT_PSC_457840, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Implementazione di procedure per la Named Entity Recognition}, YEAR = {2007}, URL = {https://iris.cnr.it/handle/20.500.14243/457840}, } @MISC{PICCHI_2007_MISC_PMCSP_195948, AUTHOR = {Picchi, E. and Montemagni, S. and Cucurullo, S. and Sassolini, E. and Paoli, M.}, TITLE = {ALT-Web. Sito dell Atlante Lessicale Toscano (ALT) in rete}, YEAR = {2007}, URL = {https://iris.cnr.it/handle/20.500.14243/195948}, } @MISC{PICCHI_2007_MISC_PSC_195943, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo S, C. D.}, TITLE = {Legislazione Toscana raccolta e illustrata da Lorenzo Cantini}, YEAR = {2007}, URL = {https://iris.cnr.it/handle/20.500.14243/195943}, } @INPROCEEDINGS{CALZOLARI_2006_INPROCEEDINGS_CSSCPBEMSC_64246, AUTHOR = {Calzolari, F. and Sassolini, E. and Sassi, M. and Cucurullo, S. and Picchi, E. and Bertagna, F. and Enea, A. and Monachini, M. and Soria, C. and Calzolari, N.}, TITLE = {Next Generation Language Resources using Grid}, YEAR = {2006}, ABSTRACT = {This paper presents a case study concerning the challenges and requirements posed by next generation language resources, realized as an overall model of open, distributed and collaborative language infrastructure. If a sort of "new paradigm" for language resource sharing is required, we think that the emerging and still evolving technology connected to Grid computing is a very interesting and suitable one for a concrete realization of this vision. Given the current limitations of Grid computing, it is very important to test the new environment on basic language analysis tools, in order to get the feeling of what are the potentialities and possible limitations connected to its use in NLP. For this reason, we have done some experiments on a module of the Linguistic Miner, i. e. the extraction of linguistic patterns from restricted domain corpora. The Grid environment has produced the expected results (reduction of the processing time, huge storage capacity, data redundancy) without any additional cost for the final user}, KEYWORDS = {grid, acquisition, topic classification}, PAGES = {1858-1861}, URL = {https://iris.cnr.it/handle/20.500.14243/64246}, ISBN = {2-9517408-2-4}, CONFERENCE_NAME = {LREC 2006: 5th International Conference on Language Resources and Evaluation}, } @INPROCEEDINGS{CUCURULLO_2006_INPROCEEDINGS_CMPPS_65044, AUTHOR = {Cucurullo, S. and Montemagni, S. and Paoli, M. and Picchi, E. and Sassolini, E.}, TITLE = {Atlante Dialettale in rete: ALT-Web}, YEAR = {2006}, ABSTRACT = {The paper presents an on-line dialectal resource, ALT-Web, which gives access to the linguistic data of the Lexical Atlas of Tuscany or Atlante Lessicale Toscano, a specially designed linguistic atlas in which lexical data have both a diatopic and diastratic characterisation. The paper illustrates ALT-Web with particular emphasis on: 1) the dialectal data representation model; 2) the access modalities to the ALT dialectal corpus designed to produce an output tailored to the specific needs of the different classes of users (both professionals and common citizens); 3) ontology-based search. These represent three main features which differentiate ALT-Web both from the previous digitalised ALT version and, most interestingly, from other on-line dialectal resources. At the time of writing, this is the first resource of this type in Italy, and one of the few at the international level}, KEYWORDS = {dialectal resources, information retrieval}, PAGES = {661-672}, URL = {http://www.euralex.org/publications/}, PUBLISHER = {Edizioni dell'ORSO (Alessandria, ITA)}, ISBN = {8876949186}, CONFERENCE_NAME = {12° EURALEX International Congress}, CONFERENCE_PLACE = {Alessandria}, BOOKTITLE = {Proceedings in 12° EURALEX International Congress, Congresso internazionale di lessicografia}, EDITOR = {Corino, E. and Marello, C. and Onesti, C.}, } @INPROCEEDINGS{CUCURULLO_2006_INPROCEEDINGS_CMPPS_65014, AUTHOR = {Cucurullo, S. and Montemagni, S. and Paoli, M. and Picchi, E. and Sassolini, E.}, TITLE = {Dialectal resources on-line: the ALT-Web experience}, YEAR = {2006}, ABSTRACT = {The paper presents an on-line dialectal resource, ALT-Web, which gives access to the linguistic data of the Atlante Lessicale Toscano, a specially designed linguistic atlas in which lexical data have both a diatopic and diastratic characterisation. The paper focuses on: the dialectal data representation model; the access modalities to the ALT dialectal corpus; ontology-based search}, KEYWORDS = {Computational dialectology, Dialectal databases, Construction of lexical resources}, PAGES = {1846-1851}, URL = {http://www.lrec-conf.org/lrec2006/}, ISBN = {2-9517408-2-4}, CONFERENCE_NAME = {LREC 2006: 5th International Conference on Language Resources and Evaluation}, BOOKTITLE = {Dialectal resources on-line: the ALT-Web experience}, } @TECHREPORT{QUOCHI_2006_TECHREPORT_QMCDS_195923, AUTHOR = {Quochi, V. and Monachini, M. and Calzolari, N. and Del Gratta, R. and Sassolini, E.}, TITLE = {Bio-Lexicon Model and Preliminary ISO Conformant Data Categories}, YEAR = {2006}, URL = {https://iris.cnr.it/handle/20.500.14243/195923}, } @MISC{PICCHI_2006_MISC_PMSCP_192744, AUTHOR = {Picchi, E. and Montemagni, S. and Sassolini, E. and Cucurullo, S. and Paoli, M.}, TITLE = {ALTWEB}, YEAR = {2006}, URL = {https://iris.cnr.it/handle/20.500.14243/192744}, } @MISC{PICCHI_2006_MISC_PSCSC_192747, AUTHOR = {Picchi, E. and Sassi, M. and Ceccotti, M. L. and Sassolini, E. and Cucurullo, S.}, TITLE = {Linguistic Miner}, YEAR = {2006}, URL = {https://iris.cnr.it/handle/20.500.14243/192747}, } @TECHREPORT{CUCURULLO_2005_TECHREPORT_CMPPS_195901, AUTHOR = {Cucurullo, S. and Montemagni, S. and Paoli, M. and Picchi, E. and Sassolini, E.}, TITLE = {Atlante Lessicale Toscano in rete (ALT-Web). Relazione finale}, YEAR = {2005}, URL = {https://iris.cnr.it/handle/20.500.14243/195901}, } @TECHREPORT{SASSOLINI_2005_TECHREPORT_SE_334028, AUTHOR = {Sassolini, E. and Evangelista, A.}, TITLE = {P8/L488-01: report tecnico di progetto}, YEAR = {2005}, ABSTRACT = {Diffusione della cultura e valorizzazione del patrimonio letterario della lingua italiana e della lingua araba attraverso una diffusione telematica di banche dati letterarie}, KEYWORDS = {trattamento della lingua araba, applicazione web}, PAGES = {12}, URL = {https://iris.cnr.it/handle/20.500.14243/334028}, } @MISC{MONACHINI_2005_MISC_MSPSR_192738, AUTHOR = {Monachini, M. and Soria, C. and Picchi, E. and Sassolini, E. and Ruffolo, P.}, TITLE = {Procedure e tecniche di acquisizione semi-automatica di terminologie da testi paralleli}, YEAR = {2005}, URL = {https://iris.cnr.it/handle/20.500.14243/192738}, } @MISC{PICCHI_2005_MISC_PMSCP_192727, AUTHOR = {Picchi, E. and Montemagni, S. and Sassolini, E. and Cucurullo, S. and Paoli, M.}, TITLE = {ALTWEB}, YEAR = {2005}, URL = {https://iris.cnr.it/handle/20.500.14243/192727}, } @MISC{PICCHI_2005_MISC_PSCSC_464687, AUTHOR = {Picchi, E. and Sassi, M. and Ceccotti, M. L. and Sassolini, E. and Cucurullo, S.}, TITLE = {Linguistic Miner}, YEAR = {2005}, URL = {https://iris.cnr.it/handle/20.500.14243/464687}, } @INPROCEEDINGS{PICCHI_2004_INPROCEEDINGS_PCCSS_64236, AUTHOR = {Picchi, E. and Ceccotti, M. L. and Cucurullo, S. and Sassi, M. and Sassolini, E.}, TITLE = {Linguistic Miner. An Italian Linguistic Knowledge System}, YEAR = {2004}, ABSTRACT = {Linguistic Miner is a project carried out at ILC whose objective is the development of an integrated system to build, organise and manage a corpus of Italian texts (of various origins and formats), and to design and constantly add new tools for the automatic extraction of tiered linguistic knowledge to be made available for many teaching, publishing, and other cultural purposes. The project is based on a notion that is preliminary to all the systems for corpus-based linguistic analysis: a language represented by the largest possible collection of heterogeneous texts is the best source of linguistic information at any level of analysis considered. The first goals of such a system are the semi-automated construction of an Italian data mine for the extraction of linguistic information, the validation of linguistic patterns, the installation of useful tools and resources for a range of different categories of Italian language users. The main feature of the project is its purpose of building large language reference corpora allowing for the creation and use of effective tools for the handling and processing, as well as the automatic linguistic synthesis, of such corpora}, KEYWORDS = {linguistic analysis, information extraction}, PAGES = {1811-1814}, URL = {http://www.lrec-conf.org/lrec2004/}, VOLUME = {V}, ISBN = {2-9517408-1-6}, CONFERENCE_NAME = {LREC 2004: Fourth International Conference on Language Resources and Evaluation}, BOOKTITLE = {Proceedings of the 4th International Conference on Language Resources and Evaluation}, } @TECHREPORT{GAVRILIDOU_2004_TECHREPORT_GGDLMSPRS_457832, AUTHOR = {Gavrilidou, M. and Giouli, V. and Desipri, E. and Labropoulou, P. and Monachini, M. and Soria, C. and Picchi, E. and Ruffolo, P. and Sassolini, E.}, TITLE = {Report on the multilingual resources production}, YEAR = {2004}, URL = {https://iris.cnr.it/handle/20.500.14243/457832}, } @ARTICLE{PICCHI_2003_ARTICLE_PSNC_433717, AUTHOR = {Picchi, E. and Sassolini, E. and Nahli, O. and Cucurullo, S.}, TITLE = {Risorse monolingui e multilingui. Corpus bilingue italiano-arabo}, YEAR = {2003}, ABSTRACT = {Abstract-The objective of the project is twofold: on the one hand, the creation and elaboration of software procedures for the Arabic language and, on the other hand, the creation of linguistic resources for the management of large Arabic corpora. The linguistic resources are substantially the following: a) Morphological engine for the Arabic language. The engine is constituted by a number of modules: the algorithms and modules for generation and analysis, an appropriate encoding system for the representation of lexical data and of morphological characteristics of Arabic, the so-called “lemmario”, i. e. the archive of lemmas; b) The automatic alignment of parallel texts in Italian and Arabic language; c) Automatic tagging of Arabic texts, performed by using the above morphological engine; d) Systems for accessing and querying (raw and/or tagged) Arabic texts and parallel Italian-Arabic corpora}, KEYWORDS = {Morfologia araba, Corpora bilingui, Analisi testuale, Aligner, Tagger}, PAGES = {629-678}, URL = {https://iris.cnr.it/handle/20.500.14243/433717}, VOLUME = {18-19}, } @INPROCEEDINGS{PICCHI_2003_INPROCEEDINGS_PCCCFSST_77204, AUTHOR = {Picchi, E. and Ceccotti, M. and Cignoni, L. and Cucurullo, N. and Fiorentini, G. and Sassi, M. and Sassolini, E. and Turrini, G.}, TITLE = {Linguistic Miner}, YEAR = {2003}, URL = {https://iris.cnr.it/handle/20.500.14243/77204}, CONFERENCE_NAME = {Congresso annuale AICA 2003: I costi dell'ignoranza e il valore della conoscenza nella società dell'informazione}, } @INPROCEEDINGS{PICCHI_2002_INPROCEEDINGS_PSNCV_222362, AUTHOR = {Picchi, E. and Sassolini, E. and Nahli, O. and Cucurullo, S. and Vargas Isabel, M.}, TITLE = {Italian Arabic Linguistic Tools}, YEAR = {2002}, URL = {https://iris.cnr.it/handle/20.500.14243/222362}, CONFERENCE_NAME = {LREC 2002}, BOOKTITLE = {Third International Conference on Language Resources and Evaluation}, } @TECHREPORT{SASSOLINI_2002_TECHREPORT_SN_222368, AUTHOR = {Sassolini, E. and Nahli, O.}, TITLE = {Motore morfologico della lingua araba}, YEAR = {2002}, URL = {https://iris.cnr.it/handle/20.500.14243/222368}, }