@INPROCEEDINGS{SASSOLINI_2017_INPROCEEDINGS_SCC_382393, AUTHOR = {Sassolini, E. and Cucurullo, S. and Cinini, A.}, TITLE = {I corpora digitali: dall'obsolescenza tecnologica, alla salvaguardia e alla condivisione}, YEAR = {2017}, ABSTRACT = {Studio e implementazione di un protocollo di recupero, conservazione e valorizzazione di testi e corpora digitali interessati da problemi di obsolescenza tecnologica. Le strategie di salva-guardia adottate si spingono oltre il salvataggio dei testi e la conservazione in un formato di rappresentazione in linea con gli standard internazionali (XML TEI), si pongono come obiettivo la valorizzazione di questo patrimonio attraverso nuove modalità di fruizione dei contenuti. Lo scopo è affiancare le funzionalità classiche di analisi testuale, che da sempre caratterizzano le nostre attività di ricerca, a nuove modalità grafiche e visuali di fruizione dei dati e, in alcuni casi, migrare verso dispositivi mobili e tecnologie App. In questo articolo, oltre al protocollo di recupero, presentiamo due sperimentazioni di valorizzazione di contenuti testuali. Nel primo caso proponiamo tecniche di visual analytics applicate ad un corpus testuale semi strutturato riguardante corrispondenza redatta in lingua italiana del 1600. Nel secondo caso abbiamo realizzato un'applicazione per sistema Android finalizzata all'interrogazione di dati testuali relativi ad un progetto di censimento di architetture moderne della regione Liguria.}, KEYWORDS = {Testi digitali, Analisi testuale, Preservazione dei dati, Diffusione dei risultati}, PAGES = {31-35}, URL = {https://www.garr.it/it/documenti/3529-conferenza-2016-selected-papers-sassolini-et-al/file}, DOI = {10.26314/GARR-Conf16-proceeedings-06}, PUBLISHER = {Consortium GARR (Roma, ITA)}, ISBN = {978-88-905077-6-2}, CONFERENCE_NAME = {Conferenza GARR 2016-The CreActive Network}, CONFERENCE_PLACE = {Firenze}, CONFERENCE_DATE = {30/11/2016-02/12/2016}, } @TECHREPORT{CININI_2017_TECHREPORT_CCS_382931, AUTHOR = {Cinini, A. and Cucurullo, S. and Sassolini, E.}, TITLE = {Rapporto Tecnico: Standardizzazione del corpus testuale del PRIN Crusca}, YEAR = {2017}, ABSTRACT = {Attività previste nella convenzione operativa tra ILC-CNR e Accademia della Crusca che riguardano la progettazione e lo sviluppo di una piattaforma Web modulare per l'archiviazione, la gestione e l'interrogazione di corpora testuali in lingua italiana, con funzionalità derivate dal DBT (Data Base Testuale) nelle sue diverse implementazioni.Il lavoro preliminare svolto riguarda anche la normalizzazione dei testi e la conversione nello standard di rappresentazione XML TEI.}, KEYWORDS = {Codifica dei testi, Analisi testuale, formato XML TEI}, PAGES = {1-21}, URL = {https://publications.cnr.it/doc/382931}, } @INPROCEEDINGS{WIELING_2016_INPROCEEDINGS_WSCM_359168, AUTHOR = {Wieling, M. and Sassolini, E. and Cucurullo, S. and Montemagni, S.}, TITLE = {ALT Explored: Integrating an Online Dialectometric Tool and an Online Dialect Atlas}, YEAR = {2016}, ABSTRACT = {In this paper, we illustrate the integration of an online dialectometric tool, Gabmap, together with an online dialect atlas, the Atlante Lessicale Toscano (ALT-Web). By using a newly created url-based interface to Gabmap, ALT-Web is able to take advantage of the sophisticated dialect visualization and exploration options incorporated in Gabmap. For example, distribution maps showing the distribution in the Tuscan dialect area of a specific dialectal form (selected via the ALT-Web website) are easily obtainable. Furthermore, the complete ALT-Web dataset as well as subsets of the data (selected via the ALT-Web website) can be automatically uploaded and explored in Gabmap. By combining these two online applications, macro- and micro-analyses of dialectal data (respectively offered by Gabmap and ALT-Web) are effectively and dynamically combined.}, KEYWORDS = {Lexicon, Lexical Database, Tools, Systems, Applications}, PAGES = {3265-3272}, URL = {http://www.lrec-conf.org/proceedings/lrec2016/index.html}, ISBN = {978-2-9517408-9-1}, CONFERENCE_NAME = {LREC 2016}, CONFERENCE_PLACE = {Portorož, Slovenia}, CONFERENCE_DATE = {23/10/2016}, } @INPROCEEDINGS{SASSOLINI_2016_INPROCEEDINGS_SCC_382394, AUTHOR = {Sassolini, E. and Cucurullo, S. and Cinini, A.}, TITLE = {I corpora digitali: dall'obsolescenza tecnologica, alla salvaguardia e alla condivisione}, YEAR = {2016}, ABSTRACT = {Il progetto di recupero, nato pochi anni fa come iniziativa fortemente voluta da ILC, prosegue oggi con la collaborazione di molte istituzioni pubbliche e private, impegnate sullo stesso fronte. Approccio al recupero a tappe: inizialmente lavorando su testi che erano stati prodotti per essere indicizzati con le prime procedure di analisi testuale presenti all'ILC sin dalla fine degli anni '70 del secolo scorso. Definizione di criteri da adottare per la scelta dei testi, basati sullo studio di casi significativi e sull'importanza dei materiali, spesso legati alla realizzazione di autorevoli progetti nazionali e internazionali.}, KEYWORDS = {recupero testi, conversione in formato XML, valorizzazione dei risultati}, PAGES = {1-3}, URL = {https://www.eventi.garr.it/it/conf16/home/materiali-conferenza-2016/paper}, CONFERENCE_NAME = {Conferenza GARR 2016-The CreActive Network}, CONFERENCE_PLACE = {Firenze}, CONFERENCE_DATE = {30/11/2016-02/12/2016}, } @TECHREPORT{CUCURULLO_2015_TECHREPORT_C_353217, AUTHOR = {Cucurullo, S.}, TITLE = {Sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e conversione in un formato di rappresentazione XML/TEI}, YEAR = {2015}, ABSTRACT = {Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, il rapporto si focalizza sui seguenti punti oggetto della Convenzione Operativa: 1. definizione di un formato di rappresentazione XML/TEI che tenga conto da un lato della tipologia di annotazioni presenti nei testi di partenza e dall'altro delle analisi ed elaborazioni a cui i testi convertiti dovranno essere sottoposti; 2. sviluppo di procedure di conversione dal formato dei "Periodici Milanesi" al formato XML/TEI e verifica dei risultati mediante parsing XML. Il Rapporto ripercorre le diverse fasi del lavoro, con particolare attenzione all'analisi dell'archivio testuale di partenza e ai risultati raggiunti, per arrivare a una discussione delle questioni che rimangono al momento aperte e degli sviluppi che possono prospettarsi per tali attività.}, KEYWORDS = {banca-dati testuale, Periodici Milanesi}, PAGES = {43}, URL = {https://publications.cnr.it/doc/353217}, } @TECHREPORT{CUCURULLO_2015_TECHREPORT_C_353218, AUTHOR = {Cucurullo, S.}, TITLE = {Sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell' ILC e conversione in un formato di rappresentazione XML/TEI Fase 2}, YEAR = {2015}, ABSTRACT = {Il presente rapporto documenta le attività svolte nell'ambito della Convenzione Operativa relativa allo sviluppo di funzioni software per il recupero di testi dell'Archivio Testuale dell'ILC e la conversione in un formato di rappresentazione XML/TEI, stipulata all'interno dell'Accordo di Collaborazione Scientifica ILC-CNR - Accademia della Crusca. In particolare, questo rapporto si focalizza sul seguente oggetto della Convenzione Operativa: "sviluppo di procedure di conversione dal formato DBT al formato XML/TEI, secondo le indicazioni contenute nel Report relativo alla Fase 1 e verifica dei risultati mediante parsing XML costituito dal corpus dell'800 e '900 di testi estratto dal Patrimonio Testuale ILC, la cui composizione è stata concordata con l'Accademia della Crusca". Buona parte delle soluzioni adottate per quella tipologia di testi è stata scelta per essere utilizzata anche in testi non lemmatizzati, come nel caso di opere di autori italiani dell'Ottocento e del Novecento. La strutturazione generale del documento XML TEI in header e body e la definizione dei principali TAG utilizzati è condivisa sia dai testi di questo Corpus che da quelli lemmatizzati dei Periodici Milanesi, da cui siamo partiti perché presentavano una maggiore casistica di codifiche e contemporaneamente un formato di origine più lontano nel tempo. Si tratta infatti di formati e supporti di memorizzazione che precedono l'era del Personal Computer e che hanno già subito la trasformazione da EBCDIC ad ASCII.}, KEYWORDS = {Archivi Testuali}, PAGES = {21}, URL = {https://publications.cnr.it/doc/353218}, } @INPROCEEDINGS{SASSOLINI_2014_INPROCEEDINGS_SSCCS_319040, AUTHOR = {Sassolini, E. and Sassi, M. and Cucurullo, S. and Cinini, A. and Sbrulli, S.}, TITLE = {Industrial Philology: Problems and techniques of data and archives preservation for future generations}, YEAR = {2014}, ABSTRACT = {The main objective of digital archiving of texts is their re-use and preservation. The concept that guides these initiatives is linked to structural and organizational needs which heavily influence the definition of the format specifications that describe the organisation of the archives at various levels and consists of a more or less complex document. A format specification provides the details needed to build a file from a text, establishes the admitted encodings and software applications that can decode the file and make its content accessible. These structural specifications can have an extremely variable size and they depend on the complexity of the format. Although some format specifications are, for the most part, independent of the specific software (for example, ASCII and Unicode codes), many of them are related to the historical period in which the texts were acquired and also by dated software technologies. The file format specification should evolve hand in hand with the related software, and the fate of one is in fact often linked to that of the other. It is therefore appropriate to face the issue of obsolescence of software together with the obsolescence of file formats and of storage medium.}, KEYWORDS = {text management, text analysis}, PAGES = {168-172}, URL = {https://publications.cnr.it/doc/319040}, PUBLISHER = {TransAtlantic (Amsterdam, Paesi Bassi)}, ISSN = {1386-2316}, ISBN = {978-90-77484-22-7}, CONFERENCE_NAME = {GL15: Fifteenth International Conference on Grey Literature}, CONFERENCE_PLACE = {Bratislava}, CONFERENCE_DATE = {2, 3 december 2013}, BOOKTITLE = {The GL-conference series. Conference proceedings}, } @INCOLLECTION{CUCURULLO_2013_INCOLLECTION_CS_353214, AUTHOR = {Cucurullo, S. and Sassi, M.}, TITLE = {Il Contributo Tecnologico dell'ILC al Progetto LinCi}, YEAR = {2013}, ABSTRACT = {Il progetto "la Lingua delle Città (LinCi)" ha l'obiettivo di mettere in luce alcuni fenomeni rilevanti - sia dal punto di vista lessicale che grammaticale - dell'italiano comune e informale, secondo l'opinione sull'uso dei parlanti intervistati. A tale scopo il gruppo dei linguisti che ha ideato il progetto ha elaborato un questionario di 200 domande riconducibili a vari campi semantici. La struttura del questionario consente inoltre al raccoglitore di ricavare informazioni di tipo grammaticale (per esempio sull'uso di certe forme pronominali o verbali), nonché giudizi di carattere metalinguistico sulla "dialettalità" o meno di certe forme, sulle differenze tra registro formale e informale, sulla frequenza d'uso.}, KEYWORDS = {lingua italiana, banche dati}, PAGES = {81-99}, URL = {https://publications.cnr.it/doc/353214}, PUBLISHER = {Accademia della Crusca (Firenze, ITA)}, ISBN = {978-88-89369-51-7}, BOOKTITLE = {La lingua delle città LinCi. La banca dati}, EDITOR = {Nesi, A. and Salani, T. P.}, } @INCOLLECTION{CUCURULLO_2013_INCOLLECTION_CS_353219, AUTHOR = {Cucurullo, S. and Sassi, M.}, TITLE = {ASPETTI TECNICO-METODOLOGICI DEL PROGETTO LinCi}, YEAR = {2013}, ABSTRACT = {l progetto "la Lingua delle Città (LinCi)" ha l'obiettivo di mettere in luce i cambiamenti e l'evoluzione dei diversi dialetti italiani regionali, sia dal punto di vista grammaticale che lessicale. A tale scopo, è stato elaborato un questionario di 200 domande su vari campi semantici: determinazioni temporali; forme di saluto; corpo umano; mestieri; oggetti domestici; cibi, frutta e verdura; rapporti sociali, ecc. La struttura del questionario consente inoltre al raccoglitore di ricavare informazioni di tipo grammaticale (per esempio sull'uso di certe forme pronominali e verbali), nonché giudizi di carattere metalinguistico, sulla "dialettalità" o meno di certe forme, sulle differenze tra registro formale e informale, ecc. La collaborazione dell'Istituto di Linguistica Computazionale (ILC) al Progetto LinCi ha come obiettivo quello di fornire il supporto informatico all'unità di coordinamento per la creazione e gestione della banca-dati e la sua consultazione tramite il sito dedicato.}, KEYWORDS = {Sociolinguistica, banca-dati DBT}, PAGES = {47-50}, URL = {https://publications.cnr.it/doc/353219}, VOLUME = {11}, PUBLISHER = {Franco Cesati Editore (Firenze, ITA)}, ISBN = {9788876674563}, BOOKTITLE = {La lingua delle città Raccolta di studi}, EDITOR = {Nesi, A.}, } @TECHREPORT{CUCURULLO_2011_TECHREPORT_CS_206469, AUTHOR = {Cucurullo, S. and Sassi, M.}, TITLE = {Archivio Elettronico delle Concordanze Diacroniche dell'Orlando Furioso}, YEAR = {2011}, ABSTRACT = {The project to build a digital electronic archiving of the concordances diachronic Orlando Furioso began in the '70s and had as its objective the study of a computational method for the treatment of variants.The basic text, provided by the "Accademia della Crusca", refers to the latest edition published in 1532 by the author, while the first 2 editions, published respectively in 1516 and in 1521, had not yet been the subject of electronic transcription. This has directed the staff of the project towards a reconstruction of the previous witnesses through accurate recording of the critical apparatus Debenedetti - Segre, 1960.}, KEYWORDS = {DBT, Orlando Furioso, banca-dati testuale}, PAGES = {11}, URL = {https://publications.cnr.it/doc/206469}, } @INCOLLECTION{MARINELLI_2010_INCOLLECTION_MSC_136468, AUTHOR = {Marinelli, R. and Spadoni, G. and Cucurullo, S.}, TITLE = {Visual information to improve a lexical-semantic terminological resource}, YEAR = {2010}, ABSTRACT = {The lexical semantic database MariTerm contains structured information about the specialized terminology of the maritime domain (maritime navigation and transport). This paper describes the main phases of a project which aims to enhance the terminological database by means of a set of images: a) the structure of the terminological database; b) the domain conceptual modelling; c) the database management tool which, among its various features, allows visualization on demand of the image which is associated with the term being sought, contributing to clarification of the meaning of the term and increasing its information and communication potential.}, KEYWORDS = {terminology, computational resources, terminological databases, visual information}, PAGES = {493-500}, URL = {https://publications.cnr.it/doc/136468}, VOLUME = {1}, ISBN = {978-84-8427-759-0}, BOOKTITLE = {Modos y formas de la comunicaciòn humana-Ways and modes of human communication}, EDITOR = {Rodriguez, R. C. and Sanz, M. J. P.}, } @INPROCEEDINGS{MARINELLI_2010_INPROCEEDINGS_MRSC_84770, AUTHOR = {Marinelli, R. and Roventini, A. and Spadoni, G. and Cucurullo, S.}, TITLE = {Lexical Semantic Resources in a Terminological Network}, YEAR = {2010}, ABSTRACT = {A research has been carried on and is still in progress aimed at the construction of three specialized lexicons organized as databases of relational type. The three databases contain terms belonging to the specialized knowledge fields of maritime terminology (technical-nautical and maritime transport domain), taxation law, and labour law with union labour rules, respectively. The EuroWordNet/ItalWordNet model was firstly used to structure the terminological database of maritime domain. The methodology experimented for its construction was applied to construct the next databases. It consists in i) the management of corpora of specialized languages and ii) the use of generic databases to identify and extract a set of candidate terms to be codified in the terminological databases. The three specialized resources are described highlighting the various kinds of lexical semantic relations linking each term to the others within the single terminological database and to the generic resources WordNet and ItalWordNet. The construction of these specialized lexicons was carried on in the framework of different projects; but they can be seen as a first nucleus of an organized network of generic and specialized lexicons with the purpose of making the meaning of each term clearer from a cognitive point of view.}, KEYWORDS = {Lexicon, Semantics, Lexical database, Ontologies}, PAGES = {2288-2291}, URL = {https://publications.cnr.it/doc/84770}, PUBLISHER = {European Language Resources Association ELRA (Paris, FRA)}, ISBN = {2-9517408-6-7}, CONFERENCE_NAME = {Seventh International Conference on Language Resources and Evaluation}, CONFERENCE_PLACE = {La Valletta, Malta}, CONFERENCE_DATE = {17-23 May 2010}, BOOKTITLE = {LREC'10-Seventh International Conference on Language Resources and Evaluation (La Valletta, Malta, 17-23 May 2010). Proceedings}, EDITOR = {Calzolari, N. and Choukri, K. and Maegaard, B. and Mariani, J. and Odjik, J. and Piperidis, S. and Rosner, M. and Tapias, D.}, } @INPROCEEDINGS{MARINELLI_2010_INPROCEEDINGS_MSC_84795, AUTHOR = {Marinelli, R. and Spadoni, G. and Cucurullo, S.}, TITLE = {Adding information to a terminological database by means of image files}, YEAR = {2010}, ABSTRACT = {A lexical semantic database containing terms belonging to the specialized lexicon of the maritime navigation and maritime transport was built according to WordNet/EuroWordNet model. Our paper present a project planning the enrichment of the terminological database by means of a set of images. A short description is given about a) the structure of the terminological database and the domain conceptual modelling; b) the various features of the database management tool, and, among all, the possibility of visualizing, on demand, the image which is associated with the term being sought, contributing to clarify and refine the meaning of the term, increasing its information and communication effectiveness.}, KEYWORDS = {terminology, lexical databases, computational resources, images}, PAGES = {347-353}, URL = {http://www.cfilt.iitb.ac.in/gwc2010/pdfs/30_adding_image_info_to_wordnet__Marinelli.pdf}, PUBLISHER = {Narosa Publishing House (New Delhi, IND)}, ISBN = {978-81-8487-083-1}, CONFERENCE_NAME = {5th Global WordNet Conference}, CONFERENCE_PLACE = {Mumbai}, CONFERENCE_DATE = {January 31-February 4 2010}, BOOKTITLE = {Proceedings of the 5th Global WordNet Conference, Mumbai India, 2010}, EDITOR = {Bhattacharyya, P. and Fellbaum, C. and Vossen, P.}, } @TECHREPORT{MARINELLI_2010_TECHREPORT_MRC_157479, AUTHOR = {Marinelli, R. and Roventini, A. and Cucurullo, S.}, TITLE = {Descrizione attività Progetto Servizi innovativi di Business Intelligence e p. m. i.: la costituzione di un Sistema di Aziende Estese (BISAE): il modulo ILC}, YEAR = {2010}, KEYWORDS = {Risorse linguistiche, terminologia, database semantico-lessicali, corpora}, URL = {https://publications.cnr.it/doc/157479}, } @INPROCEEDINGS{MARINELLI_2009_INPROCEEDINGS_MSC_112949, AUTHOR = {Marinelli, R. and Spadoni, G. and Cucurullo, S.}, TITLE = {Visual information to improve a lexical-semantic terminological resource}, YEAR = {2009}, ABSTRACT = {The lexical semantic database MariTerm contains structured information about the specialized terminology of the maritime domain (maritime navigation and transport). This paper describes the main phases of a project which aims to enhance the terminological database by means of a set of images: a) the structure of the terminological database; b) the domain conceptual modelling; c) the database management tool which, among its various features, allows visualization on demand of the image which is associated with the term being sought, contributing to clarification of the meaning of the term and increasing its information and communication potential}, KEYWORDS = {Lexical Semantic Data Bases, Visual Information, Terminology}, PAGES = {159-160}, URL = {https://publications.cnr.it/doc/112949}, VOLUME = {1}, CONFERENCE_NAME = {XXVII AESLA Conference "Modos y formas de la comunicacion humana-Ways and modes of human communication"}, CONFERENCE_PLACE = {Ciudad Real}, CONFERENCE_DATE = {2009}, } @TECHREPORT{PICCHI_2009_TECHREPORT_PSCE_157473, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S. and Ensini, M.}, TITLE = {WP3. 1 Tecniche di analisi semantica per l’estrazione di ontologie bio-medicali}, YEAR = {2009}, KEYWORDS = {Ontologie, Semantica computazionale, Terminologia medica}, URL = {https://publications.cnr.it/doc/157473}, } @INPROCEEDINGS{PICCHI_2008_INPROCEEDINGS_PSCB_84719, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S. and Bertagna, F.}, TITLE = {Mining the News with Semantic Press}, YEAR = {2008}, KEYWORDS = {Text mining, Press review}, URL = {https://publications.cnr.it/doc/84719}, CONFERENCE_NAME = {LangTech 2008}, CONFERENCE_PLACE = {Roma}, CONFERENCE_DATE = {2008}, } @INPROCEEDINGS{PICCHI_2008_INPROCEEDINGS_PSCBB_84727, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S. and Bertagna, F. and Baroni, P.}, TITLE = {Semantic Press}, YEAR = {2008}, ABSTRACT = {In this paper Semantic Press, a tool for the automatic press review, is introduced. It is based on Text Mining technologies and is tailored to meet the needs of the eGovernment and eParticipation communities. First, a general description of the application demands emerging from the eParticipation and eGovernment sectors is offered. Then, an introduction to the framework of the automatic analysis and classification of newspaper content is provided, together with a description of the technologies underlying it.}, KEYWORDS = {Text Mining, Tools, Systems, Applications}, PAGES = {2752-2756}, URL = {http://www.lrec-conf.org/proceedings/lrec2008/}, PUBLISHER = {European Language Resources Association (ELRA)-Evaluations and Language resources Distribution Agency (ELDA) (Paris, FRA)}, ISBN = {2-9517408-4-0}, CONFERENCE_NAME = {LREC 2008-Sixth International Conference on Language Resources and Evaluation}, CONFERENCE_PLACE = {Marrakech}, CONFERENCE_DATE = {26/05/2008-01/06/2008}, BOOKTITLE = {Proceedings of the Sixth International Conference on Language Resources and Evaluation}, EDITOR = {Calzolari, N. and Choukri, K. and Maegaard, B. and Mariani, J. and Odjik, J. and Piperidis, S. and Tapias, D.}, } @MISC{CUCURULLO_2008_MISC_CPB_151564, AUTHOR = {Cucurullo, S. and Picchi, E. and Biffi, M.}, TITLE = {Lessico italiano radiofonico 1995-2003}, YEAR = {2008}, KEYWORDS = {Lessico radiofonico, Corpus parlato}, URL = {https://publications.cnr.it/doc/151564}, } @MISC{CUCURULLO_2008_MISC_CPSSMM_151565, AUTHOR = {Cucurullo, S. and Picchi, E. and Sassi, M. and Segre, C. and Martignoni, C. and Morini, L.}, TITLE = {Le concordanze diacroniche dell'Orlando Furioso}, YEAR = {2008}, KEYWORDS = {Furioso, Orlando, Concordanze diacroniche}, URL = {https://publications.cnr.it/doc/151565}, } @MISC{PICCHI_2008_MISC_PCS_151568, AUTHOR = {Picchi, E. and Cucurullo, S. and Sassolini, E.}, TITLE = {Semantic Press}, YEAR = {2008}, KEYWORDS = {Rassegna stampa, Estrazione di informazione}, URL = {https://publications.cnr.it/doc/151568}, } @TECHREPORT{PICCHI_2007_TECHREPORT_PSC_157426, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Implementazione di procedure per la Named Entity Recognition}, YEAR = {2007}, URL = {https://publications.cnr.it/doc/157426}, } @TECHREPORT{PICCHI_2007_TECHREPORT_PSC_157427, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Implementazione di procedure di Clustering}, YEAR = {2007}, URL = {https://publications.cnr.it/doc/157427}, } @TECHREPORT{PICCHI_2007_TECHREPORT_PSC_157428, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Implementazione di procedure di Spidering per sistemi di Alerting}, YEAR = {2007}, URL = {https://publications.cnr.it/doc/157428}, } @MISC{PICCHI_2007_MISC_PMCSP_157436, AUTHOR = {Picchi, E. and Montemagni, S. and Cucurullo, S. and Sassolini, E. and Paoli, M.}, TITLE = {ALT-Web. Sito dell’Atlante Lessicale Toscano (ALT) in rete}, YEAR = {2007}, URL = {https://publications.cnr.it/doc/157436}, } @MISC{PICCHI_2007_MISC_PSC_157429, AUTHOR = {Picchi, E. and Sassolini, E. and Cucurullo, S.}, TITLE = {Legislazione Toscana raccolta e illustrata da Lorenzo Cantini}, YEAR = {2007}, URL = {https://publications.cnr.it/doc/157429}, } @INPROCEEDINGS{CALZOLARI_2006_INPROCEEDINGS_CSSCPBEMSC_84625, AUTHOR = {Calzolari, F. and Sassolini, E. and Sassi, M. and Cucurullo, S. and Picchi, E. and Bertagna, F. and Enea, A. and Monachini, M. and Soria, C. and Calzolari, N.}, TITLE = {Next Generation Language Resources using Grid}, YEAR = {2006}, ABSTRACT = {This paper presents a case study concerning the challenges and requirements posed by next generation language resources, realized as an overall model of open, distributed and collaborative language infrastructure. If a sort of "new paradigm" for language resource sharing is required, we think that the emerging and still evolving technology connected to Grid computing is a very interesting and suitable one for a concrete realization of this vision. Given the current limitations of Grid computing, it is very important to test the new environment on basic language analysis tools, in order to get the feeling of what are the potentialities and possible limitations connected to its use in NLP. For this reason, we have done some experiments on a module of the Linguistic Miner, i.e. the extraction of linguistic patterns from restricted domain corpora. The Grid environment has produced the expected results (reduction of the processing time, huge storage capacity, data redundancy) without any additional cost for the final user.}, KEYWORDS = {grid, acquisition, topic classification}, PAGES = {1858-1861}, URL = {https://publications.cnr.it/doc/84625}, ISBN = {2-9517408-2-4}, CONFERENCE_NAME = {LREC 2006: 5th International Conference on Language Resources and Evaluation}, CONFERENCE_PLACE = {Genova}, CONFERENCE_DATE = {24-26 Maggio 2006}, } @INPROCEEDINGS{CUCURULLO_2006_INPROCEEDINGS_CMPPS_84629, AUTHOR = {Cucurullo, S. and Montemagni, S. and Paoli, M. and Picchi, E. and Sassolini, E.}, TITLE = {Dialectal resources on-line: the ALT-Web experience}, YEAR = {2006}, ABSTRACT = {The paper presents an on-line dialectal resource, ALT-Web, which gives access to the linguistic data of the Atlante Lessicale Toscano, a specially designed linguistic atlas in which lexical data have both a diatopic and diastratic characterisation. The paper focuses on: the dialectal data representation model; the access modalities to the ALT dialectal corpus; ontology-based search.}, KEYWORDS = {Computational dialectology, Dialectal databases, Construction of lexical resources}, PAGES = {1846-1851}, URL = {http://www.lrec-conf.org/lrec2006/}, VOLUME = {Proceedings}, ISBN = {2-9517408-2-4}, CONFERENCE_NAME = {LREC 2006: 5th International Conference on Language Resources and Evaluation}, CONFERENCE_PLACE = {Genoa}, CONFERENCE_DATE = {24-25-26 Maggio 2006}, BOOKTITLE = {Dialectal resources on-line: the ALT-Web experience}, } @INPROCEEDINGS{CUCURULLO_2006_INPROCEEDINGS_CMPPS_84661, AUTHOR = {Cucurullo, S. and Montemagni, S. and Paoli, M. and Picchi, E. and Sassolini, E.}, TITLE = {Atlante Dialettale in rete: ALT-Web}, YEAR = {2006}, ABSTRACT = {The paper presents an on-line dialectal resource, ALT-Web, which gives access to the linguistic data of the Lexical Atlas of Tuscany or Atlante Lessicale Toscano, a specially designed linguistic atlas in which lexical data have both a diatopic and diastratic characterisation. The paper illustrates ALT-Web with particular emphasis on: 1) the dialectal data representation model; 2) the access modalities to the ALT dialectal corpus designed to produce an output tailored to the specific needs of the different classes of users (both professionals and common citizens); 3) ontology-based search. These represent three main features which differentiate ALT-Web both from the previous digitalised ALT version and, most interestingly, from other on-line dialectal resources. At the time of writing, this is the first resource of this type in Italy, and one of the few at the international level.}, KEYWORDS = {dialectal resources, information retrieval}, PAGES = {661-672}, URL = {http://www.euralex.org/publications/}, VOLUME = {2}, PUBLISHER = {Edizioni dell'ORSO (Alessandria, ITA)}, ISBN = {8876949186}, CONFERENCE_NAME = {12° EURALEX International Congress}, CONFERENCE_PLACE = {Torino}, CONFERENCE_DATE = {6-9 Settembre 2006}, BOOKTITLE = {Proceedings in 12° EURALEX International Congress, Congresso internazionale di lessicografia}, EDITOR = {Corino, E. and Marello, C. and Onesti, C.}, } @MISC{PICCHI_2006_MISC_PMSCP_151557, AUTHOR = {Picchi, E. and Montemagni, S. and Sassolini, E. and Cucurullo, S. and Paoli, M.}, TITLE = {ALTWEB}, YEAR = {2006}, URL = {https://publications.cnr.it/doc/151557}, } @MISC{PICCHI_2006_MISC_PSCSC_151561, AUTHOR = {Picchi, E. and Sassi, M. and Ceccotti, M. L. and Sassolini, E. and Cucurullo, S.}, TITLE = {Linguistic Miner}, YEAR = {2006}, URL = {https://publications.cnr.it/doc/151561}, } @TECHREPORT{CUCURULLO_2005_TECHREPORT_CMPPS_157373, AUTHOR = {Cucurullo, S. and Montemagni, S. and Paoli, M. and Picchi, E. and Sassolini, E.}, TITLE = {Atlante Lessicale Toscano in rete (ALT-Web). Relazione finale}, YEAR = {2005}, URL = {https://publications.cnr.it/doc/157373}, } @MISC{PICCHI_2005_MISC_PMSCP_151532, AUTHOR = {Picchi, E. and Montemagni, S. and Sassolini, E. and Cucurullo, S. and Paoli, M.}, TITLE = {ALTWEB}, YEAR = {2005}, URL = {https://publications.cnr.it/doc/151532}, } @MISC{PICCHI_2005_MISC_PSCSC_151533, AUTHOR = {Picchi, E. and Sassi, M. and Ceccotti, M. L. and Sassolini, E. and Cucurullo, S.}, TITLE = {Linguistic Miner}, YEAR = {2005}, URL = {https://publications.cnr.it/doc/151533}, } @INPROCEEDINGS{PICCHI_2004_INPROCEEDINGS_PCCSS_84615, AUTHOR = {Picchi, E. and Ceccotti, M. L. and Cucurullo, S. and Sassi, M. and Sassolini, E.}, TITLE = {Linguistic Miner. An Italian Linguistic Knowledge System}, YEAR = {2004}, ABSTRACT = {Linguistic Miner is a project carried out at ILC whose objective is the development of an integrated system to build, organise and manage a corpus of Italian texts (of various origins and formats), and to design and constantly add new tools for the automatic extraction of tiered linguistic knowledge to be made available for many teaching, publishing, and other cultural purposes. The project is based on a notion that is preliminary to all the systems for corpus-based linguistic analysis: a language represented by the largest possible collection of heterogeneous texts is the best source of linguistic information at any level of analysis considered. The first goals of such a system are the semi-automated construction of an Italian data mine for the extraction of linguistic information, the validation of linguistic patterns, the installation of useful tools and resources for a range of different categories of Italian language users. The main feature of the project is its purpose of building large language reference corpora allowing for the creation and use of effective tools for the handling and processing, as well as the automatic linguistic synthesis, of such corpora.}, KEYWORDS = {linguistic analysis, information extraction}, PAGES = {1811-1814}, URL = {http://www.lrec-conf.org/lrec2004/}, VOLUME = {V}, ISBN = {2-9517408-1-6}, CONFERENCE_NAME = {LREC 2004: Fourth International Conference on Language Resources and Evaluation}, CONFERENCE_PLACE = {Lisbona}, CONFERENCE_DATE = {26-27-28 Maggio 2004}, BOOKTITLE = {Proceedings of the 4th International Conference on Language Resources and Evaluation}, } @ARTICLE{PICCHI_2003_ARTICLE_PSNC_64493, AUTHOR = {Picchi, E. and Sassolini, E. and Nahli, O. and Cucurullo, S.}, TITLE = {Risorse monolingui e multilingui. Corpus bilingue italiano-arabo}, YEAR = {2003}, ABSTRACT = {Abstract - The objective of the project is twofold: on the one hand, the creation and elaboration of software procedures for the Arabic language and, on the other hand, the creation of linguistic resources for the management of large Arabic corpora. The linguistic resources are substantially the following: a) Morphological engine for the Arabic language. The engine is constituted by a number of modules: the algorithms and modules for generation and analysis, an appropriate encoding system for the representation of lexical data and of morphological characteristics of Arabic, the so-called “lemmario”, i.e. the archive of lemmas; b) The automatic alignment of parallel texts in Italian and Arabic language; c) Automatic tagging of Arabic texts, performed by using the above morphological engine; d) Systems for accessing and querying (raw and/or tagged) Arabic texts and parallel Italian-Arabic corpora.}, KEYWORDS = {Morfologia araba, Corpora bilingui, Analisi testuale, Aligner, Tagger}, PAGES = {629-678}, URL = {https://publications.cnr.it/doc/64493}, VOLUME = {18-19}, PUBLISHER = {Istituti Editoriali e Poligrafici Internazionali (Ghezzano La Fontina, Italia)}, ISSN = {1824-1573}, JOURNAL = {Linguistica computazionale (Online)}, } @INPROCEEDINGS{PICCHI_2002_INPROCEEDINGS_PSNCV_288585, AUTHOR = {Picchi, E. and Sassolini, E. and Nahli, O. and Cucurullo, S. and Vargas, I. M.}, TITLE = {Italian Arabic Linguistic Tools}, YEAR = {2002}, URL = {https://publications.cnr.it/doc/288585}, VOLUME = {Volume II}, CONFERENCE_NAME = {LREC 2002}, CONFERENCE_PLACE = {Las Palmas de Gran Canaria, Spain}, CONFERENCE_DATE = {30th \& 31 May 2002}, BOOKTITLE = {Third International Conference on Language Resources and Evaluation}, }