Trovare e Interrogare i Corpora - Handout
L'obiettivo di questa dispensa è mostrare agli studenti i passi fondamentali per trovare e interrogare i corpora in un repository nazionale CLARIN.
67 risultati
L'obiettivo di questa dispensa è mostrare agli studenti i passi fondamentali per trovare e interrogare i corpora in un repository nazionale CLARIN.
Questo tutorial consiste in uno scenario d'uso in cui si ipotizza che il corsista stia cercando un corpus parallelo in inglese e italiano in formato .tmx da utilizzare in uno strumento di traduzione assistita (Computer-Aided Translation) per tradurre un articolo di cronaca per un compito in classe.
In questa lezione saranno affrontati i seguenti temi: 1) come usare il Language Resource Switchboard; 2) come effettuare ricerche nelle CLARIN Resource Families; 3) come effettuare ricerche nel Virtual Language Observatory; 4) come effettuare ricerche nei siti web dei consorzi nazionali CLARIN del tuo paese.
Il corso affronta le tematiche legate alla gestione dei dati linguistici orali. Dopo un'introduzione generale alle possibilità offerte dall'infrastruttura CLARIN ERIC in fase di scoperta, raccolta e deposito di dati orali, si approfondiranno le questioni etico-legali connesse alla raccolta, gestione e conservazione dei dati e il procedimento di trascrizione automatica, con ulteriori possibilità di annotazione attraverso strumenti ti trattamento automatico del linguaggio.
Il tutorial sulla protezione dei dati nella pratica della ricerca consiste in 4 brevi video (di 6-10 minuti ciascuno) per introdurre le principali linee guida sulla gestione dei dati in accordo con il GDPR.
La lezione comprende i seguenti argomenti: 1. trovare e (ri)usare le risorse linguistiche e i dataset pubblicati; 2) collezionare, citare e condividere collezioni di risorse virtuali; 3) Trovare e interrogare corpora di alta qualità; 4) Cercare modelli specifici nelle raccolte di risorse linguistiche; 5) Trovare uno strumento di corrispondenza per elaborare i file di testo; 6) Archiviare e condividere le risorse linguistiche.
L'esercizio prevede che gli studenti osservino le pratiche di citazione dei dati in una selezione di articoli pubblicati negli Atti della Eighth Italian Conference on Computational Linguistics. In seguito, gli studenti dovranno valutare e discutere cosa manca in base alle conoscenze acquisite in questa unità. Può essere proposto dai docenti come lavoro di gruppo.