Versione stampabile

3.1.1 I corpora

La fase di documentazione riveste un’importanza fondamentale all’interno della fase preparatoria. In passato, le fonti selezionate erano in formato cartaceo, aspetto che rendeva difficoltoso lo spoglio e costringeva a creare corpora di dimensioni limitate. Negli ultimi anni, invece, si è verificata una crescita esponenziale di materiale in formato elettronico, fatto che ha permesso di creare corpora di grandi dimensioni analizzabili elettronicamente in modo rapido e affidabile.
Ma cos’è un corpus? Un corpus può essere definito come una raccolta, normalmente in formato elettronico, di testi autentici e ricorrenti nell’uso, realizzata sulla base di una serie di criteri. Un corpus si differenzia da una semplice raccolta di testi in base ad una serie di requisiti che deve soddisfare:
1) rappresentatività: i testi presenti devono costituire un campione delle tendenze di una particolare lingua o varietà di quella lingua;
2) estensione limitata: il numero di testi viene deciso in fase iniziale e non vi si apportano modifiche successive. Un’eccezione sono i monitor corpora, usati soprattutto in lessicografia, a cui vengono periodicamente aggiunti nuovi testi;
3) digitalizzazione: tutti i corpora moderni sono in formato digitale; ciò permette di svolgere un’analisi linguistica elettronica e la possibilità di correggere/aggiungere informazioni;
4) riferimento standard: un corpus deve rappresentare un parametro rispetto al quale è possibile confrontare gli studi successivi riguardo all’ambito considerato; per questo occorre esplicitare chiaramente la metodologia di raccolta e analisi dei dati.
Nell’ambito delle lingue speciali, e di conseguenza della terminologia specialistica, i corpora più adeguati per una ricerca proficua sono i corpora speciali o special-purpose corpora, ovvero raccolte di testi che considerano solo un particolare aspetto della lingua, come ad esempio una lingua speciale, un particolare genere testuale, o una varietà particolare.
Quando si tratta di terminologia multilingue, invece, si utilizzano i corpora multilingue. Tra questi troviamo:
- i corpora paralleli, composti da più testi in una lingua e dalle rispettive traduzioni in una o più lingue;
- i corpora comparabili, composti da testi con caratteristiche simili per ogni lingua (per tipologia, argomento, struttura…) e non da traduzioni di uno o più testi di partenza.
Spesso i corpora paralleli diventano corpora allineati quando ciascuna frase e ciascuna parola del testo A è collegata al rispettivo traducente nel testo b; l’allineamento dei corpora paralleli è utile per svolgere una ricerca (ormai in modo semi-automatico) di termini “equivalenti” fra due o più lingue.

Per citare questo articolo: Veronica Carioni, 3.1.1 I corpora, Breve introduzione alla terminologia, http://www.farum.it/intro_terminologia/ezine_articles.php?id=28