È di qualche giorno la polemica sulla campagna pubblicitaria Open to Meraviglia dell’agenzia Armando Testa. Alcuni utenti hanno scoperto che nelle versioni in lingua straniera del portale ufficiale del turismo italia.it dei toponimi italiani sono stati erroneamente tradotti. Ad esempio, nella versione tedesca, Camerino è stato tradotto letteralmente Garderobe, Cento è diventato Hundert e Chiusi Geschlossen. Altri toponimi che non hanno un significato particolare in italiano sono stati tradotti in maniera “bizzarra”, ad esempio Rivisondoli che è stato cambiato in Revisionen (revisione, in tedesco).

Licia Corbolante sul blog Terminologia etc da una spiegazione sul perché di queste traduzioni strane, legandole al funzionamento degli algoritmi di traduzione automatica che sono stati, verosimilmente, impiegati (senza troppo controllo) per creare le pagine in lingua straniera.

Innanzitutto va ricordato che i sistemi di traduzione automatica neurale (NMT, Neural Machine Translation), che sono quelli prevalenti, ignorano il significato di quanto stanno traducendo. Grazie all’autoapprendimento identificano regolarità statistiche e ricorrono ad algoritmi e modelli predittivi per produrre le sequenze di parole più probabili in quel particolare contesto. Non credo sia un caso che nelle traduzioni tedesche di italia.it siano stati sbagliati solo i toponimi nei titoli, singole parole isolate, ma non quelli all’interno di testi descrittivi che invece sono stati trattati correttamente come nome propri. Semplificando al massimo, i sistemi di traduzione automatica vengono addestrati (training) su testi paralleli in lingua 1 e in lingua 2, ad es. inglese L1 e italiano L2, da cui ricavano dei loro “vocabolari” (vocabulary), che però sono incompleti: mancano tutte le parole non presenti nei testi usati per il training.

Il problema per un’algoritmo sorge quando nel testo da tradurre ci sono parole che non appartengono a nessuno dei suoi vocabolari (OOV, Out of Vocabolary) e il cui significato non è deducibile dal contesto della frase. In questo caso i programmatori dell’algoritmo si trovano a dover fare delle scelte di traduzione. Potrebbero lasciarle in lingua originale, col rischio di creare frasi poco comprensaibili, con parole metà in una lingua metà in un’altra.

Col tempo però si sono sviluppate delle tecniche più sofisticate per cercare di tradurre in modo corretto parole sconosciute:

Per ottimizzare il processo di traduzione i sistemi di NMT non operano a livello di parole come le intendiamo noi, ma di unità più piccole ottenute con particolari tipi di segmentazione, come ad es. sottoparole (subwords) formate da sequenze di caratteri (n-gram), oppure singoli simboli che rappresentano le sequenze di caratteri più frequenti e che sono ottenuti con particolari algoritmi di compressione. Questi metodi di segmentazione hanno il vantaggio di ridurre notevolmente le dimensioni dei “vocabolari” e di consentire di gestire adeguatamente le parole OOV, anche sfruttando similarità lessicali tra lingue. Ad esempio, è probabile che una parola inglese inusuale come cynophobia venga resa correttamente in italiano con cinofobia, come farebbe un traduttore umano, perché è composta da elementi formativi neoclassici combinati in base a un modello di composizione ricorrente.

Anche questi metodi, però, non sono a prova di errore. Ad esempio, nel caso di parole singole possono verifcarsi questi tipi di traduzioni (sbagliate):

parole solo apparentemente ben formate in L2 ma che in realtà non sono usate o hanno un altro significato, come nell’esempio di enogastronomia tradotto in tedesco con *Önogastronomie, descritto da Anna B.: “[in Germania] Öno è usato solo in parole tecniche come Önologe, mentre nella maggior parte dei composti si usa Wein-; Gastronomie invece è un classico falso amico e vuol dire ristorazione”;

parole che assomigliano a parole L1 ma inesistenti in L2, ad es. dall’inglese *nodoli per noodle, *freyeria per fryer;

parole inesistenti in L2 ma che assomigliano a parole esistenti o plausibili in L2, ad es. *tappuccio è simile sia a tappo che a cappuccio; *giantina e *murciolini sono del tutto conformi alla struttura delle parole italiane;

Errori di questo tipo sono, probabilmente, quelli che hanno portato alle buffe traduzioni in tedesco dei toponimi del sito italia.it