Logo L'ink - Scrittura Professionale l'ink scrittura professionale

"Fare cose con le parole"

Per una lingua dell'accessibilità

di Giovanni Acerboni, 24 ottobre 2007

 

Prima di entrare in argomento, è necessario delimitare il campo di validità delle considerazioni che svolgo in questo contributo. Prima delimitazione: mi riferisco esclusivamente ai siti, non agli altri canali di trasmissione di testi scritti, come un CD audio contenente per esempio un romanzo. Seconda delimitazione: mi riferisco in particolare ai siti della pubblica amministrazione, per i quali soprattutto vale la cosiddetta legge Stanca sull’accessibilità. Terza delimitazione: mi riferisco ai testi, non alla struttura del sito, in particolare alla maggioranza dei testi contenuti in tali siti, cioè ai testi cosiddetti professionali, rivolti al personale, ai cittadini, alle imprese, per i quali testi valgono gli ormai numerosi documenti (progetti, manuali, direttive) del progetto di semplificazione del linguaggio amministrativo. Quarta delimitazione: tra tutti i beneficiari dell’accessibilità, mi riferisco in particolare ai ciechi.


Un tema nuovo

Per quanto siano molti i beneficiari dell’accessibilità di un sito, i ciechi sono, almeno dal punto di vista della lingua, il caso limite, perché, oltre che con una barra Braille, possono fruire dei contenuti ascoltandoli nella lettura che viene compiuta da un software vocale. La lingua dell’accessibilità è dunque una lingua scritta che deve soddisfare anche chi ascolta il testo, non solo chi lo legge. Il tema è nuovo. Noi, infatti, conosciamo (almeno in parte) solo le differenze tra la lingua parlata e la lingua scritta nonché le caratteristiche di un testo scritto destinato alla recitazione (drammaturgia) e al parlato tendenzialmente unidirezionale (discorso in pubblico), ma non abbiamo mai esaminato le caratteristiche che deve avere un testo scritto per essere letto da alcuni e ascoltato da altri.

Riepiloghiamo lo stato delle nostre conoscenze. Per quanto riguarda le differenze tra la lingua parlata (ci limitiamo al cosiddetto parlato strutturato, non al parlato libero delle conversazioni) e la lingua scritta, di fondamentale interesse per il nostro discorso è la modalità di espressione delle relazioni logico-semantiche, cioè le relazioni di senso tra i significati: la lingua parlata le esprime con l’intonazione e con le pause; la lingua scritta con la punteggiatura, con i connettivi (preposizioni, congiunzioni, pronomi ecc.) ecc. Facciamo un esempio:


Con quale inflessione di voce e quale atteggiamento di occhi e di mani, curvandosi, come chi regge rassegnatamente su le spalle un peso insopportabile, il magro giudice D’Andrea soleva ripetere: “Ah figlio caro!” a chiunque gli facesse qualche scherzosa osservazione sul suo strambo modo di vivere! (incipit della novella La patente di Luigi Pirandello).


Alla prima lettura non è possibile accorgersi che l’intero periodo è un’esclamazione. Chi volesse rendere a voce alta il senso dell’esclamazione, che è di meraviglia, si trova di fronte ad alcuni problemi di intonazione. Infatti, la frase principale è spezzata da due incisi consecutivi (“curvandosi” e “come chi regge rassegnatamente su le spalle un peso insopportabile”) e contiene un’altra esclamativa, per giunta in discorso diretto (“Ah figlio caro!”). Visualizziamo diversamente la struttura della frase e definiamo alcune relazioni logico-semantiche:

  1. prima parte della frase principale: “Con quale inflessione di voce e quale atteggiamento di occhi e di mani”;

  2. frase secondaria di primo livello nel primo inciso (“curvandosi”); il gerundio stabilisce una relazione di tempo (mentre si curva) e nello stesso tempo di modo;

  3. frase secondaria di secondo livello nel secondo inciso (“come chi regge rassegnatamente su le spalle un peso insopportabile”); il ‘come’ stabilisce una relazione di somiglianza;

  4. ripresa della frase principale, il cui oggetto “Ah figlio caro!” è anche una battuta di discorso diretto, e il cui complemento di termine è composto da numerosi elementi (“a chiunque gli facesse qualche scherzosa osservazione”).

Ora sarà forse più chiaro come i problemi di intonazione a cui ho accennato siano legati alle complesse relazioni gerarchiche della struttura di questo periodo. Tuttavia, il senso è chiaro, anche perché la punteggiatura è vincolante. Ma non è sempre così.

Facciamo un secondo esempio, non tanto paradossale quanto potrebbe apparire. Consideriamo il celebre verso iniziale del monologo di Amleto: “To be or not to be, that is the question” (atto III, scena 1). In questo verso, la punteggiatura non è vincolante, in primo luogo perché non è detto che sia quella voluta da Shakespeare (dell’Amleto non possediamo il manoscritto), e in secondo luogo perché chi l’ha applicata – i tipografi dell’epoca – seguiva il criterio, valido nella drammaturgia inglese, per cui la punteggiatura doveva indicare agli attori le pause (capita a volte di trovare virgole o due punti tra soggetto e verbo, e altre licenze di questo tipo). Di conseguenza, intonando diversamente e non illegittimamente, possiamo ottenere significati diversi:

E qui giungiamo al limite delle nostre conoscenze a proposito delle caratteristiche che deve avere la lingua scritta per essere ascoltata, perché tutto quel che possiamo dire (che non è comunque molto) vale se a parlare la lingua scritta è un essere umano (un attore, un oratore), cioè qualcuno che, comprendendo e interpretando il testo e persino elaborando il feedback del suo uditorio, può gestire l’intonazione e le pause in modo da far intendere le relazioni di senso tra i significati. Ma la lingua dell’accessibilità è letta da un software vocale, cioè da un interprete non intelligente – in senso etimologico: che non intende quello che legge – che dunque gestisce le intonazioni e le pause senza comprendere il testo e solo interpretando automaticamente la punteggiatura, i connettivi e, più in generale, la struttura di una frase (e, naturalmente, non è interattivo, nel senso che non elabora il feedback).

Il tema, dunque, è nuovo e centrato su due aspetti:

  1. il testo deve reggere al cambio di canale (lettura e ascolto);

  2. il testo deve contenere gli elementi necessari affinché un software vocale gestisca le intonazioni e le pause in modo corretto, cioè riesca a trasmettere le relazioni di senso tra i significati.


Per avere un’idea, sia pure approssimativa, dell’esperienza di ascolto di un cieco, ho navigato il web con uno screen reader (una versione demo di Jaws 8.0 di Freedom Scientific, http://www.freedomscientific.com/index.html) e ho testato numerosi frammenti testuali con l’Interactive TTS Demo di Loquendo (http://www.loquendo.com/en/index.htm). I due software presentano in generale alcune differenze anche importanti nella resa vocale, sulle quali però sorvolerei, volendo considerare i problemi di ascolto, non i problemi dei singoli software che, al di là dei limiti, svolgono un servizio già molto avanzato.

Le relazioni logico-semantiche

Il trattamento della punteggiatura. Il trattamento che il software vocale riserva alla punteggiatura dipende dalle impostazioni che l’ascoltatore stabilisce in base alle sue preferenze. L’ascoltatore può modificare i valori predefiniti, impostando il software a leggere tutti i segni di punteggiatura o a non leggerne alcuno. Per questo contributo, ho mantenuto le impostazioni predefinite: credo che le considerazioni svolte siano comunque utili, anche perché non è detto che gli ascoltatori modifichino le impostazioni.

Con le impostazioni predefinite, il trattamento della punteggiatura mi pare basato sul criterio della selezione quantitativa: i segni meno frequenti vengono letti, quelli molto frequenti no, probabilmente per evitare di appesantire l’ascolto.

Il punto e virgola, i due punti, il trattino, le parentesi, le virgolette, il punto interrogativo, il punto esclamativo, i puntini di sospensione, l’asterisco e la (s)barra sono letti con formule come le seguenti: “aperta parentesi tonda”, “aperte doppie virgolette” ecc. Le formule mi paiono appropriate, tranne quella inutilmente insolita dei puntini di sospensione (“punto punto punto”), e quella ridondante della parentesi, che viene sempre precisata “tonda”, anche in assenza di una parentesi quadra che la racchiuda. Bisogna però precisare che la lettura di tali segni non è sistematica:

Mi pare che rendere sistematica la lettura di questi segni non costituisca un problema insormontabile per i progettisti e risolverebbe parecchi problemi agli ascoltatori.

E veniamo ai segni di punteggiatura che non vengono mai letti, che sono il punto di seguito, il punto a capo e la virgola, per la quale vi è però un’eccezione: quando separa i decimali. In questo caso viene letta “e” (il che funziona con le ore ma meno bene con le percentuali: “nove e trenta” per “9,30”; “cinquanta e cinque per cento” per “50,5%”).

Il punto di seguito, il punto a capo e la virgola sono i segni di punteggiatura che più frequentemente operano per la gestione delle relazioni logico-semantiche: il software surroga la loro mancata lettura con l’intonazione e con le pause (il che avviene anche per il punto interrogativo e il punto esclamativo quando non vengono letti). In questi casi, cioè, il software ambisce all’analogia con il parlato umano. Però, le modalità sono diverse.

Le pause. Il software vocale genera due tipi di pausa: una molto breve tra le singole parole e un’altra, lievemente più lunga, dopo la virgola, dopo i punti di seguito, dopo i punti a capo.

Chiara e sufficiente mi pare la pausa tra le singole parole; non chiara invece è la pausa tra i segni di punteggiatura, perché è sempre della medesima durata, sicché l’ascoltatore non è in grado di distinguere facilmente quale relazione logico-semantica la pausa esprima. Riesce – diciamo passabilmente – a distinguere la virgola all’interno di un periodo. Più difficilmente riesce a distinguere dalla virgola il punto di seguito all’interno del medesimo capoverso, perché la brevità della pausa, che è la stessa di quella della virgola, non mi pare sufficiente affinché l’ascoltatore gestisca tutto il carico cognitivo che comporta lo stabilire una relazione tra quello che ha appena ascoltato e quello che sta ascoltando e che ascolterà. Certamente l’ascoltatore non riesce a distinguere dal punto di seguito il punto a capo, cioè non riesce a comprendere dove termina un capoverso e dove comincia il successivo. La questione è della massima importanza per la comprensione delle relazioni logico-semantiche, perché il capoverso, segnalato visivamente dall’a capo ma non annunciato dal software, indica il passaggio a un argomento diverso, pur nella continuità del pensiero.

Non credo che sia particolarmente difficile migliorare i software per ottenere:

  1. che la durata della pausa della virgola sia differenziata dalla durata della pausa del punto di seguito;

  2. l’annuncio esplicito dell’inizio di un nuovo capoverso.

L’intonazione. Confesso subito di non conoscere la tecnica con la quale i software vocali costruiscono l’intonazione interpretando la sintassi, ma riconosco che il livello raggiunto sia notevole, generalmente sufficiente a rendere il senso del testo. In ogni caso, la chiarezza con la quale il senso viene reso dipende, naturalmente, dalla chiarezza con la quale il testo è stato scritto.

In particolare, il software reagisce bene nei casi seguenti:

In tutti questi casi, il software attribuisce al primo elemento che incontra, nonché al soggetto della frase principale quando essa segue immediatamente una frase secondaria, un accento più forte di quello attribuito agli elementi successivi. L’accento cala progressivamente, direi anche lentamente, sicché anche una frase composta da numerosi elementi non separati da virgole (per esempio, una catena di complementi) può essere ascoltata con un’intonazione accettabile [per esempio: “Il contratto collettivo decentrato prevede che i compensi per l’incentivazione della produttività collettiva e del miglioramento dei servizi siano correlati alla misurazione quantitativa e qualitativa dei risultati relativi alle attività e agli obiettivi realizzati da tutto il personale tecnico-amministrativo delle strutture, agli standard di produttività, tempestività e qualità dei servizi e alla capacità di innovare e migliorare i processi interni” (da una circolare della pubblica amministrazione)].

La qualità dell’intonazione di un periodo, invece, diminuisce:

In questi casi, il software tende a intonare le frasi successive a una virgola come se fossero incisi, producendo un effetto ‘altalena’, fatto di alti e bassi tutti uguali tra i quali l’ascoltatore può destreggiarsi ma con molto sforzo cognitivo. La soluzione dei problemi di intonazione – credo – sta a monte, cioè risiede nelle scelte di scrittura compiute dall’autore, il quale dovrebbe:

Vi è poi da segnalare che, mentre l’intonazione delle interrogative apparenti (segnalate da “?!”) è corretta, quella delle interrogative e delle esclamative non distingue:

Mi pare importante trovare una soluzione. Carlo Dossi, nel romanzo La desinenza in A (del 1878; ora disponibile in edizioni Einaudi, Garzanti, Rizzoli), propose di utilizzare all’inizio delle frasi interrogative e delle frasi esclamative il punto interrogativo e il punto esclamativo rovesciati, secondo l’uso dello spagnolo, sostenendo che fosse “utilissimo per evitare a chi legge a voce alta – màssime nei perìodi lunghi in cui la domanda o la esclamazione non apparisce chiaramente fin dalle prime parole – di doversi a un tratto, dinanzi all’impreveduto punto di ostàcolo, arrestare per così dire col pie’ levato fuor di equilibrio. Si obbedisce però al vecchio uso in quelle frasi che comìnciano con parole od interiezioni che sono già per sè stesse esclamazioni od interrogazioni (come ah!, oh!, deh! ecc.)”.

Il suggerimento di Dossi di marcare il valore della frase può essere ripreso, naturalmente a livello di codice di marcatura, per istruire il software a intonare l’interrogazione diretta in modo diverso dalla domanda retorica, e l’esclamazione in modo diverso dalla meraviglia (quali potranno essere i segni da usare nel codice, è compito degli sviluppatori trovarli). Ho detto “naturalmente a livello di codice” perché non credo che la proposta di Dossi, già caduta nel vuoto più di un secolo fa, abbia molte speranze di essere recuperata ora, ma certo non sarebbe uno scandalo se fosse recepita anche nell’editoria a stampa e web (per esempio, nella sua Grammatica Italiana, Luca Serianni, ricordando Dossi, afferma che “è indubbiamente scomodo non sapere, fin dall’inizio della lettura, quale sarà la curva intonativa della frase”).

I formati di evidenziazione. Un altro limite del software vocale è che non descrive adeguatamente alcuni formati di evidenziazione, come il grassetto e il corsivo.

Nell’editoria tradizionale, il grassetto è usato raramente e solo da poco tempo, mentre il corsivo viene applicato per convenzione (ma ci sono molte discordanze):

Nell’editoria web, invece, mentre il grassetto viene utilizzato molto abbondantemente, il corsivo cede terreno (forse perché è più difficilmente leggibile), ma quando è utilizzato segue spesso convenzioni diverse da quelle dell’editoria tradizionale, per cui:

La situazione è dunque molto confusa. Ma la confusione aumenta ancora se dall’aspetto editoriale (e dunque semantico) ci spostiamo sul codice HTML e sulla sua decodificazione da parte dei browser e dei software vocali. Il codice HTML dispone di due marcatori diversi per il grassetto e di due marcatori diversi per il corsivo. Per l’esattezza:

I marcatori B e I servono per rendere visivamente il grassetto e il corsivo; i marcatori STRONG e EM, invece, servono per rendere l’intenzione espressiva dell’autore. In particolare, STRONG, e dunque il grassetto, rende un’intenzione espressiva forte, mentre EM, cioè il corsivo, rende un’intenzione espressiva meno forte.

Sorvolando sul fatto che la ‘grammatica’ del codice HTML non concorda con le già confuse convenzioni editoriali, aggiungendo confusione a confusione, la questione importante è che, per il momento, i browser visualizzano B e STRONG e I e EM nello stesso modo (sempre lo stesso grassetto e sempre lo stesso corsivo), mentre i software vocali, appunto, non leggono questi marcatori. Per quanto suggerire una soluzione possa aggiungere confusione alla confusione, mi pare che si debba uniformare, e dunque propongo, in primo luogo che i software vocali e i browser si attrezzino per distinguere I da EM; e in secondo luogo che gli autori, se proprio non riescono a rendere l’espressività con una costruzione adeguata della frase e con una scelta oculata del lessico, usino il corsivo, che ha già questo significato nelle convenzioni editoriali tradizionali, e non il grassetto. Si tenga poi presente che il grassetto usato per l’espressività è in conflitto con il grassetto che segnala l’importanza di un’informazione. Si veda l’esempio seguente (tratto da una pagina web che presenta un mutuo):

Questo è il tuo mutuo, se vuoi un finanziamento sul 100% del valore dell’immobile, con una durata fino a 30 anni e con una rata fissa che costi come un affitto.

In questo esempio, mentre i primi due grassetti hanno il solo scopo di attirare immediatamente il lettore sulle caratteristiche principali del mutuo, il grassetto su “affitto” esprime chiaramente l’intenzione espressiva (equivale a “è talmente conveniente che è pari all’affitto, senza contare che poi la casa è tua”), ma ottiene anche lo scopo non voluto di attirare l’attenzione del lettore, il quale non capisce perché sia tanto importante la parola “affitto” in un testo che presenta un mutuo.

Dunque, corsivo e non grassetto per l’espressività. Quanto poi al grassetto sulle informazioni importanti, ci sarebbe da domandarsi quanto sia utile a un ascoltatore, tuttavia, se l’autore l’ha applicato, lo screen reader dovrebbe leggerlo.

La pronuncia. I difetti di pronuncia sono molto frequenti e rendono la comprensione di un testo più faticosa di quel che potrebbe essere, ma non so quanto possano pregiudicarla, anche perché gli ascoltatori possono personalizzare il vocabolario del proprio computer in modo da istruire il software vocale. Il quale è certamente molto avanzato nell’interpretazione del testo, e lo dimostra quando riconosce l’apostrofo utilizzato erroneamente come accento (citta’). Ma vediamo i limiti che ho riscontrato.

Omografi. Gli omografi, cioè parole che differiscono solo per la posizione dell’accento (lèggere/leggére; sùbito/subìto) vengono raramente riconosciuti; in alcuni casi la pronuncia può essere fuorviante (per esempio: regìstrati al sito / utenti registràti). La distinzione tra gli omografi dovrebbe spettare all’autore, al quale però potrebbero sfuggire facilmente, perché non siamo abituati a riflettere sugli eventuali omografi delle parole che stiamo usando. Dunque, forse, un’evoluzione del software vocale in questo senso potrebbe contribuire a migliorare la ricezione di queste parole.

Lettura scomposta delle date. Le date vengono talvolta, ma non sempre, lette come numeri separati (“venti zero quattro” invece di “duemilaquattro”). Questo errore è grave e credo che possa essere corretto facilmente.

Pronuncia errata dell’accento. Di molte – direi troppe – parole viene sbagliato l’accento. Ciò è molto strano quando la parola è piana (“fùrgone”), ma anche in altri casi il software vocale potrebbe e dovrebbe comportarsi meglio.

Vocali uguali consecutive. Talvolta, le vocali finali doppie (“europee”) o la vocale finale uguale alla vocale iniziale della parola successiva non vengono lette in modo distinto, ma con un suono solo (“europe” per “europee”; “direttiva ce” per “direttiva CEE”). Il software potrebbe migliorare su questo punto, e l’autore, dal canto suo, potrebbe aiutarlo applicando l’accento alla vocale tonica (per esempio europèe). Questa seconda opzione ha il limite che l’accento verrebbe visto dai lettori, che non sono abituati a vederlo.

Pronuncia dei forestierismi. Ad alcune parole straniere viene attribuita la fonetica italiana, per cui si ascoltano esattamente come si scrivono (a volte è fastidioso, se non fuorviante). Di questo argomento non posso discutere qui: la sua complessità richiederebbe uno spazio di cui non dispongo (del resto Diodati ne discute a lungo e offre soluzioni interessanti anche se non sempre conclusive). Bisognerebbe infatti: a) distinguere tra le parole straniere, in particolare tra quelle entrate da poco nella nostra lingua e quelle che ormai possono essere considerate italiane; b) verificare in quali contesti le parole straniere sono percepite come straniere; c) capire quale sia il modo efficace di pronunciare le parole straniere, cioè se secondo la fonetica italiana, oppure secondo il modo italiano di pronunciarle (noi pronunciamo ‘computer’ in modo diverso da come lo pronuncia un inglese), oppure se secondo la pronuncia corretta nella lingua originale (e anche questo non è ovvio: la pronuncia dell’inglese o dello spagnolo non è sempre la stessa). Una buona norma, valida soprattutto per i testi delle pubbliche amministrazioni, è comunque di non usare i forestierismi per i quali esiste un corrispondente italiano.

Conclusione

Il software vocale mi pare cha abbia raggiunto un livello di qualità sufficiente a restituire a voce alta un testo, però i programmatori hanno ancora parecchio margine di miglioramento, soprattutto per evitare all’ascoltatore uno sforzo cognitivo molto intenso nei casi – frequenti – in cui la pronuncia sia sbagliata e il senso di una frase o la relazione tra le frasi non siano espliciti (domande retoriche, esclamazioni di sorpresa, punti di seguito, capoversi ecc.). Al miglioramento dell’efficacia del software vocale devono però contribuire anche gli autori, producendo testi efficaci, cioè:

Da questo punto di vista, l’adattabilità di un testo alla trasmissione attraverso due canali diversi (lettura e ascolto) è possibile, ma gli autori devono curare il loro stile, cercando di adottare anche tutte le indicazioni di scrittura efficace che, negli ultimi anni, proprio la pubblica amministrazione ha promosso e che costituiscono un approfondimento necessario degli argomenti che ho discusso qui (per la scrittura in particolare amministrativa, suggerisco la lettura del libro di Tommaso Raso, La scrittura burocratica. La lingua e l’organizzazione del testo, Roma, Carocci, 2005). Non vi è dubbio che le cose cambieranno, che alcuni problemi saranno risolti, che altri ancora verranno individuati: serve il contributo di tutti. L’accessibilità è una questione di civiltà.

[Appendice B del libro di Michele Diodati, Accessibilità. Guida completa (Milano, Apogeo, 2007). Questo testo viene qui pubblicato con il consenso dell'editore Apogeo e di Michele Diodati].