LIBRI
L' autore, Ken Abbott,
� un software architect di provata esperienza nel settore americano. Formato
tecnicamente presso la Xerox (divisione XSoft), ha conseguito tre certificazioni
delle pi� selettive nel panorama tecnologico mondiale: Sun Certified Enterprise
Architect, IBM Certified Solutions Expert e Microsoft Certified Systems Engineer.
Oggi offre la sua esperienza al servizio delle aziende start-up americane e
in generale a quelle aziende che necessitano di consulenza tecnica di un certo
valore. Nella lettura del libro vi accorgerete come recentemente le sue conoscenze
si siano focalizzate sul mondo Java 2 Enterprise, diventato ormai il fondamento
del Web lato server. |
Inizio questa recensione con
una premessa sull'autore del libro, Dr. James (Jim) A. Larson. |
|
|||||||||
Recensione di Davide Tosello (Loquendo) per il ns. User Group Libro targato Lucent Technologies. I quattro autori sono infatti membri dello staff tecnico della Lucent in North Carolina, tutti con esperienza relativa allo sviluppo di servizi vocali VoiceXML fin dal 1999, che tutti noi dovremmo ricordare come “anno zero” del VoiceXML, ossia l’anno in cui il VoiceXML Forum ha rilasciato la versione 1.0 del VXML, in cui tutti noi dovremmo altresì ricordare Lucent tra i quattro membri fondatori... è allora un vero piacere effettuare la recensione di un libro scritto da persone che lavorano in una ditta di ricerca che ha collaborato alla stesura iniziale del linguaggio VoiceXML. Il libro è stato pubblicato nel 2001 ed analizza tutte le tematiche inerenti un portale vocale rientrando a pieno titolo nella lista di libri che forniscono una sufficiente panoramica delle problematiche legate al mondo delle applicazioni vocali. Ovviamente la parte più corposa del libro è incentrata sul linguaggio VoiceXML 1.0/2.0 (reference + uso avanzato di Ecma Script, trasferimento di chiamata e recording di file audio), ma anche sul concetto di VoiceXML User Interface (VUI) e sul processo di sviluppo di un’applicazione vocale. Risulta scarsa la parte di approfondimento del VoiceXML 2.0, anche perchè il libro è uscito nel secondo semestre del 2001 mentre lo standard VoiceXML è Candidate Raccomendation solo da inizio 2003. Riassumo il contenuto del libro suddividendolo in cinque parti: PRIMA
PARTE: INTRODUZIONE SECONDA
PARTE: SVILUPPO TERZA
PARTE: TOPICS QUARTA
PARTE: VOICE SOLUTION DESIGN QUINTA
PARTE: CONCLUSIONI Riassumendo possiamo dire che questo libro fa per voi se non avete mai sentito parlare di VoiceXML ma siete interessati alle basi del linguaggio e soprattutto alla parte di creazione e gestione di un servizio vocale "funzionante ed estensibile" in futuro, magari aperto all’integrazione con le prossime/future tecnologie. Occorrerà invece attendere un rialleneamento dei contenuti, magari in una futura ristampa, per quanto riguarda la descrizione del linguaggio VoiceXML 2.0. |
|
|
|
Recensione di Paolo Baggia (Loquendo) per il ns. User Group Il libro � interessante, mi sarei aspettato una introduzione approfondita al settore affascinante della sintesi vocale, invece gli autori sono stati aderenti al titolo nel descrivere i problemi legati all'uso della voce come output di device ed applicazioni. I tre esempi riportati riguardano: un indicatore di traffico, un'applicazione di voicemail ed una futuribile interfaccia per un videoregistratore. L'idea che sta alla base � che l'evoluzione della tecnologia permette oggi delle nuove opportunit� per complementare l'interfaccia visuale con voce o suoni, in particolare con voce generata automaticamente tramite un sistema di sintesi da testo (TTS: Text-To-Speech). Questo tipo di applicazioni � pertinente anche a device di uso domestico, per superare delle limitazioni quali il tele-controllo. Un altro esempio classico � la necessit� di avere feedback vocali quando l'attenzione visiva non pu� essere distolta, quindi guidando un'automobile o eseguendo compiti complessi. Un'ulteriore campo di sviluppo � rendere accessibili strumenti ed applicazioni a persone diversamente abili. Il testo � introduttivo e permettere ai lettori di avvicinarsi ad un settore specialistico, quello del 'design' di output vocali, senza addentrarsi in tecnicismi eccessivi. Un limite � per� che semplificando molto si rischia di dare un'idea distorta delle applicazioni realizzabili oggi e far percepire questo settore non cos� vicino alla realt�. Infatti si parla di sintesi da testo basata su concatenazione di fonemi (le unit� di base della pronuncia di una parola) e di sistemi basati su concatenazione di file acustici pre-registrati, che spesso rendono le frasi in modo buffo con pause innaturali. Quando invece la miglior tecnologia di sintesi da testo (TTS) � in grado oggi di fornire un ibrido di questi due modelli, ove le limitazioni del primo (poca naturalezza) e del secondo metodo (rigidit� ed impossibilit� a generare frasi e parole nuove) sono ridotti al minimo. Un TTS attuale � in grado di leggere qualsiasi testo, ma con una naturalezza e gradevolezza impensabili alcuni anni fa. Provate a giocare un po' con le demo online per capire, ad es.: http://actor.loquendo.com/actordemo/default.asp?language=it. Se ci addentriamo nel libro, che � organizzato in otto agili capitoli, di cui il primo introduttivo al tema, scopriamo che il secondo trattalo stato dell'arte, introducendo il lettore ad alcuni concetti chiave, quali il ruolo delle pause e del ritmo in un prompt vocale, dell'intonazione, per poi passare a descrivere problemi studiati dalla psicolinguistica, di come funziona la memoria uditiva e le implicazioni sulla lunghezza delle frasi da utilizzare. Sembrano questioni astratte, ma gli esempi sono semplici e chiari e danno un'idea della cura che deve essere utilizzata per progettare i messaggi di un sistema vocale. Il terzo capitolo affronta il tema del design dell'interazione, cio� di cosa deve essere comunicato, per poi passare nel capitolo successivo al design del dialogo cio� di come comunicare le informazioni prescelte. I punti salienti del terzo capitolo riguardano le aspettative e la rilevanza delle informazioni da comunicare e del controllo da lasciare all'ascoltatore per permettergli di recuperare la conversazione se � in difficolt�. Troppe informazioni, ripetizioni eccessive, possono appesantire un'applicazione vocale. Purtroppo l'esempio riportato � veramente datato perch� basato su un'interfaccia vocale ad un file system DOS (!?!). Nel quarto capitolo si sostiene l'importanza di usare feedbacks non vocali ove possibile, riportando i pregi ed i difetti dei suoni di richiamo rispetto all'uso di materiale verbale, cio� di parole. Procede poi nell'ambito dell'output vocale alle scelte che si devono affrontare e dei trabocchetti creati da ambiguit� grafemiche (omofoni) e semantiche. Il quinto capitolo � il pi� legato alla lingua inglese in quanto descrive l'intonazione, il ritmo e l'accento di tale lingua. Passa poi a descrivere i problemi legati a frasi interrogative, a come porre delle domande all'utente, siano esse Si/No (chiuse) o aperte. Se la prima parte � interessante, ma legata alla lingua inglese, il problema delle frasi interrogative � senz'altro molto difficile per tutte le lingue, italiano compreso. Una domanda mal formulata pu� impedire di fatto la continuazione in un'interazione vocale o perlomeno rendere la comunicazione molto pi� complessa e pesante. Il sesto capitolo � interessante in quanto cerca di descrivere le problematiche relative a come leggere liste di elementi o, caso ancora pi� critico, dati in formato tabulare. Il punto chiave � non abusare della memoria dell'ascoltatore e fare buon uso della prosodia per dare un'idea della struttura di ci� che si sta dicendo. Gli ultimi due capitoli sono dedicati all'analisi dei tre case study ed alle evoluzioni successive. Il primo dei case study � il Trafficmaster Freeway, uno strumento di piccole dimensioni che utilizzando informazioni GPS fornisce messaggi vocali sullo stato del traffico delle autostrade inglesi. Vengono descritte la modalit� di funzionamento automatica, con annuncio delle sole variazioni di condizioni del traffico, e la modalit� manuale, in cui la ricezione di informazioni � indicata da una spia luminosa e su richiesta si pu� ascoltare il messaggio ricevuto. Gli autori sottolineano il fatto che lo strumento presenta uno scarso utilizzo di suoni non verbali per comunicare informazioni e suggeriscono possibili miglioramenti alla prosodia per rendere i messaggi pi� incisivi. Il secondo case study � lo SpeakEasy NT VoiceMail un prodotto di VoiceMail di cui vengono descritti i messaggi dei vari men�. In questo caso gli autori non rilevano grandi cose, se non piccoli miglioramenti delle frasi, ad esempio l'ordine delle opzioni dei men�, tale da facilitarne la memorizzazione e l'usabilit�. La voce � pre-registrata per cui vengono rilevati dei salti e delle pause innaturali ed il cambio di voce dove viene pronunciato il nome del proprietario della casella vocale. Un buon TTS oggi sarebbe in grado di pronunciare queste frasi senza difficolt�. L'ultimo esempio � il design di uno Speaking Video Recorder, cio� un video registratore (VCR) con feedback vocale. Lo scopo � di migliorare l'usabilit� di un VCR per permettere l'accesso a persone con problemi di vista ed anche l'accesso remoto da telefono. L'interfaccia � molto semplice e basata su men�. I consigli degli autori si focalizzano pi� sulla pronuncia dei messaggi che non sulle problematiche di interazione vocale nel caso remoto. Per le evoluzioni future (ottavo capitolo) vengono indicati l'uso della voce come canale di comunicazione alternativo ad altri e le applicazioni per utenti con necessit� particolari: qui si ritorna sulle differenze tra un'interfaccia visuale e vocale e sull'estrema difficolt� nel trasporre un'interfaccia esistente in forma vocale (per esempio ad uso di applicazioni informatiche per una persona non vedente tramite uno ScreenReader). Infine le opportunit� per l�uso della voce su terminali mobili, che sta per aprire le porte ad applicazioni multimodali, ove la voce, lo scritto e le interazioni con mouse o tasti si integrano in un'applicazione capace di gestirli simultaneamente. Non perdetevi le appendici che riportano esempi di omofoni, parole con pi� di un significato, e parole con pi� di una pronuncia, molto interessanti per noi italiani che sulla lingua inglese ci muoviamo a tentoni, soprattutto sulla fonetica. Concludo questa recensione invitando a leggere il libro per entrare nel mondo affascinante della comunicazione vocale tra uomo ed applicazioni vocali, con le sue sfide ed i punti dolenti. Forse essendo questo libro molto introduttivo potr� essere utile poi approfondire i temi di interesse su altri volumi pi� specialistici. Ad esempio "How to Build a Speech Recognition Application" di B. Balentine, D.P. Morgan e W. S. Meisel o gli altri libri sul VoiceXML presenti in questa pagina. Un solo appunto agli autori: molti degli esempi potrebbero essere aggiornati prendendo in considerazione le applicazioni disponibili oggi. Difficilmente ci potr� capitare di interagire con un file-system DOS o di sentire letto l'elenco dei file del nostro computer. Esistono molte applicazioni reali che soffrono degli stessi problemi, ad esempio l'accesso ai titoli della borsa o il brokeraggio online.
|
|