VoiceXML Italian User Group. Intervista di Paolo Baggia alla Dr. Deborah Dahl

Intervista di Paolo Baggia (Loquendo) alla Dr. Deborah Dahl (Luglio 2003).
(Click here for the original interview in English)

Considerato il crescente interesse per le applicazioni di tipo multimodale, ho pensato di intervistare la dr. Deborah Dahl, chairman del Multimodal Interaction Working Group del W3C.
Spero sia di stimolo per iniziare a pensare alle nuove sfide che la voce dovr� affrontare tra breve.

Paolo Baggia, rappresentante Loquendo al W3C MMIWG e VBWG

[Paolo Baggia] Perch� sta crescendo un'attenzione verso le applicazioni multimodali?

[Dr. D. Dahl] Bench� da molti anni la multimodalit� sia oggetto di interesse accademico, ora sta crescendo un interesse commerciale, anche perch� stanno prendendo piede tre aspetti fondamentali dell'infrastruttura di supporto alle applicazioni multimodali. Dal momento che le applicazioni multimodali dipendono dal riconoscimento della voce, un primo fattore � il miglioramento dell'accuratezza e della robustezza del riconoscimento vocale avvenuto negli ultimi anni, questo primo aspetto rende la realizzazione di applicazioni vocali molto pi� realistico. Un secondo aspetto � lo sviluppo esplosivo della telefonia mobile, malgrado i cellulari stiano diventando sempre pi� potenti, allo stesso tempo si stanno rimpicciolendo sempre pi�, il che rende la digitazione su tastiere o keypad lenta e scomoda. La voce in questo contesto � molto naturale. Infine, di recente, la voce legata all'infrastruttura Web e la presenza di ambienti di sviluppo potenti, stanno rendendo lo sviluppo di applicazioni pi� semplice ed efficiente.

[P.B.] Quali sono le proposte disponibili oggi?

[Dr. D. Dahl] Negli anni passati le applicazioni multimodali erano primariamente basate su tecnologie proprietarie, anche se API speech aperte, quali SAPI e JSAPI hanno significativamente aiutato a ridurre la complessit� dello sviluppo di applicazioni vocali. Ci� nonostante, l'integrazione di voce e Web da un lato e gli standard e tool disponibili dall'altro, stanno ulteriormente riducendo la complessit� dello sviluppo di applicazioni. Attualmente sono disponibili due importanti proposte, entrambe aperte e web-based. La prima, effettuata da IBM e Opera Software, � rappresentata dall'integrazione di XHTML con il VoiceXML (detto X+V); la seconda, redatta dal SALT Forum, si � concretizzata nella stesura di una specifica multimodale, il linguaggio SALT 1.0. Molti dei principi di base di questi due approcci sono simili, ma la programmazione SALT � in genere a pi� basso livello rispetto alla programmazione X+V. Il Multimodal Interaction Working Group del World Wide Web Consortium (W3C), che io presiedo, sta lavorando nel definire uno standard unico per l'interazione multimodale in ambiente web. Sia X+V che SALT sono state offerte al W3C come contributi royalty-free a questa attivit� di standardizzazione.
Altri standard emergenti di W3C quali SRGS e SSML, per il riconoscimento vocale e per la sintesi da testo rispettivamente, sono applicabili tanto al multimodale quanto alle applicazioni vocali.

[P.B.] In quale settore le applicazioni multimodali possono emergere?

[Dr. D. Dahl] Esistono gi� oggi delle applicazioni multimodali specializzate, quali i sistemi di apprendimento di lingue straniere o gli strumenti per i disabili, ma esse raggiungono relativamente pochi utilizzatori. Applicazioni multimodali per apparecchi mobili sono il settore pi� promettente per rendere la multimodalit� veramente diffusa (mainstream). Molte aziende, specialmente gli operatori telefonici, stanno lavorando sullo sviluppo di applicazioni multimodali e la realizzazione di field trial, ma non sono ancora pronti a mostrare pubblicamente i risultati raggiunti. In ogni caso, credo che entro il quarto trimestre di quest'anno sia molto probabile che assisteremo ad annunci pubblici di sviluppi e test in campo.

[P.B.] Pu� fare alcuni esempi di applicazioni multimodali gi� in uso oggi?

[Dr. D. Dahl] Come ho detto attualmente nel mercato di consumo non ci sono molti esemplari di applicazioni multimodali in esercizio. LogicTree, ad esempio, ha installato un sistema che fornisce informazioni sui trasporti pubblici. [N.d.T. Sistema collaborativi tra operatore ed utente, il dialogo utente � in voce, mentre l'operatore pu� interagire anche con una GUI.] Ci sono per� varie applicazioni in prova, per esempio, valutazioni di applicazioni multimodali sono state annunciate da aziende quali Kirusa specializzata in portali vocali multimodali. Altre aree interessanti, ancora in fase esplorativa non commerciale, sono un'interfaccia multimodale per automobile realizzata da SpeechWorks per la Ford modello U Concept SUV. Questa interfaccia permette di pilotare il navigatore o di modificare il riscaldamento ed il condizionamento dell'auto utilizzando la voce o tramite touch-screen per i passeggeri. Applicazioni multimodali sono inoltre utilizzate per la riabilitazione all'uso della parola per pazienti che hanno subito un ictus.

[P.B.] Come potr� influire lo sviluppo di applicazioni multimodali sul mercato dei servizi solo vocali?

[Dr. D. Dahl] Le applicazioni multimodali espanderanno ulteriormente il mercato della voce permettendo lo sviluppo di applicazioni che non potevano essere realizzate con un interfaccia solo vocale � per esempio, quando la visualizzazione di un'immagine o di un video siano una parte integrante dell'applicazione stessa � oppure di domini in cui l'interazione solo in voce sarebbe risultata essere troppo lenta, come la selezione da una lista di opzioni molto lunga. Non credo sia probabile che il mercato delle applicazioni in sola voce possa venire eroso, perch� la prevalenza di apparecchi telefonici senza display implica che le applicazioni in sola voce continuino ad essere di grande interesse per gli utenti.

[P.B.] Ritiene che ci possano essere differenza tra il mercato USA e UE su queste tecnologie?

[Dr. D. Dahl] Gli utenti europei sono universalmente noti per un pi� sofisticato uso del terminale mobile che non le persone in USA, per cui ritengo che le applicazioni multimodali possano diffondersi in Europa prima che negli USA. In ogni caso, non mi pare che le applicazioni possano essere troppo diverse tra questi due mercati.

[P.B.] Quali sono delle applicazioni pi� adatte alla multimodalit�?

[Dr. D. Dahl] Non penso ci sia nessuno in grado di predire quali saranno le applicazioni multimodali pi� efficaci. Come minimo, la voce deve essere percepita come un valore aggiunto importante per l'applicazione stessa � non penso sia efficace aggiungere la voce in un applicazione, solo perch� � una tecnologia innovativa (cool). La voce aggiunge inequivocabilmente valore alle applicazioni che funzionano su un device piccolo con una tastiera scomoda oppure su applicazioni usate quando l'utente ha le mani e gli occhi impegnati. La maggior parte delle dimostrazioni multimodali che ho visto sono volte al riempimento di form a voce. Invece penso che la navigazione vocale possa essere un ambito persino pi� interessante del riempimento di form, infatti percorrere molti livelli di men� in una interfaccia GUI � noioso su un piccolo device. Nel momento in cui gli sviluppatori diventano pi� confidenti delle possibilit� offerte dalla multimodalit� e con l'affermazione di tool di sviluppo per il multimodale, penso che inizieremo a vedere delle applicazioni pi� innovative. Vorrei suggerire a tutte le persone che nutrono un interesse in quest'area, di provare a sviluppare delle applicazioni multimodali su una delle piattaforme disponibili come X+V di IBM o SALT di Microsoft. Bench� si sia spesso dichiarato che le applicazioni multimodali del futuro saranno principalmente create da sviluppatori web, ritengo che gli sviluppatori con esperienza nel campo delle applicazioni vocali tradizionali possano essere in grado di sviluppare delle interfacce migliori rispetto agli sviluppatori di GUI web, per la loro maggiore familiarit� con i problemi tipici della voce.

Similar interests