VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilita' del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o partecipera'  Parlano (speriamo bene:-)) di noi...





Resoconto attivita' del W3C Voice Browser Working Group
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


15 Marzo 2003.


Siamo a met� marzo e vorrei offrire un resoconto per sommi capi dell'attivit� svolta dal Voice Browser WG di W3C, far� qualche incursione nelle aree di confine, quali il Multimodale.


1) Una nuova versione di VoiceXML 2.0 CR (20 Febbraio 2003)

Gia' vi avevo annunciato la pubblicazione di una nuova versione delle specifiche del VoiceXML 2.0 avvenuta il 18 gennaio scorso. Poi, il 20 febbraio 2003 lo stesso documento � stato ri-pubblicato ai seguenti URLs http://www.w3.org/TR/voicexml20/ e http://www.w3.org/TR/2003/CR-voicexml20-20030220/.

Perch�? La causa � legata alla presenza di errori negli Schema allegati alla specifica. Non so se avete notato, ma dalla versione precedente sia la DTD sia gli Schema, cio� gli strumenti per verificare la correttezza di un documento VoiceXML, sono stati spostati da Appendice al documento di specifica ad una URL esterna ad esso. Lo spostamento � stato realizzato proprio per renderne pi� agevole la correzione di eventuali errori. E questo � ci� che � successo!

Gli Schema sono un meccanismo molto pi� potente rispetto alle DTD per garantire la correttezza sintattica di un documento XML, inoltre permettono di definire un Namespace per gli elementi di uno specifico linguaggio. Ad oggi per� non esiste un modo univoco per provare gli Schema e verificarne la correttezza, tutti, compreso il VBWG, provano gli Schema su un insieme di tool (Xerces, IBM, MS, ecc), ma tale prova non � esaustiva ed errori possono essere ancora riscontrati.

A dire il vero si sperava che la modifica agli Schema non provocasse la ri-pubblicazione del documento di specifica, invece essa ha dovuto essere ri-pubblicata senza alcuna modifica al suo contenuto, ma con un riferimento corretto in Appendice O. Temo che la stessa cosa possa ancora capitare ancora in un prossimo futuro.


2) Sessione plenaria del W3C

Il 5 marzo 2003 si � svolta a Cambridge (Massachusetts, USA) la W3C Technical Plenary, l'incontro annuale di tutti i gruppo di interesse che compongono il W3C. Durante il resto della settimana si sono svolti invece gli incontri dei singoli WG, spesso per affrontare temi di interesse anche ad altri WG e sfruttare appieno la presenza di esperti su aree diverse del mondo Web.

La giornata della sessione plenaria � stata densa di incontri e tavole rotonde. � iniziata con saluto che dipingeva lo stato del W3C offerto da Steve Bratt (W3C Chief Operating Officer), dove sono state presentate le molte attivit� in corso ed il progresso nel rilascio di Raccomandazioni avvenuto nello scorso anno.

� seguito un panel a cui partecipavano sia il Voice Browser WG, nelle persone di Jim Larson e Scott Mc Glashan, co-chair, il chair del Multimodal Interaction WG, Debbie Dahl, e poi Roger Simpson di Device Independence WG e Janina Sajka di WAI, il gruppo dedicato all'accessibilit� dei contenuti Web da parte di persone disabili. Le presentazioni ed il dibattito successivo sono stati interessanti per capire gli obiettivi attuali di questi gruppi, le possibili sinergie e le sfide future che dovranno affrontare. Mi � sembrato molto importante che la Voce sia in ambito VoiceXML sia in quello multimodale abbiano stimolato una riflessione in tutti i gruppi del W3C. Infatti la voce solleva delle questioni nuove e vitali anche per gli altri ambiti del Consorzio. Ritorner� tra poco su alcune delle sfide pi� importanti per utilizzare appieno la voce nel mondo Web.

Il panel successivo era sulle evoluzioni dell'architettura Web, con particolare enfasi sul ruolo e sulle aspettative verso il TAG (Technical Advisory Group), un gruppo di esperti che ha il compito di affrontare le questioni pi� spinose sollevate dai tutti i WG. I relatori erano tutti guru del Web, i nomi si commentano da soli: Tim Berners-Lee (responsabile del W3C), Roy Fielding, Dan Connolly, Paul Cotton e altri. Un primo tema in discussione � il documento: "Introduction to Web Architecture" scritto da Tim Bray, che mi sono ripromesso di leggere (http://www.w3.org/TR/webarch/). Poi si � passati ad analizzare alcune questioni spinose: il ruolo delle ID in XML, quando validare un documento XML, questioni legate ai Namespaces, ed altre.

� seguito un panel sull'integrazione di prodotti, si � parlato brevemente di XForms (D. Landwehr, Novell), di X-Smiles (M. Honkala, Univ. Helsinki), di MathML (S. Buswell, Stilo). MathML � un linguaggio XML per scrivere formule matematiche sviluppato da W3C e che ora inizia ad essere utilizzato dall'industria editoriale e dai Browser per la visualizzazione di formule ed equazioni matematiche.

Il tema successivo era la necessit� dello sviluppo di un Glossario W3C gestito in modo centralizzato. E' emerso che le diverse specifiche W3C definisco i termini in modo diverso e non c'� un repository comune da cui attingere o su cui basarsi. Un secondo obiettivo � offrire un ausilio alla traduzione in modo coerente delle specifiche W3C in altre lingue oltre all'inglese. L'idea � di sviluppare un tool che permetta di accedere e riferire le definizioni in modo univoco e poterne differenziare l'uso in modo chiaro e motivato.

L'ultimo panel della giornata era dedicato al tema "Un Web o quattro?". I quattro temi su cui si discuteva la convergenza o meno erano: gli aspetti ipertestuali, il protocollo HTTP, i servizi Web ed il Semantic Web, cio� RDF, la capacit� annotare i contenuti Web in modo standard e quindi meglio sfruttabile per cercare i contenuti.


3) Voce e Multimodale

Questo ultimo punto � lo stimolo per approfondire, speriamo insieme, un po' meglio il legame tra voce e multimodale. Io ritengo che oggi sia necessario iniziare a pensare su questi temi e a prepararsi ad un futuro che � ormai alle porte.

La voce pu� servire come una delle modalit� che possono essere utilizzate in alternativa, ad esempio alla tastiera o alla scrittura su Tablet. L'avvento di device piccoli, ma sempre pi� potente contribuir� ad ampliare il divario tra uno schermo piccolo, ma potente per presentare i contenuti, e modalit� di input scomode quali una piccola tastiera o la scrittura. La voce pu� essere un potente ausilio in questo campo. Inoltre la voce sia in ingresso (riconoscimento), sia in uscita (sintesi da testo), pu� aprire il mondo Web a molte persone che non possono interagire con altre modalit� perch� impedite nella visione o nella scrittura da tastiera/mouse.

La sfida � molto grande ed il VoiceXML com'� fatto oggi non riesce ad essere efficace in questo abito, infatti le esigenze attuali sono di poter integrare la voce con altre modalit�, quindi poter inserire il VoiceXML (o parte di esso) in un altro linguaggio, quale ad esempio l'XHTML (o HTML). Il VoiceXML � una specie di monolito costituito da una quarantina di elementi strettamente legati l'uno all'altro, la sfida sar� di scinderlo in moduli usabili anche separatamente.

Il SALT (proposto dal SALT Forum) � un primo passo in questo senso. Il SALT � costituito da quattro o cinque semplici elementi da inserire a mano o con ausilio di tool (Speech SDK .NET) dentro un altro Markup, quale l'HTML. � indiscutibile che la concisione e l'eleganza del SALT siano un dato molto interessante, d'altro canto per� il SALT manca di un chiaro meccanismo per operare una iniziativa mista (cio� riempire pi� campi di un form con una frase unica, ad esempio: "Parto da Torino e vado a Roma partendo domani mattina alle otto" riesce a sfruttare a pieno le potenzialit� della lingua).

Qui si gioca il futuro del VoiceXML (e del SALT) per fornire un ausilio alla creazione di contenuti Web in modo agevole e utilizzando tutte le modalit� che via, via la tecnologia offre a disposizione.

Penso che ritorner� su questo argomento in futuro, per il momento vi invito a leggere ci� che ha scritto Jim Larson per il Multimodal Interaction WG e disponibile al seguente URL http://www.w3.org/TR/mmi-framework/.


Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.