Resoconto attivita' del W3C Voice Browser Working Group
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups
15 Marzo 2003.
Siamo a met� marzo e vorrei offrire un resoconto per
sommi capi dell'attivit� svolta dal Voice Browser
WG di W3C, far� qualche incursione nelle aree
di confine, quali il Multimodale.
1) Una nuova versione di VoiceXML 2.0 CR (20 Febbraio 2003)
Gia' vi avevo annunciato la pubblicazione di una
nuova versione delle specifiche del VoiceXML 2.0
avvenuta il 18 gennaio scorso. Poi, il 20 febbraio
2003 lo stesso documento � stato ri-pubblicato ai seguenti URLs http://www.w3.org/TR/voicexml20/ e
http://www.w3.org/TR/2003/CR-voicexml20-20030220/.
Perch�? La causa � legata alla presenza di errori negli
Schema allegati alla specifica. Non so se avete notato,
ma dalla versione precedente sia la DTD sia gli Schema,
cio� gli strumenti per verificare la correttezza di
un documento VoiceXML, sono stati spostati da Appendice
al documento di specifica ad una URL esterna ad esso.
Lo spostamento � stato realizzato proprio per
renderne pi� agevole la correzione di eventuali errori.
E questo � ci� che � successo!
Gli Schema sono un meccanismo molto pi� potente rispetto
alle DTD per garantire la correttezza sintattica di
un documento XML, inoltre permettono di definire
un Namespace per gli elementi di uno specifico linguaggio.
Ad oggi per� non esiste un modo univoco per provare
gli Schema e verificarne la correttezza, tutti, compreso
il VBWG, provano gli Schema su un insieme di tool (Xerces,
IBM, MS, ecc), ma tale prova non � esaustiva ed
errori possono essere ancora riscontrati.
A dire il vero si sperava che la modifica
agli Schema non provocasse la ri-pubblicazione del
documento di specifica, invece essa ha dovuto essere
ri-pubblicata senza alcuna modifica al suo contenuto,
ma con un riferimento corretto in Appendice O. Temo
che la stessa cosa possa ancora capitare ancora
in un prossimo futuro.
2) Sessione plenaria del W3C
Il 5 marzo 2003 si � svolta a Cambridge (Massachusetts, USA)
la W3C Technical Plenary, l'incontro annuale di tutti i
gruppo di interesse che compongono il W3C. Durante il
resto della settimana si sono svolti invece gli incontri
dei singoli WG, spesso per affrontare temi di interesse
anche ad altri WG e sfruttare appieno la presenza di esperti
su aree diverse del mondo Web.
La giornata della sessione plenaria � stata densa
di incontri e tavole rotonde. � iniziata con saluto che
dipingeva lo stato del W3C offerto da Steve Bratt (W3C
Chief Operating Officer), dove sono state presentate
le molte attivit� in corso ed il progresso nel rilascio
di Raccomandazioni avvenuto nello scorso anno.
� seguito un panel a cui partecipavano sia il Voice
Browser WG, nelle persone di Jim Larson e Scott Mc Glashan,
co-chair, il chair del Multimodal Interaction WG, Debbie Dahl,
e poi Roger Simpson di Device Independence WG e Janina Sajka
di WAI, il gruppo dedicato all'accessibilit� dei contenuti
Web da parte di persone disabili. Le presentazioni ed il
dibattito successivo sono stati interessanti per capire gli
obiettivi attuali di questi gruppi, le possibili sinergie e
le sfide future che dovranno affrontare. Mi � sembrato molto
importante che la Voce sia in ambito VoiceXML sia in quello
multimodale abbiano stimolato una riflessione in tutti
i gruppi del W3C. Infatti la voce solleva delle questioni
nuove e vitali anche per gli altri ambiti del Consorzio.
Ritorner� tra poco su alcune delle sfide pi� importanti
per utilizzare appieno la voce nel mondo Web.
Il panel successivo era sulle evoluzioni dell'architettura
Web, con particolare enfasi sul ruolo e sulle aspettative
verso il TAG (Technical Advisory Group), un gruppo di esperti
che ha il compito di affrontare le questioni pi� spinose
sollevate dai tutti i WG. I relatori erano tutti guru del Web,
i nomi si commentano da soli: Tim Berners-Lee (responsabile
del W3C), Roy Fielding, Dan Connolly, Paul Cotton e altri.
Un primo tema in discussione � il documento: "Introduction
to Web Architecture" scritto da Tim Bray, che mi sono
ripromesso di leggere (http://www.w3.org/TR/webarch/).
Poi si � passati ad analizzare alcune questioni spinose:
il ruolo delle ID in XML, quando validare un documento XML,
questioni legate ai Namespaces, ed altre.
� seguito un panel sull'integrazione di prodotti, si �
parlato brevemente di XForms (D. Landwehr, Novell),
di X-Smiles (M. Honkala, Univ. Helsinki),
di MathML (S. Buswell, Stilo). MathML � un linguaggio XML
per scrivere formule matematiche sviluppato da W3C e che ora
inizia ad essere utilizzato dall'industria editoriale e dai
Browser per la visualizzazione di formule ed equazioni
matematiche.
Il tema successivo era la necessit� dello sviluppo di
un Glossario W3C gestito in modo centralizzato. E' emerso
che le diverse specifiche W3C definisco i termini in modo
diverso e non c'� un repository comune da cui attingere o
su cui basarsi. Un secondo obiettivo � offrire un ausilio
alla traduzione in modo coerente delle specifiche W3C
in altre lingue oltre all'inglese.
L'idea � di sviluppare un tool che permetta di accedere e
riferire le definizioni in modo univoco e poterne differenziare
l'uso in modo chiaro e motivato.
L'ultimo panel della giornata era dedicato al tema "Un Web o
quattro?". I quattro temi su cui si discuteva la convergenza
o meno erano: gli aspetti ipertestuali, il protocollo HTTP,
i servizi Web ed il Semantic Web, cio� RDF, la capacit�
annotare i contenuti Web in modo standard e quindi meglio
sfruttabile per cercare i contenuti.
3) Voce e Multimodale
Questo ultimo punto � lo stimolo per approfondire,
speriamo insieme, un po' meglio il legame tra voce
e multimodale. Io ritengo che oggi sia necessario
iniziare a pensare su questi temi e a prepararsi
ad un futuro che � ormai alle porte.
La voce pu� servire come una delle modalit� che
possono essere utilizzate in alternativa, ad esempio
alla tastiera o alla scrittura su Tablet.
L'avvento di device piccoli, ma sempre pi�
potente contribuir� ad ampliare il divario tra uno
schermo piccolo, ma potente per presentare i contenuti,
e modalit� di input scomode quali una piccola tastiera
o la scrittura. La voce pu� essere un potente ausilio
in questo campo. Inoltre la voce sia in ingresso
(riconoscimento), sia in uscita (sintesi da testo), pu�
aprire il mondo Web a molte persone che non possono
interagire con altre modalit� perch� impedite nella
visione o nella scrittura da tastiera/mouse.
La sfida � molto grande ed il VoiceXML com'� fatto
oggi non riesce ad essere efficace in questo abito,
infatti le esigenze attuali sono di poter integrare
la voce con altre modalit�, quindi poter inserire
il VoiceXML (o parte di esso) in un altro linguaggio,
quale ad esempio l'XHTML (o HTML). Il VoiceXML �
una specie di monolito costituito da una quarantina
di elementi strettamente legati l'uno all'altro,
la sfida sar� di scinderlo in moduli usabili anche
separatamente.
Il SALT (proposto dal SALT Forum) � un primo passo
in questo senso. Il SALT � costituito da quattro o cinque
semplici elementi da inserire a mano o con ausilio
di tool (Speech SDK .NET) dentro un altro Markup, quale
l'HTML. � indiscutibile che la concisione e l'eleganza
del SALT siano un dato molto interessante, d'altro
canto per� il SALT manca di un chiaro meccanismo
per operare una iniziativa mista (cio� riempire
pi� campi di un form con una frase unica, ad
esempio: "Parto da Torino e vado a Roma partendo domani
mattina alle otto" riesce a sfruttare a pieno le
potenzialit� della lingua).
Qui si gioca il futuro del VoiceXML (e del SALT) per
fornire un ausilio alla creazione di contenuti Web
in modo agevole e utilizzando tutte le modalit� che
via, via la tecnologia offre a disposizione.
Penso che ritorner� su questo argomento in futuro,
per il momento vi invito a leggere ci� che ha scritto
Jim Larson per il Multimodal Interaction WG e disponibile al seguente URL http://www.w3.org/TR/mmi-framework/.
Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.
|