Resoconto del meeting (Redmond Washington - USA, 2-6 Giugno 2003)
di W3C Voice Browser e Multimodal
Interaction WG
a cura di Paolo Baggia rappresentante di Loquendo nei
W3C Voice Browser e W3C Multimodal Interaction Working Groups
Giugno 2003.
Gli incontri si sono svolti a Redmond,
vicino a Seattle, ospiti di Microsoft, tra il 2 ed il 6
giugno 2003.
Sommario dei lavori del Voice Browser Working Group.
L'Implementation Report per il VoiceXML 2.0 e' quasi
completo; si prospetta il passaggio della specifica
da Candidate Recommendation a Proposed Recommendation
entro settembre 2003 (per essere piu' realistici tempo
entro fine anno).
Di li' in poi il passaggio e' pressoche'
automatico e si giungera' all'agognata raccomandazione
W3C del VoiceXML 2.0.
Le grammatiche SRGS stanno per giungere a livello Proposed
Recommendation e dovrebbero divendare Raccomandazione
con il VoiceXML 2.0. Il lavoro tecnico e' ancora aperto
sul SSML per pilotare il sintetizzatore e per la parte
Semantica delle grammatiche SRGS. Il primo a raggiungere
il livello Candidate Recommendation dovrebbero essere
il SSML e cio' dovrebbe avvenire entro Settembre 2003.
Un altro aspetto definito durante l'incontro e' di
estendere il VoiceXML 2.0 con una lista limitata di
nuove funzionalita'.
Tale lista deve permettere una
assoluta' compatibilita' all'indietro e fornire delle
feature che aiutino gli sviluppatori a creare dei
servizi ancora piu' potenti e portabili. E' ancora
prematuro parlare di quali saranno queste funzionalita',
ma il primo Working Draft verra' rilasciato a settembre
2003.
Infine una nuova versione e' in gestazione (e' detta per
ora "V3"), lo scope e' di fornire un nuovo markup language
volto a permettere nuove funzionalita' capaci di realizzare
una nuova generazione di applicazioni vocali, tutto cio'
in una forma che possa essere integrata in modo semplice
e pulito con le altre specifiche di W3C. Per esempio
il Multimodal Interaction dovra' poter integrare dei
dialoghi vocali con le altre modalita' per realizzare delle
applicazioni multimodali che includano la voce.
Questo nuovo linguaggio fornira' rispetto al VoiceXML 2.0
delle estese capacita' di dialogo, una maggior flessibilita'
ed essere modularizzabile per permettere di integrare con
altri markup language, quali XHTML, XMIL o SVG, il dialogo
vocale. Su questo fronte il lavoro e' partito ad inizio
2003 con la raccolta di requisiti dettagliati. Tali
requisiti provengono da diverse fonti, quali le Change
Requests al VoiceXML 2.0 deferite, l'interoperabilita'
con il Call Control (CCXML) e da altri WG di W3C:
il Multimodal Interaction, XHTML e Web Accessibility
Initiative (WAI). Si prevede di rendere pubblici questi
requisiti in settembre 2003 e pubblicare il primo
Working Draft a inizio 2004.
Un ulteriore sotto-gruppo e' nato recentemente e si
chiama Voice Interface Object joint task force a cui
partecipano persone sia di Voice Browser che di
Multimodal Working Group, l'obiettivo e' definire
dei Voice Interface object per SALT 1.0, X+V 1.1 e V3.
I primi due sono gli ambienti multimodali definiti dal
SALT Forum capeggiato da Microsoft, il secondo la proposta
di IBM, Opera e Motorola. Insomma l'arena multimodale
sta guidando sia l'integrazione delle tecnologie vocali
nel mondo del Web ed e' la nuova grande sfida dopo la
nascita del VoiceXML 2.0.
Ultimo punto e' la pubblicazione di un ulteriore draft
del linguaggio Call Control XML (CCXML). Questa attivita'
e' finalizzata a terminare la parte tecnica entro tre
mesi. Questo nuovo linguaggio e' complementare al VoiceXML
2.0 per quanto concerne la gestione di azioni telefoniche,
quali conferenze, trasferimenti tra piu' browser VoiceXML,
funzioni di 'whispering' e 'coaching', cioe' suggerimenti
nascosti al chiamante, ma diretti agli operatori di call
center o ad insegnati on-line. E' anche questa una nuova
sfida per il mondo legato al VoiceXML 2.0.
Sommario dei lavori del Multimodal Interaction Working
Group.
Invito chi vuole avere una prima idea dei lavori sul
multimodale a leggere (purtroppo in lingua inglese) la
Nota W3C, W3C Multimodal Interaction Framework, disponibile all' URL
http://www.w3.org/TR/mmi-framework/, scritta da Jim
Larson e pubblicata il 2 dicembre 2003.
Questo documento introduce alcuni schemi di riferimento
sull'organizzazione e i moduli che possono essere
presenti in un 'browser' multimodale. E' un'utile introduzione
a questo nuovo ambito.
I prossimi passi prevedono la pubblicazione di due primi
Working Draft per due delle modalita' di input maggiori
di un sistema multimodale:
1.InkML, il linguaggio per rappresentare i risultati di 'gesture' e scrittura tramite Pen o Stylus.
2. la voce, tramite il linguaggio di interfaccia denominato EMMA (Extensible MultiModal Annotation)
Queste sono le due principali modalita' che saranno disponibili
su un 'browser' multimodale. La prima per indicare, sottolineare,
riferire delle entita' visuali, la seconda per descrivere e/o
fare delle richieste. Un primo esempio puo' essere indicare con
un cerchio una zona di una mappa digitale di una citta' ed unire
a questa la richiesta vocale: "Indica i ristoranti". Come vedete
entrambe le informazioni sono necessarie per poter fornire una
risposta integrata, sottoforma di una mappa annotata dei ristoranti
o una lista di scelte tramite menu'.
EMMA in realta' permettara' di impacchettare i risultati di tutte
le modalita' di input e permettere anche di integrare risultati
diversi per costruire un risultato semantico composito.
Attendiamo di leggere queste prime specifiche a cui seguiranno
nel corso del 2003 le prime bozze del linguaggio di specifica
multimodale complessivo.
Come vedete i lavori procedono e formeranno la base di una
nuova generazione di interfacce vocali e multimodali per la
prossima generazione di 'browser' sia su PC desktop, sia soprattutto
su piccoli device (palmari, PocketPC e SmartPhone).
Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.
|