Resoconto incontri W3C VBWG e MMIWG anno 2005
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups
Nel corso del 2005, si sono svolti tre incontri dei gruppi W3C Voice Browser e Multimodal Interaction: il primo in marzo a Boston in concomitanza del W3C Technical Plenary meeting, il secondo in maggio a Berlino ed il terzo in settembre a Toronto (a cui non ho partecipato in modo diretto).
Boston, 28 febbraio-4 marzo 2005
Durante questo meeting si � svolta la W3C Technical Plenary, incontro annuale di tutto il W3C per analizzare
i trend e le evoluzioni future del mondo Web.
Voice Browser:
Primo aggiornamento da parte di Ken Rehor (Vocalocity)
su estensione del VoiceXML per Speaker Verification.
Aggiornamento specifiche in corso: SISR, la semantica
della grammatiche di riconoscimento, verr� poi
pubblicata a Candidate Recommendation a gennaio 2006;
CCXML, call control per VoiceXML, ha ricevuto molti
commenti da parte di aziende, dimostrando cos�
l'elevato interesse verso questa nuova specifica da parte
dell'industria;
VoiceXML 2.1 quasi pronto l'Implementation Report che verr�
pubblicato a luglio 2005.
Pronunciation Lexicon Specification, io sono l'autore
di questa specifica, appena pubblicato un primo WD,
durante questo incontro si � presentata la
specifica il gruppi Multimodale, Internationalization
e Accessibility. Commenti favorevoli.
SCXML (State Chart XML), molto interesse verso questa
nuova specifica che avr� un grande impatto sul futuro
delle applicazioni vocali.
Multimodal Interaction:
Analisi dell'architettura multimodale volta a
pubblicare un primo Working Draft nel mese di aprile 2005.
Inizio raccolta di feedback da parte di sviluppatori
di applicazioni multimodali (le aziende coinvolte sono
Kirusa, V-Enable e Openstream).
Proposta da parte di ScanSoft, poi divenuta Nuance
a settembre 2005, del linguaggio xHMI che si
posiziona sopra il VoiceXML come framework per
sviluppare applicazioni vocali.
Altri aggiornamenti legati a specifiche W3C, quali
CSS e SMIL 2.1 ed anche di progetti in corso in
Giappone, da parte del prof. Tsuneo Nitta dell'Universit�
Toyohashi.
W3C Technical Plenary:
Circa 400 i partecipanti da tutti i gruppi del W3C,
tra cui era presente il neo cavaliere Tim
Berners-Lee, l'inventore del Web, nonch� presidente
del Consorzio W3C.
Molti argomenti tecnici presentati e discussi, quali XML 1.1
e problematiche di mix di markup diversi all'interno
di uno stesso documento (Compound Document), quali
ad esempio la presenza di SVG o SMIL in pagine XHTML.
Questo tema � di interesse del multimodale.
Era poi presente una sessione di demo multimodali e vocali
presieduta da Scott
McGlashan, co-chairman del Voice Browser WG.
Berlino, 23-27 maggio 2005
L'azienda ospitante era T-system, gruppo Deutsche Telekom.
Voice Browser:
Inizio dell'analisi delle Change Request
deferite da VoiceXML 2.0 e VoiceXML 2.1 (erano tantissime)
per definirne l'importanza e l'impatto su VoiceXML 3.0. Alcune delle pi�
rilevanti sono l'introduzione di Speaker Verification,
l'estensione a nuovi media del VoiceXML, quindi non solo audio, ma anche contenuti
video, poi miglioramenti al barge-in ed altre estensioni minori.
Analisi dei commenti prevenuti al
SCXML (State Chart XML). Questa nuova specifica permette di
definire in XML una macchina a stati (State Chart) che potrebbe
essere alla base per il VoiceXML 3.0, per applicazioni multimodali e
per evoluzioni future del linguaggio CCXML.
Multimodal Interaction:
Analisi dell'architettura multimodale, in particolare
del VoiceXML 2.1, che � stato studiato come possibile
componente vocale da inserire in un architettura multimodale.
Uno stesso esempio di applicazione multimodale � stato analizzato tramite
approcci implementativi diversi: il linguaggio SCXML
proposto da Voice Browser, tramite sistemi a regole (es. sistemi esperti o
sistemi di dialogo evoluti) oppure
tramite un linguaggio di scripting (JavaScript).
Incontro congiunto VB, MMI e OMA:
Analisi dell'architettura multimodale di OMA e di W3C: problemi terminologici, differenze e rigidit�.
Toronto, 19-23 settembre 2005
L'azienda ospitante era VoiceGenie, produttore di piattaforme VoiceXML canadese.
Voice Browser:
Analisi di alcuni sistemi e proposte tra cui il sistema
di dialogo Florence proposto da AT&T,
i Reusable Dialog Components proposti da IBM e distribuiti
da Apache
e
l'implementazione free della specifica SCXML fatta da
IBM, che � ancora incompleta perch�
la specifica � ancora in fase sviluppo, ma utile per provare questo nuovo linguaggio.
I lavori su CCXML procedono verso la definizione di
una test suite volta a dimostrarne l'implementabili�.
Loquendo � molto coinvolta in questa
attivit�.
Continua l'analisi delle feature da aggiungere a
VoiceXML 3.0.
Multimodal Interaction:
Revisione delle specifiche in corso:
- La specifica EMMA � stata
pubblicata come Last Call Working Draft il 16 settembre 2005
- Architettura MMI pubblicata in aprile 2005, le prossime
estensioni riguardano gli eventi utilizzati per
comunicare tra modalit� e Interaction Manager (protocollo
di comunicazione, formato, ecc.)
- InkML sta procedendo anche se molto a rilento
Approfondimenti su alcuni draft pubblicati recentemente da IETF:
Termino questa breve nota segnalando che a inizio
novembre 2005 si � svolto a Pechino un Workshop
su internazionalizzazione del linguaggio SSML (Speech Synthesis Markup Language) verso le lingue asiatiche.
Molti i partecipanti, oltre una ventina, di tre nazioni
principali: Cina, Corea e Giappone. Forte interesse di aziende
ed universit� nel voler adottare la specifica SSML anche per le lingue asiatiche.
Proprio per questo alcune feature devono essere
aggiunte per venir incontro alle specificit� di queste
lingue, quali ad esempio l'assenza di separatori di parola, la
necessit� di nuovi linguaggi fonetici, ecc.
Paolo Baggia, rappresentante di Loquendo nei W3C VBWG
e MMIWG.