Resoconto incontri W3C VBWG e MMIWG anno 2005
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups
Nel corso del 2005, si sono svolti tre incontri dei gruppi W3C Voice Browser e Multimodal Interaction: il primo in marzo a Boston in concomitanza del W3C Technical Plenary meeting, il secondo in maggio a Berlino ed il terzo in settembre a Toronto (a cui non ho partecipato in modo diretto).
Boston, 28 febbraio-4 marzo 2005
Durante questo meeting si è svolta la W3C Technical Plenary, incontro annuale di tutto il W3C per analizzare
i trend e le evoluzioni future del mondo Web.
Voice Browser:
Primo aggiornamento da parte di Ken Rehor (Vocalocity)
su estensione del VoiceXML per Speaker Verification.
Aggiornamento specifiche in corso: SISR, la semantica
della grammatiche di riconoscimento, verrà poi
pubblicata a Candidate Recommendation a gennaio 2006;
CCXML, call control per VoiceXML, ha ricevuto molti
commenti da parte di aziende, dimostrando così
l'elevato interesse verso questa nuova specifica da parte
dell'industria;
VoiceXML 2.1 quasi pronto l'Implementation Report che verrà
pubblicato a luglio 2005.
Pronunciation Lexicon Specification, io sono l'autore
di questa specifica, appena pubblicato un primo WD,
durante questo incontro si è presentata la
specifica il gruppi Multimodale, Internationalization
e Accessibility. Commenti favorevoli.
SCXML (State Chart XML), molto interesse verso questa
nuova specifica che avrà un grande impatto sul futuro
delle applicazioni vocali.
Multimodal Interaction:
Analisi dell'architettura multimodale volta a
pubblicare un primo Working Draft nel mese di aprile 2005.
Inizio raccolta di feedback da parte di sviluppatori
di applicazioni multimodali (le aziende coinvolte sono
Kirusa, V-Enable e Openstream).
Proposta da parte di ScanSoft, poi divenuta Nuance
a settembre 2005, del linguaggio xHMI che si
posiziona sopra il VoiceXML come framework per
sviluppare applicazioni vocali.
Altri aggiornamenti legati a specifiche W3C, quali
CSS e SMIL 2.1 ed anche di progetti in corso in
Giappone, da parte del prof. Tsuneo Nitta dell'Università
Toyohashi.
W3C Technical Plenary:
Circa 400 i partecipanti da tutti i gruppi del W3C,
tra cui era presente il neo cavaliere Tim
Berners-Lee, l'inventore del Web, nonché presidente
del Consorzio W3C.
Molti argomenti tecnici presentati e discussi, quali XML 1.1
e problematiche di mix di markup diversi all'interno
di uno stesso documento (Compound Document), quali
ad esempio la presenza di SVG o SMIL in pagine XHTML.
Questo tema è di interesse del multimodale.
Era poi presente una sessione di demo multimodali e vocali
presieduta da Scott
McGlashan, co-chairman del Voice Browser WG.
Berlino, 23-27 maggio 2005
L'azienda ospitante era T-system, gruppo Deutsche Telekom.
Voice Browser:
Inizio dell'analisi delle Change Request
deferite da VoiceXML 2.0 e VoiceXML 2.1 (erano tantissime)
per definirne l'importanza e l'impatto su VoiceXML 3.0. Alcune delle più
rilevanti sono l'introduzione di Speaker Verification,
l'estensione a nuovi media del VoiceXML, quindi non solo audio, ma anche contenuti
video, poi miglioramenti al barge-in ed altre estensioni minori.
Analisi dei commenti prevenuti al
SCXML (State Chart XML). Questa nuova specifica permette di
definire in XML una macchina a stati (State Chart) che potrebbe
essere alla base per il VoiceXML 3.0, per applicazioni multimodali e
per evoluzioni future del linguaggio CCXML.
Multimodal Interaction:
Analisi dell'architettura multimodale, in particolare
del VoiceXML 2.1, che è stato studiato come possibile
componente vocale da inserire in un architettura multimodale.
Uno stesso esempio di applicazione multimodale è stato analizzato tramite
approcci implementativi diversi: il linguaggio SCXML
proposto da Voice Browser, tramite sistemi a regole (es. sistemi esperti o
sistemi di dialogo evoluti) oppure
tramite un linguaggio di scripting (JavaScript).
Incontro congiunto VB, MMI e OMA:
Analisi dell'architettura multimodale di OMA e di W3C: problemi terminologici, differenze e rigidità.
Toronto, 19-23 settembre 2005
L'azienda ospitante era VoiceGenie, produttore di piattaforme VoiceXML canadese.
Voice Browser:
Analisi di alcuni sistemi e proposte tra cui il sistema
di dialogo Florence proposto da AT&T,
i Reusable Dialog Components proposti da IBM e distribuiti
da Apache
e
l'implementazione free della specifica SCXML fatta da
IBM, che è ancora incompleta perché
la specifica è ancora in fase sviluppo, ma utile per provare questo nuovo linguaggio.
I lavori su CCXML procedono verso la definizione di
una test suite volta a dimostrarne l'implementabilià.
Loquendo è molto coinvolta in questa
attività.
Continua l'analisi delle feature da aggiungere a
VoiceXML 3.0.
Multimodal Interaction:
Revisione delle specifiche in corso:
- La specifica EMMA è stata
pubblicata come Last Call Working Draft il 16 settembre 2005
- Architettura MMI pubblicata in aprile 2005, le prossime
estensioni riguardano gli eventi utilizzati per
comunicare tra modalità e Interaction Manager (protocollo
di comunicazione, formato, ecc.)
- InkML sta procedendo anche se molto a rilento
Approfondimenti su alcuni draft pubblicati recentemente da IETF:
Termino questa breve nota segnalando che a inizio
novembre 2005 si è svolto a Pechino un Workshop
su internazionalizzazione del linguaggio SSML (Speech Synthesis Markup Language) verso le lingue asiatiche.
Molti i partecipanti, oltre una ventina, di tre nazioni
principali: Cina, Corea e Giappone. Forte interesse di aziende
ed università nel voler adottare la specifica SSML anche per le lingue asiatiche.
Proprio per questo alcune feature devono essere
aggiunte per venir incontro alle specificità di queste
lingue, quali ad esempio l'assenza di separatori di parola, la
necessità di nuovi linguaggi fonetici, ecc.
Paolo Baggia, rappresentante di Loquendo nei W3C VBWG
e MMIWG.