VoiceXML Italian User Group. Resoconto di Paolo Baggia dell' attivita' W3C VBWG e MMIWG (Estate 2004)

Nel corso dell'Estate 2004 si sono svolti due incontri W3C: il primo a Detroit (7-11 Giugno) ospitato da EDS e OnStar, il secondo a Hawthorne, NY (17-24 Settembre) ospitato da IBM. La notizia pi� rilevante del periodo e' stata il passaggio della specifica SSML 1.0 (Speech Synthesis Markup Language) a W3C Recommendation il 7 settembre 2004 (press release, testimonials tra i quali anche Fabrizio Gramuglio per il VoiceXML Italian User Group). Il framework associato al VoiceXML 2.0 sta giungendo a completamento, manca solamente la Semantic Interpretation che potrebbe diventare W3C Recommendation nel corso del 2005.

Il Voice Browser WG ha dedicato la gran parte del tempo di questi due incontri nel definire un'architettura per l'evoluzione del VoiceXML 2.0. Il nome di questa attivit� ancora in fase di definizione � talvolta V3 altre VoiceXML 3.0. Gli obiettivi sono molto ambiziosi:

Fornire primitive dialogo pi� potenti.
Fornire una modalit� che possa agevolmente essere integrata in altri W3C markup, cio� dare la voce ad altri linguaggi W3C.

Nella nuova architettura potranno funzionare sia le applicazioni gi� scritte in VoiceXML 2.0/2.1, sia quelle in VoiceXML 3.0 che permetteranno nuove funzionalit�, ma si sta considerando la possibilit� di rendere il FIA (Form Interpretation Algorithm) modificabile da parte degli sviluppatori, cio� di offrire un livello di programmazione ulteriore, da utilizzare se e solo se l'applicazione vocale lo richieda.

Sui principi di base dell'architettura si � raggiunto un accordo di massima: essa sar� composta da layers (strati) denominati layer delle primitive, layer dei componenti e layer del container.
Le primitive (che implementeranno le funzionalit� di riconoscimento, sintesi, DTMF, telefonia, ecc...) saranno formate da componenti (es. un <form> VoiceXML), i quali saranno contenuti in un documento container (es. VoiceXML 2.0, ma anche XHTML o WML).
Questa architettura dovrebbe permettere la massima interoperabilit� permettendo di avere degli strati ben definiti su cui appoggiare gli strati superiori.
Il lavoro iniziato in questi incontri continuer� nelle audioconferenze e nei meeting successivi.

Per quanto riguarda le specifiche ci sono alcune novit� da segnalare:

Speech Synthesis Markup Language (SSML 1.0): come gia� detto e� W3C Recommendation dal 7 settembre 2004.
Pronunciation Lexicon Specification (PLS): Il gruppo ha deciso di ri-attivare questa attivit� assegnano l'incarico a me (Paolo Baggia / Loquendo). Il primo passo concreto � stata la pubblicazione di un documento di requisiti aggiornato, che permetta di distinguere tra le attivit� a breve termine e quelle pi� complesse demandate ad una versione 2.0 di questo linguaggio.
Call Control (CCXML 1.0): vicino a pubblicare un secondo Last Call Working Draft a fine 2004.
Semantic Interpretation (SISR 1.0): sta completando i lavori per pubblicare un Last Call Working Draft entro novembre 2004.
VoiceXML 2.1: Il Last Call Working Draft � stato pubblicato il 28 luglio 2004. Stanno iniziando i lavori per creare un Implementation Report; a questi lavori sta partecipando anche Loquendo, oltre a Tellme, Vocalocity, ScanSoft e altre aziende del gruppo.
Say-as: Il gruppo sta lavorando per pubblicare un Nota W3C che definisca alcuni tipi standard di say-as omessi dalla specifica SSML 1.0, ma necessari ai fini dell'interoperabilit�.

2) Incontri del Multimodal Interaction Working Group (MMIWG)

Gli incontri hanno permesso di analizzare come l'architettura V3 si integra in un ambito di applicazioni multimodali e la sensazione � che la direzione sia funzionale al multimodale.

Inoltre si sono rivisti i requisiti e alcuni degli Use Cases definiti in passato per aggiornarli alla luce dei progressi fatti verso un'architettura per applicazioni multimodali. Si � programmata la pubblicazione di un documento architetturale a inizio 2005.

Alcuni approcci innovativi di authoring di applicazioni multimodali sono stati analizzati tra cui uno basato su scripting e uno basato su estensioni di CSS (Cascading Style Sheets).

Per quanto riguarda le specifiche in corso di definizione:

EMMA 1.0: i lavori procedono verso il Last Call Working Draft.
InkML 1.0: linguaggio per definire in XML digital Ink, procedono i lavori ed � stato pubblicato come Working Draft il 28 settembre 2004.
System & Environment: i lavori sono legati al gruppo W3C Device Independence, perch� volti a definire dei parametri di ambiente dinamici, quali ad esempio un GPS o altre informazioni sull'ambiente. Il Last Call Working Draft � previsto a novembre 2004.
Composite Input: i lavori procedono per pubblicare un W3C note a fine anno ed alcuni input relativa a poter comporre dati in EMMA di modalit� diverse (es. voce e click del mouse), sono stati accolti dalla specifica EMMA.

Nel corso dei meeting sono state presentate delle dimostrazioni multimodali da parte di IBM, V-Enable, Canon e EDS.

Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.

2) Incontri del Multimodal Interaction Working Group (MMIWG)

Other interesting websites