VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilità del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o parteciperà  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.



Resoconto incontri W3C VBWG e MMIWG anno 2005
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


Nel corso del 2005, si sono svolti tre incontri dei gruppi W3C Voice Browser e Multimodal Interaction: il primo in marzo a Boston in concomitanza del W3C Technical Plenary meeting, il secondo in maggio a Berlino ed il terzo in settembre a Toronto (a cui non ho partecipato in modo diretto).

Boston, 28 febbraio-4 marzo 2005

Durante questo meeting si � svolta la W3C Technical Plenary, incontro annuale di tutto il W3C per analizzare i trend e le evoluzioni future del mondo Web.

  • Voice Browser:
    Primo aggiornamento da parte di Ken Rehor (Vocalocity) su estensione del VoiceXML per Speaker Verification.
    Aggiornamento specifiche in corso: SISR, la semantica della grammatiche di riconoscimento, verr� poi pubblicata a Candidate Recommendation a gennaio 2006; CCXML, call control per VoiceXML, ha ricevuto molti commenti da parte di aziende, dimostrando cos� l'elevato interesse verso questa nuova specifica da parte dell'industria; VoiceXML 2.1 quasi pronto l'Implementation Report che verr� pubblicato a luglio 2005.
    Pronunciation Lexicon Specification, io sono l'autore di questa specifica, appena pubblicato un primo WD, durante questo incontro si � presentata la specifica il gruppi Multimodale, Internationalization e Accessibility. Commenti favorevoli.
    SCXML (State Chart XML), molto interesse verso questa nuova specifica che avr� un grande impatto sul futuro delle applicazioni vocali.

  • Multimodal Interaction:
    Analisi dell'architettura multimodale volta a pubblicare un primo Working Draft nel mese di aprile 2005.
    Inizio raccolta di feedback da parte di sviluppatori di applicazioni multimodali (le aziende coinvolte sono Kirusa, V-Enable e Openstream).
    Proposta da parte di ScanSoft, poi divenuta Nuance a settembre 2005, del linguaggio xHMI che si posiziona sopra il VoiceXML come framework per sviluppare applicazioni vocali.
    Altri aggiornamenti legati a specifiche W3C, quali CSS e SMIL 2.1 ed anche di progetti in corso in Giappone, da parte del prof. Tsuneo Nitta dell'Universit� Toyohashi.

  • W3C Technical Plenary:
    Circa 400 i partecipanti da tutti i gruppi del W3C, tra cui era presente il neo cavaliere Tim Berners-Lee, l'inventore del Web, nonch� presidente del Consorzio W3C.
    Molti argomenti tecnici presentati e discussi, quali XML 1.1 e problematiche di mix di markup diversi all'interno di uno stesso documento (Compound Document), quali ad esempio la presenza di SVG o SMIL in pagine XHTML. Questo tema � di interesse del multimodale.
    Era poi presente una sessione di demo multimodali e vocali presieduta da Scott McGlashan, co-chairman del Voice Browser WG.


    Berlino, 23-27 maggio 2005
    L'azienda ospitante era T-system, gruppo Deutsche Telekom.

  • Voice Browser:
    Inizio dell'analisi delle Change Request deferite da VoiceXML 2.0 e VoiceXML 2.1 (erano tantissime) per definirne l'importanza e l'impatto su VoiceXML 3.0. Alcune delle pi� rilevanti sono l'introduzione di Speaker Verification, l'estensione a nuovi media del VoiceXML, quindi non solo audio, ma anche contenuti video, poi miglioramenti al barge-in ed altre estensioni minori.
    Analisi dei commenti prevenuti al SCXML (State Chart XML). Questa nuova specifica permette di definire in XML una macchina a stati (State Chart) che potrebbe essere alla base per il VoiceXML 3.0, per applicazioni multimodali e per evoluzioni future del linguaggio CCXML.

  • Multimodal Interaction:
    Analisi dell'architettura multimodale, in particolare del VoiceXML 2.1, che � stato studiato come possibile componente vocale da inserire in un architettura multimodale.
    Uno stesso esempio di applicazione multimodale � stato analizzato tramite approcci implementativi diversi: il linguaggio SCXML proposto da Voice Browser, tramite sistemi a regole (es. sistemi esperti o sistemi di dialogo evoluti) oppure tramite un linguaggio di scripting (JavaScript).

  • Incontro congiunto VB, MMI e OMA:
    Analisi dell'architettura multimodale di OMA e di W3C: problemi terminologici, differenze e rigidit�.


    Toronto, 19-23 settembre 2005
    L'azienda ospitante era VoiceGenie, produttore di piattaforme VoiceXML canadese.

  • Voice Browser:
    Analisi di alcuni sistemi e proposte tra cui il sistema di dialogo Florence proposto da AT&T, i Reusable Dialog Components proposti da IBM e distribuiti da Apache
    e l'implementazione free della specifica SCXML fatta da IBM, che � ancora incompleta perch� la specifica � ancora in fase sviluppo, ma utile per provare questo nuovo linguaggio.
    I lavori su CCXML procedono verso la definizione di una test suite volta a dimostrarne l'implementabili�. Loquendo � molto coinvolta in questa attivit�.
    Continua l'analisi delle feature da aggiungere a VoiceXML 3.0.

  • Multimodal Interaction:
    Revisione delle specifiche in corso:
    • La specifica EMMA � stata pubblicata come Last Call Working Draft il 16 settembre 2005
    • Architettura MMI pubblicata in aprile 2005, le prossime estensioni riguardano gli eventi utilizzati per comunicare tra modalit� e Interaction Manager (protocollo di comunicazione, formato, ecc.)
    • InkML sta procedendo anche se molto a rilento
    Approfondimenti su alcuni draft pubblicati recentemente da IETF:

    Termino questa breve nota segnalando che a inizio novembre 2005 si � svolto a Pechino un Workshop su internazionalizzazione del linguaggio SSML (Speech Synthesis Markup Language) verso le lingue asiatiche.
    Molti i partecipanti, oltre una ventina, di tre nazioni principali: Cina, Corea e Giappone. Forte interesse di aziende ed universit� nel voler adottare la specifica SSML anche per le lingue asiatiche. Proprio per questo alcune feature devono essere aggiunte per venir incontro alle specificit� di queste lingue, quali ad esempio l'assenza di separatori di parola, la necessit� di nuovi linguaggi fonetici, ecc.


    Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.