VoiceXML Italian User Group

Home page  VoiceXML Links  VoiceXML Tutorial  News dai Working Groups Voice Browser e Multimodal Interaction del World Wide Web Consortium  Articoli  Accessibilità del web mediante la voce

Libri Voice & Speech technologies  La nostra Newsletter  Il nostro Forum  Contatti  Gli eventi a cui lo User Group ha partecipato o parteciperà  Parlano (speriamo bene:-)) di noi...

La nuova rivoluzione della comunicazione? La tua voce.



Resoconto incontri W3C VBWG e MMIWG anno 2005
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups


Nel corso del 2005, si sono svolti tre incontri dei gruppi W3C Voice Browser e Multimodal Interaction: il primo in marzo a Boston in concomitanza del W3C Technical Plenary meeting, il secondo in maggio a Berlino ed il terzo in settembre a Toronto (a cui non ho partecipato in modo diretto).

Boston, 28 febbraio-4 marzo 2005

Durante questo meeting si è svolta la W3C Technical Plenary, incontro annuale di tutto il W3C per analizzare i trend e le evoluzioni future del mondo Web.

  • Voice Browser:
    Primo aggiornamento da parte di Ken Rehor (Vocalocity) su estensione del VoiceXML per Speaker Verification.
    Aggiornamento specifiche in corso: SISR, la semantica della grammatiche di riconoscimento, verrà poi pubblicata a Candidate Recommendation a gennaio 2006; CCXML, call control per VoiceXML, ha ricevuto molti commenti da parte di aziende, dimostrando così l'elevato interesse verso questa nuova specifica da parte dell'industria; VoiceXML 2.1 quasi pronto l'Implementation Report che verrà pubblicato a luglio 2005.
    Pronunciation Lexicon Specification, io sono l'autore di questa specifica, appena pubblicato un primo WD, durante questo incontro si è presentata la specifica il gruppi Multimodale, Internationalization e Accessibility. Commenti favorevoli.
    SCXML (State Chart XML), molto interesse verso questa nuova specifica che avrà un grande impatto sul futuro delle applicazioni vocali.

  • Multimodal Interaction:
    Analisi dell'architettura multimodale volta a pubblicare un primo Working Draft nel mese di aprile 2005.
    Inizio raccolta di feedback da parte di sviluppatori di applicazioni multimodali (le aziende coinvolte sono Kirusa, V-Enable e Openstream).
    Proposta da parte di ScanSoft, poi divenuta Nuance a settembre 2005, del linguaggio xHMI che si posiziona sopra il VoiceXML come framework per sviluppare applicazioni vocali.
    Altri aggiornamenti legati a specifiche W3C, quali CSS e SMIL 2.1 ed anche di progetti in corso in Giappone, da parte del prof. Tsuneo Nitta dell'Università Toyohashi.

  • W3C Technical Plenary:
    Circa 400 i partecipanti da tutti i gruppi del W3C, tra cui era presente il neo cavaliere Tim Berners-Lee, l'inventore del Web, nonché presidente del Consorzio W3C.
    Molti argomenti tecnici presentati e discussi, quali XML 1.1 e problematiche di mix di markup diversi all'interno di uno stesso documento (Compound Document), quali ad esempio la presenza di SVG o SMIL in pagine XHTML. Questo tema è di interesse del multimodale.
    Era poi presente una sessione di demo multimodali e vocali presieduta da Scott McGlashan, co-chairman del Voice Browser WG.


    Berlino, 23-27 maggio 2005
    L'azienda ospitante era T-system, gruppo Deutsche Telekom.

  • Voice Browser:
    Inizio dell'analisi delle Change Request deferite da VoiceXML 2.0 e VoiceXML 2.1 (erano tantissime) per definirne l'importanza e l'impatto su VoiceXML 3.0. Alcune delle più rilevanti sono l'introduzione di Speaker Verification, l'estensione a nuovi media del VoiceXML, quindi non solo audio, ma anche contenuti video, poi miglioramenti al barge-in ed altre estensioni minori.
    Analisi dei commenti prevenuti al SCXML (State Chart XML). Questa nuova specifica permette di definire in XML una macchina a stati (State Chart) che potrebbe essere alla base per il VoiceXML 3.0, per applicazioni multimodali e per evoluzioni future del linguaggio CCXML.

  • Multimodal Interaction:
    Analisi dell'architettura multimodale, in particolare del VoiceXML 2.1, che è stato studiato come possibile componente vocale da inserire in un architettura multimodale.
    Uno stesso esempio di applicazione multimodale è stato analizzato tramite approcci implementativi diversi: il linguaggio SCXML proposto da Voice Browser, tramite sistemi a regole (es. sistemi esperti o sistemi di dialogo evoluti) oppure tramite un linguaggio di scripting (JavaScript).

  • Incontro congiunto VB, MMI e OMA:
    Analisi dell'architettura multimodale di OMA e di W3C: problemi terminologici, differenze e rigidità.


    Toronto, 19-23 settembre 2005
    L'azienda ospitante era VoiceGenie, produttore di piattaforme VoiceXML canadese.

  • Voice Browser:
    Analisi di alcuni sistemi e proposte tra cui il sistema di dialogo Florence proposto da AT&T, i Reusable Dialog Components proposti da IBM e distribuiti da Apache
    e l'implementazione free della specifica SCXML fatta da IBM, che è ancora incompleta perché la specifica è ancora in fase sviluppo, ma utile per provare questo nuovo linguaggio.
    I lavori su CCXML procedono verso la definizione di una test suite volta a dimostrarne l'implementabilià. Loquendo è molto coinvolta in questa attività.
    Continua l'analisi delle feature da aggiungere a VoiceXML 3.0.

  • Multimodal Interaction:
    Revisione delle specifiche in corso:
    • La specifica EMMA è stata pubblicata come Last Call Working Draft il 16 settembre 2005
    • Architettura MMI pubblicata in aprile 2005, le prossime estensioni riguardano gli eventi utilizzati per comunicare tra modalità e Interaction Manager (protocollo di comunicazione, formato, ecc.)
    • InkML sta procedendo anche se molto a rilento
    Approfondimenti su alcuni draft pubblicati recentemente da IETF:

    Termino questa breve nota segnalando che a inizio novembre 2005 si è svolto a Pechino un Workshop su internazionalizzazione del linguaggio SSML (Speech Synthesis Markup Language) verso le lingue asiatiche.
    Molti i partecipanti, oltre una ventina, di tre nazioni principali: Cina, Corea e Giappone. Forte interesse di aziende ed università nel voler adottare la specifica SSML anche per le lingue asiatiche. Proprio per questo alcune feature devono essere aggiunte per venir incontro alle specificità di queste lingue, quali ad esempio l'assenza di separatori di parola, la necessità di nuovi linguaggi fonetici, ecc.


    Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.