Resoconto incontri W3C VBWG, MMIWG e Technical Plenary
(Cannes-Mandelieu, Marzo
2004)
a cura di Paolo Baggia e Laura Ricotti rappresentanti di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups
A inizio
marzo a Cannes-Mandelieu si sono riuniti tutti i gruppi di lavoro del W3C
ed il 3 marzo si � svolta la quarta edizione del "W3C Technical Plenary
Meeting". Loquendo ha partecipato all'incontro plenario ed agli incontri
dei gruppi Voice Browser e Multimodal Interaction. I rappresentanti erano
due: Laura Ricotti e Paolo Baggia.
Se volete
divertirvi con alcune foto scattate all'incontro potete seguire questo link.
1) Incontro del Voice
Browser Working Group (VBWG)
I partecipanti
sono stati 35 da 30 aziende, i chairman sono Jim Larson (Intel) e Scott
McGlashan (HP).
Le specifiche
VoiceXML 2.0 e SRGS
1.0 (grammatiche di riconoscimento in formato XML e testuale) hanno
finito il loro corso di standardizzazione, infatti il 16 marzo 2004 (data
storica per le persone coinvolte o interessate a questo settore) queste
specifiche sono diventate Raccomandazioni W3C a tutti gli effetti! Evviva!!!
Anche il
linguaggio Speech Synthesis Markup Language (SSML
1.0), linguaggio specializzato per migliorare la sintesi di un testo
� in fase finale di standardizzazione, cos� il suo Implementation
Report (una test-suite realizzata da VBWG per poter testare l'implementabilita'
di questa specifica) � stato terminato ed hanno fornito risultati ufficiali
gi� quattro aziende (Loquendo, France Telecom, ScanSoft e Voxpilot) tali
di garantire il passaggio allo stadio successivo di questa specifica. Lo
SSML 1.0 sta per diventare Raccomandazione e speriamo lo sia al pi� presto,
anche perch� � contenuto dal VoiceXML 2.0. Se volete giocare un po' con
SSML perch� non leggete la specifica e provate ad usare la demo
online di Loquendo? Implementa quasi tutto il linguaggio SSML 1.0.
Il gruppo
Call Control, autore della specifica CCXML, ha terminato una fase di riscrittuara
e consolidamento della specifica che � stata di recente pubblicata sul
sito del W3C (vedi)
ed � a livello Last Call Working Draft ed anche questa specifica per passare
alle fasi finali di standardizzazione.
Inoltre
la Semantic Interpretation, cio� la "semantica" delle grammatiche di riconoscimento
SRGS 1.0, sta per essere pubblicato Last Call WD. La semantica � utile
per poter delegare al riconoscimento la creazione di risultati complessi,
es. riconosco Torino e restituisco all'applicazione il codice di provincia,
oppure una data e restituisco un formato uniforme, ecc. La Semantic Interpretation
� l'ultimo tassello mancante per completa il primo set di specifiche che
comprano tutti gli aspetti rilevanti nello sviluppare applicazioni vocali.
Infine
si � iniziato a parlare ad alto livello del linguaggio successore del VoiceXML
2.0 per ora indicato come V3. Siamo agli inizi, sar� un'impresa lunga e
su questo potremo tornare in futuro. A breve termine invece verr� rilasciata
un'aggiunta di feature sul VoiceXML 2.0, chiamato VoiceXML 2.1.
Piano delle
pubblicazioni del Voice Browser working Group:
- VoiceXML 2.0 - Recommendation,
March 16 2004 (Evviva!)
- SRGS - Recommendation,
March 16, 2004 (Evviva!)
- SSML - Proposed Recommendation,
2Q04; full recommendation 3Q04
- Semantic Interpretation
- Last Call working draft 2Q04
- CCXML - Last call working
draft, April 30, 2004
- VoiceXML 2.1 - working
draft March 23, 2004, Last Call working draft 2Q04
- V3 Kernel working draft
in 1Q05, last call working draft in 1Q06, with a final recommendation
1Q07
2)
Incontro del Multimodal Interaction Working Group (MMIWG)
I partecipanti
sono stati 45 da 35 aziende, il chairman � Deborah Dahl. Parte del meeting
� stata dedicata ad aggiornamenti con altri gruppi del W3C, quali Device
Independence (DI), SVG, HTML ed il gruppo dell'accessibilit�' Web (WAI).
La multimodalit� infatti ha degli aspetti trasversali delle tecnologie
Web.
Le attivit�
in corso nel MMIWG su si � lavorato sono le seguenti:
- EMMA
(Extensible MultiModal Annotation) protocollo di interfaccia standard
per comunicare i risultati della modalit� vocale, ma anche di altre modalit�,
quali il Pen/Ink. La peculiarit� di questo linguaggio � di poter annotare
i risultati in molti modi diversi.
- InkML
(Ink Markup Language) specifica del formato digitale Ink, utilizzato
per interfacciare device quali Stylus o Pen su Palmari o Tablet PC.
- Rendere disponibili
informazioni su System&Enviroment per tracciare dinamicamente il
cambiamento di propriet� di un device multimodale, es. livello delle
batterie, degradi di connettivit�, ma anche capabilities del device o
le preferenze dell'utilizzatore.
- Approcci per gestire
input composito, cio� coordinato tra diverse modalit�, come ad esempio
una frase detta selezionando un link sullo schermo o indicando un punto
su una mappa. In questo caso per operare un corretta comprensione del
comando devono essere integrate due rappresentazioni semantiche per generare
un risultato composito.
- Studi iniziali ad approcci
di gestione dell'interazione multimodale(Interaction Management).
Inoltre
il MMIWG ha gestito una sessione dell'incontro plenario su: "Can I Really
Get Good Web Access Without Carrying a PC and a Big Screen?" (vedi
sotto).
3)
W3C Technical Plenary
� difficile
sintetizzare una giornata di lavoro cos� ricca di argomenti e discussioni,
dove per� i temi discussi sono molto specialistici. Potete vedere l'agenda
online, riportiamo alcune sensazioni sugli interventi pi� rilevanti
per questo gruppo.
Una sessione
� stata dedicata al TAG (Technical Advisory Group) istituito tre anni fa
per affrontare temi spinosi sollevati da tutta la comunit� Web ed che ha
recentemente pubblicato il documento: "Architecture
of the World Wide Web, First Edition" che descrive i principi,
le limitazioni, le scelte e le good practice dell'architettura Web.
Un'altra
sessione era gestita da Deborah Dahl (chairman del MMIWG) su: "Adventures
with Mixed Markup Language Documents". Il punto focale era valutare
i problemi legati al mischiare linguaggi markup diversi. Una tematica molto
interessante oggi in cui si cerca di fattorizzare e riusare i linguaggi
in contesti nuovi. Un esempio semplice � il VoiceXML 2.0 che include, o
meglio annega, al suo interno i linguaggi SSML e SRGS. La grande sfida
del multimodale invece � molto pi� ambiziosa e richiederebbe di includere
in una pagina visuale (XHTML) la gestione della voce, integrata con altre
modalit� alternative. Nell'ambito multimodale entrambi i linguaggi presentati
finora: SALT dal SALT Forum (MS, Intel, Cisco, etc.) e X+V (IBM, Opera
e Motorola) richiedono di inserire nuovi elementi in un documento XHTML.
C'� molto lavoro da fare nel W3C per creare l'infrastruttura ottimale per
fare ci�.
Un'altra
ancora riguardava l'importante ruolo delle test-suite per far evolvere
le specifiche del W3C. In questo filone si inseriscono gli Implementatio
Report come ad esempio quello del VoiceXML 2.0, che verr� usato dal VoiceXML
Forum per certificare le piattaforme che supportano il VoiceXML 2.0 (ci
addentreremo su questo tema in altra occasione). Pi� in piccolo lo SSML
Implementation Report che sta gestendo Loquendo ed � stato implementato
dai maggiori produttori di TTS mondiali.
Infine
la sessione gi� citata: "Can I Really Get Good Web Access Without Carrying
a PC and a Big Screen?", moderata da Scott McGlashan, co-chairman
del VBWG. Era una sorta di preview di un futuro che ci attende tra pochi
anni, un melange di dimostrazioni che messe insieme formavano uno scenario
futuribile per una persona in viaggio di lavoro. I partecipanti mostravano
demo delle tecnologie di punta, ad esempio:
- Kirusa, con un applicazione
multimodale su PDA per l'acquisto online di un biglietto aereo.
- HP, con una stampante
Wireless in grado di stampare documenti ed anche biglietti acquistati
online.
- AT&T; che presentava
su un Tablet-PC o Kiosk una mappa interattiva capace di gestire in contemporanea
richieste vocali integrate con touch sulla mappa. Un esempio veramente
avvincente di multimodalit� e di quanti aspetti devono essere integrati
per rendere quest'applicazione realistica.
Insomma
la Technical Plenary ha offerto spunti di riflessione e anticipazioni del
futuro prossimo a venire.
Paolo Baggia e Laura Ricotti, rappresentanti di Loquendo nei W3C VBWG
e MMIWG.