Resoconto attivita' del W3C Voice Browser Working Group
a cura di Paolo Baggia rappresentante di Loquendo
nei W3C Voice Browser e W3C Multimodal Interaction Working Groups
29 Gennaio 2003.
Offro una breve sintesi delle notizie importanti dal W3C Voice Browser WG emerse negli ultimi mesi.
Spero siano utili a capire in che direzione si sta evolvendo la specifica VoiceXML 2.0 e con essa tutte le altre
specifiche ad esso associate (grammatiche, sintesi, controllo di chiamata, ecc.)
1) VoiceXML 2.0:
Ieri, 28 gennaio 2003 � stata pubblicata una nuova versione
della specifica, che ha fatto un importante salto di qualita'
al VoiceXML 2.0, ha raggiunto il livello di "Candidate
Recommendation".
Cosa significa?
Per il W3C questa specifica � completa da un punto
di vista funzionale; inoltre il gruppo di lavoro ha
risolto tutte le richieste ricevute nel periodo
di revisione pubblica ed infine ha prodotto un Implementation
Report Plan, cio� un documento corredato da circa 500 tests
volti ad agevolare la verifica dell'implementabilit� della
specifica.
Il passo � molto importante, fondamentale, perch� � una premessa
indispensabile per giungere ad una vera Recommendation W3C.
Quali sono i passi ulteriori?
La specifica a questo punto deve dimostrare l'implementabilit�
per passare al livello successivo: "Proposed Recommendation".
Questo avverr� quando diverse aziende al mondo presenteranno
l'Implementation Report compilato e tutte le funzionalit�
obbligatorie avranno almeno due implementazioni distinte.
Superato questo stadio si aprono le porte alla
Raccomandazione a tutti gli effetti ed i tempi sono
esclusivamente di carattere tecnico. Quindi speriamo tutti
di vedere raggiungere questo traguardo al VoiceXML 2.0 nel
corso del 2003, magari gi� in autunno.
Spec: http://www.w3.org/TR/voicexml20
2) Uno sguardo alle altre specifiche
Speech Recognition Grammar Specification (SRGS)
� la prima a essere giunta a livello Candidate Recommendation
gi� dal 24 giugno 2002. Alcune aziende hanno presentato
un Impl. Report (Lucent, Microsoft e IBM), ma non sono ancora
coperte tutte le funzionalita'. A breve dovrebbe arrivare un
ulteriore IR ed aprire le porte al livello successivo.
Questa specifica definisce un formalismo XML per esprimere
le grammatiche di riconoscimento che � gi� adottato da pi�
aziende ed Application Server sul mercato. Oltre al formalismo
XML la specifica prevede anche un formato testuale (ABNF) simile
al ben noto formato JSGF (Java Speech Grammar Format).
La speranza di tutti gli scrittori di grammatiche � che questo
formalismo sostituisca quelli esistenti oggi, permetta di
rendere standard tutte le principali caratteristiche di una
grammatica di riconoscimento e favorisca l'interoperabilit�
tra vendors tecnologici diversi.
Spec: http://www.w3.org/TR/speech-grammar
Speech Synthesis Markup Language (SSML)
� il formato XML per definire dei prompts da sintetizzare
in un servizio vocale. Lo SSML permette in modo
agevole di fornire delle informazioni sul testo
da pronunciare, offre la possibilit� di modificare la
voce e la lingua in cui il testo deve essere letto e di agire
a livello fonetico, se necessario, o di modificare la lettura
agendo a livello acustico/prosodico. Insomma un sintetizzatore
pu� ottimizzare la lettura di un testo ed arricchire la resa
acustica, utilizzando un formato non proprietario e ricco di
caratteristiche interessanti.
Se volete provare alcune delle caratteristiche principali del
formato SSML potete usare la Demo Online del TTS presente nel sito
di Loquendo.
L'ultima versione di questa specifica � stata pubblicata il
2 dicembre 2002 a livello Last Call Working Draft ed lo stadio
successivo (si spera a fine primavera) sar� di diventare una
Candidate Recommendation. Il lavoro del gruppo attuale � di
stesura dell'Implementation Report Plan.
Spec: http://www.w3.org/TR/speech-synthesis
Semantic Interpretation (SI)
Le grammatiche di riconoscimento sono composte da
due parti: la sintassi, che esprime i vincoli sulla sequenza
di parole da pronunciare, e la semantica, che permette a valle
del riconoscimento di trasformare i risultati in modo applicativo.
Ad esempio riconoscere delle citt� e restituire la sigla della
provincia, o pi� semplicemente pronunciare un numero ("due
mila cinquecento trentasei euro e diciotto centesimi") e restituire
il numero in cifre ("2536,18") pronto per essere utilizzato
dall'applicazione VoiceXML.
Purtroppo la specifica SRGS definisce solamente la sintassi,
per la parte semantica si deve attendere la terminazione di questa
seconda specifica.
Le aziende produttrici di tecnologie vocali stanno lavorando
attivamente su questo fronte e sar� pubblicato a breve
(inizio marzo?) una nuova specifica della Semantic Interpretation
che � gi� vicina al livello Last Call Working Draft.
La caratteristica principale � di essere basata direttamente
su ECMAScript (JavaScript) � quindi di facile utilizzo da parte
degli sviluppatori.
Call Control XML (CCXML)
L'ultima specifica in attivo sviluppo da parte del Voice
Browser WG � il CCXML. Un linguaggio per poter implementare
in modo Web Based non solo la logica di servizio, ma anche alcune
feature di Controllo di chiamata, quali i trasferimenti di chiamata,
semplici conferenze telefoniche.
Questo settore � molto interessante perch� offrire uno
standard interoperabile con il VoiceXML 2.0 e capace di adattare
in modo semplice delle funzionalit� telefoniche in genere di
difficile utilizzo.
� ancora prematuro sapere se questo standard sar� largamente
accettato, ma certamente � una proposta interessante per un tassello
ancora scoperto utile per il confezionamento di servizi vocali
sempre pi� complessi e che sfruttano ad ogni livello le capacit�
del mondo Web.
Spec: http://www.w3.org/TR/ccxml
3) Il futuro del VoiceXML
L'ultimo punto importante � che sta nascendo in questi giorni e
Via, via coinvolger� le aziende che partecipano al Voice Browser
WG il lavoro per definire un linguaggio per applicazioni vocali
di terza generazione.
Vi invito ad iscrivervi alla mailing-list pubblica del W3C VB
per poter essere informati tempestivamente degli sviluppi e, se
volete, contribuire direttamente, suggerendo le cose che avreste
voluto avere nel VoiceXML, ma che non sono ad oggi presenti.
"VoiceXML 2.0 Candidate Recommendation Press Release" del W3C:
("http://www.w3.org/2003/01/voicexml2-pressrelease.html.en)
Testimonials di supporto alla "VoiceXML 2.0 Candidate Recommendation Press Release" di cui sopra:
(http://www.w3.org/2003/01/voicexml2-testimonial)
Paolo Baggia, rappresentante di Loquendo nei W3C VBWG e MMIWG.
|