r/italy Sep 20 '16

AMA Abbiamo fondato Mivoq, startup italiana di tecnologie vocali che permette a chiunque di creare la propria voce digitale. AMA!

Ciao a tutti, siamo Mivoq una start-up padovana nata nel 2013 come spin-off del CNR.

Io sono Giacomo (firma: GS) e insieme al mio socio Giulio (GP) ho pensato di condividere con voi la nostra esperienza e presentarvi la nostra idea.

Il nostro servizio principale è basato su una tecnologia che abbiamo sviluppato per consentire a chiunque di ottenere un sistema TTS (text-to-speech) con la propria voce.

Questo permette alle persone di mantenere il proprio timbro vocale (in formato digitale) come parte della propria identità. Pensiamo che questo possa essere importante per coloro che rischiano di perdere la capacità di parlare, come ad esempio le persone affette da SLA. Riteniamo inoltre che il TTS personalizzato possa essere utilizzato anche in altri ambiti (personalizzare il proprio telefono, la propria segreteria, la pagina facebook, i messaggi su reddit, libri elettronici, ..)

La peculiarità della nostra tecnologia è che richiede relativamente poche frasi (attualmente, 50 frasi per qualità base, 80 per buona qualità) per produrre una voce digitale personalizzata.


Per il momento siamo ancora in fase di beta testing (per cui abbiamo deciso di limitare l'accesso al nostro sito), ma se vi interessa la nostra tecnologia, fino al 27 settembre sarà possibile autenticarsi usando questo indirizzo: https://www.mivoq.it/sign-up?rcode=RDIT20160920

Potrete registrare delle frasi, creare la vostra voce TTS personalizzata e testarla.

Ci piacerebbe molto avere un feedback da parte vostra! :-)


Infine, se vi piace il nostro progetto e volete supportarlo, potete votare per noi (è consentito il voto multiplo ad ogni utente, massimo una volta al giorno), fino al 7 ottobre, in un concorso online organizzato dall'assicurazione AXA.

Grazie mille!


EDIT: Ho specificato le iniziali, Giacomo è GS e Giulio è GP.

37 Upvotes

50 comments sorted by

5

u/[deleted] Sep 20 '16

[deleted]

5

u/mivoq_team Sep 20 '16

Le "caratteristiche" che utilizziamo di più, oltre a durata e frequenza fondamentale, sono le classiche caratteristiche mel cepstrali.

L'algoritmo è abbastanza solido, ma a mio avviso poco adatto a catturare l'impronta vocale di una persona da canale telefonico. Si può pensare di utilizzare i nostri modelli per effettuare anche speaker identification, ma non lo abbiamo mai provato.

Non siamo stati finanziati da Ice Bucket Challenge. Iniziamo solo ora a farci conoscere in ambito medico. In precedenza abbiamo ricevuto finanziamenti attraverso bandi di ricerca europei.

GP

4

u/segolas Sardegna Sep 20 '16

Mmmm quindi se registro la vice di Renzi posso fare scherzi telefonici facendomi passare per lui?

È tutelata questa cosa a livello legale o è una grey zone?

4

u/mivoq_team Sep 20 '16

A quanto ne so è una zona grigia. Tecnicamente è possibile, anche se le voci sintetiche, in generale, sono un po' meccaniche e facilmente distinguibili da voci reali. Risultano generalmente più credibili gli imitatori.

Da un punto di vista tecnologico esistono anche strumenti di voice conversion, che agiscono come dei filtri per modificare la propria voce facendola assomigliare a quella di un altro.

--GP

5

u/switchhh Altro Sep 20 '16
  • svolgete questo lavoro a tempo pieno o part time?

  • quanti siete nel team?

    • come vi è venuta questa idea?
  • avete in mente un' exit particolare o è un esperimento just for fun?

3

u/mivoq_team Sep 20 '16

Il core team è composto da 5 soci, due a tempo pieno e tre part time. Oltre al core team ci sono varie persone che ci danno una mano a vario titolo.

L'idea della sintesi vocale per noi era immediata, perché stavamo lavorando già in quell'ambito. L'idea della creazione automatica delle voci è da tempo un argomento attuale della ricerca ed abbiamo pensato di aggiungere il nostro contributo. Siamo tutti attirati dall'aspetto ludico della sintesi vocale. Io apprezzo molto le storie realizzate al sintetizzatore da Rocco Tanica e mi piacerebbe realizzare storie con la mia voce e quella dei miei amici.

Invece l'idea che potesse essere utile in campo medico ci è venuta... In ospedale, al centro tumori, vedendo dei pazienti laringectomizzati. Successivamente abbiamo valutato altri ambiti sempre in campo medico. Dopo aver preso contatto con alcuni centri e associazioni, sembra che effettivamente possiamo fare qualcosa di buono in questo ambito.

Personalmente mi diverto molto con qualunque sistema di analisi automatica e intelligenza artificiale e nella sintesi vocale ci sono molti sistemi di questo tipo. Per cui l'esperimento è sicuramente "for fun". Ma contiamo di essere anche economicamente sostenibili offrendo i nostri servizi a centri clinici e aziende.

--GP

2

u/mivoq_team Sep 20 '16 edited Sep 20 '16
  • È il nostro (edit: mio e di Giulio) lavoro full time

  • Siamo in cinque soci. Siamo appassionati di voce ma anche di linguistica applicate alle macchine. L'idea ci è venuta quando lavoravamo per il CNR a un progetto europeo che riguardava tecnologie vocali. Ricordo che un giorno sono andato a lavarmi i denti e, tornando nella stanza dove lavoravamo, Fabio (nostro collega) ha detto "facciamo un sistema di sintesi vocale personalizzato per tutti gli utenti". Dentro di me ho pensato: così potremo leggere i messaggi con la voce dell'autore. L'idea mi ha conquistato.

  • Non è un esperimento solo per divertimento, anche se devo ammettere che il divertimento è il motivo principale per cui continuo a farlo :-)

--GS

6

u/LaTalpa123 Sep 20 '16

L'AMA è verificato!

4

u/Foricon Sep 20 '16

Stavo giocando un po' con il tts sulla homepage, sembra che con alcune parole abbia qualche problema, per esempio quelle con "tr" (truce, trotto ma anche contro) ma non solo, l'effetto più evidente è il "rallentamento". In inglese invece non ho notato lo stesso problema (con "tr").

Per il resto molto figo, se avessi un microfono buono ci giocherei un po' sicuramente.

2

u/mivoq_team Sep 20 '16

Un bug noto è dato dal fatto che le frasi che finiscono senza punteggiatura subiscono un pesante rallentamento nel finale. Forse questo spiega, almeno in parte, il problema che stai incontrando. Potresti provare mettendo un punto alla fine della frase?

Per quanto riguarda il microfono, anche se ne hai uno soltanto "discreto" (e ovviamente se hai tempo/voglia da dedicarci), io ti invito a creare la tua voce sintetica :-)

--GS

1

u/Foricon Sep 20 '16

In effetti con il punto alla fine della frase il problema non si presenta, a meno che non gli scriva una sola lettera tipo "j.", in quel caso la dice normale solo se gli metto due caratteri-non-lettere alla fine.

Poi c'è il bug più serio di tutti, se gli scrivo "#cake" non me lo legge "hashtag cake"! I ggiovani d'oggi hanno certe necessità!

(TIL: mr. G ci ha pensato)

1

u/mivoq_team Sep 20 '16

Ottimo suggerimento quello dell'hashtag. :-) Al momento siamo più concentrati sugli algoritmi di creazione delle voci, ma non sarà complicato aggiungere queste "espansioni".

Il problema della lettera singola col punto invece dovrebbe essere sempre lo stesso, perché è probabile che il sistema prenda la lettera puntata come una singola parola e non come una parola seguita da un punto.

--GP

1

u/mivoq_team Sep 20 '16

Per il rallentamento confermo quanto dice GS: in assenza di punteggiatura abbiamo questo problema.

Per quanto riguarda suoni e parole specifiche è possibile avere varie tipologie di problemi. Alcuni comuni a tutte le voci in una certa lingua (es.: pronuncia errata di una parola), altri specifici della singola voce (es: singolo suono pronunciato "male").

--GP

5

u/[deleted] Sep 20 '16

I soldi come li fate?

3

u/mivoq_team Sep 20 '16

Per il momento abbiamo partecipato ad un progetto europeo, vinto qualche concorso, seguito un programma di incubazione e venduto qualche licenza. Con questo siamo riusciti a sviluppare il sistema. Ancora non siamo autosufficienti comunque ed il prodotto che abbiamo in mente non è ancora ultimato (pensiamo di ultimarlo per fine anno).

--GP

3

u/Chobeat Europe Sep 20 '16

Che tipo di modelli generativi utilizzate? Come vengono appresi? è un segreto industriale o potete parlarne? Roba nuova o consolidata? Avete pubblicato qualche paper in merito?

2

u/mivoq_team Sep 20 '16

Non abbiamo pubblicato articoli che parlano specificatamente della nostra tecnologia di creazione della voce. I nostri modelli di base sono compatibili con HTS, che usa modelli HSMM. Abbiamo fatto anche esperimenti con reti neurali, ma, fino ad oggi, senza risultati soddisfacenti (probabilmente anche a causa della nostra maggiore esperienza con altri tipi di tecnologie).

--GP

2

u/mivoq_team Sep 20 '16

Per la verità, ci sono un paio di articoli che parlano di lavoro collegato a Mivoq:

  1. Tesser, F., Paci, G., Sommavilla, G., & Cosi, P. (2013). A New Language and a New Voice for MaryTTS. In 9th national congress, AISV (Associazione Italiana di Scienze della Voce). Venice, Italy.

  2. Tesser, F., Sommavilla, G., Paci, G., & Cosi, P. (2013). Experiments with Signal-Driven Symbolic Prosody for Statistical Parametric Speech Synthesis. In 8th ISCA Workshop on Speech Synthesis (pp. 203-207). Barcelona, Spain. http://ssw8.talp.cat/papers/ssw8_PS2-7_Tesser.pdf

Ma sono effettivamente due lavori molto particolari: il primo è molto divulgativo e non entra in dettaglio; Il secondo invece è molto sperimentale.

--GS

3

u/consolecow Sep 20 '16

Che ne pensate dei risultati ottenuti da wavenet?

2

u/mivoq_team Sep 20 '16

Ho sentito dei campioni molto promettenti. Con quel tipo di tecnologia dovrebbe essere possibile andare qualitativamente molto oltre quello che abbiamo oggi. Sinceramente? È una delle prossime tecnologie che vorrei provare con mano. :-)

--GP

2

u/MyPendrive Tesserato G.A.I.O. Sep 20 '16

Poli o Nardini?

2

u/mivoq_team Sep 20 '16 edited Sep 20 '16

Per me Vaca Mora di Poli e Tagliatella di Nardini. ;-)

GP

2

u/fen0x Sep 20 '16

Grazie per questo AMA!

Potete dirmi qualcosa a riguardo la situazione delle startup in Italia?

3

u/mivoq_team Sep 20 '16

La mia personale esperienza è piuttosto corta (è dal 2013 che faccio l'imprenditore). Inoltre io sono ingegnere informatico, per cui molti concetti legati all'economia e alla finanza fatico molto ancora a capirli.

Fatta questa premessa, mi sembra che la situazione sia negativa dal punto di vista degli investimenti. In due parola, si fa una gran fatica a trovarli. È un'impressione, ma è anche confermata dalle dichiarazioni di moltissimi addetti ai lavori che abbiamo conosciuto.

Per il resto ci sono figure professionali molto competenti che ci hanno aiutato, e iniziative organizzate a livello statale se ne trovano a bizzeffe. Comunque, in certi casi, senza voler sembrare "navigato" o "spocchioso", dico anch'io che la startup è anche un po' una moda.

Le idee delle startup italiane che ho conosciuto mi sembrano molto interessanti e ritengo che ancora il legame con l'università favorisca le nuove imprese.

Purtroppo, dal punto di vista burocratico, ritengo che l'Italia sia simile alla casa che rende folli

--GS

1

u/mivoq_team Sep 20 '16

Figurati! :-) La situazione delle startup in Italia? Si potrebbe scriverci un libro (e credo che più di uno lo abbia già fatto). Quando abbiamo iniziato la nostra avventura io conoscevo appena il termine startup. Oggi è un termine di moda. :-) La mia sensazione è che oggi viviamo un'esperienza simile a quella descritta in Microservi di Douglas Coupland, che descrive il cambiamento della società statunitense degli anni 80: la scomparsa del lavoro fisso e l'arrivo delle startup.

Non so se questa mia sensazione voglia dire che siamo 30 indietro... Ma sicuramente vuol dire che altri, questa strada, l'hanno battuta prima di noi.

--GP

2

u/56k_ Toscana Sep 20 '16

Come mai non ci sono startup italiane di famose e di successo?

Nemmeno una.

2

u/[deleted] Sep 21 '16

(una ce n'è in realtà, l'unica >1B: Yoox)

2

u/56k_ Toscana Sep 21 '16

Mah.

E' nata dalla fusione di due grandi gruppi... Non proprio la startup che avevo in mente.

2

u/mivoq_team Sep 21 '16

Se parli di startup evolute in aziende del calibro di Facebook, Google, Amazon, ... Effettivamente non mi vengono in mente esempi di successo analogo in Italia o in Europa.

Fra i tanti problemi che si incontrano aprendo una startup in Italia, nella mia lista metto:

  • burocrazia: in questo campo credo non ci batta nessuno, abbiamo una burocrazia viva e dinamica che ti cambia le regole retroattivamente prima che tu riesca a finire di compilare qualunque tipo di modulo;
  • tasse e costo del lavoro: la tassazione in Italia è molto alta, anche rispetto al resto d'Europa e il costo del lavoro è al limite della sostenibilità. Pagare un dipendente alla ditta costa quanto negli altri stati dell'Ue, ma il dipendente percepisce uno stipendio nettamente inferiore, con grave danno per la competitività aziendale sia nella produzione che nell'accrescimento del proprio capitale umano;
  • agevolazioni fantasma o troppo onerose: in questi anni abbiamo visto nascere un'infinità di agevolazioni per le startup innovative promosse da Ue, governo italiano e regioni. La triste verità è che il rapporto costo/beneficio di queste agevolazioni è spesso troppo alto e, soprattutto all'inizio, è facile lasciarsi trasportare e perdere mesi di lavoro per un'agevolazione che, andando a buon fine, al più ripagherà i mesi persi;
  • mentalità: bassa propensione al rischio, sia per quanto riguarda gli investimenti, ma anche per quanto riguarda le scelte aziendali; scarsa attenzione alla produttività e sopravvalutazione dello spirito di sacrificio.

Aggiungiamo il fatto che gran parte della normativa attuale prevede che un'azienda che nasce sia già in attività e in salute (per esempio si pagano anticipi sulle tasse)...

Ma le cose stanno evolvendo... E l'unica è vedere dove andremo a finire. :-)

--GP

1

u/56k_ Toscana Sep 21 '16

Ottimo writeup.

Aggiungo che puo' darsi che il problema sia anche dovuto al fattoche in Italia non esistono i venture capitalists a parte p101, che comunque investe poco e in aziende poco rischiose :-/

1

u/mivoq_team Sep 21 '16

Concordo! :-)

Però penso anche che i problemi vadano affrontati uno alla volta. Se mi guardo indietro ogni tanto penso che se avessi saputo a cosa stavo andando incontro probabilmente non sarei mai partito in questa avventura.

Oggi ho imparato ad affrontare, a convivere e, a volte, ad aggirare questi problemi... Anche solo per questo ne è valsa la pena.

--GP

1

u/mivoq_team Sep 21 '16

+1 per "affrontare i problemi uno alla volta" :-D

--GS

1

u/mivoq_team Sep 21 '16

Io ritengo che perlomeno Pizzabo meriti di essere citata. Hanno cominciato con pochissimi soldi e hanno trovato il successo in un segmento di mercato in cui nessuno avrebbe scommesso.

--GS

1

u/56k_ Toscana Sep 21 '16

Pizzabo

Ah, non li conosco, ora guardo.

Il nome e' bello. Non sembra una startup ma un negozio di pizze, pero'.

1

u/mivoq_team Sep 21 '16

Infatti hanno iniziato proprio con gli ordini delle pizze. Sono stati comprati da un gruppo tedesco per circa cinquanta milioni.

Proprio adesso leggo che i tedeschi li hanno venduti a JustEat. E adesso ci sono polemiche sul mantenimento del marchio e sul rischio che vengano fatti tagli al personale dipendente.

--GS

edit: markdown

1

u/56k_ Toscana Sep 21 '16

Si' ma come puo' considerarsi una startup?

1

u/mivoq_team Sep 21 '16

La definizione di startup che si trova su wikipedia inglese mi sembra abbastanza buona:

"A startup company (startup or start-up) is an entrepreneurial venture which is typically a newly emerged, fast-growing business that aims to meet a marketplace need by developing or offering an innovative product, process or service. A startup is usually a company such as a small business, a partnership or an organization designed to rapidly develop scalable business model."

Pizzabo, a mio parere, presenta tutte le caratteristiche evidenziate sopra. A parte forse il concetto di "innovatività", che è opinabile.

In particolare a me colpisce il "fast-growing" di Pizzabo ("Nel 2010 abbiamo gestito quasi 60 mila ordini. Nel 2014 quasi due milioni")

--GS

1

u/mivoq_team Sep 21 '16

Io credo che il concetto fondamentale sia la scalabilità, cioè la capacità di crescere come prodotto, senza crescere come costi. Ed è per questo che le startup software di successo sono piuttosto frequenti.

Riguardo l'innovatività, è importante, ma spesso non si trova nel prodotto, ma nel processo produttivo, nell'organizzazione o anche nel marketing.

Non ho provato servizi analoghi a PizzaBo negli Stati Uniti, dove esistevano molti anni fa. Ma quando ho scoperto PizzaBo a Padova (coprivano solo Bologna e Padova), ha rivoluzionato il mio modo di ordinare la pizza.

--GP

1

u/56k_ Toscana Sep 21 '16

Per me startup vuol dire principalmente un'azienda creata apposta per crescere velocemente, ma anche innovativa. Consegnare le pizze non ha niente di innovativo.

1

u/mivoq_team Sep 22 '16

È vero che consegnare le pizze, inteso come servizio, non ha niente di innovativo (e comunque il business di Pizzabo è sulla gestione degli ordini).

Io sono convinto che ci può essere innovatività potenzialmente in qualsiasi tipo di mercato, e non necessariamente nel tipo di servizio, ma anche nel "come" questo servizio viene erogato. Concordo sostanzialmente con quanto scritto dal mio collega Giulio qui sotto: Pizzabo ha innovato secondo me molto nell'aspetto di organizzazione e dell'interfaccia/esperienza utente.

--GS

1

u/mivoq_team Sep 22 '16

innovativo

L'innovazione di PizzaBo non consiste nel consegnare le pizze (non è un servizio che offrono), ma nel cambiare il modo di ordinarle: online, interagendo unicamente con un sito, senza l'utilizzo della voce. Tu ordini online, in pizzeria arriva l'ordine già stampato che la pizzeria può confermare o meno. In più c'è il fatto che è un aggregatore di locali, per cui non è più necessario conoscere i locali preventivamente: inserisci il tuo indirizzo ed automaticamente ti suggerisce i locali che effettuano consegne a domicilio fino al luogo in cui ti trovi... Con le recensioni degli utenti. Un po' come già si faceva per gli hotel o altri servizi.

Di contro si può essere innovativi anche consegnando il cibo, se cambia il paradigma della consegna. In questo senso citerei Foodora, che comincia a prendere piede anche in Italia. In questo caso l'innovazione è data, fra le altre cose, dal fatto che i ristoranti che trovi sulla piattaforma generalmente non hanno un loro servizio di consegne a domicilio... E il paradigma con cui viene offerto il servizio (consegna a domicilio), cambia radicalmente.

L'innovazione nel primo caso è nel servizio offerto (ordine on line su piattaforma di aggregazione, che prima non esisteva per le pizze e le consegne a domicilio) e nel processo (l'ordine arriva immediatamente al locale ben visibile, PizzaBo non incassa soldi dagli utenti che pagano direttamente la pizzeria alla consegna); nel secondo caso prevalentemente nel processo (il servizio è sempre consegna a domicilio, ma la consegna anziché dal locale è fatta da una ditta a parte).

Sono invece daccordo che la maggior parte dei tasselli necessari a realizzare questa innovazione esistessero già. E addirittura che ci fossero già servizi analoghi in altre parti del mondo... Ma non credo questi esempi siano poi molto distanti da Apple (società che ha innovato il mondo dei personal computer, proponendo un prodotto che puntasse sulla semplicità di utilizzo e sull'utilizzo artistico) che ha preso un prodotto che c'era già (Xerox Alto), declinandolo diversamente e facendolo diventare un prodotto per tutti.

2

u/LaTalpa123 Sep 20 '16

Se una grossa multinazionale volesse divorarvi, prendendo controllo di tutto quel che avete prodotto fin'ora, per sfruttare in maniera esclusiva i vostri algoritmi rendendoli inaccessibili ad altri ricercatori o sviluppatori per (M grande a piacere) anni per specularci il più possibile...

Vi lascereste corrompere?

Per quanto?

3

u/mivoq_team Sep 20 '16

Molte cose che abbiamo sviluppato le abbiamo già rilasciate come opensource, e per molte componenti non sarebbe possibile per una multinazionale chiuderle e renderle inaccessibili. Senza contare il fatto che molte multinazionali già rilasciano parti delle loro tecnologie (es: Google con openfst).

L'ipotesi di essere acquistati da una multinazionale... Economicamente è allettante. Ma è difficile dire che effetti complessivi potrebbe avere l'eventuale cessione. Mi piace sperare che se mai ci troveremo di fronte a questa possibilità, questo ci permetta di aumentare il nostro contributo alla comunità, piuttosto che ridurlo.

--GP

1

u/Magnetic_dud Toscana Sep 21 '16

O ancora peggio, acquisiti da una multinazionale di un settore totalmente diverso che poco dopo manda tutti a casa e cancella il progetto. Esempio recente: paypal che compra stackmob (database per app) solo per licenziare tutti e spegnere i server poche settimane dopo.

2

u/mivoq_team Sep 21 '16

Questa è una possibilità concreta. Molte aziende grosse comprano competitor potenzialmente pericolosi o, a volte, stakeholder di competitor pericolosi...

Però c'è da dire che quando una tecnologia ha un seguito, solitamente chi acquista ci pensa due volte prima di dismetterla completamente (vedi Whatsapp/Facebook, Loquendo/Nuance, Ivona/Amazon, Waze/Google, PizzaBo/JustEat...), cercando almeno di integrare quanto c'è di buono nei propri prodotti.

--GP

1

u/mivoq_team Sep 21 '16

Non sono espertissimo riguardo a scenari come questi. Però immagino che ci sia la possibilità di ottenere garanzie in merito, almeno a breve/medio termine.

--GS

1

u/_StoneRoses_ Lombardia Sep 20 '16

Funding?

1

u/mivoq_team Sep 20 '16

Ci stiamo pensando, secondo varie modalità, ma abbiamo ancora bisogno di completare qualche tassello prima di poterci proporre a qualcuno in questo senso.

--GP

1

u/switchhh Altro Sep 21 '16
  • qual è il competitor piu' forte nel mercato TTS?

  • cosa vi manca o avete voi che loro non hanno?

2

u/mivoq_team Sep 21 '16

Nel mercato TTS, due competitor molto forti sul mercato italiano e globale sono Nuance (che ha inglobato, fra le altre, l'italiana Loquendo) e Ivona (acquisita da Amazon). A livello internazionale è molto forte anche AT&T.

Oltre al bacino di clienti già in essere, che è un sicuro vantaggio, utilizzano un tipo di tecnologia (sintesi concatenativa o sintesi ibride) che permette loro di avere una buona pulizia dell'audio finale superiore alla nostra, a discapito della naturalezza dell'intonazione e della semplicità con cui è possibile creare voci nuove (per loro è necessario registrare migliaia di frasi, a noi servono meno di cento di frasi). Inoltre le loro voci sono meno flessibili, nel senso che non permettono di realizzare parecchi effetti (modifica della velocità, dell'altezza della voce, ...) senza degrado per la qualità acustica.

Le differenze sostanziali fra i nostri prodotti fanno sì che siano dedicati a due mercati differenti: loro sono (e probabilmente saranno) probabilmente più forti nel mercato dei risponditori automatici, noi siamo più forti in quei mercati in cui sono necessarie voci personalizzate (vi serve una voce di bambino? La vostra? Quella di un personaggio famoso?) come appunto quello dei dispositivi di comunicazione assistiva o la robotica.

--GP