Z Łukaszem Osowskim, jednym z twórców syntezatora mowy IVONA, rozmawia Piotr Perka.
Skąd pomysł na syntezator mowy?
Wszystko zaczęło się podczas studiów. Interesowałem
się m.in. algorytmami sztucznej inteligencji
i sieciami neuronowymi. Postanowiłem stworzyć
program, w którym mógłbym wykorzystać moje
zainteresowania. Wybór padł na syntezę mowy.
Wówczas syntezatory mówiły bardzo sztucznym,
\”komputerowym\” głosem. Pomyślałem, że na
pewno można to zrobić lepiej. W projekt wciągnąłem
przyjaciela, Michała Kaszczuka. Postanowiliśmy,
że nie tylko stworzymy taki program, ale spróbujemy
zrobić z tego produkt, który będziemy
mogli sprzedawać i który będzie przydatny innym.
Jak długo trwały prace nad programem?
Nasz pierwszy produkt był gotowy po pół roku
i nosił nazwę Spiker. I choć wtedy był to najlepszy
syntezator mowy na polskim rynku, pomimo tego,
że działało już kilka firm tworzących takie oprogramowanie,
to jednak jego głos był jeszcze
sztuczny. Przez ponad dwa lata opracowywaliśmy
kolejne wersje tego produktu, rozwijaliśmy firmę
i coraz lepiej poznawaliśmy technologię. Zastanawialiśmy
się też, jak powinien wyglądać stworzony
przez nas syntezator, który mówiłby ludzkim
głosem. W 2003 roku rozpoczęliśmy prace nad takim
syntezatorem i nazwaliśmy go IVONA.
W 2005 roku syntezator był gotowy – widzieliśmy,
że działa, że mówi świetnie, nawet lepiej, niż
się spodziewaliśmy, że jest lepszy od produktów
najlepszych firm na świecie, które dłużej się tym
zajmują, nie tylko od produktów polskich. Uznaliśmy,
że stanęliśmy przed olbrzymią szansą zamiany
tego sukcesu technologicznego na sukces finansowy.
Konieczne było stworzenie gamy produktów
opartych na IVONIE, przeznaczonych do
różnych zastosowań. Od tej chwili więcej czasu
poświęcamy na budowanie pozycji firmy, niż na
technologię, choć nadal jest to nasze oczko w głowie.
Przez cały czas zastanawiamy się, jak ulepszyć
IVONĘ, jak sprawić, by jeszcze lepiej mówiła.
Co zostało jeszcze do zrobienia? Co z przenoszeniem
emocji podczas czytania, co
zresztą jest bolączką wszystkich programów
tego typu. Czy i w jakiej perspektywie
czasowej jest szansa na rozwiązanie
tego problemu?
Aktorskie odczytanie tekstu, w którym syntezator
mowy nie tylko odczytuje tekst, ale także go interpretuje
to trochę taki święty Graal. Wiele firm,
wiele osób o to walczy, ale według mnie szybko
tego się nie da osiągnąć. To bardzo trudna sprawa
i w perspektywie najbliższych 10 lat trudno
myśleć o rozwiązaniu tego problemu. Oddanie
emocji nie jest trudne, najtrudniejsze jest zrozumienie
takiego tekstu i domyślenie się, z jakimi
emocjami trzeba ten tekst powiązać. Prowadzimy
nad tym badania, jednak rozwiązanie tego
problemu to odległa perspektywa.
Expressivo można wykorzystać na wiele
sposobów. Które funkcje są najczęściej
wykorzystywane?
Produkujemy szeroką gamę produktów opartych
na IVONIE, stąd możemy mówić o bardzo szerokim
spektrum zastosowań. IVONA w wersji rehabilitacyjnej
jest wykorzystywana przez osoby niewidome,
np. do pracy z komputerem, słuchania książek,
dokumentów lub odsłuchiwania internetu. IVONA
sprawdza się w codziennym życiu, jej użytkownicy
uważają, że jest to najlepszy syntezator, jaki kiedykolwiek
słyszeli. My zaś jesteśmy zadowoleni, że
możemy dostarczać tak dobry produkt.
IVONA ma też bardzo duże zastosowania
w komunikacji. Jest używana w firmach, które
mają swoje oddziały call center, systemy IVR (Interactive
Voice Response), gdzie dzwonimy
i chcemy sprawdzić np. stan swojego konta. Dotychczas
informacje takie podawał operator.
Obecnie bank może zainstalować IVONĘ, która
przeczyta je tak naturalnie, że nie domyślimy się,
że słuchamy syntezatora mowy.
Systemy IVR stosują firmy z branży energetycznej.
Znajdują one zastosowania np. w przypadku,
gdy ma zabraknąć prądu. System dzwoni
wtedy do klientów firmy i głosem syntezatora informuje
o zdarzeniu. Zaletą jest między innymi
to, że nie trzeba wcześniej tych komunikatów
nagrywać. Takich systemów jest bardzo dużo.
Innym polem zastosowań jest internet – np.
w Onecie zamiast wzrokowo czytać informację,
możemy kliknąć przycisk i zostanie ona odczytana
przez syntezator. Takich zastosowań IVONY
jest bardzo dużo. Wynikają one z tego, że dla człowieka naturalnym sposobem zdobywania informacji
jest słuchanie.
Jakie było pierwsze zastosowanie IVONY?
Po raz pierwszy nasz syntezator znalazł zastosowanie
w rehabilitacji osób niewidomych i niemych.
Dla niewidomych IVONA jest wzrokiem,
niemówiącym IVONA daje mowę.
Nad czym teraz pracujecie?
Wdrożenia IVONY na dużą skalę mają miejsce
w branży telekomunikacyjnej, w największych firmach
w Polsce. To jedno. Z drugiej strony mamy
przygotowaną całą gamę produktów: IVONĘ telekomunikacyjną,
rehabilitacyjną, profesjonalną,
wersję do wbudowywania w telefony komórkowe,
Pocket PC itd. Obecnie staramy się wyjść z tymi
produktami poza Polskę. Chcemy naszą technologię
sprzedawać na całym świecie. Chcielibyśmy, by
IVONA mówiła jak największą liczbą języków, i by
mówiła w nich tak dobrze, jak to robi po polsku.
Toteż trwają prace nad następnymi językami.
Jest polski, angielski, ale też rumuński…
Rumuński pojawił się w naszej ofercie z dwóch
przyczyn: biznesowej i ambicjonalnej. To było
wyzwanie: przygotować głos w języku rumuńskim,
który mówiłby na tak wysokim poziomie.
Nikt wcześniej nie opracował dobrego syntezatora
w tym języku.
Jak wygląda przygotowanie głosu?
Najpierw trzeba nauczyć IVONĘ zasad rządzących
danych językiem, a potem stworzyć głos mówiący
w danym języku. Samo stworzenie głosu jest dużo
prostsze, niż pierwszy etap, w którym uczymy zasad.
Ucząc IVONĘ języka rumuńskiego wcale nie
musimy znać tych zasad, ona sama ich się uczy.
Mówiąc innymi słowy, IVONA mówi doskonale po
rumuńsku, a my, którzy sprawiliśmy, że tak się
stało, wcale tego języka nie znamy.
Ale w przygotowaniach brała udział lektorka?
Oczywiście. Nagraliśmy rumuńską dziennikarkę,
i IVONA po rumuńsku mówi głosem Carmen.
Który głos pojawi się jako następny?
Brytyjski angielski, po nim pojawią się następne,
jednak nie chciałbym teraz tego zdradzać. Mogę
powiedzieć, że myślimy o chińskim, jak też kanadyjskim
francuskim.
Jak wygląda strona biznesowa przedsięwzięcia?
W Polsce w ubiegłym roku mieliśmy 2,5 mln złotych
przychodu ze sprzedaży różnych wersji IVONY.
Poza granicami Polski mamy na razie wdrożenia
pilotażowe, jak to się rozwinie, zobaczymy.
Czy zastanawiali się panowie nad pozyskaniem
inwestora?
Jakiś czas temu postanowiliśmy rozwijać naszą firmę
w sposób organiczny, czyli bez inwestorów.
Jednak to się zmienia, gdyż aby szybko zbudować
portfolio produktów i ich sprzedaż na świecie, potrzebne
są duże nakłady. Obecnie inwestorów nie
poszukujemy aktywnie, mimo tego zgłaszają się
do nas praktycznie codziennie. Staramy się prowadzić
rozmowy z nimi – być może zdecydujemy się
na pozyskanie zewnętrznego kapitału.
Jak wyglądają plany sprzedażowe?
Co roku podwajamy sprzedaż i mamy nadzieję, że
ten rok nie będzie się różnić od poprzednich. A może wybuchnie jakaś bomba sprzedażowa
wynikająca z naszego wejścia na rynki światowe?
Jak powstają nowe funkcje, usprawnienia
i wtyczki? Czy wsłuchujecie się w głosy
użytkowników?
Pomysły na wtyczki rozwijające funkcjonalność
pochodzą z rynku. Opierając się na potrzebach
naszych klientów, czy też obserwując rynek opracowujemy
nowe funkcjonalności i wtyczki. Takie
działania mają sens, gdyż Expressivo – Osobisty
Lektor z wbudowanymi głosami IVONY został
bardzo dobrze przyjęty, co utwierdziło nas
w przekonaniu, że obraliśmy dobrą drogę.
Co w przyszłości pojawi się w IVONIE?
IVONA będzie mówić coraz większą liczbą języków,
coraz większą liczbą głosów i będzie mówić
coraz bogatszą mową, czyli coraz piękniej.
Czy planujecie wersję Expressivo na inne
systemy lub urządzenia przenośne?
Niestety nie mogę na ten temat nic powiedzieć.
Gdyby to dotyczyło tylko Polski, udzieliłbym odpowiedzi,
jednak ponieważ próbujemy wejść na rynek
światowy, powstrzymam się od udzielenia informacji
na ten temat.
Czy zamierzacie coś zrobić np. z wtrąceniami
obcojęzycznymi w polskich tekstach,
z którymi Expressivo sobie nie radzi?
Tak, planujemy wprowadzić rozwiązanie tej kwestii,
to sprawa techniczna. W polskich tekstach
często zdarzają się wstawki z języka angielskiego,
podobnie jak np. w kanadyjskim angielskim mamy
do czynienia z wstawkami francuskimi. Nie
trzeba będzie kupować głosu Jennifer, daną
wstawkę będzie czytać polski głos, w taki sposób,
jakby przeczytał to Polak uczący się języka.
Głosem syntezatora można odsłuchać informacje
na Onet.pl. Na jakich warunkach
może skorzystać z IVONY użytkownik, który
chciałby dodać taką funkcjonalność do
swojej strony?
Konieczne jest wykupienie odpowiedniej licencji.
Expressivo pozwala na użycie syntezatora do
użytku osobistego, dokonanych za jego pomocą
nagrań nie można udostępniać publicznie. Najtańsza
licencja IVONY do zastosowań o które
Pan pyta kosztuje 1500 złotych.
Z których funkcji programu korzysta pan
najczęściej?
Słucham książek zgranych do odtwarzacza MP3,
praktycznie nie mam czasu na tradycyjne czytanie.
Podobnie czynią użytkownicy naszego domowego
produktu, czyli Expressivo. Wśród nich
bardzo popularne jest jeszcze słuchanie napisów
w filmach, Expressivo staje się wtedy wirtualnym
lektorem filmowym.
Jak pana zdaniem będzie wyglądać syntezator
mowy za, powiedzmy, 10 lat?
Nie podejmuję się nakreślenia konkretnej wizji.
Myślę, że po latach rozwoju, czy to będzie kilka czy
dziesięć lat, mowa z syntezatora będzie nieodróżnialna
od mowy ludzkiej, a jej zastosowania będą
o wiele szersze. Z pewnością powstanie wiele głosów,
które będzie można modyfikować. Czeka nas
też bardzo duże upowszechnienie zastosowania
mowy syntetycznej.