Ubuntu.pl 🇺🇦️ - Forum Ubuntu

Cześć.

Nawiązałem kontakt z Krzysztofem Szklannym czyli autorem paczki polskich fonemów dla festivala. Jakość tych fonemów jest niesamowita odpowiada mniej więcej jakości reprezentowaną przez syntezator ivona na windowsa, z tym że fonemy od Krzysztofa są zupełnie za darmo.

Niestety obecnie instalacja fonemów jest dość skomplikowana. Mnie mimo kilkudniowej walki nie udało się wykrztusić słowa z festivala za pomocą tych fonemów. Przydały by się paczki DEB i RPM. Wtedy system syntezy mowy był dostępny dla każdego użytkownika linuxa w przyzwoitym zakresie.
Problem w tym, że autor jest zapracowanym człowiekiem i nie ma czasu na zrobienie gotowych pakietów DEB i RPM dla systemów linuxowych.

Zapytał mnie czy nie znam kogoś kto zechciałby się zająć przygotowaniem gotowej kompilacji pakietów do umieszczenia w repozytoriach, tak aby od razu po instalacji festival gadał po polsku.

Fajnie by było aby ktoś też się pochylił nad samym festivalem i napisał do niego jakiś programik np do czytania tego co w schowku, albo plugin do Firefoxa.

Chętnych proszę o odpowiedź (tu lub na PW).

Problem polega na tym, że chyba oprócz p. Krzysztofa Szklanny (uwaga: nazwisko nieodmienne) nikt nie potrafi tego czegoś uruchomić. Próbowałem doprosić się o źródła (wav), ale na obiecankach typu "dostarczę jak będę miał chwilę czasu" się skończyło.

Do do jakości fonemów i festivala w ogóle - ja bym był bardzo ostrożny. Teksty demonstracyjne brzmią całkiem nieźle, ale wolałbym naocznie (a nausznie właściwie) sprawdzić jak toto się zachowa z polskimi łamańcami językowymi, bo mam niestety bardzo duże obiekcje...

Zresztą - możesz uruchomić festivala z istniejącym głosem. Pomijając fatalną jakość samych fonemów, prozodia pozostawia wiele do życzenia.

BTW. fonemy nie są zupełnie za darmo. Są na takiej samej chorej licencji jak Mbrola.

To co pozostaje ?

Jeśli masz jakikolwiek kontakt z p. Szklanny i możesz go do czegoś namówić - najprostszym rozwiązaniem byłoby pozostawienie difonów w jego głosie (tzn wywalenie korpusu) i przerobienie tego na Mbrolę. Szczególnie, że poprzedni głos Mbroli to też jego dzieło. A z Mbrolą to już Milena sobie poradzi (uprzedzając debaty taty na temat wypłaty: Milena jako NLP, a nie kompletny system TTS).

Wbrew pozorom Mbrola potrafi bardzo wiele (przykład - niemiecki głos de6, gdzie masz nawet możliwość wyrażenia emocji, a jakość jest taka że Ivona może się schować pod łózko i nie próbować szczekać. Opracowany bodajże 8 lat temu, czy jakoś tak...)

A najbardziej sensowne byłoby wyrwanie od p. Krzysztofa źródeł (nie chodzi mi oczywiście o źródła programu, a o materiały źródłowe które posłużyły do utworzenia głosu). Z tego co wiem - największym problemem w stworzeniu difonowego DSP jest właśnie brak materiałów źródłowych (tzn. nagranego i podzielonego korpusu). Bo patentowane algorytmy użyte w Mbroli można pominąć - to nie są czasy 486 gdzie każdy cykl procesora był ważny, dzisiaj mój nienajnowszy telefon ma o dwa rzędy wielkości większą moc obliczeniową niż pecet na którym można było odpalić Mbrolę, i dość prosty algorytm może zastąpić patentowany PSOLA.

Według ekipy programistów którą kiedyś (wierząc w obietnice Krzysztofa) zebrałem - utworzenie na podstawie tych materiałów całkowicie otwartego syntezatora mowy dość wysokiej klasy trwałoby ok. pół roku. Niestety, tych pół roków już parę minęło

Ubuntu.pl 🇺🇦️ - Forum Ubuntu

Festival po polsku.

Festival po polsku.

Re: Festival po polsku.

Re: Festival po polsku.

Re: Festival po polsku.