Cześć.
Nawiązałem kontakt z Krzysztofem Szklannym czyli autorem paczki polskich fonemów dla festivala. Jakość tych fonemów jest niesamowita odpowiada mniej więcej jakości reprezentowaną przez syntezator ivona na windowsa, z tym że fonemy od Krzysztofa są zupełnie za darmo.
Niestety obecnie instalacja fonemów jest dość skomplikowana. Mnie mimo kilkudniowej walki nie udało się wykrztusić słowa z festivala za pomocą tych fonemów. Przydały by się paczki DEB i RPM. Wtedy system syntezy mowy był dostępny dla każdego użytkownika linuxa w przyzwoitym zakresie.
Problem w tym, że autor jest zapracowanym człowiekiem i nie ma czasu na zrobienie gotowych pakietów DEB i RPM dla systemów linuxowych.
Zapytał mnie czy nie znam kogoś kto zechciałby się zająć przygotowaniem gotowej kompilacji pakietów do umieszczenia w repozytoriach, tak aby od razu po instalacji festival gadał po polsku.
Fajnie by było aby ktoś też się pochylił nad samym festivalem i napisał do niego jakiś programik np do czytania tego co w schowku, albo plugin do Firefoxa.
Chętnych proszę o odpowiedź (tu lub na PW).
Festival po polsku.
- ethanak
- Wygnańcy
- Posty: 3054
- Rejestracja: 04 gru 2007, 13:19
- Płeć: Mężczyzna
- Wersja Ubuntu: 12.04
- Środowisko graficzne: GNOME
- Architektura: x86
- Lokalizacja: Bielsko-Biała
- Kontakt:
Re: Festival po polsku.
Problem polega na tym, że chyba oprócz p. Krzysztofa Szklanny (uwaga: nazwisko nieodmienne) nikt nie potrafi tego czegoś uruchomić. Próbowałem doprosić się o źródła (wav), ale na obiecankach typu "dostarczę jak będę miał chwilę czasu" się skończyło.
Do do jakości fonemów i festivala w ogóle - ja bym był bardzo ostrożny. Teksty demonstracyjne brzmią całkiem nieźle, ale wolałbym naocznie (a nausznie właściwie) sprawdzić jak toto się zachowa z polskimi łamańcami językowymi, bo mam niestety bardzo duże obiekcje...
Zresztą - możesz uruchomić festivala z istniejącym głosem. Pomijając fatalną jakość samych fonemów, prozodia pozostawia wiele do życzenia.
BTW. fonemy nie są zupełnie za darmo. Są na takiej samej chorej licencji jak Mbrola.
Do do jakości fonemów i festivala w ogóle - ja bym był bardzo ostrożny. Teksty demonstracyjne brzmią całkiem nieźle, ale wolałbym naocznie (a nausznie właściwie) sprawdzić jak toto się zachowa z polskimi łamańcami językowymi, bo mam niestety bardzo duże obiekcje...
Zresztą - możesz uruchomić festivala z istniejącym głosem. Pomijając fatalną jakość samych fonemów, prozodia pozostawia wiele do życzenia.
BTW. fonemy nie są zupełnie za darmo. Są na takiej samej chorej licencji jak Mbrola.
- oscarr
- Serdeczny Borsuk
- Posty: 108
- Rejestracja: 18 lip 2010, 12:19
- Płeć: Mężczyzna
- Wersja Ubuntu: 12.10
- Środowisko graficzne: Inne
- Architektura: x86
Re: Festival po polsku.
To co pozostaje ?
- ethanak
- Wygnańcy
- Posty: 3054
- Rejestracja: 04 gru 2007, 13:19
- Płeć: Mężczyzna
- Wersja Ubuntu: 12.04
- Środowisko graficzne: GNOME
- Architektura: x86
- Lokalizacja: Bielsko-Biała
- Kontakt:
Re: Festival po polsku.
Jeśli masz jakikolwiek kontakt z p. Szklanny i możesz go do czegoś namówić - najprostszym rozwiązaniem byłoby pozostawienie difonów w jego głosie (tzn wywalenie korpusu) i przerobienie tego na Mbrolę. Szczególnie, że poprzedni głos Mbroli to też jego dzieło. A z Mbrolą to już Milena sobie poradzi (uprzedzając debaty taty na temat wypłaty: Milena jako NLP, a nie kompletny system TTS).
Wbrew pozorom Mbrola potrafi bardzo wiele (przykład - niemiecki głos de6, gdzie masz nawet możliwość wyrażenia emocji, a jakość jest taka że Ivona może się schować pod łózko i nie próbować szczekać. Opracowany bodajże 8 lat temu, czy jakoś tak...)
A najbardziej sensowne byłoby wyrwanie od p. Krzysztofa źródeł (nie chodzi mi oczywiście o źródła programu, a o materiały źródłowe które posłużyły do utworzenia głosu). Z tego co wiem - największym problemem w stworzeniu difonowego DSP jest właśnie brak materiałów źródłowych (tzn. nagranego i podzielonego korpusu). Bo patentowane algorytmy użyte w Mbroli można pominąć - to nie są czasy 486 gdzie każdy cykl procesora był ważny, dzisiaj mój nienajnowszy telefon ma o dwa rzędy wielkości większą moc obliczeniową niż pecet na którym można było odpalić Mbrolę, i dość prosty algorytm może zastąpić patentowany PSOLA.
Według ekipy programistów którą kiedyś (wierząc w obietnice Krzysztofa) zebrałem - utworzenie na podstawie tych materiałów całkowicie otwartego syntezatora mowy dość wysokiej klasy trwałoby ok. pół roku. Niestety, tych pół roków już parę minęło
Wbrew pozorom Mbrola potrafi bardzo wiele (przykład - niemiecki głos de6, gdzie masz nawet możliwość wyrażenia emocji, a jakość jest taka że Ivona może się schować pod łózko i nie próbować szczekać. Opracowany bodajże 8 lat temu, czy jakoś tak...)
A najbardziej sensowne byłoby wyrwanie od p. Krzysztofa źródeł (nie chodzi mi oczywiście o źródła programu, a o materiały źródłowe które posłużyły do utworzenia głosu). Z tego co wiem - największym problemem w stworzeniu difonowego DSP jest właśnie brak materiałów źródłowych (tzn. nagranego i podzielonego korpusu). Bo patentowane algorytmy użyte w Mbroli można pominąć - to nie są czasy 486 gdzie każdy cykl procesora był ważny, dzisiaj mój nienajnowszy telefon ma o dwa rzędy wielkości większą moc obliczeniową niż pecet na którym można było odpalić Mbrolę, i dość prosty algorytm może zastąpić patentowany PSOLA.
Według ekipy programistów którą kiedyś (wierząc w obietnice Krzysztofa) zebrałem - utworzenie na podstawie tych materiałów całkowicie otwartego syntezatora mowy dość wysokiej klasy trwałoby ok. pół roku. Niestety, tych pół roków już parę minęło
Kto jest online
Użytkownicy przeglądający to forum: Obecnie na forum nie ma żadnego zarejestrowanego użytkownika i 0 gości