tu się wiąże kilka wątków.
po pierwsze, maszyna wirtualna. qemu nie jest najszczęśliwszym wyborem. z tego, co pamiętam, aby to chodziło szybko, trzeba zainstalować, mówiąc w uproszczeniu, coś w rodzaju sterownika, tzn. ładowalny moduł qemu dla jądra twojej dystrybucji. a najpierw chyba trzeba go skompilować, więc nie jest to robota dla osoby początkującej. bez tego modułu qemu jest dość słabo wydajne.
więc masz dwie możliwości. albo zainstalować z menadżera pakietów virtual box - jest łatwiejszy w konfiguracji (ale chyba ostatnio w darmowej wersji wycofali używanie usb na wirtualnej maszynie? nie wiem, czy to prawda, ale jeśli to dla ciebie nieistotne, to OK). virtualbox działa na pewno wydajniej niż qemu bez modułu jądra i jest w całości klikalne.
inne rozwiązanie to pobranie z internetu vmware player - osobiście uważam go za najbardziej wydajny i bez ograniczeń. i dopiero na tych programach postawienie windowsa. na moim laptopie z ubuntu i 1 GB RAM, odpalony wirtualny XP na vmware player (z przydzielonym 256 RAM) chodzi całkiem znośnie i synteza mowy działa płynnie - akurat sprawdzałem. nie pamiętam dokładnie, czy to był reader, ale któryś z tych prostszych programów demo z serii ivo-cośtam.
z vmware playerem mogę pomóc, z wirtualboxem w sumie też, ale mniej chętnie, bo go nie mam i w razie problemów musiałbym instalować, a jestem na to za leniwy
w każdym razie możesz pisać na priv.
a teraz kwestia syntezy mowy
dla linuksa istnieją zasadniczo dwie możliwości. pierwsza to espeak. jest to bardzo prosty syntezator wbudowany w system, ale nie ma on porównania z głosami, do jakich przyzwyczaiły nas syntezatory mówiące głosem ludzkim. espeak mówi głosem w całości syntetycznym, co brzmi jak roboty z filmów s-f z lat 70.
zalety: wbudowanie w system, czyli zero problemów z konfiguracją oraz duża zrozumiałość mowy przy
absurdalnie wysokim tempie odsłuchu. jeśli masz styczność z osobami niewidomymi, to wiesz że takiego tempa syntezy używa część takich osób, ponieważ dla nich których komputer musi czytać np. wszystkie pozycje menu i inne napisy na ekranie, więc żeby utrzymać tempo pracy, podkręcają tempo syntezy. zrozumiałość wynika m. in. z tego, że przy dużym tempie wymawiania można ustawić zwiększone pauzy między wyrazami. człowiek nie jest w stanie tak mówić, ale taka mowa jest całkowicie czytelna przy bardzo dużych prędkościach.
espeak też praktycznie nie obciąża systemu. możesz go przetestować poleceniem
Kod: Zaznacz cały
espeak -vpl "Litwo, ojczyzno moja, ty jesteś jak zdrowie"
albo
Kod: Zaznacz cały
cat plik_z_tekstem.txt | espeak -vpl -s 370 -g 10
tempo 370 słów na minutę będzie nadal całkowicie zrozumiałe.
myślę jednak, że to cię absolutnie nie zadowoli, bo raczej do książek się nie nadaje.
drugie rozwiązanie to, również darmowy, syntezator milena.
milena nie jest wbudowana w system, i trzeba ją pobrać osobno. do tego, jest ona tylko tak naprawdę końcówką dla systemu syntezy, który nazywa się mbrola, i który trzeba pobrać i zainstalować osobno.
no i najważniejsze / najgorsze: mbrola gada jedynym dostępnym polskim głosem, którego jakość również odbiega od ivonowego jacka itp.
niestety, nikt nie zrobił lepszego darmowego głosu, mamy tylko ten jeden (angielskich czy holenderskich jest kilka, i lepszej jakości...)
jest jednak parę zalet.
po pierwsze, milena jest lepszym syntezatorem. jeśli tylko będziesz skłonny przyzwyczaić się do barwy tego wyżej wspomnianego głosu mbrola to stwierdzisz, że tekst odczytywany jest dużo lepiej. głos nie drży, utrzymuje stałe tempo i o wiele lepiej interpretuje dialogi. to jedna z głównych zalet.
do tego, oprogramowanie do tworzenia audiobooków (text do mp3) jest dużo bardziej zaawansowane. pozwala łatwo rozformatować tekst (czyli usunąć zbędne "entery" na końcach linii, co często się zdarza przy skanowanych tekstach), usunąć numerację stron, znaleźć zbędne myślniki. ma opcję łatwego wyszukiwania w tekście nazw własnych w celu stworzenia słownika wymowy (tzn. program szykuje listę słow, i wtedy w jednym miejscu podstawiasz, że john* to dżon* i w całej książce nazwa czytana jest prawidłowo). spora ilość nazw własnych (zwłaszcza angielskich) jest już zawarta w domyślnym słowniku programu.
program stara się też wyłapać typowe błędy w skanowanych tekstach, np. "nic" przed czasownikiem zamienia na "nie" (bardzo częsty błąd OCR: "nic jest" -> "nie jest" itp).
program, oprócz czytania na żywo, generuje też mp3, które może automatycznie pociąć na odcinki np. po 3 minuty, w celu łatwiejszej nawigacji jeśli słuchasz książki na odtwarzaczu mp3.
do tego milena współpracuje z mplayerem, a więc może odczytywać napisy do filmów. używałem jej do tego celu we wcześniejszych wersjach i zdaje się, że w tej chwili jest na tyle zaawansowana, że potrafi w pewnym zakresie sterować tempem syntezy i opóźnieniami, aby radzić sobie z momentami filmu, w których następuje nagromadzenie dialogu.
wszystko to jest za cenę gorszej barwy głosu (ale naprawdę interpretacja tekstu JEST lepsza).
jeśli się zdecydujesz, to mogę poprowadzić cię za rękę przy instalacji. osobiście słucham w samochodzie bardzo dużo audiobooków wygenerowanych osobiście za pośrednictwem mileny, i na jacka z powrotem już na pewno się nie przesiądę.
demo porównujące czytanie dialogów przez ivonę i milenę jest tutaj:
http://chomikuj.pl/newsgrabber -> test syntezatora
obok leży przykładowa, wygenerowana mileną książka.
demo interaktywne mileny na stronie
http://milena.polip.com