Obsługa dźwięku w Linuksie – cz. 2 PulseAudio

Przyszedł czas na drugi artykuł, który ma za zadanie przybliżyć czytelnikowi złożony sposób, w jaki Linux obsługuje dźwięk. W poprzednim felietonie skupiłem się na sterownikach i ich API, które znane są użytkownikom pod akronimem ALSA. Jednak wraz ze wzrostem oczekiwań względem możliwości obsługi dźwięku, developerzy wielu dystrybucji Linuksa (w tym Ubuntu) postanowili rozbudować ALSA o zaawansowane funkcje serwera dźwięku znanego jako PulseAudio.

Jak już wspomniałem PulseAudio to serwer dźwięku. W praktyce jest to złożony program działający w przestrzeni użytkownika. Jego zadaniem jest zaawansowana obróbka audio w sposób niemożliwy do osiągnięcia dla niskopoziomowej ALSA. Ponadto ma za zadanie udostępnić proste w obsłudze API, dzięki czemu można uniknąć bezpośredniej obsługi słabo udokumentowanego interfejsu sterowników. PulseAudio jest w stanie przechwycić prawie każdy dźwięk, co pozwala zrezygnować ze stosowania wielu Wrapperów, a w konsekwencji ma ujednolicić korzystanie z urządzeń audio przez każdy program w każdym środowisku. W przeciwieństwie do ALSA kod serwera jest przenośny oraz może obsługiwać API np. sterowników OSS, dzięki czemu znajduje zastosowanie także na innych Unixach (Solaris, *BSD). Upraszcza to sytuację dla programistów, którzy pragną, żeby ich program audio działał na wszystkich systemach uniksopodobnych. Zarówno Canonical, jak i RedHat zdecydowali się na zastosowanie PulseAudio w okolicach roku 2008, z powodu tych decyzji serwer zyskał szeroką adaptację i jest powszechnie stosowany. Znajdziemy go między innymi we wszystkich współczesnych wydaniach Ubuntu.

Uproszczoną zasadę działania PulseAudio przedstawia poniższy schemat (trochę dokładniejszy, ale i bardziej złożony schemat znajdziemy na Wikipedii):

Analizując obrazek od spodu, zasada działania PulseAudio wygląda następująco. PulseAudio posiada swoje własne API, do korzystania z którego program może być wprost przystosowany. Serwer potrafi także emulować API ALSA. Naczelną zasadą jest, że PulseAudio przechwytuje każdy dźwięk komputera. Z tego powodu posiada także szereg innych wraperów, bibliotek i źródeł, co pozwala na realizację tego założenia. Następnie dzięki sieciowej warstwie abstrakcji PulseAudio jest w stanie przesłać dźwięk po sieci do innego serwera dźwięku. Jednak cała zabawa ma miejsce, w momencie, w którym dźwięk przetwarzany jest przez rdzeń. Tutaj następuje miksowanie i próbkowanie. Tak przetworzone audio jest kierowane do sterowników ALSA obecnych w jądrze systemu.

Możliwości PulseAudio są olbrzymie. Jest on w stanie przechwycić niemalże cały dźwięk systemowy (nawet ten kierowany na ALSA) i go obrobić i obsłużyć. W tym celu można użyć zaawansowanego miksera, który dodatkowo obsługuje się z podziałem na aplikacje. Pozwala na zmiany częstotliwości próbkowania dźwięku, przesyłanie dźwięku po sieci oraz wiele innych rzeczy, o których zwykły użytkownik nawet nie słyszał. Jednak co jest istotne, to prostota obsługi, którą można bez problemu zaimplementować w graficznych narzędziach. PulseAudio jest przenośne na inne systemy i z biegiem czasu zapewne uporządkuje i ujednolici obsługę dźwięku na Linuksie i innych Uniksach.

Jednak serwer ten ma też swoje cienie. Po pierwsze mimo zaklinania rzeczywistości przez developerów PulseAudio, nie ma możliwości, żeby tak rozbudowany program (i to w przestrzeni użytkownika) nie generował opóźnień dźwięku. Najdobitniej takie rzeczy można zauważyć w niektórych zaawansowanych grach wykorzystujących OpenAL i celujących w ALSA. Zdarza się, że dźwięk dobiega z głośników dopiero kilka sekund po jego emisji przez program. Równie nieprzyjemnym skutkiem niektórych opóźnień może być szarpiący, nieprzyjemny dźwięk. Tak złożony serwer nie może być też wolny od błędów, o czym szczególnie boleśnie mogą się przekonać użytkownicy np. Orca. Użytkownicy skarżą się na problemy z PulseAudio, developerzy tego serwera mówią, że to dystrybucje źle go implementują i mamy takie swoiste przerzucanie się odpowiedzialnością. Warto też zwrócić uwagę, że ze względu na to, że PulseAudio działa jedynie w przestrzeni użytkownika, to nie daje możliwości obsługi sprzętowego miksera na kartach dźwiękowych. Całe miksowanie odbywa się czysto programowo.

W nadchodzącym Ubuntu 12.04 ujrzymy domyślnie zainstalowany serwer PulseAudio w wersji 1.1. Miejmy nadzieję, że projekt dojrzewa na tyle szybko, że uda się rozwiązać kłopoty, które generuje, a jednocześnie będzie można skorzystać ze wszystkich zalet, które oferuje. PulseAudio także nabiera tempa rozwoju i zapożycza cykl wydań wprost z Chrome i Firefoksa. Już za kilka tygodni powinna ukazać się wersja 2.0, a co cztery miesiące otrzymamy kolejne duże wydanie. Developerzy projektu ponadto obiecują dominację na świecie do grudnia 2012. 😉

PulseAudio i ALSA to podstawowy duet do obsługi dźwięku, który znajdziemy w Ubuntu. Jednak nie są to jedyne opcje. Można skorzystać z innych rozwiązań, o których będzie mowa w kolejnych artykułach.

16 komentarzy do “Obsługa dźwięku w Linuksie – cz. 2 PulseAudio”

Dodaj komentarz Anuluj pisanie odpowiedzi

16 komentarzy do “Obsługa dźwięku w Linuksie – cz. 2 PulseAudio”