Jak skopiować tekst z pdfa/obrazka na LXUbuntu 13.04 [solved]

Przeglądarki, poczta, pakiety biurowe, prezentacje itd.
Awatar użytkownika
Tarzan1984
Serdeczny Borsuk
Serdeczny Borsuk
Posty: 121
Rejestracja: 21 paź 2008, 11:21
Płeć: Mężczyzna
Wersja Ubuntu: 14.04
Środowisko graficzne: Unity
Architektura: x86
Kontakt:

Jak skopiować tekst z pdfa/obrazka na LXUbuntu 13.04 [solved]

Post autor: Tarzan1984 »

Witam.
Mam dokument w formacie pdf. Chciałbym z niego skopiować tekst. Nie mam pojęcia jak.
Wtyczka o nazwie pdfimport jest zainstalowana (co widać jedynie w synapticu ale nie w menedżerze rozszerzeń samego LO - wersja LO 4.x). Plik się otwiera poprawnie w LODraw, ale za nic w świecie nie wiem co dalej z tym fantem zrobić.
W programie Okular uruchamiam narzędzie zaznaczanie tekstu, ale podczas zaznaczania tekstu nic się nie dzieje - tekst nie da rady skopiować.
Próbowałem w Evince, ale tam w ogóle nie ma narzędzia zaznaczania tekstu.
Próbowałem zainstalować Foxit Reader ale podczas uruchamiania binarki pobranej ze strony producenta (nie ma instalki w repo, nadałem po pobraniu prawa uruchamiania) wywala mi błąd:

Kod: Zaznacz cały

PDFReader: error while loading shared libraries: libmzsystem.so.2: cannot open shared object file: No such file or directory
Na necie znalazłem tylko to http://forums.foxitsoftware.com/forum/p ... ng-so-file - niestety porada jest tam tylko taka, żeby sobie odpuścić Foxita bo jest stary (z 2009 roku).
Próbowałem też pdftotext, ale zamiast tekstu w pliku tekstowym po eksporcie wypluwa mi tylko kilkanaście kwadracików wypełnionych trzema zerami i jedną literą C (odpowiednik entera).
Próbowałem także przeglądarki xpdf, ale tam tak samo jak w evince nie ma narzędzi do zaznaczania tekstu, albo ja nie umiem go znaleźć.
Próbowałem także PDF Editor. Program po instalacji niestety kompletnie nie radzi sobie z niczym. Po wybraniu w menu programu narzędzia do zaznaczania tekstu nic się nie dzieje. Nic nie można skopiować-zaznaczyć. Również funkcja Extract text from page nic nie robi. Nie wyodrębnia żadnego tekstu. Co ciekawe także wyszukiwarka słów w tym programie także leży bo po wpisaniu jakiegokolwiek słowa z dokumentu nic nie może znaleźć.
Próbowałem ostatecznie jeszcze poradzić sobie z Inkscape ale po wybraniu Edycja -> Zaznaczenie (przy otwieraniu pliku wybrałem opcję żeby zaimportował dokument jako tekst) zamiast zaznaczania tekstu mogę jedynie przesuwać całą stroną jak obrazem.
Czy ma ktoś jakiś pomysł na to jak zaimportować tekst z pdf do samodzielnej obróbki w edytorze tekstu?
Pozdrawiam i z góry dziękuję za odpowiedź :)
Ostatnio zmieniony 21 kwie 2014, 10:39 przez Tarzan1984, łącznie zmieniany 1 raz.
Awatar użytkownika
ethanak
Wygnańcy
Posty: 3054
Rejestracja: 04 gru 2007, 13:19
Płeć: Mężczyzna
Wersja Ubuntu: 12.04
Środowisko graficzne: GNOME
Architektura: x86
Lokalizacja: Bielsko-Biała
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: ethanak »

A ten dokument to przypadkiem nie jest obrazek osadzony w PDF? Jeśli tak, to tylko OCR.
Кто жопой родился, чижиком не помрёт
Awatar użytkownika
Tarzan1984
Serdeczny Borsuk
Serdeczny Borsuk
Posty: 121
Rejestracja: 21 paź 2008, 11:21
Płeć: Mężczyzna
Wersja Ubuntu: 14.04
Środowisko graficzne: Unity
Architektura: x86
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: Tarzan1984 »

Witam.
W sumie nie wiem czy obrazek osadzony czy nie. Wiem tylko że jest to skan książki ze skanera zapisany w formacie pdf, więc domyślam się, że tak?
Jakiś sensowny ocr?
Pozdrawiam i z góry dziękuję za pomoc :)
Awatar użytkownika
ethanak
Wygnańcy
Posty: 3054
Rejestracja: 04 gru 2007, 13:19
Płeć: Mężczyzna
Wersja Ubuntu: 12.04
Środowisko graficzne: GNOME
Architektura: x86
Lokalizacja: Bielsko-Biała
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: ethanak »

No to obrazek.
Jeśli to skan książki, zainstaluj:
milena_abc (z ppa:ethanak/milena)
tesseract-ocr
tesseract-ocr-pol

Potem coś w stylu:

Kod: Zaznacz cały

milena_abc -T nazwapliku.pdf
idziesz na piwo i po powrocie powinieneś mieć gotową książkę.
Jeśli tesseract nie da zadowalających rezultatów spróbuj cuneiform - czasami daje lepsze efekty, ale nie na wszystkich wersjach Ubuntu działa.
Кто жопой родился, чижиком не помрёт
Awatar użytkownika
Tarzan1984
Serdeczny Borsuk
Serdeczny Borsuk
Posty: 121
Rejestracja: 21 paź 2008, 11:21
Płeć: Mężczyzna
Wersja Ubuntu: 14.04
Środowisko graficzne: Unity
Architektura: x86
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: Tarzan1984 »

Kod: Zaznacz cały

rafal@rafal-desktop:~$ sudo add-apt-repository ppa:ethanak/milena
 Milena TTS and speech-dispatcher modules not included in official branch
 Więcej informacj: https://launchpad.net/~ethanak/+archive/milena
Proszę wcisnąć [ENTER], aby kontynuować lub CTRL-C, aby anulować dodawanie

gpg: zbiór kluczy ,,/tmp/tmpdvfpe9/secring.gpg'' został utworzony
gpg: zbiór kluczy ,,/tmp/tmpdvfpe9/pubring.gpg'' został utworzony
gpg: zapytanie o klucz 970AAB7E z hkp serwera keyserver.ubuntu.com
gpg: /tmp/tmpdvfpe9/trustdb.gpg: baza zaufania utworzona
gpg: klucz 970AAB7E: zaimportowano klucz publiczny ,,Launchpad PPA for Bohdan R. Rau''
gpg: Ogółem przetworzonych kluczy: 1
gpg:               dołączono do zbioru: 1  (RSA: 1)
OK
rafal@rafal-desktop:~$ sudo apt-get install milena_abc
Czytanie list pakietów... Gotowe
Budowanie drzewa zależności        
Odczyt informacji o stanie... Gotowe
E: Nie udało się odnaleźć pakietu milena_abc
co dalej ??
Awatar użytkownika
ethanak
Wygnańcy
Posty: 3054
Rejestracja: 04 gru 2007, 13:19
Płeć: Mężczyzna
Wersja Ubuntu: 12.04
Środowisko graficzne: GNOME
Architektura: x86
Lokalizacja: Bielsko-Biała
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: ethanak »

Przepraszam... milena-abc się to nazywa (trochę wczesna pora) :)
Кто жопой родился, чижиком не помрёт
Awatar użytkownika
Tarzan1984
Serdeczny Borsuk
Serdeczny Borsuk
Posty: 121
Rejestracja: 21 paź 2008, 11:21
Płeć: Mężczyzna
Wersja Ubuntu: 14.04
Środowisko graficzne: Unity
Architektura: x86
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: Tarzan1984 »

Witam
Nadal coś nie halo ... :/ :

Kod: Zaznacz cały

rafal@rafal-desktop:~$ sudo apt-get install milena-abc
[sudo] password for rafal: 
Czytanie list pakietów... Gotowe
Budowanie drzewa zależności       
Odczyt informacji o stanie... Gotowe
E: Nie udało się odnaleźć pakietu milena-abc
Synaptic też nie widzi niczego co by miało w nazwie milena ... Centrum Oprogromowania Lubuntu też nic nie widzi. Próbuję coś wymyślić z gscan2pdf, ale nie mam pojęcia jak ugryźć ten program?
Jeszcze jakiś pomysł ??
Awatar użytkownika
ethanak
Wygnańcy
Posty: 3054
Rejestracja: 04 gru 2007, 13:19
Płeć: Mężczyzna
Wersja Ubuntu: 12.04
Środowisko graficzne: GNOME
Architektura: x86
Lokalizacja: Bielsko-Biała
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: ethanak »

A że tak zapytam... polecenie

Kod: Zaznacz cały

sudo apt-get update
to krasnoludki maja wydać?

-- 21 kwi 2014 09:14 --

Dobra - możesz nie szukać, nie zauważyłem że używasz wersji dla której repozytoria dawno są już w nicości.

-- 21 kwi 2014 09:16 --

http://theengguy.blogspot.com/2013/06/o ... -line.html
Oczywiście potrzebny będzie dodatkowo tesseract-ocr-pol (dla języka polskiego) i drobna zmiana w kodzie skryptu (dodanie -l pol do wywołania tesseracta).
Кто жопой родился, чижиком не помрёт
Awatar użytkownika
Tarzan1984
Serdeczny Borsuk
Serdeczny Borsuk
Posty: 121
Rejestracja: 21 paź 2008, 11:21
Płeć: Mężczyzna
Wersja Ubuntu: 14.04
Środowisko graficzne: Unity
Architektura: x86
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: Tarzan1984 »

Witam.
Co do:

Kod: Zaznacz cały

sudo apt-get update
to zostawię to bez komentarza :/ Głupota nie zna granic, ale cóż ... Mogę się tylko pochwalić, że wpadłem na to na sekundę przed tym jak mi to napisałeś w powyższym poście. :)
Co do samej mileny, to udało mi się ją zainstalować bezproblemow w sumie:

Kod: Zaznacz cały

rafal@rafal-desktop:~$ sudo apt-get install milena-abc
Czytanie list pakietów... Gotowe
Budowanie drzewa zależności       
Odczyt informacji o stanie... Gotowe
Zostaną zainstalowane następujące dodatkowe pakiety:
  antiword libao-common libao4 libivolektor1 libsox-fmt-alsa libsox-fmt-base
  libsox2 mbrola mbrola-pl1 milena-basewords milena-data milena-libs odt2txt
  sox
Sugerowane pakiety:
  libesd0 libesd-alsa0 libsox-fmt-all mbrola-voice espeak cicero
Zostaną zainstalowane następujące NOWE pakiety:
  antiword libao-common libao4 libivolektor1 libsox-fmt-alsa libsox-fmt-base
  libsox2 mbrola mbrola-pl1 milena-abc milena-basewords milena-data
  milena-libs odt2txt sox
0 aktualizowanych, 15 nowo instalowanych, 0 usuwanych i 98 nieaktualizowanych.
Konieczne pobranie 14,8 MB archiwów.
Po tej operacji zostanie dodatkowo użyte 56,5 MB miejsca na dysku.
Kontynuować [T/n]? t
Pobieranie:1 http://pl.archive.ubuntu.com/ubuntu/ saucy/main libao-common all 1.1.0-2ubuntu1 [6610 B]
Pobieranie:2 http://pl.archive.ubuntu.com/ubuntu/ saucy/main libao4 i386 1.1.0-2ubuntu1 [37,7 kB]
Pobieranie:3 http://ppa.launchpad.net/ethanak/milena/ubuntu/ saucy/main libivolektor1 i386 0.1.12-0 [21,7 kB]
Pobieranie:4 http://pl.archive.ubuntu.com/ubuntu/ saucy/universe libsox2 i386 14.4.1-3 [256 kB]
Pobieranie:5 http://ppa.launchpad.net/ethanak/milena/ubuntu/ saucy/main milena-basewords all 0.2.10-2 [8893 kB]
Pobieranie:6 http://pl.archive.ubuntu.com/ubuntu/ saucy/universe antiword i386 0.37-9 [165 kB]
Pobieranie:7 http://pl.archive.ubuntu.com/ubuntu/ saucy/universe libsox-fmt-alsa i386 14.4.1-3 [8196 B]
Pobieranie:8 http://pl.archive.ubuntu.com/ubuntu/ saucy/universe libsox-fmt-base i386 14.4.1-3 [51,8 kB]
Pobieranie:9 http://pl.archive.ubuntu.com/ubuntu/ saucy/multiverse mbrola i386 3.01h-6 [38,2 kB]
Pobieranie:10 http://pl.archive.ubuntu.com/ubuntu/ saucy/multiverse mbrola-pl1 all 0.1-2 [4051 kB]
Pobieranie:11 http://pl.archive.ubuntu.com/ubuntu/ saucy/universe odt2txt i386 0.4+git20100620-1build1 [14,1 kB]
Pobieranie:12 http://pl.archive.ubuntu.com/ubuntu/ saucy/universe sox i386 14.4.1-3 [101 kB]
Pobieranie:13 http://ppa.launchpad.net/ethanak/milena/ubuntu/ saucy/main milena-data all 0.2.78.1-1 [825 kB]
Pobieranie:14 http://ppa.launchpad.net/ethanak/milena/ubuntu/ saucy/main milena-libs i386 0.2.78-1 [100 kB]
Pobieranie:15 http://ppa.launchpad.net/ethanak/milena/ubuntu/ saucy/main milena-abc i386 0.3.64-0ubuntu1~saucy1 [253 kB]
Pobrano 14,8 MB w 45s (325 kB/s)                                               
Wybieranie wcześniej niewybranego pakietu libao-common.
(Odczytywanie bazy danych ... 214435 plików i katalogów obecnie zainstalowanych.)
Rozpakowywanie pakietu libao-common (z .../libao-common_1.1.0-2ubuntu1_all.deb) ...
Wybieranie wcześniej niewybranego pakietu libao4:i386.
Rozpakowywanie pakietu libao4:i386 (z .../libao4_1.1.0-2ubuntu1_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu libsox2:i386.
Rozpakowywanie pakietu libsox2:i386 (z .../libsox2_14.4.1-3_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu antiword.
Rozpakowywanie pakietu antiword (z .../antiword_0.37-9_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu libsox-fmt-alsa:i386.
Rozpakowywanie pakietu libsox-fmt-alsa:i386 (z .../libsox-fmt-alsa_14.4.1-3_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu libsox-fmt-base:i386.
Rozpakowywanie pakietu libsox-fmt-base:i386 (z .../libsox-fmt-base_14.4.1-3_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu mbrola.
Rozpakowywanie pakietu mbrola (z .../mbrola_3.01h-6_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu mbrola-pl1.
Rozpakowywanie pakietu mbrola-pl1 (z .../mbrola-pl1_0.1-2_all.deb) ...
Wybieranie wcześniej niewybranego pakietu odt2txt.
Rozpakowywanie pakietu odt2txt (z .../odt2txt_0.4+git20100620-1build1_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu sox.
Rozpakowywanie pakietu sox (z .../archives/sox_14.4.1-3_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu libivolektor1.
Rozpakowywanie pakietu libivolektor1 (z .../libivolektor1_0.1.12-0_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu milena-basewords.
Rozpakowywanie pakietu milena-basewords (z .../milena-basewords_0.2.10-2_all.deb) ...
Wybieranie wcześniej niewybranego pakietu milena-data.
Rozpakowywanie pakietu milena-data (z .../milena-data_0.2.78.1-1_all.deb) ...
Wybieranie wcześniej niewybranego pakietu milena-libs.
Rozpakowywanie pakietu milena-libs (z .../milena-libs_0.2.78-1_i386.deb) ...
Wybieranie wcześniej niewybranego pakietu milena-abc.
Rozpakowywanie pakietu milena-abc (z .../milena-abc_0.3.64-0ubuntu1~saucy1_i386.deb) ...
Przetwarzanie wyzwalaczy pakietu man-db...
Przetwarzanie wyzwalaczy pakietu mime-support...
Przetwarzanie wyzwalaczy pakietu hicolor-icon-theme...
Przetwarzanie wyzwalaczy pakietu desktop-file-utils...
Konfigurowanie pakietu libao-common (1.1.0-2ubuntu1) ...
Konfigurowanie pakietu libao4:i386 (1.1.0-2ubuntu1) ...
Konfigurowanie pakietu libsox2:i386 (14.4.1-3) ...
Konfigurowanie pakietu antiword (0.37-9) ...
Konfigurowanie pakietu libsox-fmt-alsa:i386 (14.4.1-3) ...
Konfigurowanie pakietu libsox-fmt-base:i386 (14.4.1-3) ...
Konfigurowanie pakietu mbrola (3.01h-6) ...
Konfigurowanie pakietu mbrola-pl1 (0.1-2) ...
Konfigurowanie pakietu odt2txt (0.4+git20100620-1build1) ...
Konfigurowanie pakietu sox (14.4.1-3) ...
Konfigurowanie pakietu libivolektor1 (0.1.12-0) ...
Konfigurowanie pakietu milena-basewords (0.2.10-2) ...
Konfigurowanie pakietu milena-libs (0.2.78-1) ...
Konfigurowanie pakietu milena-abc (0.3.64-0ubuntu1~saucy1) ...
Konfigurowanie pakietu milena-data (0.2.78.1-1) ...
Przetwarzanie wyzwalaczy pakietu libc-bin...
rafal@rafal-desktop:~$ 
Potem dorzuciłem wspomniane wcześniej pakiety tesarracta i pl ...
I powiem szczerze, że efekt - jak na warunki linuxowe - jest piorunujący :) Zadziałało polecenie, tyle tylko, że w nazwie samej milieny zamiast myślnika użytego w trakcie instalacji trzeba użyć podkreślnika, który podałeś w swoim poleceniu :)
Udało się ... :)
Wyodrębniłem co prawda najpierw strony które mnie interesują (3 spośród wszystkich 26) i nawet dało radę.
Co do podanego w linku poradnika, to nawet bym się za to nie zabrał bo to czarna magia dla mnie :)
Awatar użytkownika
ethanak
Wygnańcy
Posty: 3054
Rejestracja: 04 gru 2007, 13:19
Płeć: Mężczyzna
Wersja Ubuntu: 12.04
Środowisko graficzne: GNOME
Architektura: x86
Lokalizacja: Bielsko-Biała
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: ethanak »

No to się bardzo cieszę :)
A tak przy okazji... to jest 13.04? Bo jak babcię kocham, nawet przed chwilą sprawdzałem, w repo nie mam Raringa...
Кто жопой родился, чижиком не помрёт
Awatar użytkownika
Tarzan1984
Serdeczny Borsuk
Serdeczny Borsuk
Posty: 121
Rejestracja: 21 paź 2008, 11:21
Płeć: Mężczyzna
Wersja Ubuntu: 14.04
Środowisko graficzne: Unity
Architektura: x86
Kontakt:

Re: Jak skopiować tekst z pdfa na LXUbuntu 13.04

Post autor: Tarzan1984 »

Witam.
Sorki. Ja mam 13.10 LXUbuntu na 10letniej stacjonarce z której właśnie piszę, ale obok mam 5letniego lapka Asusa K50AB z przegrzewająca się grafiką i tam mam 13.04 Ubuntu z Unity zgodnie z moim opisem :)
A całość powyższą wykonałem na 13.10 :)
Pozdrawiam i dziękuję za pomoc :)
ODPOWIEDZ

Wróć do „Biuro”

Kto jest online

Użytkownicy przeglądający to forum: Obecnie na forum nie ma żadnego zarejestrowanego użytkownika i 83 gości