Konwetuję pliki pdf do txt.
Niestety taki plik txt ma sporo niedociągnięć np.:
- odstępy (puste linie)
- dziwne znaki (na zdjęciu w czerwonym kółku), które nie są widoczne w LibreOffice i oznaczają początek nowej strony. Chcę żeby ten znak usunąć i całość "dociągnąć" do poprzedniego akapitu (tak jak zaznaczyłem czerwoną strzałką).
Jak to zrobić przy pomocy skryptu?
Poniżej link ze zdjęciem do fragmentu tekstu, który chcę poprawić.
https://drive.google.com/open?id=1uhqV0 ... 2ITYM26Pn4
Na razie uporałem się tylko z pustymi liniami przy pomocy prostego rozwiązania:
Kod: Zaznacz cały
sed '/^$/d' $1 > temp_$1
mv temp_$1 $1