wyłuskanie danych z plików

nur · Post autor: **nur** » 31 sty 2009, 12:10

Witam ma pewien problem potrzebuję wyciągnąć pewne informację z dużej ilości plików.

Mam pliki w których (w większości z nich) zapisane są dane które mnie interesują (niestety te dane są wewnątrz dużej ilości opisów) ale są pewne stałe tzn jeśli występują to w konkretnym ustawieniu np.
Tytuł: i tu mam tytuł
wydawnictwo i tu mam nazwę wydawnictwa
opis i tu posiadam opis zajmujący parę linii

czy jest możliwość żeby automatycznie wyciągnąć te dane do innego pliku albo żeby z tego pliku skasować 99% nie potrzebnych danych.
Jeśli tak to będę wdzięczny za podpowiedz.
Później będę chciał zamknąć wszystko w pętli aby automatycznie przerobić wszystkie plik.

Pozdrawiam

[r4] · Post autor: **[r4]** » 31 sty 2009, 13:24

Oczywiście, że się da, choćby prostym

Kod: Zaznacz cały

cat plik | grep Tytuł | cut wyrażenie

Wszystko zależy od tego, w jaki sposób masz sformułowane te dane w pliku.

Hagal · Post autor: **Hagal** » 31 sty 2009, 13:41

@[r4] :
Ten "prosty" przykład wymaga 3 różnych poleceń.
Nie sądzisz, że sed jest bardziej odpowiedni ?

Pozdrawiam

[r4] · Post autor: **[r4]** » 31 sty 2009, 13:50

'[Prezes pisze:]@[r4] :
Ten "prosty" przykład wymaga 3 różnych poleceń.
Nie sądzisz, że sed jest bardziej odpowiedni ?

Pozdrawiam

Pewno, że tak (choć ja osobiście użyłbym gawk), ale chodziło o to, żeby go nakierować -- zna strukturę tych plików, wybierze sobie coś

nur · Post autor: **nur** » 02 lut 2009, 15:31

Dzięki za pomoc udało mi się dzięki Wam uzyskać to co chciałem
grep i sed okazały się bardzo pomocne

ale teraz mam jeszcze inne problemy chcę wydobyć coś z wiersza,
i czy można jakoś wyciągnąć z pliku:
1. dane zaczynające się od jakiegoś ciągu znaków do pierwszej spacji
np: (wyciągnięcie adresu www)
2. dane zaczynające się od jakiegoś wyrazu np. Tytuł i wszystko co występuje do jakiegoś znaku np. "." a potem znowu do innego wyrazu np opis do znaku .(kropka)

Pozdrawiam nur

[r4] · Post autor: **[r4]** » 03 lut 2009, 10:25

nur: najlepiej, gdybys podal konkretne przyklady

W tym pierwszym przypadku sprobuj cutem z opcjami

Kod: Zaznacz cały

cut -d" " -f1

nur · Post autor: **nur** » 03 lut 2009, 14:31

Witam.
Przykładowy plik do testów

<h1>Zdrowy Start. Zaprogramuj Swoje Dziecko na
Zdrowie!</h1>
<span class="simple gray_dark"> </span>

</div>

<div id="note">

<div class="rev_count">

[ <a href="#reviews" class="red underline" rel="nofollow">brak opinii</a> ]
</div>
</div>
<div class="cboth mbot10"></div>
<div id="summary" class="gray">

<div>
<ul>
<li>Autor:
<a href="/szukaj?category=all&start=1&fr=on&pl=on&author=Agnieszka+G%C3%B3rniakowska&_dyncharset=UTF-8">Agnieszka Górniakowska</a>
</li>
<li>
<> Seria wydawnicza: <span>Dla rodziców</span>

</li>
<li>
Język książki:<span> polski</span>
</li>
<li>
Oprawa: <span>Twarda</span>

Data wydania: <span>2009-02-12</span>

Po analizie tekstu doszedłem do wniosku, że dobrym rozwiązaniem dla mnie będzie wycięcie wszystkiego co znajduje się w nawiasach ostrych i kwadratowych wraz z tymi nawiasami, oraz pozostałem konkretne frazy np:
Wtedy zostanie mi to czego potrzebuję.

Pozdrawiam

[r4] · Post autor: **[r4]** » 03 lut 2009, 15:34

Hm, a nie najprosciej bedzie uzyc parsera HTML i zapisac wynik do pliku tekstowego? Sa takie narzedzia, zdaje sie, ze html2txt sie to zwalo, albo jako podobnie -- poszukaj w Synaptiku.

wyłuskanie danych z plików

wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Odp: wyłuskanie danych z plików

Kto jest online