Odpowiedz w wątku  [ Posty: 5 ] 
Obróbka skanów 
Autor Wiadomość
Avatar użytkownika

Dołączył(a): 20 paź 2005, o 23:32
Posty: 386
Post Obróbka skanów
Jaki polecacie soft do konwertowania pdf(png) na sensowne ebooki ? Do tej pory stosowałem ABBYY FineReader PDF ale przy PDF który ma ponad 600MB i 1100 stron juz trochę się zapycha. Chodzi mi o soft który zrobi prosty OCR i zmniejszy wielkość pdf.

_________________
Doceniasz naszą pracę ?
Obrazek


23 paź 2024, o 10:23
Zobacz profil
******

Dołączył(a): 9 lip 2004, o 23:05
Posty: 420
Lokalizacja: z Krainy Deszczowców
Post Re: Obróbka skanów
Na tak postawione pytanie nie ma sensownej odpowiedzi.
Próba zrobienia PDF-a z zeskanowanego obrazka za pomocą tylko FR zazwyczaj nie przynosi dobrego rezultatu, często taki PDF jest duży, brzydki, OCR pozostawia wiele do życzenia. Nie mniej, bardzo duża część PDF-ów jest robiona w ten sposób, zwłaszcza na archive.org.
Efekt zależy od wszystkiego, oraz od tego jaki wygląd "optycznie" nam pasuje. Można zaryzykować stwierdzenie, że pojedyncza OCR-owana, czarno-biała strona, po dobrej obróbce wstępnej, waży 10-50 kB. To jedno.
Sam FR ma dużo wariantów tworzenia PDF-a i niezależnie kilka wariantów ustawienia wyjściowej kompresji.
Ale doświadczenie uczy, że najlepiej zrobić porządny wsad do FR, niż bluzgać pół dnia że wychodzi badziewie.
Niestety, nie wszystkie wersje FR mają "to samo i robią tak samo".
I ostatnie: stosowanie Acrobata do robienia PDF z PNG czy TIF(F) nigdy nie przynosiło dobrych efektów, przynajmniej w moich rękach.
Są takie projekty biblioteczne, w Polsce to "delibra", które z uporem maniaka robią kolorowe PDF-y z zeskanowanych czarno-białych materiałów. Wygląda to ohydnie, PDF z jakimś niepotrzebnym żółtawym tłem, ważący 10 razy więcej niż powinien i na którym wręcz "tną" się programy do przeglądania PDF-ów.


23 paź 2024, o 11:50
Zobacz profil
******

Dołączył(a): 9 lip 2004, o 23:05
Posty: 420
Lokalizacja: z Krainy Deszczowców
Post Re: Obróbka skanów
Jakoś nikt nie ma ochoty pochwalić się swoją procedurą... no dobra.
Opiszę z grubsza jak ja to robię, w wersji cz/b.
1. Skany - maksymalnie dobra jakość, minimum 200 dpi
2. Zależnie od tego, czy mamy zrobione to w kolorze czy cz/b, stosujemy rozmaite opcje zawarte w programie "IrfanView".
Rewelacyjny, darmowy program, z opcjonalną obsługą formatu .jp2 (wewnętrzny format obrazków w PDF-ach, tak przy okazji) i bardzo ważną funkcją : masowe przetwarzanie. Czyli definiujemy co chcemy zrobić z danym obrazkiem, a funkcja "batch conversion" robi to na całym katalogu z obrazkami. I to jest 95% sukcesu.
Uwaga - jest bardzo istotne, w jakiej kolejności zadaje się polecenia do zrobienia. W poprzednich wersjach nie było to dostępne, ale obecnie można tę kolejność zmienić.
Obsługa tego programu wymaga wprawy i trzeba poćwiczyć, aby rozeznać co i jak.
Czasem stosuję program "PhotoScape", również darmocha, który może dać lepsze lub inne efekty i posiada również opcję masowego przetwarzania. Czasem stosuję to i to.
3. Gotowe obrazki cz/b. Tutaj w ruch idzie FR, a konkretnie jego opcja zwana "HotFolder". Prosta sprawa: definiuje się katalogi z inputem i ouputem, oczywiście w inpucie są obrazki do zrobienia. Następnie definiuje się co FR ma robić tzn. jaka wersja PDF-a, jaka kompresja, czy z preprocessingiem czy bez, jakie języki OCR... itd. Klikamy start i FR po kolei przetwarza obrazki na PDF-y w outpucie. To może potrwać - im gorsza jakość obrazka, tym dłużej wytwarza się jeden PDF, tym jest większy i ma gorszy OCR.
Oczywiście, wymaga to wszystko poćwiczenia.
4. Mamy gotowe, pojedyncze PDF-y, czyli 99% roboty.
Najprostszą opcją scalenia jest użycie Acrobata, lub innego czegoś podobnego. Jak ktoś lubi, można użyć "multivalent pdf tools".
Stary program pod dżawą, darmowy i robiący rozmaite rzeczy z PDF-ami: dzielenie, łączenie, kasowanie stron, dodatkowa kompresja, dekompresja... Niestety wymaga wiersza poleceń lub klikalnych skrypcików .bat
5. Mamy gotowy PDF. Ponieważ jest cz/b, dobre efekty uzyskuje się stosując dodatkową kompresję bitonalną - Acrobat ma taką możliwość i to w kilku opcjach. Piszę "dodatkowa" ponieważ sam FR ma taką możliwość, ale nie można jej zastosować w dużym procencie w FR, ponieważ cierpi na tym jakość końcowego PDF-a.
I to koniec. Można dodatkowo taki plik jpeg-skompresować za pomocą multivalent tool'a : zysk na wadze od 0 do 20%.

Obróbka kolorowych obrazków jest znacznie bardziej upierdliwa, ale generalnie przebiega podobnie.
Dlatego, jeżeli jest tylko kilka np. zdjęć w kolorze i celowe jest zachowanie jakości, można je "wyciąć" (Paint.. etc) i wstawić do PDF-a za pomocą programu Acrobat (na przykład).


25 paź 2024, o 00:10
Zobacz profil
******

Dołączył(a): 9 lip 2004, o 23:05
Posty: 420
Lokalizacja: z Krainy Deszczowców
Post Re: Obróbka skanów
Mały przykład, co można zrobić za pomocą wspomnianych programów (IV + FR).
Ciekawostką jest że na efekt tworzenia PDF-a i OCR mają bardzo duży wpływ parametry RESIZE i DPI ustawione w IV.
FR jakoś je czyta po swojemu, co nie jest dla mnie jasne, ale metodą prób i błędów doszedłem czego nie należy zadawać w IV, aby tworzenie PDF-a w FR dało w miarę dobre rezultaty.
W załączniku oryginalne skany (obrazki .jp2) i otrzymane PDF-y. "Prostowanie" obrazków odbyło się automatycznie w FR i efekt jest niezły. Na marginesie - za takie skanowanie, czy raczej foto, powinno się łamać palce.


Załączniki:
przyklad.part3.rar [917.6 KiB]
Pobrane 26 razy
przyklad.part2.rar [976.56 KiB]
Pobrane 25 razy
przyklad.part1.rar [976.56 KiB]
Pobrane 25 razy
2 gru 2024, o 01:54
Zobacz profil
Avatar użytkownika

Dołączył(a): 20 paź 2005, o 23:32
Posty: 386
Post Re: Obróbka skanów
KMnO4 dobra robota, widzę ze spory pracy wkładasz w przygotowanie pdf. Nie brałem po uwagę użycie IrfanView do obróbki materiałów źródłowych.

_________________
Doceniasz naszą pracę ?
Obrazek


10 gru 2024, o 01:19
Zobacz profil
Wyświetl posty nie starsze niż:  Sortuj wg  
Odpowiedz w wątku   [ Posty: 5 ] 

Kto przegląda forum

Użytkownicy przeglądający ten dział: Brak zidentyfikowanych użytkowników i 3 gości


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów
Nie możesz dodawać załączników

Szukaj:
Multumiri adresate phpBB.com & phpBB.ro..
Design creat de Florea Cosmin Ionut.
© 2011

..