Jaki polecacie soft do konwertowania pdf(png) na sensowne ebooki ? Do tej pory stosowałem ABBYY FineReader PDF ale przy PDF który ma ponad 600MB i 1100 stron juz trochę się zapycha. Chodzi mi o soft który zrobi prosty OCR i zmniejszy wielkość pdf.
_________________ Doceniasz naszą pracę ?
23 paź 2024, o 10:23
kmno4
******
Dołączył(a): 9 lip 2004, o 23:05 Posty: 420 Lokalizacja: z Krainy Deszczowców
Re: Obróbka skanów
Na tak postawione pytanie nie ma sensownej odpowiedzi. Próba zrobienia PDF-a z zeskanowanego obrazka za pomocą tylko FR zazwyczaj nie przynosi dobrego rezultatu, często taki PDF jest duży, brzydki, OCR pozostawia wiele do życzenia. Nie mniej, bardzo duża część PDF-ów jest robiona w ten sposób, zwłaszcza na archive.org. Efekt zależy od wszystkiego, oraz od tego jaki wygląd "optycznie" nam pasuje. Można zaryzykować stwierdzenie, że pojedyncza OCR-owana, czarno-biała strona, po dobrej obróbce wstępnej, waży 10-50 kB. To jedno. Sam FR ma dużo wariantów tworzenia PDF-a i niezależnie kilka wariantów ustawienia wyjściowej kompresji. Ale doświadczenie uczy, że najlepiej zrobić porządny wsad do FR, niż bluzgać pół dnia że wychodzi badziewie. Niestety, nie wszystkie wersje FR mają "to samo i robią tak samo". I ostatnie: stosowanie Acrobata do robienia PDF z PNG czy TIF(F) nigdy nie przynosiło dobrych efektów, przynajmniej w moich rękach. Są takie projekty biblioteczne, w Polsce to "delibra", które z uporem maniaka robią kolorowe PDF-y z zeskanowanych czarno-białych materiałów. Wygląda to ohydnie, PDF z jakimś niepotrzebnym żółtawym tłem, ważący 10 razy więcej niż powinien i na którym wręcz "tną" się programy do przeglądania PDF-ów.
23 paź 2024, o 11:50
kmno4
******
Dołączył(a): 9 lip 2004, o 23:05 Posty: 420 Lokalizacja: z Krainy Deszczowców
Re: Obróbka skanów
Jakoś nikt nie ma ochoty pochwalić się swoją procedurą... no dobra. Opiszę z grubsza jak ja to robię, w wersji cz/b. 1. Skany - maksymalnie dobra jakość, minimum 200 dpi 2. Zależnie od tego, czy mamy zrobione to w kolorze czy cz/b, stosujemy rozmaite opcje zawarte w programie "IrfanView". Rewelacyjny, darmowy program, z opcjonalną obsługą formatu .jp2 (wewnętrzny format obrazków w PDF-ach, tak przy okazji) i bardzo ważną funkcją : masowe przetwarzanie. Czyli definiujemy co chcemy zrobić z danym obrazkiem, a funkcja "batch conversion" robi to na całym katalogu z obrazkami. I to jest 95% sukcesu. Uwaga - jest bardzo istotne, w jakiej kolejności zadaje się polecenia do zrobienia. W poprzednich wersjach nie było to dostępne, ale obecnie można tę kolejność zmienić. Obsługa tego programu wymaga wprawy i trzeba poćwiczyć, aby rozeznać co i jak. Czasem stosuję program "PhotoScape", również darmocha, który może dać lepsze lub inne efekty i posiada również opcję masowego przetwarzania. Czasem stosuję to i to. 3. Gotowe obrazki cz/b. Tutaj w ruch idzie FR, a konkretnie jego opcja zwana "HotFolder". Prosta sprawa: definiuje się katalogi z inputem i ouputem, oczywiście w inpucie są obrazki do zrobienia. Następnie definiuje się co FR ma robić tzn. jaka wersja PDF-a, jaka kompresja, czy z preprocessingiem czy bez, jakie języki OCR... itd. Klikamy start i FR po kolei przetwarza obrazki na PDF-y w outpucie. To może potrwać - im gorsza jakość obrazka, tym dłużej wytwarza się jeden PDF, tym jest większy i ma gorszy OCR. Oczywiście, wymaga to wszystko poćwiczenia. 4. Mamy gotowe, pojedyncze PDF-y, czyli 99% roboty. Najprostszą opcją scalenia jest użycie Acrobata, lub innego czegoś podobnego. Jak ktoś lubi, można użyć "multivalent pdf tools". Stary program pod dżawą, darmowy i robiący rozmaite rzeczy z PDF-ami: dzielenie, łączenie, kasowanie stron, dodatkowa kompresja, dekompresja... Niestety wymaga wiersza poleceń lub klikalnych skrypcików .bat 5. Mamy gotowy PDF. Ponieważ jest cz/b, dobre efekty uzyskuje się stosując dodatkową kompresję bitonalną - Acrobat ma taką możliwość i to w kilku opcjach. Piszę "dodatkowa" ponieważ sam FR ma taką możliwość, ale nie można jej zastosować w dużym procencie w FR, ponieważ cierpi na tym jakość końcowego PDF-a. I to koniec. Można dodatkowo taki plik jpeg-skompresować za pomocą multivalent tool'a : zysk na wadze od 0 do 20%.
Obróbka kolorowych obrazków jest znacznie bardziej upierdliwa, ale generalnie przebiega podobnie. Dlatego, jeżeli jest tylko kilka np. zdjęć w kolorze i celowe jest zachowanie jakości, można je "wyciąć" (Paint.. etc) i wstawić do PDF-a za pomocą programu Acrobat (na przykład).
25 paź 2024, o 00:10
kmno4
******
Dołączył(a): 9 lip 2004, o 23:05 Posty: 420 Lokalizacja: z Krainy Deszczowców
Re: Obróbka skanów
Mały przykład, co można zrobić za pomocą wspomnianych programów (IV + FR). Ciekawostką jest że na efekt tworzenia PDF-a i OCR mają bardzo duży wpływ parametry RESIZE i DPI ustawione w IV. FR jakoś je czyta po swojemu, co nie jest dla mnie jasne, ale metodą prób i błędów doszedłem czego nie należy zadawać w IV, aby tworzenie PDF-a w FR dało w miarę dobre rezultaty. W załączniku oryginalne skany (obrazki .jp2) i otrzymane PDF-y. "Prostowanie" obrazków odbyło się automatycznie w FR i efekt jest niezły. Na marginesie - za takie skanowanie, czy raczej foto, powinno się łamać palce.
Użytkownicy przeglądający ten dział: Brak zidentyfikowanych użytkowników i 3 gości
Nie możesz rozpoczynać nowych wątków Nie możesz odpowiadać w wątkach Nie możesz edytować swoich postów Nie możesz usuwać swoich postów Nie możesz dodawać załączników