Bilder aus einer PDF extrahieren

Gibt es eine Möglichkeit, eine selbst erstellte PDF so zu extrahieren, dass man alle eingebundenen Fotos (png oder jpg) unverändert herauslesen kann? Die Datei ist 4,5 GB groß, also sind alle Online Dienste wenig interessant. Leider habe ich ein original Foto verloren und möchte es wieder zurückgewinnen?
Bei doc ging das recht einfach: In zip umbenenne und entpacken. Bei der PDF klappt das leider nicht.

Schau Dich mal in dieser Liste nach was passendem um:

https://wiki.archlinux.org/title/PDF,_PS_and_DjVu#Basic_editors
https://wiki.archlinux.org/title/PDF,_PS_and_DjVu#Cropping_tools
https://wiki.archlinux.org/title/PDF,_PS_and_DjVu#Advanced_editors

Das Tool poppler sieht vielversprechend aus:

https://wiki.archlinux.org/title/PDF,_PS_and_DjVu#Extract_images_from_a_PDF

Sobald installiert genügt folgende Syntax:

$ pdfimages infile.pdf -j outfileroot

Die -j-Option speichert die Bilder als jpg, mit alternativem -png kann man aber beipielsweise auch das png-Format wählen, usw.

Mehr Beschreibungen/Optionen bekommt man hier, insbesondere hilfreich, wenn man nicht die Bilder aller Seiten der PDF extrahieren möchte:

https://www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/

oder mit dem vorangestellten man Befehl, (sofern man installiert ist).

3 Likes

pdfimages kann das, wenn die Bilder eingebettet sind: (pacman -Syu poppler)

Das hier zeigt dir zunächst alle Bilder an:

$ pdfimages -list file.pdf

Damit werden alle extrahiert und heissen dann bild-001.jpg, …

$ pdfimages -j file.pdf ./bild

Das funktioniert nur dann gut, wenn die Bilder tatsächlich eingebettet sind. Dann könntest du es auch in LibreOffice öffnen und so manuell speichern.
Wenn es aus einem PDF-Drucker stammt oder aus einem Scan, wirst du damit nicht erfolgreich sein.

Zum Testen würde ich nur eine Seite nehmen, statt den hunderten (?) bei 4.5GB.

1 Like

Es werden lauter ppm extrahiert, die ich in Gimp öffnen kann.

Es werden da nicht wirklich die Original Fotos herausgelesen, sonder genau das, was ich mit Scribus ins PDF geschrieben hat. Aber immerhin. Eine tolle Lösung.

Ich danke Dir

Wollte Dich schon fragen, wie man poppler startet, denn es ist ja schon installiert.
@mithrial hat da schon mitgeholfen und den pdfimages - Befehl erwähnt.
Schön, wie alles zusammenpasst.
Linux ist toll und das Forum ebenso.

3 Likes

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.