Acrobate mit Suchfunktion

Deichgraf (†) · Beitrag von **Deichgraf (†)** » 20.11.2003 10:17

Moin,
ich will ein Buch als PDF-Datei einlesen. Mike erzählte mal was von Suchfunktion aktivieren über OCR???... weiß nicht mehr. Weiß einer von Euch wie das genau geht, daß man unter Bearbeiten-Suchen ein Suchwort eingeben kann?

Gast · Beitrag von **Gast** » 20.11.2003 10:28

moin, ich hänge mich da auch gleich mal mit rein... meine frage ist die:
ich habe jpg-bilder mit text. ich will jetzt daraus ein pdf-file machen, aber so das die suchfunktion bzw texterkennung von acrobat funktioniert...
wie wird das gemacht?

holger

Deichgraf (†) · Beitrag von **Deichgraf (†)** » 20.11.2003 11:03

Und noch eine Frage: Wird die Dateigröße der PDF-Datei durch diese Suchfunktion wesentlich größer?

Beitrag von **MikeG** » 20.11.2003 13:52

Moin!

a.) Die Dateigröße steigt nicht sooo riesig an.

b.) Wie geht das?

JPGs sind sch**** geeignet dafür. Am allerbesten mit 300dpi schwarz/weiss scannen (nicht Hraustufen!). Anstatt die Bilder in z.B. Photoshop oder so zu scannen, kann man das auch direkt im Acrobat tun (Datei->Import->Scanner). Danach erstmal abspeichern. Sinnvoll ist auch eine vernünftige Betitelung unter Datei->Dokumentinfo->Allgemein - dort kann man auch Autor und Stichworte eingeben.

Nun zum OCR: Zuerst sollte man die Parameter so wählen, daß der erkannte Text nur im Hintergrund gespeichert wird (also unsicht- aber durchsuchbar). Das geht über Datei->Grundeinstellungen->PaperCapture: Dort unter Ausgabestil "Originalbild mit verborgenem Text" auswählen. Das muß man aber nur einmal und nicht jedesmal machen. Der OCR-Vorgang wird über Werkzeuge->PaperCapture->Seiten erfassen gestartet.

Die Erkennungsrate ist so lala, reicht aber zumindest bei lämgeren Dokumenten fast immer aus, um einen vernünftigen Suchindex bilden zu können. Wie bei allen OCR-Programmen hängt der Erfolg vom Ausgangsmaterial ab. Die beschriebenen 300dp/sw haben sich als gut herausgestellt, mehr dpi sind ok, mehr Farbtiefe macht nur bei Fotos Sinn.

Aber wie kriege ich nun die JPGs da hinein, so daß das OCR funktioniert? In ein Bildbearbeitungsprogramm laden und als 300dpi-TIF abspeichern, in Acrobat importieren und los... Die Erkennungsrate wird aber eher mies sein und die PDFs ziemlich riesig. Generell ist ein PDF meist größer als ein Set von Bilddateien desselben Dokuments, hat aber eben auch unschätzbare Vorteile - zumindest aus meiner Sicht.

Mike