Moin,
ich will ein Buch als PDF-Datei einlesen. Mike erzählte mal was von Suchfunktion aktivieren über OCR???... weiß nicht mehr. Weiß einer von Euch wie das genau geht, daß man unter Bearbeiten-Suchen ein Suchwort eingeben kann?
Acrobate mit Suchfunktion
- Deichgraf (†)
- Forenuser
- Beiträge: 1071
- Registriert: 27.05.2002 06:55
- Ort/Region: Hamburg
Acrobate mit Suchfunktion
Bis dann
Deichgraf
Deichgraf
- Deichgraf (†)
- Forenuser
- Beiträge: 1071
- Registriert: 27.05.2002 06:55
- Ort/Region: Hamburg
- MikeG
- Administrator
- Beiträge: 8757
- Registriert: 07.05.2002 14:38
- Ort/Region: Bispingen
- Kontaktdaten:
Moin!
a.) Die Dateigröße steigt nicht sooo riesig an.
b.) Wie geht das?
JPGs sind sch**** geeignet dafür. Am allerbesten mit 300dpi schwarz/weiss scannen (nicht Hraustufen!). Anstatt die Bilder in z.B. Photoshop oder so zu scannen, kann man das auch direkt im Acrobat tun (Datei->Import->Scanner). Danach erstmal abspeichern. Sinnvoll ist auch eine vernünftige Betitelung unter Datei->Dokumentinfo->Allgemein - dort kann man auch Autor und Stichworte eingeben.
Nun zum OCR: Zuerst sollte man die Parameter so wählen, daß der erkannte Text nur im Hintergrund gespeichert wird (also unsicht- aber durchsuchbar). Das geht über Datei->Grundeinstellungen->PaperCapture: Dort unter Ausgabestil "Originalbild mit verborgenem Text" auswählen. Das muß man aber nur einmal und nicht jedesmal machen. Der OCR-Vorgang wird über Werkzeuge->PaperCapture->Seiten erfassen gestartet.
Die Erkennungsrate ist so lala, reicht aber zumindest bei lämgeren Dokumenten fast immer aus, um einen vernünftigen Suchindex bilden zu können. Wie bei allen OCR-Programmen hängt der Erfolg vom Ausgangsmaterial ab. Die beschriebenen 300dp/sw haben sich als gut herausgestellt, mehr dpi sind ok, mehr Farbtiefe macht nur bei Fotos Sinn.
Aber wie kriege ich nun die JPGs da hinein, so daß das OCR funktioniert? In ein Bildbearbeitungsprogramm laden und als 300dpi-TIF abspeichern, in Acrobat importieren und los... Die Erkennungsrate wird aber eher mies sein und die PDFs ziemlich riesig. Generell ist ein PDF meist größer als ein Set von Bilddateien desselben Dokuments, hat aber eben auch unschätzbare Vorteile - zumindest aus meiner Sicht.
Mike
a.) Die Dateigröße steigt nicht sooo riesig an.
b.) Wie geht das?
JPGs sind sch**** geeignet dafür. Am allerbesten mit 300dpi schwarz/weiss scannen (nicht Hraustufen!). Anstatt die Bilder in z.B. Photoshop oder so zu scannen, kann man das auch direkt im Acrobat tun (Datei->Import->Scanner). Danach erstmal abspeichern. Sinnvoll ist auch eine vernünftige Betitelung unter Datei->Dokumentinfo->Allgemein - dort kann man auch Autor und Stichworte eingeben.
Nun zum OCR: Zuerst sollte man die Parameter so wählen, daß der erkannte Text nur im Hintergrund gespeichert wird (also unsicht- aber durchsuchbar). Das geht über Datei->Grundeinstellungen->PaperCapture: Dort unter Ausgabestil "Originalbild mit verborgenem Text" auswählen. Das muß man aber nur einmal und nicht jedesmal machen. Der OCR-Vorgang wird über Werkzeuge->PaperCapture->Seiten erfassen gestartet.
Die Erkennungsrate ist so lala, reicht aber zumindest bei lämgeren Dokumenten fast immer aus, um einen vernünftigen Suchindex bilden zu können. Wie bei allen OCR-Programmen hängt der Erfolg vom Ausgangsmaterial ab. Die beschriebenen 300dp/sw haben sich als gut herausgestellt, mehr dpi sind ok, mehr Farbtiefe macht nur bei Fotos Sinn.
Aber wie kriege ich nun die JPGs da hinein, so daß das OCR funktioniert? In ein Bildbearbeitungsprogramm laden und als 300dpi-TIF abspeichern, in Acrobat importieren und los... Die Erkennungsrate wird aber eher mies sein und die PDFs ziemlich riesig. Generell ist ein PDF meist größer als ein Set von Bilddateien desselben Dokuments, hat aber eben auch unschätzbare Vorteile - zumindest aus meiner Sicht.
Mike