Praxis-Workshop OCR: Mit Optical-Character-Recognition-Verfahren Texte aus Bildern und Scans extrahieren

In einem Workshop am 8. und 9. Mai 2023 können Forschende am praktischen Beispiel lernen, wie sie mit OCR-Verfahren Texte in den Bildern und Scans gemeinfreier Werke identifizieren und herausfiltern.

Der Workshop wird organisiert und gestaltet vom Fachinformationsdienst für Buch-, Bibliotheks- und Informationswissenschaft, OCR-D, OCR4all und text+.

Was ist OCR?

Workflow
Diese Grafik zeigt die einzelnen Schritte eines OCR-Verfahrens, die beim Tool OCR4all zur Anwendung kommen und die Sie im Workshop näher kennen lernen werden. (Quelle: About us – OCR4all [17.03.2023])

Optical-Character-Recognition-Verfahren (OCR) ermöglichen es, Texte in Bildern oder Scans zu „erkennen“ und diese durchsuchbar zu machen. Daher sind sie für die Disziplinen, die mit großen Textmengen arbeiten, ein wichtiges Tool und können die Forschungsarbeit maßgeblich erleichtern. Sie müssen die Texte nicht mehr selbst manuell abtippen und können sie professionell bearbeiten, edieren und dokumentieren. Für die Buch-, Bibliotheks- und Informationswissenschaft sind OCR-Verfahren nicht nur ein Tool, sondern ein Forschungsgegenstand per se.

Segmentation
Auch Seiten mit einer komplexeren Struktur können mit OCR4all bearbeitet werden. About us – OCR4all [17.03.2023])

Sie werden erfahren,

  • wie OCR-Technologien die Forschung schon jetzt beeinflussen,
  • was bei der Anwendung von OCR-Verfahren zu beachten ist.
  • wie man mit OCR4all „eigene“ Texte aus Scans und Bildern extrahiert.
  • wie ein gutes Forschungsdatenmanagement für OCR-Texte aussehen kann (Gastbeitrag von text+).
  • wie OCR-Verfahren immer mehr in die Digitalisierungsworkflows von Bibliotheken Einzug halten (Projekt OCR-D)

Wer kann teilnehmen?

Der Workshop richtet sich an Forschende aller Fächer, Vertreter:innen der Buch-, Bibliotheks- und Informationswissenschaft sind besonders eingeladen.

Die Teilnahme ist kostenlos. Anreise- und Übernachtungskosten werden nicht übernommen.

Anmeldung und Programm