SwifDoo PDF

Die Komplettlösung für PDF auf Windows

  1. PDF-Dokumente so einfach bearbeiten wie DOC-Dateien;
  2. PDF in gängige Formate umwandeln oder umgekehrt;
  3. PDF nach Bedarf kommentieren, komprimieren und schützen

Inhaltsverzeichnis

Teilen Sie diesen Artikel

Home / PDF Blog / OCR Erkennung von PDF und Konvertierung in Text

OCR Erkennung von PDF und Konvertierung in Text

Von Sascia | Auf twitter folgen | Aktualisiert am 24. Juni 2022 | English
Einleitung:
OCR ist vielleicht ein neues Konzept, aber wahrscheinlich haben Sie auch schon PDFs erhalten, die sich nicht kopieren oder markieren lassen. Einer der Hauptgründe dafür ist, dass es sich bei der betreffenden PDF-Datei um ein gescanntes PDF handelt, das aus gescannten Bildern von Text erstellt wurde, auch bekannt als reines Bild-PDF. Hier stellt sich die Frage: Wie kann man ein PDF-Datei per OCR als Text erkennen, damit man ihn bearbeiten kann?
summary

Die einfachste und effizienteste Methode, um diese Frage zu beantworten, ist eine PDF-Datei mit OCR-Tools zu erkennen und einzulesen. In diesem Beitrag geht es darum, wie man PDF-Bilder per OCR-Software in durchsuchbaren Text umwandelt.

Was ist PDF zu OCR?

Zunächst einmal müssen wir klären, was OCR-Technologie ist. OCR steht für Optical Character Recognition, ein Verfahren, bei dem PDF-Programme Bilder von Text in ein maschinenlesbares Format umwandeln. Diese weit verbreitete Technologie identifiziert den nicht durchsuchbaren Inhalt und extrahiert den Text aus einem reinen Bild-PDF oder einem gescannten PDF. Einfach ausgedrückt, bedeutet PDF in OCR die Umwandlung von PDF-Bildern in durchsuchbaren Text durch Erkennung von Zeichen mit PDF durch OCR-Software.

Wie man per OCR gescannte PDFs mit Desktop-Software erkennt

SwifDoo PDF

SwifDoo PDF ist eine vielseitige OCR-Software für Windows OS. Als Multitasker kann es bei der PDF-Bearbeitung, dem Anbringen von Anmerkungen, dem Passwortschutz und der Konvertierung helfen. In der neuesten Version 2.0 verfügt SwifDoo PDF über eine brandneue Funktion - OCR (Optical Character Recognition), die den Anwender bei der Verwaltung digitaler Dokumente unterstützt. Werfen wir einen Blick darauf, wie man mit SwifDoo PDF OCR-Erkennung durchführt:

Schritt 1: Laden Sie SwifDoo PDF von der offiziellen Webseite oder von Microsoft AppSource herunter und installieren Sie es;

Schritt 2: Starten Sie das Programm und klicken Sie auf OCR auf der Registerkarte Bearbeiten;


Schritt 3: Im Fenster "Recognize Document" (Dokument erkennen) kann der Benutzer wählen, wie das aktuelle PDF-Dokument per OCR erfasst werden soll und in ein Dokument mit Text und Bildern, Text mit Originalformatierung, durchsuchbaren Text und Bilder, aber nicht editierbar, oder einen reinen Text umgewandelt werden soll;

Schritt 4: Wenn Sie sich für die Ausgabeoption entschieden haben, können Sie bei Bedarf den Seitenbereich für die OCR angeben. Sobald Sie fertig sind, klicken Sie auf die Schaltfläche OK, um mit der OCR der PDF-Datei zu beginnen.

Einige Benutzer fragen sich vielleicht, wie sie feststellen können, ob es sich bei einer PDF-Datei um ein gescanntes PDF oder ein reines Bild-PDF handelt und somit OCR erforderlich ist; hier sind zwei Lösungen:

Klicken Sie auf "Bearbeiten". Wenn ein Fenster erscheint, in dem kein bearbeitbarer Inhalt angezeigt wird, handelt es sich um eine gescannte PDF-Datei;


Oder die Benutzer können PDF-Konvertierungsaufgaben durchführen, indem sie auf "Konvertieren" klicken, z. B. die Konvertierung von PDF in Word. SwifDoo PDF kennzeichnet die Art des PDFs neben dem Dateinamen, wie der Screenshot zeigt.

Tipps: Um die Genauigkeit des OCR-Ergebnisses noch weiter zu verbessern, kann der Benutzer in SwifDoo PDF die Sprache des Originaldokuments auswählen.

Wenn Sie ein gescanntes PDF in ein bearbeitbares Word-Dokument oder eine Textdatei konvertieren müssen, kann das Ergebnis der Konvertierung enttäuschend sein, da das Word-Dokument nach der Konvertierung voller Fehler und falscher Formatierungen ist. Sie können jedoch optional versuchen, die PDF-Datei mit OCR zu bearbeiten, und die mit OCR bearbeitete PDF-Datei wird im selben lokalen Ordner gespeichert wie die Original-PDF-Datei.

Soda PDF

Soda PDF ist ein leistungsstarkes PDF-Tool, das die Arbeit mit PDF-Dateien erleichtern soll. Mit diesem Windows-basierten PDF OCR-Programm können Benutzer PDFs bearbeiten, neu anordnen, mit Anmerkungen versehen und sichern. Sehen Sie sich an, wie Sie mit Soda PDF PDF-Bilder in durchsuchbaren Text umwandeln können:

Schritt 1: Laden Sie Soda PDF herunter und installieren Sie es auf Ihrem PC;

Schritt 2: Starten Sie das Programm und öffnen Sie die gescannte PDF-Datei;

Schritt 3: Wählen Sie OCR oder klicken Sie auf eine beliebige Seite der PDF-Datei, um den OCR-Modus zu aktivieren. Wenn Sie die hängende Menüleiste sehen, wählen Sie OCR Auto und die PDF wird von gescannten Bildern in einen auswählbaren und editierbaren Text umgewandelt.

Soda PDF bietet zwei OCR-Modi, um PDF-Bilder in durchsuchbaren Text zu konvertieren: OCR Auto und OCR Manual. Der Hauptunterschied zwischen diesen beiden Modi besteht darin, dass der Benutzer im letzteren entscheiden kann, wie die OCR-Engine mit seinen Bildern interagiert, während der Auto-Modus automatisch nach dem nächsten Bild sucht und es ebenfalls scannt. Die manuelle Erkennung kann Text, Bilder oder Tabellen erkennen. Jeder Bereich innerhalb dieses roten Kastens wird als Text interpretiert.

Da gescannte PDF-Dateien aus mehreren Bildebenen bestehen, bietet Soda PDF ein "Zuschneiden"-Werkzeug, mit dem die PDF-Seite beschnitten werden kann. In der Zwischenzeit können Benutzer jede Seite für den persönlichen Gebrauch verschieben oder kopieren, indem sie mit der rechten Maustaste auf das PDF-Bild klicken.

Soda PDF ist sowohl für Windows OS als auch für das Web verfügbar. Diese beiden Versionen haben die gleiche Benutzeroberfläche und die gleichen Funktionen, ohne dass es weitere Unterschiede gibt.

Wie man ein gescanntes PDF unter macOS per OCR erkennt

Cisdem PDF Converter OCR für Mac

Für macOS-Anwender, die OCR auf PDF durchführen müssen, waren die Dinge komplizierter, bis wir Cisdem fanden. Cisdem und die dazugehörigen Produkte sind für Apple-Computer entwickelt worden, darunter auch das Herzstück dieses Abschnitts - Cisdem PDF Converter OCR für Mac.

Der Cisdem PDF Converter OCR integriert eine ganze Reihe von nützlichen Werkzeugen, um PDF-bezogene Aufgaben zu bewältigen, z. B. wie man ein gescanntes PDF unter macOS mit OCR versieht, wie man PDF-Dateien kombiniert und wie man PDF-Dateien im Stapel konvertiert. Ohne weitere Beschreibung kommen wir gleich zur Sache:

Schritt 1: Importieren Sie das reine Bild-PDF auf die Workstation, indem Sie die Datei auf die Oberfläche ziehen oder ablegen, auf die Schaltfläche + klicken oder Datei > Datei hinzufügen wählen;

Schritt 2: Wählen Sie die Sprache des Original-PDF-Dokuments, um die Erkennungsgenauigkeit zu verbessern. Cisdem unterstützt jetzt 27 Sprachen, die den grundlegenden Bedarf der Anwender decken können;


Schritt 3: Aktivieren Sie auf der Konverter-Seite das OCR-Kästchen, um die PDF-zu-OCR-Erkennung für das aktuelle PDF durchzuführen. Bitte beachten Sie, dass es zwei OCR-Schaltflächen gibt. Die Schaltfläche neben dem Bereich gilt nur für die ausgewählte PDF-Datei, während die andere Schaltfläche die OCR auf alle PDF-Dateien anwendet.

Schritt 4: Wählen Sie im Feld für das Ausgabeformat DOCX und klicken Sie auf die Schaltfläche Konvertieren. Wählen Sie dann den Ausgabeordner und klicken Sie auf "Speichern", um den Prozess der OCR einer PDF in eine Word-Datei auf dem Mac abzuschließen.

Darüber hinaus können Benutzer die Option "Erweiterte Einstellungen" wählen, um den erkannten Text, die Bilder oder Tabellen manuell anzupassen.

Wie man eine OCR einer gescannten PDF-Datei online erhält

Google Drive

Für Leute, die OCR auf PDFs mit einer kostenlosen webbasierten PDF-OCR-Software anwenden möchte, kann diese Cloud-Speicherplattform eine gute Option sein. Es ist schwer vorstellbar, dass Google Drive in der Lage sein soll, eine solche Aufgabe zu erfüllen. Laut dem Google Drive-Hilfecenter ist diese Online-Anwendung jedoch in der Lage, PDFs und Fotodateien in Text zu konvertieren.

Schritt 1: Loggen Sie sich bei Ihrem Google Drive-Konto ein und klicken Sie auf die Schaltfläche Neu unterhalb des Drive-Symbols;

Schritt 2: Wählen Sie im Dropdown-Menü Datei Upload, um ein lokales PDF-Dokument in den Arbeitsbereich zu importieren;

Schritt 3: Klicken Sie mit der rechten Maustaste auf das hochgeladene PDF-Dokument und wählen Sie Öffnen mit > Google Docs, um das gescannte PDF-Dokument in ein bearbeitbares Word-Dokument umzuwandeln. Wenn Sie auf die Google Docs-Seite geleitet werden, können Sie die Word-Datei lokal ausgeben.

Der Prozess der OCR-Erkennung eines PDF-Dokuments mit Google Drive ist zwar nicht kompliziert, aber es gibt einige Einschränkungen dieses kostenlosen Online-OCR-Tools, bevor Sie beginnen:

Dateigröße: Ihre Datei (.jpg, .png, .gif, oder PDF-Datei) sollte nicht größer als 2 MB sein;

Auflösung: Der Text sollte mindestens 10 Pixel groß sein;

Ausrichtung: Die Dokumente sollten mit der richtigen Seite nach oben ausgerichtet sein.

Schriftarten: Vergewissern Sie sich, dass die Schriftart in Ihrer Datei gängig ist, z. B. Arial oder Times New Roman.

Hinweis:

Bei unserer Überprüfung gelang es Google Drive jedoch nicht, ein gescanntes PDF-Dokument (ein Lehrbuch) mit seiner OCR-Funktion in ein auswählbares und bearbeitbares Word-Dokument zu konvertieren. Alle Seiten werden als Bild und nicht als kopierbarer Text dargestellt. Deshalb brauchen wir ein anderes webbasiertes OCR-Tool, das mit dieser Art von PDF-Dateien zurechtkommt.

OCR Space

OCR Space ist ein kostenloser Online-OCR-Dienstleister. Gleichzeitig ist dieses nützliche Tool ein Open-Source-Programm, das einen kostenfreien OCR-API-Schlüssel für Entwickler bereitstellt. Als kostenloses Tool vereinfacht OCR Space den Konvertierungsprozess, so dass Benutzer nur ein paar Klicks machen müssen, um OCR auf ein PDF anzuwenden. Im Folgenden erfahren Sie, wie Sie ein PDF-Dokument online mit OCR erkennen können:

Schritt 1: Geben Sie die URL in die Suchleiste ein und wählen Sie Datei auswählen, um die PDF-Datei hochzuladen;


Schritt 2: Wählen Sie die Sprache des Original-PDF-Dokuments und kreuzen Sie bei Bedarf die Erkennung oder Ausrichtung an. Außerdem können Benutzer durchsuchbare PDFs erstellen, indem sie unter durchsuchbare PDF erstellen festlegen, wie die PDF angezeigt werden soll;

Schritt 3: Wenn Sie fertig sind, klicken Sie auf die Schaltfläche Start OCR!, um die gescannte PDF-Datei in ein wählbares DOCX-Dokument auszugeben.

Abschließende Überlegungen

Abschließend lässt sich sagen, dass Online-OCR-Tools zwar gratis verwendet werden können, ihre OCR-Fähigkeiten aber möglicherweise von der OCR-Software für Desktop-PDFs in den Schatten gestellt werden, insbesondere wenn es sich um reine Bild-PDFs handelt, die in mehreren Sprachen verfasst sind (z. B. Lehrbücher). Allerdings bieten Desktop-PDF-OCR-Programme nur begrenzte kostenlose Testversionen an, während SwifDoo PDF eine längere kostenlose 30-Tage-Testversion bietet.

FAQs

Q:Verfügt Python über ein OCR-Werkzeug?

Ja. Das OpenCV-Paket und Python-tesseract sind sichtbare Programme zur Identifizierung und Erkennung von Text in gescannten PDFs. Das OpenCV-Paket wurde entwickelt, um Bilder zu lesen und die Texterkennung und -extraktion durchzuführen. Python-tesseract ist ein OCR-Tool für Python zur Erkennung und zum Lesen von verborgenem Text in reinen Bild-PDFs.

Q:Wie kann ich eine PDF-Datei unter Linux per OCR lesen?

Es gibt viele leistungsstarke OCR-Tools für Linux, um Text in eingebetteten Bildern zu erkennen. OCRmyPDF, Tesseract und Paperwork sind drei empfohlene Programme für Linux-Benutzer.

Sascia ist eine erfahrene deutsche Redakteurin, die auf das Schreiben von Artikeln im Bereich der Software spezialisiert ist. Sie verfügt über tiefgreifendes Wissen in diesem Bereich und ist in der Lage, komplexe Konzepte und Themen leicht verständlich für ein breites Publikum zu erklären. Sascias Artikel sind von hoher Qualität und umfassend recherchiert, was es ihr ermöglicht, fundierte und präzise Informationen zu liefern.

Verwandte Beiträge