Keine Texterkennung bei OCR app

ebi · October 13, 2020, 8:10am

Nach Aktivierung von OCR und öffnen des OCR Ordners wird unter den 3 Punkten im Menü keine Texterkennung angeboten, nur Only office was ja bekanntlich kein OCR anbietet.

j-ed · October 13, 2020, 8:18am

Kannst Du etwas präziser in Deinen Ausführungen sein und die üblichen Informationen zu Deiner Umgebung, den eingesetzten Software-Version, Fehlermeldungen aus der Nextcloud Logdatei etc. angeben.

Darüber hinaus wäre es hilfreich zu wissen auf WELCHE OCR-App Du dich beziehst. Im App Store gibt es aktuell mindestens zwei Apps die der Texterkennung dienen.

Hast Du die Voraussetzungen für die Nutzung der beiden Apps gelesen und sicher gestellt, dass die Tesseract Software auf Deinem Server installiert ist?

ebi · October 13, 2020, 2:41pm

Nextcloud 19 läuft auf VPS unter Ubuntu 20.04
Beide genannten Apps sind aktiviert
tesseract-js ist installiert
Nach meiner Info sollte das ausreichen, damit die Texterkennung funktioniert
in meinem Ordner OCR wird aber bei den drei Punkten im Menü keine Texterkennung angezeigt, aber Onlyoffice, was aber keine Erkennung kann

FRAGE: woran kann das liegen?

JimmyKater · October 13, 2020, 5:10pm

also bei der flow Variante - schau dir die Einrichtung und die Installationsvorausseztungen an

das Teil von Janis funktioniert lt. seiner eigenen Auskunft nur mit Bildern und nicht mit PDFs

ebi · October 15, 2020, 5:36am

Das ist richtig, nur Bilder.
Aber mein Problem sind aber PDF Dateien.
Hat jemand eine Lösung parat.

JimmyKater · October 15, 2020, 7:50am

der Flow-Prozess behauptet, dass er mit PDF-dateien umgehen kann. Ich habs nicht getestet.

das Teil von Janis wird es wohl weiterhin in absehbarer Zeit nicht können… er persönlich habe die Entwicklung dazu eingestellt, wenn ich mich richtig erinnere.

Also was bleibt Dir übrig, außer Flow zu probieren? Lies aber diesmal vorher genauer durch, was Dich erwartet.

j-ed · October 15, 2020, 10:13am

Aber mein Problem sind aber PDF Dateien.
Hat jemand eine Lösung parat.

Ich denke diese Funktion lässt sich mit der workflow_script App realisieren. Beim Anlegen einer neuen Datei und dem Mime-Type “application/pdf” rufst Du ein Batch-Script auf welches dann die notwendigen OCR-Befehle anstößt. Für Linux gibt es hier verschiedene Wege zum Ziel zu gelangen. Siehe z.B.:

https://medium.com/@thucnc/convert-a-scanned-pdf-to-text-with-linux-command-line-using-ocrmypdf-1a2e8d50277f
https://wiki.ubuntuusers.de/pdfocr/
https://www.howtogeek.com/682389/how-to-do-ocr-from-the-linux-command-line-using-tesseract/

R0Wi · July 2, 2022, 1:40pm

Hi hier der Entwickler der workflow_ocrApp, welche auf ocrmypdf basiert und sowohl mit Input-Dateien im PDF-Format, als auch mit JPG oder PNG Inputs umgehen kann. Im Wesentlichen wird hier (ähnlich wie von @j-ed vorgeschlagen) ein Kommandozeilenaufruf zusammengesetzt und das Ergebnis des OCR Vorgangs (die PDF Datei) in Nextcloud eingepflegt. Aus meiner Sicht gibt es keine Notwendigkeit, dies manuell per workflow_script app zu erledigen.

Weiter Infos unter GitHub - R0Wi/workflow_ocr: This is a Nextcloud Workflow App which enables you to process files via OCR on serverside.