Discussion:
Lagunen der OCR
(zu alt für eine Antwort)
Jakob Achterndiek
2017-07-31 08:48:20 UTC
Permalink
Raw Message
| – soll meine Ehre, mein Rang, mein Vermögen von der Lagune
| einer Kammerfrau [..] abhangen?
[ digibib: Spielhagen, Problematische Naturen. Bd. 2, S. 513 ]


Frage an die Fachwelt:
Algorithmen, welche die Gesichter von bösen Museltätern an
Flughäfen erkennen, gibt es ja schon. Gips denn vielleicht
irgendwo auch schon ein gutes Programm, das die Frakturen in
den Büchern des 18. und 19. Jahrhunderts fehlerfrei lesen kann?
Viele Abiturienten jedenfalls können es nicht mehr. Man stelle
sich mal vor, wie peinlich das werden könnte, wenn etwa ein
Adept der Literaturwissenschaft in die WikipediA schreibt,
Goethes "Lagune der Verliebten" von 1786 sei 1980 von Randal
Kleiser unter dem Titel "Die blaue Lagune" verfilmt worden ;)
--
j/\a
Helmut Richter
2017-07-31 09:08:39 UTC
Permalink
Raw Message
Post by Jakob Achterndiek
Algorithmen, welche die Gesichter von bösen Museltätern an
Flughäfen erkennen, gibt es ja schon. Gips denn vielleicht
irgendwo auch schon ein gutes Programm, das die Frakturen in
den Büchern des 18. und 19. Jahrhunderts fehlerfrei lesen kann?
Ich verwende dazu Tesseract (kostenlos), das auch Basis manch anderer
OCR-Software ist. Frakturtexte, die ich damit gelesen habe, waren aus
dem frühen 20.Jhdt. Man gibt die Sprache an (WIMRE "deu-frak") und schon
klappts. Ob das mit Texten aus dem 18.Jhdt. auch so klappen würde, weiß
ich nicht.

Frakturschrift zu lesen erfordert ein klareres Schriftbild als Antiqua,
weil kleine Unterschiede ("Luft" vs. "Luſt") oft viel ausmachen.
Händische Nachkorrektur ist immer nötig.
Post by Jakob Achterndiek
Viele Abiturienten jedenfalls können es nicht mehr. Man stelle
sich mal vor, wie peinlich das werden könnte, wenn etwa ein
Adept der Literaturwissenschaft in die WikipediA schreibt,
Goethes "Lagune der Verliebten" von 1786 sei 1980 von Randal
Kleiser unter dem Titel "Die blaue Lagune" verfilmt worden ;)
Ich glaube, dazu bedarf es mehr als nur der Verwendung ungeeigneter
OCR-Software.
--
Helmut Richter
U***@web.de
2017-07-31 12:38:28 UTC
Permalink
Raw Message
Moin,
Post by Jakob Achterndiek
| – soll meine Ehre, mein Rang, mein Vermögen von der Lagune
| einer Kammerfrau [..] abhangen?
[ digibib: Spielhagen, Problematische Naturen. Bd. 2, S. 513 ]
Seitdem Asterix bei den Briten vorbeikam, ist bekannt,
daß verschütt gegangene Lettern böse Folgen zeitigen können.

Vollständig:

https://books.google.de/books?id=pUHWDgAAQBAJ&pg=PA889&lpg=PA889&dq=%22Soll+meine+Ehre%22+mein+Rang+mein+Verm%C3%B6gen+Kammerfrau+Spielhagen&source=bl&ots=vLpbaPPyzX&sig=0vSkzWqvWaKYpgCUw2l_F6ywAFg&hl=de&sa=X&ved=0ahUKEwiYh-mzxLPVAhWEVRQKHaOYCNIQ6AEIJzAA#v=onepage&q=%22Soll%20meine%20Ehre%22%20mein%20Rang%20mein%20Verm%C3%B6gen%20Kammerfrau%20Spielhagen&f=false

Gruß, ULF
René Marquardt
2017-07-31 13:55:43 UTC
Permalink
Raw Message
Post by Jakob Achterndiek
| – soll meine Ehre, mein Rang, mein Vermögen von der Lagune
| einer Kammerfrau [..] abhangen?
[ digibib: Spielhagen, Problematische Naturen. Bd. 2, S. 513 ]
Algorithmen, welche die Gesichter von bösen Museltätern an
Flughäfen erkennen, gibt es ja schon. Gips denn vielleicht
irgendwo auch schon ein gutes Programm, das die Frakturen in
den Büchern des 18. und 19. Jahrhunderts fehlerfrei lesen kann?
Fuer diesen Zweck erfuellen die "Captcha"-Bilder eine Doppelfunktion.
Einerseits, zu erkennen, ob da ein Mensch oder Bot am Werk ist.
Andererseits werden so zweifelhafte OCR-Ergebnisse menschlich nachbearbeitet.

ZB: Loading Image...
Martin Gerdes
2017-07-31 22:02:18 UTC
Permalink
Raw Message
Post by René Marquardt
Gips denn vielleicht irgendwo auch schon ein gutes Programm,
das die Frakturen in den Büchern des 18. und 19. Jahrhunderts
fehlerfrei lesen kann?
Irren ist nicht nur menschlich, sondern verblüffenderweise auch
maschinlich.
Post by René Marquardt
Fuer diesen Zweck erfuellen die "Captcha"-Bilder eine Doppelfunktion.
Einerseits, zu erkennen, ob da ein Mensch oder Bot am Werk ist.
Andererseits werden so zweifelhafte OCR-Ergebnisse menschlich nachbearbeitet.
ZB: https://i.imgur.com/yDGBHuE.png
Dieses Captcha dürfte ein Fake sein. Ich habe diese Dinger gerade der
Doppelfunktion wegen ziemlich gut gefunden. Ich habe aber schon lang
keins mehr gesehen. Wer weiß? Vielleicht sind Maschinen mittlerweile gut
genug, sie zu entziffern? Seit Monaten sehe ich nur Bilder-Captchas, bei
denen ich endlos Bilder markieren soll, auf denen Straßenschilder oder
Berge oder PKWs zu sehen sind.

Loading...