Problemstellung

Die Schrifterkennung ist aus menschlicher Sicht ein eher einfaches Problem, das allerdings von den Computern nicht immer so leicht zu lösen ist. Besondere Herausforderung stellt die OCR für chinesische Schrift dar, da die Anzahl und die Vielfalt der Zeichen den Prozess zusätlich erschweren. Ein weiteres Problem ist außerdem die Erkennung von altchinesischen Schriftzeichen, die heutzutage kaum bekannt sind und selten verwendet werden, die aber bei der Analyse von alten Schriftsammlungen von großer Bedeutung sein können. Aus diesem Grund ist die automatische OCR viel sinnvoller und effektiver- insbesondere bei größeren Mengen von Daten.

Das Ziel dieses Fortgeschrittenen-Praktikums war ein Computerprogramm zu schreiben, welches die mit Graphitpulver sichtbar gemachten und von der Steintafeloberfläche abgenommenen chinesischen Zeichen erkennt.


Diese Steintafeln wurden rund 500 Kilometer südöstlich der heutigen chinesischen Hauptstadt Peking in der Nähe von Tài Shān Berg (泰山) gefunden. Sie errichteten eine Art gigantische steinerne Bibliothek. In dieser Sammlung erhofft man viele wertvolle Informationen über Leben und Glauben im damaligen China zu finden. "Die Mönche hofften damals, dass die wenigen Menschen, welche das Weltende vielleicht überlebten, sie würden entziffern können. Darin sahen sie die einzige Möglichkeit ihre heiligen Sutren dem neuen Geschlecht, welches die Erde dereinst wieder bevölkern würde, mitzuteilen", so der Heidelberger Professor Lothar Ledderose.

Doch das Entziffern der im Stein eingravierten Schriftzeichen ist kein triviales Problem. Das bisher umfangreichste Wörterbuch enthält ca. 87 000 verschiedene Schriftzeichen, von denen heute nur etwa 15 % weiter verwendet werden. Die Mehrheit dieser Zeichen kommt nur in der alten Literatur vor, wie etwa in den Steintafeln, die wir untersuchen wollen.
Die chinesischen Zeichen sind ebenfalls sehr vielfältig- von einfachen Zeichen wie "Mensch", das nur zwei Schriche besitzt, bis zum Zeichen "Biang" (eine Nudelart), das weit über 50 Schriche hat, nämlich 57.



Darüber hinaus gibt es Zeichen, die nur in geographischen Bezeichnungen oder in Dialekten auftreten und nur in einem einzigen Kontext benutzt werden. Ausserdem wurden die alten Texte von oben nach unten und von rechts nach links geschrieben.

Zum Lösen des OCR-Problems habe ich im Rahmen dieses Softwarepraktikums das Konzept der Neuronalen Netze eingesetzt und dabei das MATLAB Neural Network Toolbox verwendet.



View Larger Map