Advances and Limitations in Open Source Arabic-Script OCR: A Case Study
Abstract
This work presents an accuracy study of the open source OCR engine, Kraken, on the leading Arabic scholarly journal, al-Abhath. In contrast with other commercially available OCR engines, Kraken is shown to be capable of producing highly accurate Arabic-script OCR. The study also assesses the relative accuracy of typeface-specific and generalized models on the al-Abhath data and provides a microanalysis of the ``error instances'' and the contextual features that may have contributed to OCR misrecognition. Building on this analysis, the paper argues that Arabic-script OCR can be significantly improved through (1) a more systematic approach to training data production, and (2) the development of key technological components, especially multi-language models and improved line segmentation and layout analysis. Cet article pr\'esente une \'etude d'exactitude du moteur ROC open source, Krakan, sur la revue acad\'emique arabe de premier rang, al-Abhath. Contrairement \`a d'autres moteurs ROC disponibles sur le march\'e, Kraken se r\'ev\`ele \etre capable de produire de la ROC extr\emement exacte de l'\'ecriture arabe. L'\'etude \'evalue aussi l'exactitude relative des mod\`eles sp\'ecifiquement configur\'es \`a des polices et celle des mod\`eles g\'en\'eralis\'es sur les donn\'ees d'al-Abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des \'el\'ements contextuels qui pourraient avoir contribu\'e \`a la m\'ereconnaissance ROC. S'appuyant sur cette analyse, cet article fait valoir que la ROC de l'\'ecriture arabe peut \etre consid\'erablement am\'elior\'ee gr\ace \`a (1) une approche plus syst\'ematique d'entra\inement de la production de donn\'ees et (2) gr\ace au d\'eveloppement de composants technologiques fondamentaux, notammentl'am\'elioration des mod\`eles multilingues, de la segmentation de ligne et de l'analyse de la mise en page.
Turn this paper into a lesson
ArcXiv compiles a structured reading guide from this paper's metadata: plain-English importance, contributions, prerequisite concepts, which sections to read first, flashcards, and a quiz. Grounded in the abstract, never invented.