ओसीआर साधनांची तुलना: आपल्या प्रोजेक्टसाठी सर्वोत्कृष्ट साधन कसे निवडायचे

ऑप्टिकल कॅरेक्टर रिकग्निशन (लहान: ओसीआर) हे प्रतिमांमधून आपोआप मजकूर काढण्याचे काम आहे. आजकाल, अशी अनेक साधने आणि सेवा उपलब्ध आहेत ज्या वापरण्यास सोपी आहेत आणि हे कार्य नॉन-ब्रेनर बनवित आहेत. या ब्लॉग पोस्टमध्ये मी सर्वात लोकप्रिय चार साधनांची तुलना करीन:

  1. टेस्क्रॅक्ट ओसीआर
  2. एबीबीवाय फाईनरिडर
  3. Google मेघ दृष्टी
  4. Amazonमेझॉन टेक्स्ट्रेक्ट

मी त्यांना कसे वापरावे आणि त्यांच्या कार्यक्षमतेच्या आधारावर त्यांची कार्यक्षमता आणि कमकुवतपणाचे आकलन कसे करावे हे मी दर्शविते. हा लेख वाचल्यानंतर आपण आपल्या प्रकल्पाच्या आवश्यकतानुसार ओसीआर साधन निवडण्यास आणि लागू करण्यास सक्षम असाल.

लक्षात ठेवा आम्ही प्रसंगोपात मजकूर असलेल्या कोणत्याही प्रतिमांच्या विरूद्ध केवळ दस्तऐवज प्रतिमांसाठी ओसीआरवर आपले लक्ष केंद्रित करतो.

ही कागदजत्र प्रतिमा नाही.

आता आम्ही ओसीआर इंजिनचे मूल्यांकन करण्यासाठी वापरणार्या दस्तऐवज प्रतिमांकडे एक नजर टाकू.

आमच्या चाचणी प्रतिमा

दस्तऐवज प्रतिमा वेगवेगळ्या आकार आणि गुणांमध्ये येतात. कधीकधी ते स्कॅन केले जातात, इतर वेळी ते हँडहेल्ड डिव्हाइसद्वारे घेतले जातात. मुद्रित मजकुराशिवाय त्यामध्ये बॉक्स आणि टेबल्स सारख्या हस्तलेखन आणि रचनात्मक घटक देखील असू शकतात. अशा प्रकारे आदर्श ओसीआर साधन पाहिजे

  • स्कॅन केलेला मजकूर विश्वासार्हपणे ओळखा,
  • खराब प्रतिमेची गुणवत्ता आणि हस्ताक्षरकडे दृढ व्हा,
  • डॉक्युमेंटच्या फॉरमॅटिंग आणि स्ट्रक्चरबद्दल आउटपुट माहिती.

या पूर्वाश्रमीची गोष्टी लक्षात घेऊन आम्ही पुढील चार प्रतिमांवर ओसीआर साधनांची चाचणी घेऊ:

स्कॅन केलेले ईमेल, स्कॅन केलेले हस्तलिखित पत्र.स्मार्टफोन-कॅप्चर केलेला ईमेल, स्कॅन केलेला टेबल.

सर्व प्रतिमा तंबाखू उद्योगाच्या कागदपत्रांच्या मोठ्या कॉर्पसमधून आल्या आहेत. तिसरा मुद्रित केला गेला आणि नंतर स्मार्टफोनद्वारे टिपिकल ध्वनीची ओळख करुन तो हस्तगत केला.

प्रथम आम्ही हे तपासू की या कामांच्या संदर्भात ओसीआर भाड्याने कसे घेते.

टेस्क्रॅक्ट ओसीआर

टेसरेक्ट बद्दल सर्वात चांगली गोष्ट म्हणजे ती विनामूल्य आणि वापरण्यास सुलभ आहे. मुळात ते एक कमांड लाइन साधन आहे, परंतु पायथसेरेक्ट आणि जीयूआय फ्रंटएंड जिग्मेज रीडर नावाचे पायथन रॅपर देखील आहे, जेणेकरून आपण आपल्या हेतूसाठी सर्वात योग्य असे एक निवडू शकता.

कमांड लाइन टूलचा वापर करणे जितके सोपे आहे

छायाचित्र नाव आउटपुटबेस [आउटपुट फॉर्म]

आम्ही आउटपुट स्वरूपन निर्दिष्ट न केल्यास डीफॉल्ट ही मजकूर फाईल असते जी ओळखले जाते. वैकल्पिकरित्या, पीडीएफ एक शोधण्यायोग्य पीडीएफ, आणि एचओसीआर आणि अल्टो एक्सएमएल फायली जसे चरित्र पोझिशन्स (एक्सएमएल मानकात अनुक्रमे त्याच नावाने जाणा .्या एक्सएमएल मानकात) समाविष्ट करते. अधिक पर्यायी वितर्कांसाठी येथे पहा.

आमच्या चाचणी प्रतिमांमध्ये टेसेरेटला काय सापडते ते येथे आहे:

शोधन: स्कॅन केलेले ईमेल, हस्तलिखित पत्र.तपासणी: स्मार्टफोन-कॅप्चर केलेला ईमेल - कोणतेही आउटपुट नाही, स्कॅन केलेले टेबल.

आपल्या लक्षात येताच, टेझरॅक्ट ओसीआर स्कॅन केलेल्या ईमेलमधील मजकूर खूपच चांगल्या प्रकारे ओळखतो. तथापि, जेव्हा हस्तलिखित पत्र आणि स्मार्टफोन कॅप्चर केलेले दस्तऐवज येते तेव्हा एकतर मूर्खपणा किंवा अक्षरशः काहीही आउटपुट केले जात नाही.

टेबल प्रतिमेच्या आउटपुटसाठी मी gImageReader वापरतो, जीयूआय फ्रंटएन्ड वर नमूद केले आहे. हे असे निष्कर्ष काढते की मजकूरासहित प्रतिमेच्या क्षेत्रासाठी टेस्क्रॅक्ट आउटपुट बाउंडिंग बॉक्स, परंतु योग्य टेबल शोधण्याजवळ देखील नाही. अर्थात आपण आपल्या स्वत: च्या सारणी काढण्याच्या साधनाद्वारे टेसेरॅक्टच्या आउटपुटवर प्रक्रिया करू शकता. तांत्रिक रेखांकनांवर ओसीआर लागू करणे आणि पत्रांमधून तारखा काढण्याविषयी आमची ब्लॉग पोस्ट कशी कल्पना देते.

एबीबीवाय फाईनरिडर

एबीबीवायवाय ओसीआरशी संबंधित उत्पादनांची श्रेणी ऑफर करते. मी एबीवायवाय क्लाऊड ओसीआर एसडीके एपीआय वापरणार आहे. ही क्लाऊड सर्व्हिस एबीबीवायवाय फाइनरिडर ओसीआर इंजिन वापरते, जे स्थानिक पातळीवर देखील स्थापित केले जाऊ शकते. परीक्षेच्या विपरीत, एबीबीवाय क्लाऊड ओसीआर विनामूल्य नाही (किंमती).

आपण एपीआय कसे वापरायचे ते शिकू इच्छित असल्यास आपल्याला या द्रुत प्रारंभ मार्गदर्शकांमध्ये आपल्याला आवश्यक असलेली सर्व काही सापडेल.

पुन्हा, आमच्याकडे ओसीआर आउटपुट स्वरूपाच्या संदर्भात भिन्न पर्याय आहेत. टेसेरॅक्टद्वारे प्रदान केलेल्याशिवाय, आम्ही याव्यतिरिक्त एबीबीवायवायला एक्सएलएसएक्स स्प्रेडशीट आउटपुट करण्यास सांगू शकतो. मी आमच्या टेबल प्रतिमेसाठी हा पर्याय वापरणार आहे.

एबीबीवायवाय: स्कॅन केलेले ईमेल, हस्तलिखित पत्र.एबीबीवायवाय: स्मार्टफोन-कॅप्चर केलेला ईमेल, स्कॅन केलेला टेबल.

एबीबीवाय फाईनरिडरला स्कॅन केलेल्या ईमेलमध्ये समस्या नाही आणि स्मार्टफोन-कॅप्चर केलेल्या दस्तऐवजावर यथोचित चांगले आहे. जरी ते हस्तलिखित दस्तऐवजात पूर्णपणे अयशस्वी होते.

टेबल एक्सट्रॅक्शन क्षमता हे मुख्य गुण आहे: आपण मागील चित्रात पाहू शकता की आउटपुट सारणीची रचना संरक्षित करते. एक्सएमएल आउटपुटवर बारकाईने लक्ष दिल्यास हे स्पष्ट होते की फाइनरिडर खरोखरच टेबल विभाग आणि वैयक्तिक पेशी ओळखतो आणि फॉन्ट शैलीसारखा तपशील देखील काढतो (एबीबीवायवायच्या एक्सएमएल योजनेच्या वर्णनासाठी येथे पहा).

Google मेघ दृष्टी

ओळीत पुढे गुगल क्लाउड व्हिजन आहे जे आम्ही API द्वारे वापरणार आहोत. फाइनरिडर प्रमाणेच ही देय सेवा (किंमती) देखील आहे.

एबीबीवायवायचे एपीआय किंवा टेसरेक्ट वापरण्यापेक्षा क्लाऊड व्हिजन एपीआय वापरणे थोडे अधिक अवघड आहे. हे कसे कार्य करते हे जाणून घेण्यासाठी आपल्याला येथे आणि येथे चांगले प्रारंभिक बिंदू सापडतात.

आम्हाला खालील आउटपुट मिळेल:

Google: स्कॅन केलेले ईमेल, हस्तलिखित पत्र.Google: स्मार्टफोन-कॅप्चर केलेले ईमेल, स्कॅन केलेले टेबल.

Google स्कॅन केलेल्या ईमेलवर चांगले करते आणि स्मार्टफोन-कॅप्चर केलेल्या दस्तऐवजामधील मजकूरास तसेच एबीबीवायवाय देखील ओळखते. तथापि हस्तलेखन ओळखण्यात हे टेसेरॅक्ट किंवा एबीबीवायवायपेक्षा बरेच चांगले आहे, कारण दुसर्‍या निकालाच्या प्रतिमेमध्ये असे दिसते: अद्याप परिपूर्णतेपासून बरेच दूर आहे, परंतु कमीतकमी त्यात काही गोष्टी योग्य आहेत. दुसरीकडे, गुगल क्लाउड व्हिजन सारण्या चांगल्या प्रकारे हाताळत नाही: ते मजकूर काढते, परंतु त्याबद्दलच.

खरं तर, मूळ क्लाउड व्हिजन आउटपुट ही एक जेएसओएन फाइल आहे ज्यात वर्णांच्या स्थानांबद्दल माहिती असते. या माहितीच्या आधारे टेसरॅक्टसाठी, सारण्या शोधण्याचा प्रयत्न केला जाऊ शकतो, परंतु पुन्हा, ही कार्यक्षमता अंगभूत नाही.

लक्षात ठेवा आता तेथे एआय बीटा आवृत्ती समजून घेणारा एक Google दस्तऐवज देखील आहे, ज्याची आम्ही या क्षणी चाचणी केली नाही.

Amazonमेझॉन टेक्स्ट्रेक्ट

आमचा शेवटचा उमेदवार देखील सशुल्क मेघ-आधारित समाधान (किंमती) आहे.

चाचणीच्या उद्देशाने, आपण ड्रॅग-अँड-ड्रॉप ब्राउझर इंटरफेससह टेक्स्ट्रेक्ट सोयीस्करपणे वापरू शकता, परंतु उत्पादन-तयार forप्लिकेशन्ससाठी आपल्याला कदाचित प्रदान केलेले API वापरू इच्छित असेल.

ब्राउझर इंटरफेस वापरणे, टेक्स्ट्रेक्ट आउटपुट

  • JSON फाईल म्हणून API प्रतिसाद,
  • कच्चा मजकूर,
  • स्वतंत्र सीएसव्ही फायलींमध्ये सारण्या आढळल्या,
  • की-व्हॅल्यू जोड्या (एक फॉर्म म्हणून इनपुटचे स्पष्टीकरण), तसेच सीएसव्ही फाइल.

हे आम्हाला पुढील परिणाम देतात:

Amazonमेझॉन: स्कॅन केलेले ईमेल, हस्तलिखित पत्र.Amazonमेझॉन: स्मार्टफोन-कॅप्चर केलेला ईमेल, स्कॅन केलेला टेबल.

पूर्वीप्रमाणेच, ईमेल छान दिसत आहे, परंतु स्पष्टपणे टेक्स्ट्रेक्ट हाताने लिहिलेले मजकूर फार चांगले हाताळत नाही. शिवाय, स्मार्टफोन-कॅप्चर केलेला कागदजत्र पहिल्या दृष्टीक्षेपात ठीक दिसत असला तरीही, जवळून तपासणी केल्यावर Amazonमेझॉनच्या ओसीआरने रेषांमध्ये मिसळलेले स्पष्ट केले आहे (दस्तऐवजाच्या प्रतिमेच्या वक्रतेमुळे).

टॅब्यूलर दस्तऐवजासाठी आम्ही टेक्स्ट्रेक्ट ओळखल्या गेलेल्या तीन टेबलांपैकी फक्त एक दर्शवितो. परंतु हे आधीच दिसत आहे की काही स्तंभ शीर्षलेख गहाळ आहेत आणि काही संख्या चुकीच्या ठिकाणी आहेत.

निष्कर्ष

हे सारणी आमच्या चाचण्यांच्या परिणामाचे सारांश देते:

शब्दांमधील मुख्य टेकवे:

  • जर आपण मशीन-लिखित आणि चांगल्या-स्कॅन केलेल्या दस्तऐवजांवर किंवा कदाचित पीडीएफ फायलींमध्ये मेटाडेटाची कमतरता असल्यास आपण तपासत असाल तर टेस्क्रॅक्ट ओसीआर हे काम करू शकेल, जरी व्यावसायिक सेवा अधिक विश्वासार्ह असतील.
  • आपल्यासाठी हस्तलिखित अक्षरे ओळखणे महत्त्वाचे असल्यास, आजपर्यंत चाचणी केलेल्यांमध्ये Google मेघ व्हिजन ही एकमेव व्यवहार्य आहे.
  • जर दस्तऐवजाच्या प्रतिमेची गुणवत्ता खराब असेल तर, एबीबीवायवाय फाइनरिडर आणि गुगल क्लाउड व्हिजन दोन्ही अद्याप चांगले कार्य करतात.
  • जर आपला हेतू सारणीविषयक माहिती काढणे असेल तर आपणास एबीबीवायवाय फाईनरिडर निवडावे लागेल.

मूळतः 20 जानेवारी 2020 रोजी https://dida.do वर प्रकाशित केले.