गर्दीचे कार्य ™: सखोल शिक्षणासाठी विस्तृत व्हिडिओ डेटा सेट कसे वाढवायचे

हा पेपर डेटा संकलनाच्या पारंपारिक दृष्टिकोनाच्या मर्यादांवर चर्चा करतो आणि गर्दीच्या अभिनयाचा उपयोग स्पष्ट करतो, सखोल अभ्यासासाठी मोठ्या व्हिडिओ डेटा सेटचा विस्तार करण्यासाठी एक अभिनव दृष्टीकोन. आमच्या जनतेने अभिनय केला डेटासेटस जेस्टर आणि समथिंग-समथिंग सार्वजनिकरित्या उपलब्ध आणि शैक्षणिक उद्देश्यांसाठी विनामूल्य आहेत.

सद्य सखोल शिक्षणामागील माहिती अनुरुप डेटा प्रभावी आहे. पुरेसा डेटा न देता, सर्वोत्तम हार्डवेअरद्वारे समर्थित सर्वात जटिल न्यूरल नेटवर्क मानवी पातळीवर कार्य करण्यास अपयशी ठरेल. व्हिडिओ डेटा सर्वव्यापी होत असल्याने, आम्ही सोशल मीडिया आणि व्हिज्युअल डिव्हाइसद्वारे प्रदान केलेल्या विविध प्रकारच्या व्हिडिओंमधून माहिती काढण्यासाठी आणि मिळविण्यासाठी मशीनवर अवलंबून आहोत.

जीआयएफ 1: शक्तिशाली एआय अल्गोरिदमसाठी डेटा आवश्यक आहे

सखोल शिक्षणामध्ये पर्यवेक्षी शिक्षण बहुतेक व्यावसायिक यश मिळवते, परंतु त्याची डेटा संकलन प्रक्रिया सदोष आहे. जेव्हा आम्हाला मशीन समजून घेण्यासाठी जगाला शिकवण्यासाठी योग्य व्हिडिओ डेटा सेट सापडला नाही, तेव्हा आम्ही क्रॉड ingक्टिंग विकसित केला, जो औद्योगिक डेटा संकलन करण्याचा दृष्टिकोन होता, जो मागील योगदंत्यांद्वारे प्रेरित होता, विशेषत: हॉलीवूडमधील होम्स आणि तिचे चार्डेस डेटा सेट (सिगर्डसन एट अल.). गर्दीच्या अभिनयासह आम्ही व्हिडिओ डेटा संपादनच्या उत्सुकतेने शैक्षणिक प्रक्रियेचे यशस्वीरित्या औद्यौगिकीकरण केले, प्रति नमुना युनिट खर्च कमी केला आणि व्हिडिओ समजून व्यावसायिकरित्या स्केलेबल केले.

वास्तविक व्हिडिओ डेटा संच तयार करणे उच्च संधी खर्चाशी संबंधित आहे आणि त्यासाठी बराच वेळ आणि संसाधने आवश्यक आहेत. तथापि, आम्ही व्हिडिओ अनुप्रयोगांसाठी सर्वात मोठे औद्योगिक डेटा फॅक्टरी यशस्वीरित्या तयार केले आहे आणि जेस्टर आणि समथिंग-समथिंग हे पहिले दोन वास्तविक व्हिडिओ डेटा सेट तयार केले आहेत, जे आम्ही लोकांना उपलब्ध करून दिले आहेत. व्हिडिओ रेकॉर्डसाठी जगाला कठोरपणे अभिनव डेटा कॅप्चर करण्याच्या दृष्टिकोनाची आवश्यकता आहे आणि आम्हाला विश्वास आहे की गर्दीचा अभिनय हा एक उपाय आहे.

मागील: क्राऊडसोर्सिंग डेटा संग्रह

एका उच्च गुणवत्तेच्या डेटासेटमध्ये मानवी व्हिडिओभिमुख, तार्किक आणि संतुलित वर्गीकरण समाविष्ट करणे आवश्यक आहे ज्यामध्ये नैसर्गिक व्हिडिओ देखावे आणि विविध जाती, लिंग इत्यादींच्या मोठ्या गटाने व्युत्पन्न केलेल्या गतिशील क्रियांचा समावेश केला पाहिजे. प्रत्येक डेटा नमुना कमीतकमी लेबलिंग आवाज आणि त्रुटींसह दाट लेबल असावा. सर्वात महत्त्वाचे म्हणजे डेटासेट वास्तविक आव्हानांशी संबंधित असावे.

तथापि, पारंपारिक डेटा संकलन दृष्टीकोन उच्च गुणवत्तेचे खोल शिक्षण डेटा सेट तयार करू शकत नाही. किनेटिक्स आणि एव्हीए सारख्या व्हिडिओ रेकॉर्डने एआय समुदायास योग्य दिशेने अपरिहार्य योगदान दिले आहे. तथापि, त्यांनी पारंपारिक डेटा संपादन दृष्टीकोन स्वीकारल्यामुळे, हे डेटा सेट व्हिडिओ समजण्याच्या पूर्ण संभाव्यतेचे शोषण करू शकत नाहीत.

आकृती 1 मध्ये दर्शविल्याप्रमाणे, यथास्थिति दृष्टिकोनात चार दिशा-निर्देशात्मक चरणांचा समावेश आहे: वर्गीकरण, डेटा खनन, मानवी भाष्य आणि प्रशिक्षण.

प्रतिमा 1: पारंपारिक डेटा संपादन दृष्टीकोन

व्हिडिओ क्लिप्स, सामान्यत: YouTube वरून, बर्‍याचदा अवास्तव आणि पक्षपाती असतात, विविधतेचा अभाव असतो आणि त्यामध्ये खूपच जास्त क्रिया असतात. नमुना घेतल्यानंतर, संपादन प्रक्रिया धीमे होते आणि अतिरिक्त विकृतीकडे वळते. क्रॉडसोर्सिंग मानवी टीकाच्या चरणात होते, ज्यात गर्दी करणारे लोक व्हिडिओ क्लिपवर कठोरपणे लेबल करतात आणि त्यानंतर हळू आणि व्यक्तिचलित गुणवत्ता नियंत्रण असतात. ही पद्धत अत्यंत त्रुटी-प्रवण आहे आणि डेटा सेटच्या गुणवत्तेवर परिणाम करते. एकदा अधिग्रहण पूर्ण झाल्यावर, उपयोग केस प्रशिक्षण आणि वर्गीकरण यामध्ये कोणताही अभिप्राय वळण नाही, कारण वर्गीकरण आणि डेटा सेटचे समायोजन करणे खूप वेळ घेते. एकंदरीत, डेटासेटच्या विस्तारासाठी काही व्यवसाय प्रोत्साहन आहेत आणि उद्योग आणि उत्पादन वापरकर्त्यांकडे फारसे लक्ष दिले जात नाही.

ठराविक गर्दीच्या समस्या

या पारंपारिक डेटा संपादन प्रक्रियेचा परिणाम म्हणजे असंतुलित वर्गीकरण, अप्राकृतिक दृश्ये, कमकुवत लेबले, लेबल आवाज आणि त्रुटींसह रेकॉर्ड आहेत. सर्वात वाईट म्हणजे, डेटा विविधतेशिवाय, एआय मॉडेलना सामान्यीकरण करणे कठिण होईल आणि यामुळे वर्णद्वेष्ट एआयसारख्या नकारात्मक घटनांना बळी पडतात जे अत्यंत अयोग्य पद्धतीने वागतात. सर्वात महत्त्वाचे म्हणजे हे डेटा सेट्स बर्‍याचदा वास्तविक-जगाच्या समस्यांशी संबंधित नसतात.

उदाहरणार्थ, Google कडील AVA डेटासेटमध्ये खूप असंतुलित वर्ग आहेत (आकृती 2). एव्हीएच्या 210 के लेबलपैकी 87% पेक्षा जास्त लेबल उभे, बसणे, बोलणे, निरिक्षण (एक व्यक्ती), श्रवण (एक व्यक्ती), वाहून / धरून ठेवणे (एक वस्तू) आणि चालणे अशा 7 वर्गांनी व्यापलेले आहेत. या 7 वर्गांपैकी 6.5 स्थिर क्रिया आहेत.

आकृती 2: एव्हीए डेटा सेटमधील वर्ग आणि आकडेवारी (स्त्रोत: https://arxiv.org/pdf/1705.08421.pdf)

एव्हीए मधील बरेच वर्ग जोरात आणि कमकुवतपणे चिन्हांकित केले जातात. जीआयएफ 2 एक कमकुवत चिन्हांकित डेटा उदाहरण आहे जे "कॅच (एक ऑब्जेक्ट)" श्रेणीमधून यादृच्छिकपणे निवडले गेले होते: पांढर्‍या शर्टमधील माणूस फोन हँग करतेवेळी, एकसमान एक फोल्डर बंद करतो. तथापि, दोन भिन्न क्रियांसाठी एकच लेबल आहे. याव्यतिरिक्त, नमुना जोरात आहे: हे कॅच "कॅच (ऑब्जेक्ट)" देखील "पुट डाउन (ऑब्जेक्ट)" असू शकते.

जीआयएफ 2: एव्हीए डेटासेटच्या कमकुवत लेबल

400 पेक्षा जास्त मानवी कृती वर्ग असलेले डीपमाइंड्स किनेटिक्सचे आणखी एक उदाहरण आहे. तथापि, सर्वात अचूक वर्ग ही उच्च-स्तरीय मानवी क्रिया आहेत जी भौतिक जगाच्या आकलनास मोठ्या प्रमाणात असंबद्ध असतात, उदा. बी. यांत्रिक बैल किंवा स्लेज कुत्रा शर्यत चालविणे (जीआयएफ 3) ते मनोरंजन करीत असताना, आपल्याला स्वत: ला विचारावे लागेल की हे वर्गीकरण वास्तविक व्यवसायातील समस्यांशी कसे संबंधित आहे?

जीआयएफ 3: गतीशास्त्रातील शीर्ष 3 वर्ग आणि मेकॅनिकल बुल राइडिंगवरील डेटाचे उदाहरण

भविष्य: गर्दीचा अभिनय ™

पारंपारिक पध्दतीची या मर्यादा लक्षात घेता आम्ही योग्य, मोठे व्हिडिओ रेकॉर्ड तयार करण्यासाठी आमचे बाह्य गुंडाळले. संशोधक, एआय अभियंते, पूर्ण-स्टॅक विकसक आणि उत्पादन लोक यांच्या अत्यंत क्रॉस-फंक्शनल टीमसह आम्ही डेटा संकलनाकडे गर्दी-अभिनय करण्याचा दृष्टीकोन विकसित केला. या चरणानुसार आम्ही आमच्या पेटंट ग्लोबल डेटा प्लॅटफॉर्मवर मोठ्या प्रमाणात व्हिडिओ रेकॉर्ड वाढविणे सुरू केले आहे. याचा परिणाम हा उच्च प्रतीचा व्हिडिओ डेटा आहे जो दाट लेबल केलेला, नैसर्गिक, मानवी-केंद्रित, वैविध्यपूर्ण आणि वास्तविक जगाशी संबंधित आहे.

गर्दीच्या अभिनयामध्ये चार चरण असतात: वर्गीकरण, गर्दीचे अभिनय, मॉडेल प्रशिक्षण आणि ग्राहक चाचण्या. पारंपारिक पाइपलाइनच्या उलट, गर्दी-अभिनय पाइपलाइन ही एक पळवाट आहे जी सतत सुधारत आहे.

आकृती 3: गर्दीचा अभिनय-डेटा संपादन दृष्टीकोन

आकृती 3 दर्शविते की गर्दीचा अभिनय पारंपारिक दृष्टीकोन वापरणार्‍या लोकांसाठी अवजड डेटा खनन प्रक्रिया आणि त्रुटी-प्रवृत्ती भाष्य प्रक्रिया सोडून देतो. त्याऐवजी, लोकांना आमच्या डेटा प्लॅटफॉर्मवर प्रदान केलेली लेबले वापरुन पहाण्यासाठी आणि बक्षीस म्हणून त्यांचे व्हिडिओ सबमिट करण्यास सांगितले जाते. जगभरातील पुरुष आणि स्त्रिया नैसर्गिक दृश्यांसह असंख्य वातावरणावरील त्यांच्या क्रिया आमच्या डेटा प्लॅटफॉर्मवर अपलोड करतात. म्हणूनच, आम्ही केवळ आमच्या डेटा सेटमध्ये विविधता प्राप्त करत नाही, म्हणजे. एच. यापुढे एआय वर्णद्वेष नाही, परंतु आमच्या गर्दीच्या कलाकारांना अधिक कार्यक्षमतेने कार्य करण्यास मदत करा.

दरम्यान, आमच्या आणि इतर रेकॉर्डमधील फरक असा आहे की आम्ही केवळ डेटा गोळा करण्याऐवजी नोंदी वाढवित आहोत. बर्‍याच अभिप्राय चॅनेल (आकृती 3) सह संपूर्ण डेटा संपादन प्रक्रियेदरम्यान आम्ही आमची वर्गीकरण आणि डेटा सेट सुधारित करतो. मॉडेल प्रशिक्षण आणि ग्राहक चाचण्या दोन्ही आमच्या वर्गाची वर्गीकरण, डेटा सेट आणि मॉडेल्स आमच्या ग्राहकांच्या आव्हानांशी अधिक चांगल्या प्रकारे जुळवून घेण्यासाठी मूल्यवान माहिती प्रदान करतात. आमची रेकॉर्ड वाढत असताना, व्यवसायातील आव्हानांची विस्तीर्ण श्रेणी हाताळण्यासाठी ते अधिक जटिल बनतात. परिणामी, आमची एआय मॉडेल आपल्या ग्राहकांच्या गरजा चांगल्या प्रकारे जुळवून घेत आहेत.

थोडक्यात, गर्दी-अभिनयाचे खालील फायदे आहेत:

  1. डेटा संकलनाची स्केलेबिलिटी आणि नियंत्रण जेणेकरुन रेकॉर्ड आकार आणि जटिलतेमध्ये वाढू शकतात. आम्ही वाढीच्या दिशेने प्रभावीपणे नियंत्रित देखील करू शकतो जेणेकरुन डेटा सराव, गुणवत्ता नियंत्रण आणि डेटा स्रोतांच्या विविधतेवर प्रासंगिकतेवर लक्ष केंद्रित करेल.
  2. वेळ कार्यक्षमता आणि आमच्यासाठी अभिप्रायाची संवादात्मकता, गर्दीचे कलाकार आणि आमच्या ग्राहक. डेटा संकलित करण्यासाठी लागणारा वेळ कमी केल्याने गर्दीचे कलाकार अधिक आनंदी होतात आणि सुधारण्यासाठी आमची नोंद अधिक लवचिक करते.
  3. पुन्हा कंटाळवाणा व्हिडिओ रेकॉर्ड बनवा, कारण उच्च-स्तरीय मानवी कृती विपरीत, मशीनमध्ये मानवी बुद्धी मिळविण्यासाठी रोजच्या क्रियांना (जीआयएफ 4) कंटाळवाण्याद्वारे सामान्य ज्ञान प्राप्त करणे आवश्यक आहे. नुकताच प्रकाशित केलेला एक लेख देखील याची पुष्टी करतो की मानवी कृतीची लहान क्लिप्स व्हिडिओ आकलन मॉडेलच्या प्रशिक्षणासाठी सर्वात प्रभावी आहेत.
जीआयएफ 4: गर्दीचा अभिनय high उच्च गुणवत्तेचा डेटा सेट तयार करतो

समुदाय प्रशासन

गर्दीच्या कृतीत मनुष्य आवश्यक आहे. आम्हाला एक पूरक टीम आणि जगभरातील असंख्य गर्दी कलाकार असण्याचा बहुमान मिळाला आहे. आमच्या गर्दीतील कलाकारांना आकर्षित करण्यासाठी आणि टिकवून ठेवण्यासाठी, आम्ही सतत आमचे समुदाय व्यवस्थापन सुधारत आहोत आणि काही महत्त्वाचे अंतर्दृष्टी एकत्र केले आहेत:

  1. विश्वास. डेटासेट मोठा करण्यासाठी, समुदायावरील विश्वास असणे आवश्यक आहे.
  2. आदर. गर्दीचे कलाकार संवेदनाहीन टर्क्स नसतात आणि ते आदरणीय असतात.
  3. पोषण. आम्ही त्यांच्या विश्वासास संप्रेषणाद्वारे भाग घेण्यासाठी प्रोत्साहित करतो.
  4. प्रतिबिंब. आम्ही एआय आणि गर्दीच्या कार्याशी संबंधित नैतिक मुद्द्यांवरील चिंतन करतो जेणेकरुन गर्दीचे कलाकार कार्यक्षमतेने कार्य करू शकतील आणि दर तासाला अधिक कमावतील.

स्वत: ला जगासाठी उघडा

प्रतिमा 4: डेटा, नवीन तेल, सिलोसमध्ये आहे. (स्रोत: डेव्हिड पार्किन्स अँड द इकॉनॉमिस्ट)

डेटा आज जगातील सर्वात मौल्यवान संसाधन आहे. प्रस्थापित कंपन्या सामान्यत: खंदकाच्या रूपात साइलोमध्ये मोठ्या प्रमाणात डेटा गोळा करतात (आकृती 4). डेटा आमच्या स्पर्धात्मक फायद्याचा एक भाग आहे, आम्ही संशोधनात रुजलेली एक कंपनी आहोत. उद्योगाला डेटा एक्सचेंजचा फायदा होईल, आपल्या समाजासाठी एआय चे संभाव्य फायदे अनलॉक करण्यासाठी एक आवश्यक पाऊल. म्हणून, आम्ही आमचे जेस्टर आणि समथिंग-समथिंग रेकॉर्ड उघडतो जे शैक्षणिक वापरासाठी विनामूल्य आहेत. आमच्या अहवालांविषयी आपल्याला या अहवालात अधिक माहिती मिळू शकेल. आपण आमच्या व्यावसायिक वापरासाठी रेकॉर्ड परवाना घेऊ इच्छित असल्यास कृपया आमच्याशी संपर्क साधा.

आपल्याला चाक पुन्हा चालू करण्याची गरज नाही. म्हणून येथे आणि येथे आमच्या डेटासेटस भेट द्या, डेटा डाउनलोड करा आणि सखोल अभ्यास सुरू करा! त्याहूनही चांगले, आमच्या चाचणी सेटमध्ये आपल्या मॉडेलची तुलना करण्यासाठी आणि आमच्या क्रमवारीत सामील होण्यासाठी आम्ही आपले मनःपूर्वक स्वागत करतो.

आपण जे वाचले किंवा शिकले आहे ते आपल्याला आवडत असल्यास आपण टाळ्या वाजवून आमच्या मागे यावे!