डेटासह कसे सुरू करावे

क्रेडिट: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

आम्ही सर्वांनी आवाज चावलेला ऐकला आहे.

“जगातील सर्वात मौल्यवान स्त्रोत आता तेल नाही, तर डेटा आहे” - इकॉनॉमिस्ट

कदाचित. परंतु जर डेटा तेलासारखा असेल तर बर्‍याच संघटनांकडील डेटाची स्थिती यासमान आहे:

खोल पाण्याची होरायझन तेलाची गळती

डेटा सागरात असंख्य डेटा प्रवाह गमावले जात आहेत. कोणत्याही डेटा वैज्ञानिकांना विचारा आणि ते तुम्हाला सांगतील की डेटा सायन्सची सर्वात कठीण गोष्ट योग्य डेटा कॅप्चर करणे आहे. मग आम्ही कसे सुरू करू?

1. योग्य प्रश्न विचारा

त्याकरिता डेटा कॅप्चर करणे फालतू आणि वेळ घेणारे दोन्ही आहे. आम्हाला आमची मेट्रिक्स शोधण्याची आवश्यकता आहे जी व्यवसायाच्या उद्दीष्टांवर आधारित असावी. सर्वाधिक विक्रीची उत्पादने काय आहेत? वापरकर्ते बहु-चरण प्रक्रिया कोठे सोडत आहेत? आमच्याकडे किती सक्रिय वापरकर्ते आहेत? बर्‍याच संस्था त्यांच्या भागधारकांना मेट्रिक्स सादर करतात त्या गोष्टींवर आधारित जे ते मोजू शकतात (उदा. महसूल) त्यांच्या कंपनीच्या दिशेने सर्वात चांगले काय संरेखित होते हे आवश्यक नाही.

एकदा आम्ही काय मोजण्यासाठी प्रयत्न करीत आहोत हे आम्हाला माहित झाल्यावर डेटा कोठे शोधायचा हे ठरवू शकतो आणि संबंधित डेटा मिळविणे सुरू करण्यासाठी चरणांची योजना आखू शकतो.

2. डेटा-चालित संस्कृती प्रदान करा

एकदा संस्था विशिष्ट आकारात वाढली की ते यापुढे पूर्णपणे “आतड्यांच्या भावना” वर अवलंबून राहू शकत नाहीत. निर्णय डेटावर आधारित असावेत आणि हा डेटा सर्व स्तरांवर उपलब्ध असणे आवश्यक आहे.

कर्मचारी डेटा आणि मेट्रिक्समध्ये प्रवेश करू शकतात की ते सुरक्षा आणि लाल टेपच्या थरांच्या मागे आहेत? कर्मचार्‍यांना डेटासेटवर डेटा अन्वेषण करण्यास सक्षम केले पाहिजे (ज्याचे नाव निनावी ठेवले पाहिजे आणि गोपनीयतेचा आदर करण्यासाठी सुरक्षित केले पाहिजे). इन-हाऊस सेल्फ सर्व्हिस ticsनालिटिक्स प्लॅटफॉर्म यासाठी आदर्श आहे. हे काम खुले आणि पारदर्शक असणे आवश्यक आहे. कार्य डॅशबोर्डवर ठेवणे आणि त्यास विस्तृतपणे संघटना सामायिक करणे अत्यावश्यक आहे.

संस्थांना या प्रकारच्या कार्यासाठी समर्थन, प्रोत्साहन आणि संसाधने प्रदान करण्याची आवश्यकता आहे. याचा अर्थ वेळ आणि पैसा, तथापि डेटा-चालित संस्कृती अधिक माहितीपूर्ण निर्णय घेण्यास प्रोत्साहित करेल.

3. डेटा अभियंते भाड्याने घ्या

डेटा इंजिनिअर्स नव्हे तर डेटा सायंटिस्ट ठेवणे ही संघटनांची सामान्य कमतरता आहे. डेटा वैज्ञानिक पूर्णपणे गंभीर आहेत, ते डेटामधील नमुने शोधू शकतात, निकालांचा अंदाज घेऊ शकतात आणि मॉडेल लिहू शकतात जे स्वत: ला सुधारणे शिकू शकतात. सतर्कता म्हणजे हे सर्व गुणवत्तेच्या डेटावर अवलंबून असते. डेटा जो केवळ मोठ्या डेटा इन्फ्रास्ट्रक्चर, ईटीएल आणि प्रोग्रामिंग स्वयंचलित वर्कफ्लोद्वारे प्राप्त केला जाऊ शकतो. ही सहसा डेटा अभियंताची भूमिका असते. जे लोक यासाठी पात्र आहेत त्यांना कार्य द्या आणि महत्त्वाचे म्हणजे ते करुन आनंद घ्या.

4. लहान आणि स्वस्त प्रारंभ करा

मोठ्या डेटा हायप ट्रेनमध्ये उडी मारणे, डेटा सायन्स टीम तयार करणे, एंटरप्राइझ analyनालिटिक्स सॉफ्टवेअर खरेदी करणे आणि त्यासाठी दर्शविण्यासाठी फारच कमी पैसे खर्च करणे खूप मोहक असू शकते. मोठी गुंतवणूक करण्यापूर्वी बरेच काही केले जाऊ शकते. कोणतीही संघटना वापरू शकतील अशी काही साधने येथे आहेत.

  • मिक्सपनेल किंवा एम्प्लिट्यूड सारख्या जावास्क्रिप्ट एनालिटिक्स लिब. हे मासिक वापरकर्त्यांच्या विशिष्ट प्रमाणात विनामूल्य आहे.
  • स्वयंचलित कार्यप्रवाह व्यवस्थापनासाठी एअरफ्लो. एअरबीएनबी द्वारा निर्मित आणि अपाचे सॉफ्टवेअर फाऊंडेशनमध्ये इनक्युबेटेड, हे ओपन सोर्स आणि डेटा अभियंत्यांसाठी एक डी स्टॅक्टर्ड मानक आहे.
  • सुपरसेटसह डॅशबोर्ड, चार्ट आणि डेटा अन्वेषण (अ‍ॅपाचे द्वारा देखील) डेटाबेस देखील एक चांगला पर्याय आहे आणि दोन्ही ओपन सोर्स आहेत.
  • डेटाबे्रिक्स समुदाय आवृत्ती आणि कॅग्गले. दोन्ही क्लाऊडवर डेटा विज्ञान प्रक्रियेसाठी आणि विनामूल्य वापरले जाऊ शकतात.
  • Amazonमेझॉन वेब सर्व्हिसेस एस 3. विनामूल्य नाही परंतु येथे समाविष्ट केले आहे कारण आज विकसित केलेल्या तंत्रज्ञानासह डेटा वेअरहाउस असणे नेहमीच आवश्यक नसते. स्टोरेज स्वस्त आहे आणि डेटाबे्रिक्स, मोंगोडीबी डेटा लेक, एडब्ल्यूएस अथेना सारख्या सेवा म्हणजे आपण आपल्या डेटा लेकवरून थेट वाचू शकता.

या कल्पना एखाद्या संस्थेस योग्य डेटा मिळविणे आणि त्याचे मूल्य लक्षात घेण्यास प्रारंभ करण्यासाठी एक चांगला पाया प्रदान करतात.