आयाम कमी - आपल्या डेटासेटमधील वैशिष्ट्यांसह कसे व्यवहार करावे (भाग 1)

वास्तविक जागतिक डेटा गोंधळलेला आहे आणि त्यात मुख्यत: अवांछित आणि निरर्थक वैशिष्ट्ये आहेत. ही अनावश्यक वैशिष्ट्ये बर्‍याचदा आपल्या भविष्यवाणी करणा models्या मॉडेल्सला अपेक्षेप्रमाणे काम करणे खूप अवघड बनवतात. म्हणून आयामी घट कमी करणे, विद्यमान वैशिष्ट्यांचा समावेश करणे आणि त्यामध्ये बदल करणे या प्रक्रियेस डेटा पूर्व प्रक्रियेसाठी महत्त्वपूर्ण पाऊल बनते.

एकदा आमच्याकडे संक्षिप्त आणि संबद्ध डेटा असल्यास तो आम्हाला मदत करतो

  • डेटा सेटचे अधिक चांगले व्हिज्युअलायझेशन आणि अन्वेषण
  • स्मृतीत कमी जागा व्यापत आहे
  • भविष्यवाणी करणार्‍या मॉडेलची जटिलता कमी करणे आणि त्याचा अर्थ लावणे अधिक सुलभ करते
  • ओव्हरफिटिंग कमी करणे
  • योग्य वैशिष्ट्ये निवडून मॉडेलची कार्यक्षमता सुधारित करणे

प्रक्रियेचे विस्तृतपणे 2 प्रकारे वर्गीकरण केले जाऊ शकते:

  1. वैशिष्ट्य निवड - डेटामध्ये उपस्थित असलेले गुण बदल न करता वगळण्याची किंवा समाविष्ट करण्याची प्रक्रिया.
  2. वैशिष्ट्य माहिती - विद्यमान गुणधर्मांवर काही बदल करून विशेषतांचे नवीन संयोजन तयार करण्याची प्रक्रिया

या कथेत आपण वैशिष्ट्य निवड भाग पाहू. या कथेच्या भाग 2 मध्ये वैशिष्ट्य माहितीबद्दल चर्चा केली जाईल.

वैशिष्ट्य निवड 3 मुख्य श्रेणींमध्ये विभागली आहे.

  1. फिल्टर पद्धत
  2. 2. आवरण पद्धत
  3. 3. एम्बेड पद्धत.

आम्ही प्रत्येकावर सविस्तर चर्चा करू.

1.फिल्टर पद्धती

येथे लक्ष्य संबंधित त्यांचे वैशिष्ट्य, वैशिष्ट्यांचे विशिष्टता, त्यांचे सांख्यिकीय महत्त्व यावर आधारित सर्वात संबंधित वैशिष्ट्ये निवडली आहेत. डेटासेट प्रशिक्षित करण्यासाठी वापरलेला एमएल अल्गोरिदम वैशिष्ट्ये निवडताना त्यात सामील नाही.

वारंवार वापरल्या जाणार्‍या काही फिल्टर पद्धती:

अ. गहाळ मूल्य प्रमाण: बर्‍याचदा आम्ही डेटा भेटतो जिथे काही स्तंभांमध्ये मूल्ये गहाळ असतात. स्तंभ मुख्यतः रिक्त असल्यास ते पुरेशी संबंधित माहिती देत ​​नाही. म्हणून आम्ही प्रत्येक स्तंभातील गहाळ मूल्य गुणोत्तर शोधू आणि मान्य थ्रेशोल्ड रेशो न पूर्ण करणारे स्तंभ काढून टाकू.

बी. लो व्हेरिएन्स फिल्टर: जर स्तंभातील डेटाचा प्रसार बहुधा एकसंध असेल तर त्याचे रूपांतर शून्यावर असेल. असे स्तंभ लक्ष्य व्हेरिएबलच्या अंदाजात फारसे योगदान देत नाहीत. तर थ्रेशोल्ड व्हेरिएन्स व्हॅल्यूचा निर्णय घेतल्यानंतर आम्ही ज्या कॉलमच्या खाली भिन्न कॉलम काढून टाकू शकतो. परंतु भिन्नता डेटाच्या प्रसार / श्रेणीवर अवलंबून असते. म्हणून ही पद्धत लागू करण्यापूर्वी डेटा सामान्य करणे महत्वाचे आहे.

सी. माहिती मिळवणे: हे २ चलांमधील अवलंबित्व मोजण्यात मदत करते. मुख्यत: वर्गीकरण समस्येमध्ये याचा वापर केला जातो. आयजी प्रत्येक वैशिष्ट्याकडे पहातो आणि लक्षणीय व्हेरिएबलचे वर्गीकरण करण्यासाठी ते वैशिष्ट्य किती महत्वाचे आहे हे मोजते. त्यात एंट्रोपीचे मापन असते. (माहिती लाभ = 1-एन्ट्रोपी). वर्गीकरण करणे जितके जास्त माहिती मिळवते तितके चांगले.

आपण 2 वैशिष्ट्ये x1 आणि x2 असलेले डेटासेट आणि 0 व 1 मूल्ये असलेले लक्ष्य व्हेरिएबल y विचार करूया. X1 च्या आधारे एकदा आणि एकदा x2 च्या आधारे एकदा y चे वर्गीकरण करू.

विशिष्ट विभाजनासाठी 1 आणि 0 एसची टक्केवारी पी 1 आणि पी 2 द्या, म्हणून त्या विभाजनासाठी एंट्रोपी असेल

Y च्या प्रत्येक विभाजनासाठी एन्ट्रॉपी आणि माहिती मिळवतो

येथे आपण पाहतो की एक्स 2 च्या विभाजनासाठी आयजी अधिक आहे आणि वर्गीकरण देखील चांगले आहे. म्हणून एक्स 2 एक चांगले वैशिष्ट्य आहे आणि ते निवडले जावे.

डी. पीयर्सनचा सहसंबंध: हे सतत मूल्ये असलेल्या दुसर्या स्तंभात सतत मूल्यांसह लक्ष्य स्तंभाचे अवलंबन मोजते. हे 2 व्हेरिएबल्स दरम्यान रेषीय संबद्धता मोजते.

जर मूल्य ± 1 च्या जवळ असेल तर ते एक परस्पर परस्परसंबंध असल्याचे म्हटले आहे: जसजसे एक चल वाढत जातो, तसतसा अन्य चल देखील वाढतो (सकारात्मक असल्यास) किंवा कमी होतो (नकारात्मक असल्यास).

जेव्हा व्हॅल्यू शून्याजवळ असते तेव्हा व्हेरिएबल्सला परस्पर संबंध नसल्याचे म्हटले जाते. यावर अधिक.

ई. अनोवा: हे एका वेगळ्या मूल्यांसह असलेल्या स्तंभात निरंतर मूल्ये असलेल्या लक्ष्य स्तंभाचे अवलंबित्व मोजून घेते. आम्ही प्रथम चर्चा करण्यापूर्वी मी वाचकांना येथून एनोवाची संकल्पना समजून घेण्यास उद्युक्त करेन.

आपण संभाव्य मूल्ये ए, बी आणि सी आणि एक निरंतर मूल्ये असलेल्या लक्ष्य स्तंभ वायांसह एक स्पष्ट वैशिष्ट्य एक्सचा विचार करूया. आता आम्ही या वैशिष्ट्यीकृत x च्या श्रेणीनुसार या सतत लक्ष्य मूल्यांचे गट करू

X च्या श्रेणीनुसार y ची मूल्ये गटबद्ध केल्यावर आपल्याला सारणी सारखी असल्याचे आढळेल

आता एनोवा निश्चित करेल की या प्रत्येक गटातील (ए, बी, सी) मूल्ये मुळात समान आहेत (नल हायपोथेसिस) किंवा त्यामध्ये (नल हायपोथेसिस) काही फरक असेल तर.

जर आपली नल हायपोथेसिस सत्य असेल तर आम्ही असा निष्कर्ष काढू की वर्गीकृत वैशिष्ट्य एक्सचा वाय. वर कोणताही प्रभाव नाही.

अन्यथा जर नल हायपोथेसिस नाकारली गेली तर आम्ही असा निष्कर्ष काढू की एक्स वैशिष्ट्यावरील भिन्न श्रेणी वाईवर प्रभाव पाडतात आणि म्हणूनच आमच्या वैशिष्ट्य निवडण्याच्या तंत्रात निवड केली जावी.

  • जर सांख्यिकीय <गंभीर मूल्य: महत्त्वपूर्ण परिणाम नाही तर शून्य गृहीतक (हो) नाकारू नका, स्वतंत्र.
  • जर आकडेवारी> = गंभीर मूल्य: महत्त्वपूर्ण परिणाम, निरर्थक परिकल्पना (हो) नाकारून द्या.

f ची स्क्वेअर: दोन श्रेणीतील चलांमधील महत्त्वपूर्ण संबंध आहे की नाही हे ची वर्ग चाचणी निर्धारित करते. ची स्क्वेअर वितरण आणि ची स्क्वेअरची गणना कशी करावी हे समजून घेण्यासाठी आपण त्या माध्यमातून जाऊ शकता. आता हे आपण मशीन शिक्षणातील वैशिष्ट्य निवडीसाठी कसे वापरावे?

हे मुळात हे ठरवते की भिन्न गट (विज्ञान, कला, गणित) मधील अन्य भिन्न Y (व्याज) च्या भिन्न श्रेणींमध्ये (विज्ञान, कला, गणित) विशिष्ट गटात (पुरुष, महिला) वारंवारता वितरण समान किंवा नाही किंवा नाही.

येथे आपल्याकडे आर्ट सायन्स आणि गणिताद्वारे गटबद्ध केलेली 2 वारंवारता वितरण (पुरुष आणि मादी) आहेत. तर आम्ही हे निर्धारित करू की वारंवारतेचे हे दोन संच समान आहेत (नल हायपोथेसिस) किंवा त्यांच्यात लक्षणीय फरक आहे (पर्यायी हायपोथेसिस)

  • जर सांख्यिकीय <गंभीर मूल्य: महत्त्वपूर्ण परिणाम नाही तर शून्य गृहीतक (हो) नाकारू नका, स्वतंत्र.
  • जर आकडेवारी> = गंभीर मूल्य: महत्त्वपूर्ण परिणाम, निरर्थक परिकल्पना (हो) नाकारून द्या.

यावर अधिक.

2. आवरण पद्धती

रॅपर पद्धती लोभी शोध अल्गोरिदमांवर आधारित आहेत कारण त्या वैशिष्ट्यांच्या सर्व संभाव्य संयोजनांचे मूल्यांकन करतात आणि विशिष्ट मशीन लर्निंग अल्गोरिदमसाठी सर्वोत्तम परिणाम देणारे संयोजन निवडतात. हे अल्गोरिदमच्या कार्यप्रदर्शनावर आधारित सबसेटमधील वैशिष्ट्ये पुनरावृत्तीपणे निवडते किंवा नाकारते. हे सर्व संभाव्य संयोगांची चाचणी करते आणि म्हणून संगणकीयदृष्ट्या महाग असते.

सर्वात सामान्य रॅपर पद्धती:

अ. वैशिष्ट्य निवड अग्रेषित करा

येथे 1 वैशिष्ट्यांसह वैशिष्ट्ये एकाने निवडली आहेत.

पहिल्या टप्प्यात अल्गोरिदम प्रत्येक वैशिष्ट्यासह प्रशिक्षण दिले जाते. त्यातील सर्वोत्तम निवडले गेले आहे.

दुसर्‍या टप्प्यात ते वैशिष्ट्य इतर वैशिष्ट्यांसह एकत्रित घेतले जाते आणि 2 मधील उत्कृष्ट संयोजन निवडले गेले आहे.

आवश्यक संख्या वैशिष्ट्यांचे सर्वोत्कृष्ट संयोजन निवडल्याशिवाय हे सुरूच आहे.

बी. रिकर्सिव फीचर एलिमिनेशन

रिकर्सिव फीचर एलिमिनेशन प्रक्रिया डेटासेटमधील सर्व वैशिष्ट्यांसह प्रारंभ होते. हे एकदा प्रत्येक रॉबिन मार्गाने प्रत्येक वैशिष्ट्ये काढून टाकते आणि उर्वरित उपसेटवरील कामगिरीचे मूल्यांकन करते. उत्कृष्ट कामगिरी करणारा सबसेट निवडला आहे.

या निवडलेल्या (# वैशिष्ट्यांसह -1) उपसेटसह, उर्वरित प्रत्येक वैशिष्ट्य एकदा काढले जाईल आणि कार्यप्रदर्शन मूल्यांकन केले जाईल. उत्कृष्ट परफॉरमिंग फीचर सबसेट (# फीचर्स -2) निवडलेले आहे.

जोपर्यंत आम्हाला आवश्यक निकषांची पूर्तता सर्वोत्कृष्ट परफॉरमिंग फीचर सबसेट मिळत नाही तोपर्यंत ही प्रक्रिया सुरूच आहे

3. अंतःस्थापित पद्धती

कधीकधी अधिक वैशिष्ट्ये असण्यामुळे आवाज वाढेल. मॉडेल डेटाचा ट्रेंड शिकण्याऐवजी आवाजाचे स्मरण करू शकेल. काळजीपूर्वक प्रशिक्षण दिले नाही तर अयोग्यपणामुळे निम्न-गुणवत्तेचे मॉडेल येऊ शकते. याला ओव्हरफिटिंग म्हणतात

जास्तीत जास्त कपात टाळण्यामागील मुख्य संकल्पना म्हणजे शक्य तितक्या मॉडेल्स सुलभ करणे. साध्या मॉडेल्स (सहसा) जास्त शोभा आणत नाहीत दुसरीकडे, मॉडेलला जास्त बसविणे आणि अंडरफिट करणे यादरम्यान आपण सौम्य व्यापाराकडे लक्ष देणे आवश्यक आहे. हे नियमित करण्याद्वारे प्राप्त केले जाते.

नियमित करण्यामागील मूलभूत कल्पना शिकलेल्या वजनाच्या (डब्ल्यू) अधिक मूल्यासाठी तोटा फंक्शन दंड म्हणून समजली जाऊ शकते. यामुळे काही वैशिष्ट्ये वेगाने वाढविण्यास आणि अतिउत्साहीपणास प्रतिबंधित करते.

हे सविस्तरपणे समजू या

चला ट्रेनिंग स्पेसमध्ये असलेल्या विक्रमाचा विचार करूया

X [0], x [1], x [2] .. x [n] द्वारे दर्शविलेले] n वैशिष्ट्ये.

Learned शिकलेले पॅरामीटर्स किंवा वजन डब्ल्यू [0], डब्ल्यू [1], डब्ल्यू [2]… डब्ल्यू [एन].

Target लक्ष्य मूल्य y आहे

भाकीत मूल्य असू द्या

आता तोटा फंक्शन असे परिभाषित केले जाऊ शकतेः

आपला संपूर्ण हेतू 1.2 मध्ये परिभाषित तोटा कार्य कमी करणे आहे.

म्हणून जर काही वैशिष्ट्यामुळे एक्स [जे] संबंधित वजन डब्ल्यू [जे] स्फोट झाला, तर हे कदाचित जास्त वेगाने येऊ शकेल. हे टाळण्यासाठी आम्ही त्या स्फोट झालेल्या वजनांसाठी झालेल्या नुकसानाच्या कार्यावर दंड करणे आवश्यक आहे. ते खालीलप्रमाणे केले जाऊ शकते:

येथे आम्ही वजनासह नियमितपणाचे पॅरामीटर जोडतो जेणेकरून किंमतीचे कार्य कमी करतांना, काही वजन कमी केल्याने मॉडेल कमी जटिल बनले.

अ. रिज रीग्रेशन

रिज रीग्रेशनमध्ये वजनाचे वर्ग डब्ल्यू [जे] बरोबर घेतले जाते.

यामुळे, बदलून by वजन नियमित केले आणि संकोचन केले परंतु कधीही 0 पर्यंत पोहोचत नाहीत.

रिज रीग्रेशनवर अधिक येथे

बी. लासो रीग्रेशन

लासोमध्ये वजनाचे परिपूर्ण व्हीएई [जे] बरोबर घेतले जातात taken.

यामुळे शून्य वजन होऊ शकते म्हणजेच काही वैशिष्ट्ये आऊटपुटच्या मूल्यांकनासाठी पूर्णपणे दुर्लक्षित केली जातात अशा प्रकारे काही वैशिष्ट्ये पूर्णपणे काढून टाकली जातात.

येथे लास्को रीग्रेशनवर अधिक.

म्हणून आम्ही जवळजवळ मोठे परिमाण कपात करण्याचे तंत्र कव्हर केले आहे जे एक सोपा मॉडेल तयार करण्यासाठी कमी अयोग्य वैशिष्ट्यांपासून मुक्त होते किंवा संकुचित होते. नवीन वैशिष्ट्य काढण्याचा विषय नंतर वर घेतला जाईल.

हे देखील पहा

2018 मध्ये मी वेब डेव्हलपमेंट कसा करू शकतो? काय शिकले पाहिजे?एखाद्याने अ‍ॅडव्हान्स अल्गोरिदमसह प्रोग्रामिंग शिकणे कसे सुरू करावे? आपण विकसक कसे बनता? जर एखाद्या अपवर्क विकसकाने 5-स्टार अपवर्क डिझायनर म्हणून साइट डिझाइनची अंमलबजावणीसाठी 10 वेळा जास्त वेळ (सुमारे 100 तास) खर्च केला असेल तर विकसकास बर्‍याच तासांची आवश्यकता आहे की तो करार दुधवत आहे हे मी कसे सांगू शकेन? विंडोज फोनवर गूगल व्हॉईस कसे वापरावेमी वेबसाइटचे विषारी दुवे कसे आणू आणि ते अनुक्रमित होण्यापासून कसे दूर करू? अजगर शिकण्यासाठी मला किती वेळ लागेल जेणेकरुन मी मशीन शिक्षण शिकू शकेन? स्नॅपचॅट सारखा अ‍ॅप तयार करण्यासाठी किती किंमत आहे?