डेंग्यूचे पूर्वानुमानः वेक्टर पाळत ठेवणे आणि नियंत्रणात डेटा सायन्स कसे वापरावे

अनन्या जोशी, ली झिनई, यू पियानर, झांग वी यांच्यासह टीम टीएफएफएलद्वारे

आमच्या परस्परसंवादी वेब साधनाचा स्नॅपशॉट

सिंगापूरमध्ये डेंग्यू हे सार्वजनिक आरोग्याचे संकट आहे. डेंग्यूपासून बचाव करण्याच्या प्रयत्नांना मदत करण्यासाठी येत्या आठ आठवड्यांत डेंग्यूच्या किती रुग्णांची संख्या असेल याचा अंदाज या प्रकल्पाद्वारे वर्तविण्यात आला आहे. आम्ही तापमान, आर्द्रता, डेंग्यूची प्रकरणे आणि एलसीटीएमसह पर्सेप्ट्रॉन नेटवर्क, फूरियर ट्रान्सफॉर्म, एक्सजीबीस्ट आणि आरएनएन वापरून लोकसंख्या डेटावर आधारित मॉडेल तयार करतो. या लेखात, आम्ही संबंधित पार्श्वभूमी ज्ञान, गृहिते, चरण-दर-चरण मॉडेल निर्मिती आणि संभाव्य अंमलबजावणी यांचे वर्णन करतो. आमचे वेब साधन https://dengue-prediction.herokuapp.com/ वर उपलब्ध आहे, जे आपल्याला या दस्तऐवजाद्वारे घेऊन जाईल. ऑनलाइन साधन वापरताना, पृष्ठ पूर्णपणे लोड झाले आहे का ते पाहण्यासाठी उजवीकडे वरच्या बाजूने चालू असलेल्या प्रतीकाची प्रतीक्षा करा.

पार्श्वभूमी

डेंग्यू हा शहरी-रहिवासी डास एडिस एजिप्टीद्वारे प्रसारित केलेला उष्णकटिबंधीय आणि उप-उष्णकटिबंधीय स्थानिक आजार आहे, हा जगातील शंभराहून अधिक देशांवर परिणाम करणारे सार्वजनिक आरोग्याचा धोका आहे (गुझमान, २०१;; डब्ल्यूएचओ, २०१ 2019). सिंगापूरमध्ये दरवर्षी दहा ते वीस हजार लोक डेंग्यू तापाने खाली येतात आणि डेंग्यू आजाराशी संबंधित परिणाम ऑफसेट करण्यासाठी दरवर्षी १ अब्ज अमेरिकन डॉलर्सपेक्षा जास्त खर्च केला जातो (कॅरॅस्को, २०११; लेर, २०११; एनजी, २०१;;). एकट्या 2019 मध्ये (सप्टेंबर पर्यंत) डेंग्यूचे स्थानिक पातळीवर 15,999 रुग्ण आढळले आहेत, त्यामध्ये डेंग्यू हेमोरॅजिक फिव्हरची 65 प्रकरणे आणि संक्रमणामुळे 17 मृत्यू (एनईए, 2019) यांचा समावेश आहे. नागरीकरणाच्या वाढती प्रमाणात आणि समांतर वेक्टर भू-विस्तारामुळे डेंग्यूचा धोका आणि केसेस लवकरच वाढण्याची शक्यता आहे (हापुआराची, २०१)). कार्यक्षम औषधे आणि लसींच्या अभावामुळे (कॅम्पोस 2018; सिल्वीरा 2019) सार्वजनिक आरोग्य जोखीम व्यवस्थापित करण्यासाठी आणि संसर्ग मृत्यू कमी करण्यासाठी प्रतिबंध आणि पाळत ठेवणे ही गुरुकिल्ली ठरली आहे. येथे, आम्ही सिंगापूरच्या डेंग्यूच्या संसर्गाची घटना आणि साथीच्या नियंत्रणावरील राष्ट्रीय पाळत ठेवण्यासाठी वैयक्तिक आणि एजन्सीची तयारी दर्शविण्यासाठी 8 ते 8 आठवडे अगोदरच डेंग्यूच्या प्रसाराच्या घटनांचा अंदाज लावण्यासाठी डेटा-चालित मॉडेल्स तयार करण्यासाठी पायथन आणि स्मोजोचा शोध घेतला.

खाली आपण कार्य केलेल्या मॉडेल्सच्या महत्त्वपूर्ण तांत्रिक पार्श्वभूमीचे थोडक्यात वर्णन मिळेल.

  • एलएसटीएमसह आरएनएन

रिकर्ंट न्यूरल नेटवर्क अंतर्गत मेमरी असलेल्या फीडफॉरवर्ड न्यूरल नेटवर्कचे सामान्यीकरण आहे. सध्याच्या इनपुटचे आऊटपुट मागील एका संगणकावर अवलंबून असते तेव्हा डेटाच्या प्रत्येक इनपुटसाठी समान कार्य करते कारण आरएनएन निसर्गात वारंवार येते. फीडफॉरवर्ड न्यूरल नेटवर्कच्या विपरीत, आरएनएन इनपुटच्या अनुक्रमांवर प्रक्रिया करण्यासाठी त्यांची अंतर्गत स्थिती (मेमरी) वापरू शकतात. हे त्यांना असंघटित, कनेक्ट केलेले हस्तलेखन ओळख किंवा भाषण ओळख यासारख्या कार्यांवर लागू करते. इतर न्यूरल नेटवर्कमध्ये, सर्व इनपुट एकमेकांपासून स्वतंत्र असतात. परंतु आरएनएन मध्ये, सर्व इनपुट एकमेकांशी संबंधित आहेत.

लाँग शॉर्ट-टर्म मेमरी (एलएसटीएम) नेटवर्क ही रिकर्न्टल न्यूरल नेटवर्कची सुधारित आवृत्ती आहे, ज्यामुळे मेमरीमधील मागील डेटा लक्षात ठेवणे सुलभ होते. आरएनएनची गायब ग्रेडियंट समस्या येथे सोडविली आहे. एलएसटीएम अज्ञात कालावधीची मुदत दिली असल्यास वेळ वर्गीकरण, प्रक्रिया करणे आणि वेळ मालिकेचा अंदाज लावण्यास अनुकूल आहे. हे बॅक-प्रोप्रोसेशन वापरून मॉडेलचे प्रशिक्षण देते.

एक सामान्य एलएसटीएम युनिट सेल, इनपुट गेट, आउटपुट गेट आणि विसरणे गेटसह बनलेले असते. सेल अनियंत्रित वेळ मध्यांतर मूल्ये लक्षात ठेवतो आणि तीन गेट्स सेलमधील आणि बाहेरील माहितीच्या प्रवाहाचे नियमन करतात.

https://towardsdatasज्ञान.com/:30 বোঝ्या-rnn-and-lstm-f7cdf6dfc14e

  • XGBoost

एक्सजीबीस्ट हा एक निर्णय-वृक्ष-आधारित एन्सेम्बल मशीन लर्निंग अल्गोरिदम आहे जो ग्रेडियंट बूस्टिंग फ्रेमवर्कचा वापर करतो. पूर्वनियोजित अडचणींमध्ये असंरचित डेटा (प्रतिमा, मजकूर इ.) समाविष्टीत कृत्रिम न्यूरल नेटवर्क्स इतर सर्व अल्गोरिदम किंवा फ्रेमवर्कपेक्षा जास्त काम करतात. तथापि, जेव्हा लहान-मध्यम-रचनात्मक / सारणीसंबंधी डेटाचा विचार केला जातो, तेव्हा निर्णय वृक्ष आधारित अल्गोरिदम आत्ताच उत्कृष्ट-वर्गात मानले जातात.

https://towardsdatasज्ञान.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d

गृहीतके

डेंग्यूचे प्रसारण वेक्टर (एडीज एजिप्टी आणि एडीज अल्बोपिक्टस) लोकसंख्या गतिशीलता आणि जीवशास्त्र यासंबंधी अनेक कारणांमुळे वेगळ्या मार्गांनी हवामानशास्त्रीय चलांशी संबंधित आहेत. वाढत्या तापमानामुळे, उदाहरणार्थ, प्रौढ डासांना क्षमता मिळविण्यास आणि डेंग्यू विषाणूच्या बाह्य उष्मायन काळ कमी करण्यास परवानगी देते (डासांमधील विषाणू घेण्याचे आणि अखेरीस ते प्रोबोस्सिसद्वारे मानवांमध्ये संक्रमित करण्यास सक्षम असण्याची वेळ). तथापि, उच्च तापमानामुळे डेंग्यू विषाणूची प्रतिकृती आणि डासांचे आयुष्य कमी होते. वेक्टर प्रजननासाठी रखडलेले पूल देऊन पावसामुळे डेंग्यूच्या वाढत्या घटनांशी संबंध होतो. तथापि, जास्त पाऊस झाल्याने डासांच्या अळ्या मरतात आणि विषाणूचा संसर्ग होण्याचा धोका कमी होतो. डेंग्यूच्या संसर्गाचे प्रमाण वाढवणारी आणखी एक लोकसंख्या आहे, कारण गर्दीची मात्रा आणि सतत मानवी प्रवाहांची मात्रा वेक्टर प्रजनन आणि होस्ट-टू-होस्ट ट्रान्समिशन सुलभ करण्यासाठी मुख्य घटक आहेत.

आमच्या अंदाजानुसार, आम्ही असे मानतो की सिंगापूरमध्ये डेंग्यूची घटना तापमान, पाऊस, डेंग्यू विषाणूच्या रूढी आणि देशातील लोकसंख्येतील बदल आणि चढउतारांवर लक्षणीय अवलंबून असते. आम्ही असेही मानतो की या पॅरामीटर्स आणि डेंग्यूच्या घटनांवरील डेटा अचूकपणे संग्रहित केला जातो आणि संबंधित कालावधीसाठी खरी परिस्थिती प्रतिबिंबित करतो.

डेटा अन्वेषण

आमच्या मॉडेलमध्ये आम्ही चार प्राथमिक डेटासेट वापरत आहोतः डेंग्यूची संख्या, आर्द्रता, तापमान आणि लोकसंख्या. डेंग्यू डेटासेटसाठी, एकूण 1038 वापरण्यायोग्य डेटा पॉइंट्स आहेत, जे 2000 ते 2019 या कालावधीत सरासरी महामारी विज्ञान-आठवड्यानुसार वितरित केले जातात. हे असे दिसते:

पावसाळ्यात डेंग्यूच्या घटनांमध्ये वाढ दिसून येते. आम्ही डेटा डेंग्यूच्या संख्येची तुलना कोणत्या आकडेवारीनुसार करतो याची तुलना केली.

आठवड्यात 20-30 आणि 50–3 (पुढील वर्षी) डेंग्यूच्या बाबतीत सामान्यत: वाढ दिसून येते. याव्यतिरिक्त, 2013, 2014 आणि 2019 मध्ये डेंग्यूची वाढ झाली आहे हे दर्शविण्यासारखे आणखी एक घटक आहे. “सिंगापूरमध्ये डेंग्यू २०० 2004 ते २०१ from पर्यंत: चक्रीय महामारी नमुने सेरोटाइप १ आणि २ च्या आधारावर” (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6085773/), असे दिसते की प्रबुद्ध सेरोटाइप डेंग्यूची प्रकरणे दर दोन वर्षांनी बदलतात. जेव्हा सेरोटाइप्स भिन्न असतात तेव्हा तेथे स्पाइक्स दिसतात.

लोकसंख्येचा डेटा अगदी सरळ आहे. दरवर्षी लोकसंख्या सातत्याने वाढत असताना 60 वर्षांचा डेटा आहे. आमचा डेंग्यू डेटा लोकसंख्येच्या प्रमाणात सामान्य करणे अर्थपूर्ण ठरेल कारण लोकसंख्या वाढताच डेंग्यूचे प्रमाण जास्त होण्याची शक्यता आहे. तथापि, आम्ही केवळ भविष्य आठ आठवडे सांगत आहोत, आम्ही एकटेच 2019 ची लोकसंख्या वापरू शकू. आम्ही आमच्या मॉडेलमध्ये हा डिझाइन निर्णय घेतो.

सिंगापूरमधील प्रदेश आणि उपनगरामध्ये आर्द्रता व तापमानाची नोंद झाली. तेथे 218,585 गहाळ डेटा पॉइंट्स होते, ज्यायोगे 28,547 वापरण्यायोग्य गुण होते.

गहाळ डेटा पॉईंट्सची संख्या लक्षात घेऊन आम्ही सरासरी वैशिष्ट्य मिळविण्यासाठी सर्व जिल्ह्यांची सरासरी घेतली. सिंगापूरमधील उर्वरित पावसाच्या (लाल रंगाच्या) तुलनेत सरासरी कल आणि नंतर सरासरी कल पहा.

अशी काही क्षेत्रे आहेत जेथे सरासरीपेक्षा (लाल रंगात) जास्त पाऊस पडतो. भविष्यातील दिशा एक मध्यवर्ती वैशिष्ट्य तयार करणे असे आहे जे भूगोल (उदा: उत्तर) द्वारे क्षेत्र गोंधळ करते किंवा प्रत्येक प्रदेशात डेंग्यूच्या व्याप्तीची तपासणी करते. तापमान डेटासह असाच एक कल दिसतो:

लाल रंगाची सरासरी मूल्ये पहा. सरासरीपासून तापमान + - 2 डिग्री सेंटीग्रेड असते.

सरतेशेवटी, आम्ही संशोधन पेपरांमधून प्रबळ सीरोटीप्स ओळखले आणि त्यास वैशिष्ट्य म्हणून जोडले. संख्या '0' अज्ञात प्रमुख सेरोटाइपचा संदर्भ देते. '१' आणि '२' ही संख्या सेरोटाइप १ आणि २ च्या अनुरुप आहे. इथल्या सेरोटाइप्स हे एक चुकीचे वैशिष्ट्य आहे, कारण साहित्य प्रत्येक कालखंडात अभिसरणातील प्रबळ सेरोटाइपवर केंद्रित आहे, इतर सेरोटाइपच्या घटनांवर चर्चा केली जात नाही आणि म्हणून डेटा आमच्या प्रतिनिधित्वासाठी उपलब्ध नाहीत. याव्यतिरिक्त, सेरोटाइपवरील डेटामध्ये सिंगापूरमधील डेंग्यूच्या सर्व घटनांचा समावेश नाही आणि केवळ इस्पितळात गोळा केलेल्या आणि विश्लेषणासाठी पाठविलेल्या रुग्णांचे प्रतिनिधित्व करते.

आम्ही या प्रतिमेसह आमच्या डेटासेटचे दृश्यरित्या प्रतिनिधित्व करतो:

मॉडेल्सचे वर्णन

आम्ही खाली दर्शविल्याप्रमाणे, टाइमस्टेप्सवर डेंग्यू डेटाचे लागेबांधे प्लॉट (वाय (टी + 8) वि वाई) पाहून आमचे मॉडेलिंग सुरू केले:

आम्ही अपेक्षित अंडाकृती आकार आणि कर्ण फक्त पाहतो. परस्परसंबंध 0.69 आहे. त्यानंतर हे लक्षात येते की चिकाटीच्या मॉडेलमधील आरएमएसई उच्च आहे: 207.7. या सांख्यिकी मॉडेलसाठी आरएमएसईची गणना डेंग्यूच्या शेवटच्या 8 आठवड्यांतील डेटा ठेवून, मॉडेलचा वापर करून (टी + 8) अंदाज करून आणि नंतर त्या 8 आठवड्यांसाठी ख Den्या डेंग्यूच्या मोजणीतून केली गेली. चिकाटीचे मॉडेल कमकुवत आहे. मग, आम्ही SARIMAX प्रयत्न केला, एक एआर प्रकार जो asonsतू आणि मूव्हिंग एव्हरेजसाठी संवेदनशील आहे. कारण लोकसंख्या वाढत असताना डेंग्यूचे प्रमाणही वाढते आहे. एक मूव्हिंग एव्हरेज ते वर्तन पकडू शकते. आरएमएसई चाचणी त्रुटीही 213.5 वर उच्च होती.

त्यानंतर आम्ही फुरियर ट्रान्सफॉर्मसह डेंग्यूची संख्या वारंवारित करण्याचा प्रयत्न केला. आता चाचणी डेटा डेटाचा 0.8 आहे, ट्रेनचा संच डेटाचा 0.2 आहे आणि आधी काढलेला छुप्या चाचणी संचाचा शेवटचा आठवडा डेटा आहे. चाचणी संचासाठी, आरएमएसई 182 होता आणि लपलेल्या चाचणी संचासाठी ते 121 होते. फ्युअरियर ट्रान्सफॉर्म सर्वात अलिकडील डेटाशी संवेदनशील नाही, परंतु दीर्घकालीन पूर्वानुमानात उपयुक्त ठरू शकते. सहसंबंध भूखंड आणि अंतर भूखंड आश्वासक नव्हते.

आम्ही फूरियर अंदाज आमच्या बेसलाइन म्हणून सेट केले. ही बेसलाईन सुधारली जाऊ शकते.

प्रथम, आम्ही डेटा पूर्व-प्रक्रियेत डोमेन-ज्ञान देणारं डिझाइन निर्णय असलेले पर्सेप्ट्रॉन टाईप न्यूरल नेटवर्क शोधले आणि खराब कार्यक्षमतेसह आमच्या परिभाषित नेटवर्क कॉन्फिगरेशन आणि वैशिष्ट्यांसाठी (परिशिष्टा संदर्भित परिणाम) ओव्हरट्रेनिंगचे निरीक्षण केले.

पर्सेप्ट्रॉन मॉडेलमध्ये सुधारणा करण्यासाठी आम्ही एक्सजीबूस्ट अल्गोरिदम प्रयत्न केला. पॅरामीटर्ससाठी आम्ही हायपर-पॅरामीटर ट्यूनिंग वापरले. साहित्यावर आधारित, आम्ही वाढविणारे अल्गोरिदम, गामा मूल्य आणि शिक्षण दर यासाठी भिन्न मापदंडांचा प्रयत्न केला. चाचणी-आणि-त्रुटीनंतर आम्ही पाहिले की मॉडेल 50 हून अधिक चरणांनी अति-फिटिंग होते, म्हणून आम्ही नंतर ओव्हरफिटिंग थांबविण्यासाठी लवकर-थांबणे समाविष्ट केले.

एक्सजीबीस्ट मॉडेलसाठी सर्वात महत्वाची वैशिष्ट्ये ओळखण्यात देखील मदत करते. आमच्या मॉडेल्ससाठी, आर्द्रता आणि तापमान डेटापेक्षा नवीन महिना समाविष्ट केलेली वैशिष्ट्ये जसे महिना, वर्षाचा दिवस आणि डेंग्यूची पूर्वीची संख्या अधिक महत्त्वाची होती. तापमान आणि आर्द्रता मूल्ये देखील वेळेवर अवलंबून असतात, ज्यामुळे त्यांची वैशिष्ट्ये तारखांमध्ये (वर्षाचा महिना आणि दिवस) घटकामध्ये हस्तगत केली जातात हे लक्षात घेऊन या हवामानातील बदलांना निरर्थक ठरले. म्हणून, आमची मॉडेल्स लोकसंख्या, आठवडा, महिना, वर्षाचा दिवस आणि डेंग्यूच्या आधीची प्रकरणे वैशिष्ट्यांचा वापर करतात.

आम्ही भविष्यवाणी विरूद्ध वास्तविक परस्पर संबंध स्कॅटर प्लॉट देखील रचला:

स्कॅटर प्लॉटवरून आपण पाहू शकतो की आमचे मॉडेल त्या आठवड्यात अत्यंत उच्च मोजणी (600+) सह डेंग्यूच्या रुग्णांच्या विशालतेचा अचूकपणे अंदाज लावण्यासाठी झटत आहे. भविष्यकाळात, आम्ही आमच्या अंदाजाच्या अर्जावर अवलंबून या अत्यंत आठवड्यांचा (आरएमएसई वाढण्याच्या जोखमीवर) चांगल्याप्रकारे अंदाज लावण्यासाठी आमच्या मॉडेलचे तोटा कार्य बदलू शकतो. डेंग्यूची उच्च संख्या आणि कमी डेंग्यू मोजणीसह आठवड्यांची असंतुलन असते, ते भविष्यवाणीची गुणवत्ता काढून टाकतात.

अंतर प्लॉट आशादायक आहे. चाचणी आणि ट्रेनचे शिखर 1 वर आहे, जे दृढता मॉडेलपासून सुधारलेले आहे (8 वाजता पीक). आमच्या मॉडेल्ससाठी ही सर्वोत्तम अंतर आहे.

चाचणी संच वरील आरएमएसई 126 आणि लपलेल्या चाचणी संचासाठी 91.5 होते.

अगदी अलीकडील डेटा पॉईंट्सचे महत्त्व लक्षात घेतल्यास, एलएसटीएम असलेले एक आरएनएन उपयुक्त अंदाज असू शकते. आमच्या अंतिम मॉडेलमध्ये आमच्याकडे खालील गोष्टी आहेतः मध्यम वर्गीकरण त्रुटी, सामान्यीकरण, नियमितपणा नसणे, बॅचच्या आकाराचे 100 युग, 3 थर एलएसटीएम, 0.2 ड्रॉपआउटसह आरएनएन theडम ऑप्टिमायझरसह.

चाचणी प्रकरणातील आरएमएसई लपलेल्या चाचणी संचासाठी 151 आणि 288 होते. अधिक वेळ आणि संगणकीय शक्ती दिल्यास हे सुधारले जाऊ शकते. भविष्यातील काम डेंग्यूच्या अंदाजासाठी द्वि-दिशात्मक एलएसटीएम आणि ट्रान्सफॉर्मर्सकडे लक्ष देईल, जसे स्टॉक प्रेडिक्शनमध्ये वापरल्या गेलेल्या.

सारांश निकाल

अंमलबजावणी

आमची मॉडेल्स एनईएशी लढाई डेंग्यूला अधिक प्रभावीपणे मदत करू शकतात.

आम्ही आमच्या मॉडेल्सचे प्रदर्शन करण्यासाठी एक वेब अ‍ॅप तयार केला आहे. पुढे अंदाज लावण्यासाठी आपण मॉडेल आणि आठवड्यांची संख्या निवडू शकता आणि त्रुटी बार देखील पाहू शकता.

डेंग्यूची पूर्वसूचना डेंग्यूपासून बचाव करण्यासाठी आवश्यक पाऊल आहे. सर्वोत्तम प्रतिबंधात्मक धोरणे ओळखण्यासाठी, एनईएला किती द्रुतगतीने आणि कोणत्या प्रमाणात कार्य करावे हे जाणून घेत फायदा होतो. एक वापर प्रकरण खालीलप्रमाणे आहे:

  1. भविष्यकाळात आठ आठवड्यांपूर्वी डेंग्यूच्या घटनांचा अंदाज लावण्यासाठी एनईए वेब टूलचा वापर करतो
  2. डेंग्यूच्या अंदाजात होणा .्या घटनांमध्ये नाटकीय वाढ होत असल्याचे पाहण्यासाठी एनईएला अंदाज वर्तविलेल्या नमुन्यांची माहिती आहे.
  3. एनईए आक्रमक डास नियंत्रणाची अंमलबजावणी करते
  4. नवीन डेंग्यू संख्यांबरोबरच एनईए त्यांचे हस्तक्षेप परत मॉडेलमध्ये फीड करते.
  5. एनईएला असे आढळले आहे की येत्या आठ आठवड्यांत डेंग्यूची काही प्रकरणे आढळतील आणि भविष्यात मदत होईल अशा नवीन हस्तक्षेपांची चाचणी घेऊ शकतात.

शाश्वत परिणामकारकतेची गुरुकिल्ली म्हणजे एनईएने त्यांच्या कृतींचे दस्तऐवजीकरण करणे आणि वरील बदलांची तपशीलवार धारणा समजल्यानुसार मॉडेलला अद्ययावत करण्याची परवानगी द्या. हा सर्वात मोठा तांत्रिक धोका आहे.

तांत्रिक जोखीम

आमचे मॉडेल डेंग्यूच्या प्रसारावर परिणाम म्हणून ओळखल्या जाणार्‍या अनेक पर्यावरणीय घटनांपासून दूर ठेवते, जसे की वारा, डेट्रिटसची उपस्थिती आणि प्रजनन क्षेत्राची उपलब्धता. या गृहितकें अस्वीकार्य असू शकतात कारण या पर्यावरणीय परिस्थितीत झालेल्या बदलांमुळे होणार्‍या संभाव्य चुकांच्या तुलनेत डेंग्यूच्या रुग्णांची संख्या कमी आहे.

तसेच, मॉडेलमध्ये एनईएच्या विविध, मजबूत हस्तक्षेपांचा समावेश नाही. एनईएने त्यांचे प्रयत्न केव्हा आणि कोठे लागू केले आहेत याविषयी आमच्याकडे पूर्वीचा डेटा नसल्याने डेंग्यूच्या अंदाजातील महत्त्वपूर्ण घटकाचा आपण विचार करत नाही. एनईएच्या हस्तक्षेपाचा परिणाम डासांच्या लोकसंख्येतील 90% दडपशाही असलेल्या यिशुन आणि टँपिनसमधील वोल्बाचिया प्रोग्रामच्या यशामुळे दिसून येतो. या आजाराची लागण होण्यासारख्या डासांची संख्या कमी झाल्याने या भागांमध्ये डेंग्यूचे प्रमाणही कमी होण्याची शक्यता आहे. मॉडेलमध्ये सध्या या हस्तक्षेपाचा हिशोब नाही.

एकत्रितपणे, पर्यावरणीय आणि हस्तक्षेप करण्याच्या विचारांवर हे साधन डेंग्यूच्या प्रकरणांच्या दरावर प्रभाव पाडणार्‍या मुख्य घटकांबद्दल संवेदनशील होण्यापासून प्रतिबंधित करते. या घटकांबद्दल अधिक संवेदनशील मॉडेल्स तयार करण्यासाठी, आम्हाला वर वर्णन केल्यानुसार डेटासेट वाढविणे आवश्यक आहे. या घटकांचा विचार केल्यास, आम्ही पुराणमतवादी कमीतकमी 20% एरर मार्जिनचा अंदाज लावतो. आमच्या सर्वोत्तम भविष्यवाणीकर्त्याच्या एरर रेटवरून आणि डेंग्यूचा उद्रेक मॉनिटरींग वेबसाइट (https://outbreak.sgcharts.com/) वर वार्षिक ट्रेंड पाहून हे मोजले जाते. उच्च ग्रॅन्युलॅरिटीच्या अतिरिक्त डेटासह, अधिक चांगले भविष्यवाणी करणे शक्य आहे.

परावर्तन

पर्यावरणीय अंदाज मॉडेल तयार करणे एक आव्हान आहे. आमच्यातील मुख्य आव्हानांपैकी एक म्हणजे संबंधित आणि चांगल्या प्रकारे दस्तऐवजीकरण केलेली वैशिष्ट्ये ओळखणे. आम्ही आमच्या अंदाजानुसार मोठा आरएमएसई पाहिला तेव्हा ते निराश होते, परंतु प्रकरणांची अचूक संख्या न सांगता हे मॉडेल्स उपयुक्त ठरू शकतात हे शिकणे महत्वाचे होते.

आम्ही तयार केलेल्या प्रत्येक मॉडेलचे आम्ही संस्थेचे आणि विश्लेषणाचे महत्त्व देखील ओळखले. बर्‍याच वेळा, आपले नुकसान इतके कमी (किंवा जास्त) का होते हे समजून न घेता आम्ही चुकीच्या मार्गावर गेलो. आम्हाला आशा आहे की इतरही आमचे प्रयोग तयार करु शकतील जेणेकरुन लवकरच डेंग्यूचा एक शक्तिशाली अंदाज येईल.

निष्कर्ष

डेंग्यूचा अंदाज अनेक घटकांसह एक जटिल मुद्दा आहे. आम्ही वापरलेल्या डेटाच्या आधारे, आम्ही एक मॉडेल तयार करण्यास सक्षम होतो जे that १..5 (एक्सजीबी) आरएमएसईसह भविष्यकाळात 8 आठवड्यात डेंग्यूचा अंदाज वर्तवेल. सध्याचे मॉडेल एनईएला नियोजित निर्णयांची माहिती देऊ शकते जे सिंगापूरला उत्तम प्रकारे सेवा देऊ शकेल, जसे की डास नियंत्रणासाठी आक्रमक किंवा नाविन्यपूर्ण दृष्टीकोन कधी घ्यावा. जोखमींमध्ये नमूद केल्याप्रमाणे, पर्यावरणीय घटक आणि हस्तक्षेपांबद्दल अतिरिक्त ग्रॅन्युलॅरिटीसह, हे मॉडेल संभाव्य अधिक सामर्थ्यवान मदत असू शकते.

संसाधने

1. कोर्टेस डा सिल्विरा, एलटी, तुरा, बी. आणि सॅंटोस, एम. डेंग्यू लसीच्या कार्यक्षमतेचा पद्धतशीर पुनरावलोकन. doi: 10.1186 / s12879–019–4369–5

2. कॅरॅस्को, एलआर वगैरे. सिंगापूरमधील डेंग्यू आजाराचा आर्थिक परिणाम आणि भविष्यातील लसीकरण कार्यक्रमाची किंमत-प्रभावीता. PLoS Negl. ट्रॉप. डिस. 5, e1426 (2011).

3. NEA. एनईए | त्रैमासिक डेंग्यू पाळत ठेवणे डेटा. एनईए त्रैमासिक डेंग्यू पाळत ठेव डेटा (2019). येथे उपलब्ध: https://www.nea.gov.sg/dengue-zika/dengue/quarterly-dengue-surveillance-data. (एक्सेस: 4 जानेवारी 2020)

4. NEA. एनईए | डेंग्यू प्रकरणे. एनईए डेंग्यू प्रकरणे (2019). येथे उपलब्ध: https://www.nea.gov.sg/dengue-zika/dengue/dengue-cases. (एक्सेस: 4 जानेवारी 2020)

5. ऑंग, जे. इत्यादि. सिंगापूरमध्ये रँडम फॉरेस्टचा वापर करुन डेंग्यूच्या जोखमीचे मॅपिंग. PLoS Negl. ट्रॉप. डिस. 12, e0006587 (2018).

Gu. गुझमन, एमजी, गुबलर, डीजे, इझक्वायर्डो, ए., मार्टिनेझ, ई. आणि हॅल्स्टीड, एसबी डेंग्यूचा संसर्ग. नेट. रेव्ह. प्राइम 2, (2016).

Ñ. पेना-गार्सिया, व्हीएच, ट्रायना-चावेझ, ओ. आणि आर्बोलेडा-सान्चेझ, एस. कोलंबियन शहरांमधील डेंग्यूच्या संक्रमणावरील तपमानाचे अंदाजे परिणाम. एन. ग्लोब बरे 83, 509 (2017).

Ben. बेनेडम, सीएम, सीदाहमेड, ओएमई, एल्ताहिर, ईएबी आणि मार्कुझन, एन. सिंगापूरमधील डेंग्यूच्या प्रसारावर पावसाच्या परिणामाचे सांख्यिकीय मॉडेलिंग. PLoS Negl. ट्रॉप. डिस. 12, e0006935 (2018).

W. वॅट्स, डीएम, बर्क, डीएस, हॅरिसन, बीए, व्हाइटमायर, आरई आणि निसालक, ए. डेंग्यू 2 विषाणूसाठी एडिस एजिप्टीच्या वेक्टर कार्यक्षमतेवर तापमानाचा प्रभाव. आहे. जे ट्रॉप. मेड. Hyg. 36, 143–152 (1987).

१०. ली, सीएफ, लिम, टीडब्ल्यू, हान, एलएल आणि फॅंग, आर. पाऊस, सेलेंगोर, मलेशियात एडिस एजिप्टी आणि डेंग्यूचा संसर्ग. आग्नेय आशियाई जे ट्रॉप. मेड. सार्वजनिक आरोग्य 16, 560–568 (1985).

११. ऑल्टो, बीडब्ल्यू आणि बेट्टीनार्डी, डी. तापमान आणि डेंग्यू विषाणूचा संसर्ग डासांमधे: अपरिपक्व आणि प्रौढांच्या अवस्थांवर स्वतंत्र प्रभाव. आहे. जे ट्रॉप. मेड. Hyg. 88, 497-505 (2013).

12. डब्ल्यूएचओ. डेंग्यू आणि गंभीर डेंग्यू. (2019) येथे उपलब्ध: https://www.who.int/news-room/fact-sheets/detail/dengue-and-severe-dengue. (एक्सेस: 4 जानेवारी 2020)

13. लेर, टीएस एट अल. सिंगापूरमध्ये २०० and आणि २०० den च्या डेंग्यूची साथीची साथीची वैशिष्ट्ये - समानता आणि फरक. पश्चिम पॅसिफिक सर्वेक्षण प्रतिसाद 2, e1 – e1 (2011).

14. मित्तल, ए. (2019, 12 ऑक्टोबर). आरएनएन आणि एलएसटीएम समजून घेत आहे. Https://towardsdatasज्ञान.com/:30 বোঝ्या-rnn-and-lstm-f7cdf6dfc14e वरून पुनर्प्राप्त.

15. मोर्डे, व्ही. (2019, 8 एप्रिल) XGBoost अल्गोरिदम: ती लांब राज्य करेल! Https://towardsdatasज्ञान.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d वरून पुनर्प्राप्त.

16. राहुल_रोय कोडिंगची आवड असलेले सामान्य मुल, राहुल_रोय आणि कोडिंगची आवड असलेले सामान्य मुल. (2019, 15 जानेवारी). जनरेटिव्ह अ‍ॅडवर्सियल नेटवर्क (जीएएन). Https://www.geeksforgeeks.org/generative-adversarial-network-gan/ वरून पुनर्प्राप्त.

17. दीर्घकालीन अल्प स्मरणशक्ती. (2019, 28 डिसेंबर). Https://en.wikedia.org/wiki/Long_short-term_memory#Idea वरून प्राप्त केले.

18. गेवा. (एनडी) रीग्रेशनसाठी न्यूरल नेटवर्क (भाग 1) -ऑव्हरकिल किंवा संधी? Https://missinglink.ai/guides/neural-network-concepts/neural-networks-regression-part-1-overkill-opportunity/ वरून पुनर्प्राप्त.

परिशिष्ट:

  • डीएनएन रीग्रेशन

रीग्रेशन मॉडेल्ससाठी न्यूरल नेटवर्क कमी आहेत - न्यूरोल नेटवर्क कोणत्याही प्रकारचे रीग्रेशन मॉडेल असल्याचे “दिखावा” करू शकते. उदाहरणार्थ, केवळ एक इनपुट न्यूरॉन, एक लपलेले न्यूरॉन आणि एक आउटपुट न्यूरॉन असलेले हे अगदी सोपे न्यूरल नेटवर्क लॉजिस्टिक रीग्रेशनच्या बरोबरीचे आहे. हे बरेच निर्भर व्हेरिएबल्स = इनपुट पॅरामीटर्स घेते, त्यांच्या गुणांक = वजनाने गुणाकार करते आणि त्यांना सिग्मायड activक्टिवेशन फंक्शन आणि युनिट स्टेप फंक्शनद्वारे चालवते, जे लॉजिकस्टिक रीग्रेशन फंक्शनला त्याच्या एरर टर्मसह जवळचे साम्य करते.

https://missinglink.ai/guides/neural-network-concepts/neural-networks-regression-part-1-overkill-opportunity/

काही मॉडेल्ससाठी आम्ही भौगोलिक डेटा समाविष्ट केला. आपण खाली सिंगापूरमधील हवामान स्थानांच्या वितरणाचे स्वरूप, प्रत्येक स्थानकासाठी डेटाची उपलब्धता आणि आमची स्थानिक एकत्रितता आणि घटक यावर आधारित पाहू शकता:

(तापमान डेटासह स्थानकांचे नकाशे प्लॉट्स. लाल पिन 2000 पासून डेटा मिळवणारे स्टेशन शोधतात आणि पिवळ्या पिन नसलेल्यांना शोधतात.)

2000 पासून तापमान डेटा उपलब्ध असलेल्या स्थानकांच्या कमी संख्येमुळे आम्ही तापमान वितरण, स्थानिक तापमान परिवर्तनशीलता आणि डेंग्यूच्या प्रसाराची संभाव्यता, वेळ नमुना आणि दर आणि चार स्थानकांवरील एकत्रित तापमान डेटा (डेंग्यू) एकत्रित तापमान डेटा डेंग्यूच्या जोखीम घटकांचे मूल्यांकन केले. , चंगे, सेलेटर आणि सेम्बावांग) 2000 पासून उपलब्ध डेटासह.

हे मूल्यांकन साहित्यात नमूद केलेल्या अनेक मुख्य मुद्द्यांवर आधारित आहे, जसे की एडीस एजिप्टी डासांचा प्रॉबॉसिस टाइम, मानवी रहदारी आणि शहरी विरुद्ध जलाशय जमीन वापरामुळे स्थानिक तापमान गतिशीलता प्रभावित होते. खाली आमच्या मूल्यांकन पॅरामीटर्सचा एक विभाग दर्शविला आहे.

पावसासाठी आम्ही भौगोलिक शेजारच्या आधारावर डेटा एकत्रित केला आणि सरासरी सरासरी शोधली, कारण प्रत्येक हवामान स्थानकात पावसाची वास्तविक मात्रा निश्चित करणारा हा सर्वात महत्वाचा घटक आहे.

(स्थानिक निकटता-आधारित पावसाचे एकत्रीकरण. जांभळ्या पिन 2000 मधील डेटा असलेले स्टेशन दर्शवितात आणि ब्लूज त्याशिवाय प्रतिनिधित्व करतात.)

मॉडेलिंगसाठी, आम्ही त्यानंतरच्या प्रत्येक लेयरसाठी न्यूरॉन कपातसह सिंगल-लेयर, डबल-लेयर, फोर-लेयर पर्सेप्ट्रॉन नेटवर्कची आवृत्ती कॉन्फिगर केली. दर्शविलेल्या निकालांच्या आधारे, आम्ही असा निष्कर्ष काढला आहे की मॉडेल सामान्यत: अपयशी ठरले आहे आणि शक्यतो ओव्हरट्रेन आहे. ट्रेनसाठी लागणारा परस्पर संबंध at वर आला, जे सक्तीने ट्रेनच्या तुलनेत ()) चांगले आहे; तथापि, बर्‍याच मॉडेल कॉन्फिगरेशनसाठी सातत्याने किंवा वाढत्या चाचणी नुकसानाच्या लक्षात घेता आम्ही असा निष्कर्ष काढला आहे की डोमेन ज्ञानाच्या युक्तिवादावर आधारित इंजिनियर केलेल्या वैशिष्ट्यांचा मॉडेलच्या निकालांवर थोडासा सकारात्मक परिणाम होऊ शकतो.

हे देखील पहा

आपल्या बाळाच्या आईबरोबर कसे ब्रेक करावेमी इन्स्टाग्राम सारखा अ‍ॅप विकसित करण्यास माझ्या कॉफाउंडरला आणि मी किती वेळ घेऊ शकतो? माझ्याकडे चांगली गणिती पार्श्वभूमी नसली तरीही मी अल्गोरिदम कसे शिकू शकतो? मी वेबसाइटवर लोकांची छायाचित्रे कायदेशीररित्या कशी प्रदर्शित करू शकतो? आयफोन 5 प्रतीक लॉक कसे बंद करावेमी आत्ताच एचटीएमएल / सीएसएस वापरून माझी पहिली सोपी वेबसाइट संपविली. मी कोड शिकत असताना मी डिझाइन कौशल्याच्या शिक्षणाशी किती संबंधित असावे?एपीआय काय आहेत आणि ते सॉफ्टवेअर किंवा अनुप्रयोग यांच्यात कसे कार्य करतात? कागदाच्या दोन तुकड्यांना एकत्र कसे चिकटवायचे