• Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer
  • Home
  • Crypto Currency
  • Technology
  • Contact
NEO Share

NEO Share

Sharing The Latest Tech News

  • Home
  • Artificial Intelligence
  • Machine Learning
  • Computers
  • Mobile
  • Crypto Currency

स्टैटिस्टिशियन ने यह साबित किया की स्टैटिस्टिक्स बहुत बोरिंग है

January 10, 2021 by systems

Cassie Kozyrkov

हिंदी अनुवाद: आयुष मिश्रा, (Aayush Mishra)

मूल लेख: कैसी कॉज़ीरकोव (Cassie Kozyrkov)

संपादिका: प्रियंका वरगड़ीआ (Priyanka Vergadia)

स्टैटिस्टिक्स बोरिंग है और मैं आपको इस बात का एक लॉजिकल प्रूफ देने वाली हूं, …ताकि आपको मुझ जैसे स्टैटिस्टिशियन द्वारा उपयोग किए जाने वाले फैन्सी कैल्क्युलेशन्स की सराहना करने में मदद मिल सके। यह वो बातें हैं जिनसे आपका सामना स्टैट-101 कि पहली क्लास में होगा, तो स्टैटिस्टिक्स में दिलचस्पी रखने वालों, यह आपके लिए एक बोनस है! शुरुआत करते हैं हम इसमें इस्तेमाल होने वाले शब्दजाल (जार्गन) से:

यह स्टैटिस्टिशियन यह साबित करने वाला है कि स्टैटिस्टिक्स बोरिंग हैं। पूरी तरह से चेहरे को खींचते हुए — मैं अभी भी सीख रहा हूं कि मुझे अपने चेहरे का उपयोग कैसे करना है। इंसानियत कठिन है।एक चेहरा मेरे पीछे खींचो यहां अगर तुम चाहो तो।

एक बात बताइए पॉप्युलेशन शब्द सुनते ही सबसे पहले इन्सानों के दिमाग में क्या आता है? लोग, है न? एक नहीं दो नहीं बहुत सारे। सभी इन्सान! लेकिन क्या आपको ये पता है कि हमारे डिसिप्लिन में पॉप्युलेशन का मतलब सारी चीज़ों से है। लोग, पिक्सेल, पम्पकिन, पोकीमॉन या कुछ भी जो आपके दिमाग में आए वो सब पॉप्युलेशन ही है।

सरल भाषा में पॉप्युलेशन उन सभी चीज़ों का संग्रह है जिसमें हमारी रुचि है।

रुकिए, दो मिनट हम आगे बढ़ने से पहले एक सौदा करते हैं : अपनी पॉप्युलेशन का विवरण लिखकर, आप इस बात पर सहमती भर रहे हैं कि आपके निर्णय का आधार केवल पॉप्युलेशन, पूरी पॉप्युलेशन और कुछ नहीं बल्कि पॉप्युलेशन ही होगा। अगर आप आगे पढ़ते हैं तो, यह माना जाएगा की आपने इन सभी नियमों और शर्तों को स्वीकार कर लिया है।

अब ये बताइए कि क्या आपको अपना पॉप्युलेशन ऑफ़ इंटरेस्ट चुनना चुनौतीपूर्ण लग रहा है? एक बात याद रखिए ये आपके ऊपर है की आप अपनी रुचि के अनुसार किसका चुनाव करते हैं। इसमें कोई भी चुनाव गलत या सही नहीं होता है, जब तक यह विशिष्ट और सम्पूर्ण है तब तक। तो आज का हमारा पॉप्युलेशन ऑफ़ इंटरेस्ट नीचे तस्वीर में दिए गए पेड़।

यदि इस जंगल में मौजूद सभी पेड़ मेरा पॉप्युलेशन हैं, तो फिर मैं अपना डिसीजन लेने के लिए सिर्फ उनका ही उपयोग करूंगी।

चूंकि यह मेरी पॉप्युलेशन है, इसलिए मुझे यह ध्यान में रखना चाहिए कि मेरे विश्लेषण से कोई व्यवसाय गिर नहीं जाएगा। दो चीज़ होंगी। पहली या तो मेरा निष्कर्ष इन पेड़ों पर सबसे अच्छे से लागू होगा। दूसरा ये होगा कि इन सबसे मैं कुछ नया सीख लूंगी।

कोई भी पेड़ जिसे आप यहां नहीं देख पा रहे हैं? वो आपके लिए मृत, उबाऊ है। वह हमारी पॉप्युलेशन का हिस्सा नहीं है। कोई एक पेड़? नहीं! वह भी आपके लिए मृत है। उबाऊ है। क्योंकि वह भी आपकी पूरी पॉप्युलेशन नहीं है। आपके लिए केवल वे सभी (एक साथ!) ही दिलचस्प हैं। अरे! हमारा कानूनी अनुबंध भी तो यही कहता है।

सैंपल, हमारी पॉप्युलेशन ऑफ़ इंटरेस्ट के कुछ हिस्सों का संग्रह है।

सैंपल, वो डेटा है जो हमारे पास है और पॉप्युलेशन वो डेटा है जो हम चाहते हैं कि हमारे पास हो।

दोनों इमेजेस में मौजूद ऑरेंज कलर के पेड़, सैम्पल कहलाएंगे। मुझे उम्मीद है कि आपके आपके अंदर एक अंतर्मन में विचार होगा कि इनमें से कौन सा सैम्पल बेहतर है। मैं अपने भविष्य के लेख में बताऊँगी कि एक अच्छा सैम्पल क्या होता है?

ऑब्जर्वेशन, सैंपल में से लिए गए किसी एक आइटम का मेजरमेंट है।

ब्लू रंग से चिन्हित पेड़ो का जो हमने मेजरमेंट लिया वह ऑब्जर्वेशन है। सटीक भाषा कहा जाए तो “सैंपल” ऑब्जर्वेशन के समूह के लिए एक सामूहिक संज्ञा है। तकनीकी तौर पर, “सैंपल” का बहुवचन “ऑब्जर्वेशन” नहीं है, इसका अर्थ तो “ऑब्जर्वेशन के विभिन्न संग्रह” है।

अ..! स्टैटिस्टिक्स! ये ज़रूर कुछ महत्वपूर्ण होगा, तभी तो हमने अपने डिसिप्लिन का नाम इसके आधार पर रखा है!

स्टैटिस्टिक्स, सैंपल डेटा को संग्रहित करने का एक तरीका है।

तो….स्टैटिस्टिक्स क्या है? यह डेटा को संग्रहित करने का एक तरीका है। अब सच जानने के लिए तैयार हो जाइए। सच ये है कि स्टैटिस्टिक्स और स्टैटिस्टिक्स के विभिन्न क्षेत्र दो अलग चीज़ें हैं एल, इनके बारे में आप यहां पढ़ सकते हैं।

स्टैटिस्टिक्स के उदहारण के रूप में : अगर हमारी रुचि इन पेड़ों की लंबाई में होती, तो आप ऑरेंज रंग से चिन्हित पेड़ो की औसत लंबाई के स्टैटिस्टिक्स को देख आश्चर्यचकित नहीं होंगे। यदि आपको ऐसा लगता है, तो, आप उन सैंपल पेड़ो की ऊंचाई को भी ले सकते हैं, शीर्ष तीन खोजें, उन्हें जोड़ें, लॉग लें, नीचे दो पेड़ों की लंबाई के अंतर के स्क्वायर रूट से जोड़ें, या कुछ भी कर लें। यह भी एक तरह का स्टैटिस्टिक्स ही होगा। अब यह शायद उपयोगी हो, शायद इतना उपयोगी नहीं हो, लेकिन यह भी एक स्टैटिस्टिक्स ही है।

अच्छा मान लीजिए कि हमारी रुचि औसत पेड़ की ऊंचाई में है, जो इस सैंपल के लिए 22.5 मीटर है। क्या यह संख्या हमारे लिए दिलचस्प है?

हमारे द्वारा साइन किए गए लीगल कॉन्ट्रैक्ट के अनुसार: हमारे लिए केवल जनसंख्या ही दिलचस्प है। क्या इसका सैंपल पॉप्युलेशन है? नहीं न! इसलिए, यह हमारे लिए दिलचस्प नहीं है। हमने कुछ उबाऊ पेड़ों से कुछ उबाऊ माप लिया, फिर हमने उन उबाऊ मापों को संग्रहित किया …अब इस प्रक्रिया से जो परिणाम आएगा वह भी उबाऊ होगा।

तो यहां मैंने यह साबित कर दिया कि स्टैटिस्टिक्स उबाऊ यानी बोरिंग होता है।

तो फिर क्या स्टेटिस्टिटिशियन पागल होते हैं? क्यों हमने अपने क्षेत्र का नाम इस उबाऊ नंबर के ऊपर रखा है? दरअसल, यह एक गलत नाम है।

इन दिनों हम जिस तरह से शब्दों का इस्तेमाल करते हैं, एनालिटिक्स, स्टैटिस्टिक्स की गणना के बारे में है, लेकिन स्टैटिस्टिक्स, डेटा को संग्रहित करने से कहीं ऊपर है। डेटा साइंस के उप-विषय के बारे में जानने के लिए यहां क्लिक करें।

ज्यादा शब्दों में हमारे क्षेत्र का सही नाम : द डाइजेशन ऑफ़ स्टैटिस्टिक्स होना चाहिए। लेकिन यह थोड़ा बड़ा शब्द है, इसे सरल बनाने के लिए हमने इसे छोटा कर दिया।

मैं आपको समझाती हूं।

अब आएगा इस पूरे शो का स्टार : पैरामीटर। प्रदर्शन के बाद इसे एक गुलदस्ता भी मिलने वाला है, आमतौर पर इसको अपना ग्रीक अक्षर (आमतौर पर θ) भी मिलता है। आप पैरामीटर को स्टैटिस्टिक्स का पॉप्युलेशन संस्करण के रूप में भी सोच सकते हैं — एक पैरामीटर सभी दिलचस्प डेटा का संग्रहण है, जिसे हम आम जिन्दगी में संग्रहित नहीं कर पाते हैं।

पैरामीटर आपके लिए पॉप्युलेशन का सार प्रस्तुत करता है।

चलिए अब हम इस बात से सहमत हो गए की हुए उन पेड़ों में बहुत दिलचस्पी है और अब मैं आपके लिए उन सबका सार प्रस्तुत करूंगी जिसमें आपको रुचि/दिलचस्पी है? अपने दिल को संभाल कर रखिए! आप पैरामीटर से बहुत ज्यादा उत्साहित हैं!

पैरामीटर मान से पता चला है: सभी पेड़ों की सही औसत ऊंचाई केवल 21.1 मीटर है।

ज़रा सोचिए, आज शनिवार है और आप जंगल के बीचों बीचों बीच खड़े हैं। अभी तक आपने किसी भी पेड़ को मापा नहीं है, लेकिन आप यह आंकड़ा जानने के लिए बेहद बेचैन हैं, यह वो सब कुछ है जिससे करने का आपने कभी सपना देखा था।

पैरामीटर को जानने के लिए क्या करना है?

आपको बिना किसी त्रुटि के सभी पेड़ों को मापना होगा! एक बार आप सभी का माप ले लेते हैं, तो क्या आपके पास कोई अनिश्चितता है? नहीं, आपके पास सारी जानकारी है। आप एनालिटिक्स का उपयोग कर इसे पूरा कर सकते हैं — बस औसत की गणना करके आगे बढ़ें। ऐसा करने पर स्टैटिस्टिक्स, पैरामीटर बन जाता है क्योंकि आपका सैंपल पॉप्युलेशन है। वहीं आप सही तथ्यों के साथ काम कर रहे हैं। सही और पूरा डेटा होने के कारण किसी भी जटिल गणना की आवश्यकता नहीं होगी।

मैं न्यूयॉर्क सिटी में रहती थी — अपनी पसंद से! — जहां तक ​​संभव हो पेड़ों से दूर। लेकिन जब मुझे “इन सभी पेड़ों को सही तरह से मापने” जैसा चुनौतीपूर्ण काम मिला तो बहुत आलस आने लगा। मैं भी इस पैरामीटर को जानना था, लेकिन मैं सोचने लगा कि अब, “क्या मुझे वास्तव में इसे पूरी तरह से जानने की जरूरत है या मैं केवल कुछ पेड़ों को माप सकती हूं? हो सकता है कि पूरी तस्वीर पर केवल एक आंशिक नज़र से ही मैं उस पैरामीटर के बारे में सबसे अच्छा अनुमान लगा लूं … जो सरकारी काम के लिए पर्याप्त है।

“जब मैं इस तरह सोच रही हूं, तो मैं स्टेटिस्टिकली सोच रही हूं! इसका जवाब मुझे कभी पता नहीं चला। मेरी आलस्य का मतलब है कि मुझे तथ्यों या निश्चितता को छोड़ना होगा, लेकिन उम्मीद है कि मैं कुछ ऐसा करूंगा जो निर्णय लेने के लिए काफ़ी मददगार हो। मैं अभी इनका उपयोग कर कुछ महत्वपूर्ण आंकड़ा निकाल सकती हूं। इन्हीं सब चीज़ों के लिए ही तो डिसिप्लिन ऑफ़ स्टैटिस्टिक्स है।

पेड़ो को सही तरह मापने की बात से याद आया, रेडिट पर ये तस्वीर देख मुझे बहुत हंसी आई। कैप्शन में लिखा था : “मेरा भाई यार्ड में मौजूद पेड़ो को मापना चाहता था। इस तरह से उसने मापा।

आप में से कुछ उम्मीद कर रहे होंगे कि मैं कहूंगी, “इस जादुई फॉर्मूले से आप अनिश्चितता से निश्चितता बना सकते हैं!” मैं ऐसा कुछ नहीं कहूंगी। क्योंकि ऐसा कोई जादू नहीं होता जो कुछ नहीं से कुछ बना ले।

जब हमारे पास कोई तथ्य नहीं होते हैं, तो हम डेटा के साथ कुछ एसंप्शंस को मिलाते हैं ताकि हम उचित निर्णय ले सकें।

हमारा ब्रह्मांड कैसे दिख सकता है उसको विवरण हाइपोथेसिस है, लेकिन वह सच हो ये ज़रूरी नहीं है। हमें यह पता लगाना होगा कि क्या हमारा सैंपल, हमारी हाइपोथेसिस को हास्यास्पद बना रहा है। ताकि हम ये जान सकें कि हमें हमारा तरीका बदलना चाहिए या नहीं? लेकिन यह सब इस लेखन के दायरे से बाहर है।

यहां मैं आपको कुछ अनकही बात बता रही हूं, जैसे “कुछ पेड़ों की सही औसत ऊंचाई 20 मीटर से कम है।” यह एक परिकल्पना है। आप सच्चाई जानते हैं (मैं गलत हूं!) क्योंकि आप इस उदाहरण में सर्वज्ञ हैं … लेकिन मुझे कुछ भी पता नहीं है। मेरा कथन पूरी तरह से मान्य परिकल्पना है, जिसमें बताया गया है कि वास्तविकता कैसी दिख सकती है। मुझे कुछ डेटा मिलने के बाद मैं देखती हूं कि मैं इसके बारे में क्या कर सकती हूं।

अगर हमें पैरामीटर पता होता, तो इस वक्त हम घर पर होते। हम इस वक्त तथ्य की तलाश कर रहे हैं, लेकिन दुर्भाग्य से हमेशा तथ्य उपलब्ध नहीं होते हैं। क्योंकि हम पैरामीटर की गणना नहीं कर सकते हैं, हम तो सिर्फ स्टैटिस्टिक्स का इस्ते हुई माल कर एक अनुमान लगा सकते हैं।

एस्टीमेट, सबसे सही अनुमान के लिए सिर्फ एक फैंसी शब्द है।

एस्टीमेट, पैरामीटर के सही मूल्य के बारे में सबसे अच्छा अनुमान लगाने के लिए सिर्फ एक फैंसी शब्द है। यह वह मूल्य है जो आपका अनुमान लेता है, जबकि एक एस्टीमेटर वह फॉर्मूला है जिसका इस्तेमाल आप उस नंबर तक पहुंचने के लिए करते हैं।

मैं आपको दिखाती हूं कि आप स्टेटिस्टिकल एस्टीमेशन में पहले से ही अद्भुत हैं। क्या आप इसके लिए तैयार हैं?

चलिए हम यह मान लेते हैं कि आप सिर्फ इतना पता है कि एक पेड़ की ऊंचाई 23 मीटर है। अब क्या आप मुझे बता सकते हैं कि सभी पेड़ों की सही औसत ऊंचाई का आपका एस्टीमेट कितना है?

23 मीटर? मेरा भी!

हमें 23 मीटर का ही अनुमान लगाना पड़ा क्योंकि हमारे पास केवल यही जानकारी थी — अगर हम कोई और अनुमान लगाते तो इसका मतलब ये होता की हमने कुछ भी बना लिया। हमें जो कुछ भी पता था वो 23 मीटर ही था, इसलिए हमने 23 मीटर का ही अनुमान लगाया। इसके अलावा कोई और अनुमान लगाने के लिए हमें और जुटानी पड़ती (जो इस उदाहरण में उपलब्ध ही नहीं थी) या हम कोई अनुमान लगा सकते थे, लेकिन उस परिस्थिति में हम तथ्य से भटक जाते।

कोई बात नहीं, हम एक और उदाहरण देखते हैं! हमारे पास सैंपल है और हम उसके बारे में बस इतना जानते हैं कि उसकी औसतन ऊंचाई 22.5 मीटर है। अब आपका क्या अनुमान होगा?

22.5 मीटर? वाह आप इसमें कितने अच्छे हैं! आपको तो किसी कोर्स की ज़रूरत ही नहीं।

यह स्टैटिस्टिक्स की कुछ टेक्स्टबुक्स — मेथड ऑफ़ मोमेंट्स एस्टीमेशन, मैक्सिमम लाइकलीहुड एस्टीमेशन आदि हैं। जब आप इन्हें पढ़ते तब आपको हर जवाब के अंत में प्रूफ में जाना पड़ता और मैंने आपको वहीं चीज़ ऐसे ही सीखा दी। वास्तविक जीवन में आपके द्वारा सामना किए गए 99% + मामलों में, बस अपने सैंपल पर काम करें जैसे कि यह आपकी पॉप्युलेशन हो और इससे जो कुछ भी मिलता है उसके साथ जा कर आपको अपना सबसे अच्छा अनुमान मिल सकता है। आपको किसी विशेष पाठ्यक्रम की आवश्यकता नहीं है। ता-दा, इसके साथ ही हमारा कोर्स यहां समाप्त होता है!

यह झूठ है कि आपको हमेशा स्टैटिस्टिक्स की ज़रूरत होती है; आपको नहीं है। यदि आप केवल इंस्पायर्ड होने के लिए एक सही अनुमान लगाने की कोशिश कर रहे हैं, तो एनालिटिक्स आपके लिए सबसे अच्छा विकल्प है। उन पी-वैल्यू से बाहर निकलें, आपको अनावश्यक तनाव लेने की आवश्यकता नहीं है।

इसके बजाए, आप इन सिद्धांतों पर जी सकते हैं: अधिक (सटीक) डेटा सबसे बेहतर और आपका अंतर्ज्ञान, सही अनुमान लगाने के लिए बहुत अच्छा, लेकिन यह जानने के लिए नहीं कि वे अनुमान कितने सही हैं।

हालांकि, मुझे ऐसा एक पल के लिए भी नहीं लगता कि मैं अपने डिसिप्लिन को कोस रही हूं। मैं एक दशक से भी अधिक समय स्टैटिस्टिक्स के अध्ययन में लगा दिया है और मुझे लगता है कि मैं पूरी तरह से पागल नहीं हूं।

जब एक स्टैटिस्टिकल दृष्टिकोण लेना उपयोगी है, बहुत उपयोगी है।

तो कब आपको इसकी सही में ज़रूरत है? कब ये आपको खुदको तकलीफ पहुंचाने से बचाएगा? इसके बारे में जानने के लिए मेरा अगला लेख “स्टैटिस्टिक्स की क्या ज़रूरत?” पढें

डेटा साइंस के सबडिसिप्लिन्स के बीच के अंतर के बारे में जानने के लिए मेरा यह लेख पढ़ें।

Filed Under: Machine Learning

Primary Sidebar

Stay Ahead: The Latest Tech News and Innovations

Cryptocurrency Market Updates: What’s Happening Now

Emerging Trends in Artificial Intelligence: What to Watch For

Top Cloud Computing Services to Secure Your Data

The Future of Mobile Technology: Recent Advancements and Predictions

Footer

  • Privacy Policy
  • Terms and Conditions

Copyright © 2025 NEO Share

Terms and Conditions - Privacy Policy