
हिंदी अनुवाद: आयुष मिश्रा, (Aayush Mishra)
मूल लेख: कैसी कॉज़ीरकोव (Cassie Kozyrkov)
संपादिका: प्रियंका वरगड़ीआ (Priyanka Vergadia)
स्टैटिस्टिक्स बोरिंग है और मैं आपको इस बात का एक लॉजिकल प्रूफ देने वाली हूं, …ताकि आपको मुझ जैसे स्टैटिस्टिशियन द्वारा उपयोग किए जाने वाले फैन्सी कैल्क्युलेशन्स की सराहना करने में मदद मिल सके। यह वो बातें हैं जिनसे आपका सामना स्टैट-101 कि पहली क्लास में होगा, तो स्टैटिस्टिक्स में दिलचस्पी रखने वालों, यह आपके लिए एक बोनस है! शुरुआत करते हैं हम इसमें इस्तेमाल होने वाले शब्दजाल (जार्गन) से:
एक बात बताइए पॉप्युलेशन शब्द सुनते ही सबसे पहले इन्सानों के दिमाग में क्या आता है? लोग, है न? एक नहीं दो नहीं बहुत सारे। सभी इन्सान! लेकिन क्या आपको ये पता है कि हमारे डिसिप्लिन में पॉप्युलेशन का मतलब सारी चीज़ों से है। लोग, पिक्सेल, पम्पकिन, पोकीमॉन या कुछ भी जो आपके दिमाग में आए वो सब पॉप्युलेशन ही है।
सरल भाषा में पॉप्युलेशन उन सभी चीज़ों का संग्रह है जिसमें हमारी रुचि है।
रुकिए, दो मिनट हम आगे बढ़ने से पहले एक सौदा करते हैं : अपनी पॉप्युलेशन का विवरण लिखकर, आप इस बात पर सहमती भर रहे हैं कि आपके निर्णय का आधार केवल पॉप्युलेशन, पूरी पॉप्युलेशन और कुछ नहीं बल्कि पॉप्युलेशन ही होगा। अगर आप आगे पढ़ते हैं तो, यह माना जाएगा की आपने इन सभी नियमों और शर्तों को स्वीकार कर लिया है।
अब ये बताइए कि क्या आपको अपना पॉप्युलेशन ऑफ़ इंटरेस्ट चुनना चुनौतीपूर्ण लग रहा है? एक बात याद रखिए ये आपके ऊपर है की आप अपनी रुचि के अनुसार किसका चुनाव करते हैं। इसमें कोई भी चुनाव गलत या सही नहीं होता है, जब तक यह विशिष्ट और सम्पूर्ण है तब तक। तो आज का हमारा पॉप्युलेशन ऑफ़ इंटरेस्ट नीचे तस्वीर में दिए गए पेड़।
चूंकि यह मेरी पॉप्युलेशन है, इसलिए मुझे यह ध्यान में रखना चाहिए कि मेरे विश्लेषण से कोई व्यवसाय गिर नहीं जाएगा। दो चीज़ होंगी। पहली या तो मेरा निष्कर्ष इन पेड़ों पर सबसे अच्छे से लागू होगा। दूसरा ये होगा कि इन सबसे मैं कुछ नया सीख लूंगी।
कोई भी पेड़ जिसे आप यहां नहीं देख पा रहे हैं? वो आपके लिए मृत, उबाऊ है। वह हमारी पॉप्युलेशन का हिस्सा नहीं है। कोई एक पेड़? नहीं! वह भी आपके लिए मृत है। उबाऊ है। क्योंकि वह भी आपकी पूरी पॉप्युलेशन नहीं है। आपके लिए केवल वे सभी (एक साथ!) ही दिलचस्प हैं। अरे! हमारा कानूनी अनुबंध भी तो यही कहता है।
सैंपल, हमारी पॉप्युलेशन ऑफ़ इंटरेस्ट के कुछ हिस्सों का संग्रह है।
सैंपल, वो डेटा है जो हमारे पास है और पॉप्युलेशन वो डेटा है जो हम चाहते हैं कि हमारे पास हो।
ऑब्जर्वेशन, सैंपल में से लिए गए किसी एक आइटम का मेजरमेंट है।
अ..! स्टैटिस्टिक्स! ये ज़रूर कुछ महत्वपूर्ण होगा, तभी तो हमने अपने डिसिप्लिन का नाम इसके आधार पर रखा है!
स्टैटिस्टिक्स, सैंपल डेटा को संग्रहित करने का एक तरीका है।
तो….स्टैटिस्टिक्स क्या है? यह डेटा को संग्रहित करने का एक तरीका है। अब सच जानने के लिए तैयार हो जाइए। सच ये है कि स्टैटिस्टिक्स और स्टैटिस्टिक्स के विभिन्न क्षेत्र दो अलग चीज़ें हैं एल, इनके बारे में आप यहां पढ़ सकते हैं।
अच्छा मान लीजिए कि हमारी रुचि औसत पेड़ की ऊंचाई में है, जो इस सैंपल के लिए 22.5 मीटर है। क्या यह संख्या हमारे लिए दिलचस्प है?
हमारे द्वारा साइन किए गए लीगल कॉन्ट्रैक्ट के अनुसार: हमारे लिए केवल जनसंख्या ही दिलचस्प है। क्या इसका सैंपल पॉप्युलेशन है? नहीं न! इसलिए, यह हमारे लिए दिलचस्प नहीं है। हमने कुछ उबाऊ पेड़ों से कुछ उबाऊ माप लिया, फिर हमने उन उबाऊ मापों को संग्रहित किया …अब इस प्रक्रिया से जो परिणाम आएगा वह भी उबाऊ होगा।
तो यहां मैंने यह साबित कर दिया कि स्टैटिस्टिक्स उबाऊ यानी बोरिंग होता है।
तो फिर क्या स्टेटिस्टिटिशियन पागल होते हैं? क्यों हमने अपने क्षेत्र का नाम इस उबाऊ नंबर के ऊपर रखा है? दरअसल, यह एक गलत नाम है।
इन दिनों हम जिस तरह से शब्दों का इस्तेमाल करते हैं, एनालिटिक्स, स्टैटिस्टिक्स की गणना के बारे में है, लेकिन स्टैटिस्टिक्स, डेटा को संग्रहित करने से कहीं ऊपर है। डेटा साइंस के उप-विषय के बारे में जानने के लिए यहां क्लिक करें।
ज्यादा शब्दों में हमारे क्षेत्र का सही नाम : द डाइजेशन ऑफ़ स्टैटिस्टिक्स होना चाहिए। लेकिन यह थोड़ा बड़ा शब्द है, इसे सरल बनाने के लिए हमने इसे छोटा कर दिया।
मैं आपको समझाती हूं।
अब आएगा इस पूरे शो का स्टार : पैरामीटर। प्रदर्शन के बाद इसे एक गुलदस्ता भी मिलने वाला है, आमतौर पर इसको अपना ग्रीक अक्षर (आमतौर पर θ) भी मिलता है। आप पैरामीटर को स्टैटिस्टिक्स का पॉप्युलेशन संस्करण के रूप में भी सोच सकते हैं — एक पैरामीटर सभी दिलचस्प डेटा का संग्रहण है, जिसे हम आम जिन्दगी में संग्रहित नहीं कर पाते हैं।
पैरामीटर आपके लिए पॉप्युलेशन का सार प्रस्तुत करता है।
चलिए अब हम इस बात से सहमत हो गए की हुए उन पेड़ों में बहुत दिलचस्पी है और अब मैं आपके लिए उन सबका सार प्रस्तुत करूंगी जिसमें आपको रुचि/दिलचस्पी है? अपने दिल को संभाल कर रखिए! आप पैरामीटर से बहुत ज्यादा उत्साहित हैं!
ज़रा सोचिए, आज शनिवार है और आप जंगल के बीचों बीचों बीच खड़े हैं। अभी तक आपने किसी भी पेड़ को मापा नहीं है, लेकिन आप यह आंकड़ा जानने के लिए बेहद बेचैन हैं, यह वो सब कुछ है जिससे करने का आपने कभी सपना देखा था।
पैरामीटर को जानने के लिए क्या करना है?
आपको बिना किसी त्रुटि के सभी पेड़ों को मापना होगा! एक बार आप सभी का माप ले लेते हैं, तो क्या आपके पास कोई अनिश्चितता है? नहीं, आपके पास सारी जानकारी है। आप एनालिटिक्स का उपयोग कर इसे पूरा कर सकते हैं — बस औसत की गणना करके आगे बढ़ें। ऐसा करने पर स्टैटिस्टिक्स, पैरामीटर बन जाता है क्योंकि आपका सैंपल पॉप्युलेशन है। वहीं आप सही तथ्यों के साथ काम कर रहे हैं। सही और पूरा डेटा होने के कारण किसी भी जटिल गणना की आवश्यकता नहीं होगी।
मैं न्यूयॉर्क सिटी में रहती थी — अपनी पसंद से! — जहां तक संभव हो पेड़ों से दूर। लेकिन जब मुझे “इन सभी पेड़ों को सही तरह से मापने” जैसा चुनौतीपूर्ण काम मिला तो बहुत आलस आने लगा। मैं भी इस पैरामीटर को जानना था, लेकिन मैं सोचने लगा कि अब, “क्या मुझे वास्तव में इसे पूरी तरह से जानने की जरूरत है या मैं केवल कुछ पेड़ों को माप सकती हूं? हो सकता है कि पूरी तस्वीर पर केवल एक आंशिक नज़र से ही मैं उस पैरामीटर के बारे में सबसे अच्छा अनुमान लगा लूं … जो सरकारी काम के लिए पर्याप्त है।
“जब मैं इस तरह सोच रही हूं, तो मैं स्टेटिस्टिकली सोच रही हूं! इसका जवाब मुझे कभी पता नहीं चला। मेरी आलस्य का मतलब है कि मुझे तथ्यों या निश्चितता को छोड़ना होगा, लेकिन उम्मीद है कि मैं कुछ ऐसा करूंगा जो निर्णय लेने के लिए काफ़ी मददगार हो। मैं अभी इनका उपयोग कर कुछ महत्वपूर्ण आंकड़ा निकाल सकती हूं। इन्हीं सब चीज़ों के लिए ही तो डिसिप्लिन ऑफ़ स्टैटिस्टिक्स है।
आप में से कुछ उम्मीद कर रहे होंगे कि मैं कहूंगी, “इस जादुई फॉर्मूले से आप अनिश्चितता से निश्चितता बना सकते हैं!” मैं ऐसा कुछ नहीं कहूंगी। क्योंकि ऐसा कोई जादू नहीं होता जो कुछ नहीं से कुछ बना ले।
जब हमारे पास कोई तथ्य नहीं होते हैं, तो हम डेटा के साथ कुछ एसंप्शंस को मिलाते हैं ताकि हम उचित निर्णय ले सकें।
हमारा ब्रह्मांड कैसे दिख सकता है उसको विवरण हाइपोथेसिस है, लेकिन वह सच हो ये ज़रूरी नहीं है। हमें यह पता लगाना होगा कि क्या हमारा सैंपल, हमारी हाइपोथेसिस को हास्यास्पद बना रहा है। ताकि हम ये जान सकें कि हमें हमारा तरीका बदलना चाहिए या नहीं? लेकिन यह सब इस लेखन के दायरे से बाहर है।
अगर हमें पैरामीटर पता होता, तो इस वक्त हम घर पर होते। हम इस वक्त तथ्य की तलाश कर रहे हैं, लेकिन दुर्भाग्य से हमेशा तथ्य उपलब्ध नहीं होते हैं। क्योंकि हम पैरामीटर की गणना नहीं कर सकते हैं, हम तो सिर्फ स्टैटिस्टिक्स का इस्ते हुई माल कर एक अनुमान लगा सकते हैं।
एस्टीमेट, सबसे सही अनुमान के लिए सिर्फ एक फैंसी शब्द है।
एस्टीमेट, पैरामीटर के सही मूल्य के बारे में सबसे अच्छा अनुमान लगाने के लिए सिर्फ एक फैंसी शब्द है। यह वह मूल्य है जो आपका अनुमान लेता है, जबकि एक एस्टीमेटर वह फॉर्मूला है जिसका इस्तेमाल आप उस नंबर तक पहुंचने के लिए करते हैं।
मैं आपको दिखाती हूं कि आप स्टेटिस्टिकल एस्टीमेशन में पहले से ही अद्भुत हैं। क्या आप इसके लिए तैयार हैं?
चलिए हम यह मान लेते हैं कि आप सिर्फ इतना पता है कि एक पेड़ की ऊंचाई 23 मीटर है। अब क्या आप मुझे बता सकते हैं कि सभी पेड़ों की सही औसत ऊंचाई का आपका एस्टीमेट कितना है?
23 मीटर? मेरा भी!
हमें 23 मीटर का ही अनुमान लगाना पड़ा क्योंकि हमारे पास केवल यही जानकारी थी — अगर हम कोई और अनुमान लगाते तो इसका मतलब ये होता की हमने कुछ भी बना लिया। हमें जो कुछ भी पता था वो 23 मीटर ही था, इसलिए हमने 23 मीटर का ही अनुमान लगाया। इसके अलावा कोई और अनुमान लगाने के लिए हमें और जुटानी पड़ती (जो इस उदाहरण में उपलब्ध ही नहीं थी) या हम कोई अनुमान लगा सकते थे, लेकिन उस परिस्थिति में हम तथ्य से भटक जाते।
कोई बात नहीं, हम एक और उदाहरण देखते हैं! हमारे पास सैंपल है और हम उसके बारे में बस इतना जानते हैं कि उसकी औसतन ऊंचाई 22.5 मीटर है। अब आपका क्या अनुमान होगा?
22.5 मीटर? वाह आप इसमें कितने अच्छे हैं! आपको तो किसी कोर्स की ज़रूरत ही नहीं।
यह स्टैटिस्टिक्स की कुछ टेक्स्टबुक्स — मेथड ऑफ़ मोमेंट्स एस्टीमेशन, मैक्सिमम लाइकलीहुड एस्टीमेशन आदि हैं। जब आप इन्हें पढ़ते तब आपको हर जवाब के अंत में प्रूफ में जाना पड़ता और मैंने आपको वहीं चीज़ ऐसे ही सीखा दी। वास्तविक जीवन में आपके द्वारा सामना किए गए 99% + मामलों में, बस अपने सैंपल पर काम करें जैसे कि यह आपकी पॉप्युलेशन हो और इससे जो कुछ भी मिलता है उसके साथ जा कर आपको अपना सबसे अच्छा अनुमान मिल सकता है। आपको किसी विशेष पाठ्यक्रम की आवश्यकता नहीं है। ता-दा, इसके साथ ही हमारा कोर्स यहां समाप्त होता है!
यह झूठ है कि आपको हमेशा स्टैटिस्टिक्स की ज़रूरत होती है; आपको नहीं है। यदि आप केवल इंस्पायर्ड होने के लिए एक सही अनुमान लगाने की कोशिश कर रहे हैं, तो एनालिटिक्स आपके लिए सबसे अच्छा विकल्प है। उन पी-वैल्यू से बाहर निकलें, आपको अनावश्यक तनाव लेने की आवश्यकता नहीं है।
इसके बजाए, आप इन सिद्धांतों पर जी सकते हैं: अधिक (सटीक) डेटा सबसे बेहतर और आपका अंतर्ज्ञान, सही अनुमान लगाने के लिए बहुत अच्छा, लेकिन यह जानने के लिए नहीं कि वे अनुमान कितने सही हैं।
हालांकि, मुझे ऐसा एक पल के लिए भी नहीं लगता कि मैं अपने डिसिप्लिन को कोस रही हूं। मैं एक दशक से भी अधिक समय स्टैटिस्टिक्स के अध्ययन में लगा दिया है और मुझे लगता है कि मैं पूरी तरह से पागल नहीं हूं।
जब एक स्टैटिस्टिकल दृष्टिकोण लेना उपयोगी है, बहुत उपयोगी है।
तो कब आपको इसकी सही में ज़रूरत है? कब ये आपको खुदको तकलीफ पहुंचाने से बचाएगा? इसके बारे में जानने के लिए मेरा अगला लेख “स्टैटिस्टिक्स की क्या ज़रूरत?” पढें