Saturday, October 26, 2024

सांख्यिकी का मुलभूत ज्ञान


 

डेटा एनालिटिक्स में सांख्यिकी का मुलभूत ज्ञान बेहद आवश्यक है क्योंकि यह डेटा को व्यवस्थित, विश्लेषित, और सही ढंग से समझने में मदद करता है। चाहे हमें डेटा के औसत मान को जानना हो, विभिन्न घटनाओं की संभावना का अनुमान लगाना हो, या फिर दो अलग-अलग समूहों के बीच संबंध की पहचान करनी हो, सांख्यिकी के ये बुनियादी सिद्धांत डेटा को संपूर्णता से समझने में सहायक होते हैं। इन अवधारणाओं का उपयोग डेटा की गुणवत्ता का आकलन करने, भविष्यवाणियाँ करने और महत्वपूर्ण निर्णय लेने में किया जाता है। इस लेख में, हम डेटा एनालिटिक्स में सबसे अधिक उपयोग किए जाने वाले महत्वपूर्ण सांख्यिकी सिद्धांतों को सरल भाषा में समझाएंगे ताकि आप डेटा को गहराई से समझ सकें -

1. वर्णनात्मक सांख्यिकी (Descriptive Statistics)

माध्य (Mean): किसी समूह के सभी नंबरों को जोड़कर, उनकी कुल संख्या से विभाजित करें। दुसरे शब्दों में इसे हम औसत भी कह सकते हैं

जैसे, अगर तीन लोगों की उम्र 20, 25, और 30 साल है, तो माध्य (Mean) होगा  (20 + 25 + 30) ÷ 3 = 25

माध्यिका (Median): डेटा को छोटा से बड़ा क्रम में रखकर बीच का मान चुनें। अगर उम्र के आंकड़े 20, 27, और 30 हैं, तो मीडियन 27 होगा।

बहुलक (Mode): सबसे ज्यादा बार आने वाला मान। जैसे, अगर किसी दुकान पर रोज़ाना की बिक्री में सबसे ज्यादा बार 100 रुपये का आंकड़ा आता है, तो मोड 100 होगा।

वैरिएंस और स्टैंडर्ड डेविएशन: यह देखते हैं कि डेटा मीन से कितना अलग है। अगर एक स्कूल के सभी छात्रों के अंक करीब 80% हैं, तो फैलाव कम होगा; लेकिन अगर अंकों में ज्यादा फर्क है, तो फैलाव ज्यादा होगा।

 

2. प्रायिकता (Probability)

सरल प्रायिकता: किसी घटना के घटने की संभावना। जैसे, एक सिक्के को उछालने पर सिर या पूंछ आने की संभावना 50% होती है।

शर्तीय प्रायिकता (Conditional Probability): यह देखती है कि एक घटना के हो जाने पर दूसरी घटना होने की कितनी संभावना है। जैसे, अगर मौसम में बादल हैं तो बारिश होने की संभावना बढ़ जाती है।

बेज का प्रमेय (Bayes’ Theorem): यह एक घटना के घटने की संभावना को नई जानकारी के आधार पर अपडेट करता है। इसे किसी घटना के होने की संभावना को बदलने के लिए उपयोग किया जाता है जब हमारे पास नई जानकारी या सबूत उपलब्ध हो। यह वास्तविक दुनिया में तब बहुत उपयोगी होता है जब हमें किसी घटना की प्रारंभिक संभावना को नई जानकारी के आधार पर संशोधित करना होता है।

यह मशीन लर्निंग में उपयोग होता है, जैसे कि ईमेल स्पैम फिल्टरिंग में।

 

3. सैम्पलिंग और सैम्पलिंग वितरण (Sampling and Sampling Distributions)

रैंडम सैम्पलिंग: बड़ी जनसंख्या का छोटा हिस्सा चुनने की तकनीक। जैसे, किसी शहर के 1000 लोगों का सर्वे करने के बजाय 100 लोगों से बातचीत कर उनकी राय जानना।

सैम्पलिंग वितरण: यह सभी संभावित नमूनों का एक प्रकार का औसत है, जो पूरे समूह का प्रतिनिधित्व करता है।

 

4. परिकल्पना परीक्षण (Hypothesis Testing)

शून्य और वैकल्पिक परिकल्पना (Null Hypothesis): शून्य परिकल्पना कहती है कि कोई बदलाव या अंतर नहीं है, और वैकल्पिक कहती है कि बदलाव है। जैसे, कोई दावा करता है कि नया दवा असरदार है; शून्य परिकल्पना कहेगी कि दवा का असर नहीं है।

p-Value: यह दिखाता है कि क्या फर्क या असर महत्वपूर्ण है। अगर p-Value 0.05 से कम है, तो परिणाम को महत्वपूर्ण माना जाता है।

t-टेस्ट और z-टेस्ट: ये दो समूहों में फर्क को मापने के लिए उपयोग किए जाते हैं।


5. विश्वास अंतराल (Confidence Intervals)

यह एक अनुमान है कि किसी जनसंख्या का मीन एक निश्चित सीमा के भीतर हो सकता है। जैसे, अगर सर्वे में 95% विश्वास के साथ 50-60% लोगों का समर्थन मिलता है, तो वास्तविक आंकड़ा 50-60% के बीच हो सकता है।


6. सहसंबंध और कारणता (Correlation and Causation)

सहसंबंध (Correlation): यह दो चीजों के बीच संबंध को मापता है। जैसे, गर्मियों में आइसक्रीम की बिक्री और तापमान के बीच सहसंबंध है, क्योंकि दोनों एक साथ बढ़ते हैं।

कारणता (Causation): यह बताती है कि एक घटना दूसरी का कारण है।

मुर्गा हर सुबह बांग देता है यह भी सोचा जा सकता है कि मुर्गे की बांग देने से सूरज उगता है हालांकि, वास्तविकता यह है कि मुर्गा सुर्योदय से पहले बांग देता है, लेकिन सुर्योदय मुर्गे की बांग देने का परिणाम नहीं है।

 

7. प्रतिगमन विश्लेषण (Regression Analysis)

सरल रैखिक प्रतिगमन: दो चीजों के बीच संबंध का एक सीधा रेखा द्वारा मॉडल बनाना। जैसे, उम्र और आय के बीच संबंध देखकर आय का अनुमान लगाना।

मल्टीपल रिग्रेशन: कई कारकों पर आधारित अनुमान लगाना, जैसे शिक्षा, अनुभव, और उम्र को मिलाकर किसी की आय का अनुमान लगाना।

 

8. एनोवा (ANOVA - Analysis of Variance)

यह देखता है कि तीन या अधिक समूहों के औसत एक-दूसरे से अलग हैं या नहीं। जैसे, तीन अलग-अलग शहरों में औसत वेतन की तुलना करना।

 

9. समय श्रृंखला विश्लेषण (Time Series Analysis)

ट्रेंड एनालिसिस: समय के साथ डेटा में किसी पैटर्न को पहचानना। जैसे, पिछले सालों में किसी कंपनी के बिक्री के आंकड़े देखना।

सीज़नैलिटी (Seasonality): समय-समय पर आने वाले पैटर्न को समझना, जैसे त्योहार के समय बिक्री बढ़ जाती है।

 

10. डेटा वितरण और सामान्यता (Data Distribution & Normality)

सामान्य वितरण: इसमें अधिकांश डेटा एक औसत के आसपास बंटा होता है। जैसे, क्लास में अधिकांश बच्चों के अंक औसत के आसपास होंगे।

स्क्यूनस और कुर्टोसिस: यह देखता है कि डेटा किस ओर झुका है या कितना फैला हुआ है। अगर कुछ बच्चे बहुत ज्यादा अच्छे या बहुत कम अंक लाते हैं, तो डेटा असामान्य हो सकता है।

 ये बुनियादी सांख्यिकी अवधारणाएँ डाटा एनालिटिक्स में डेटा को समझने और सही निष्कर्ष तक पहुँचने में मदद करती हैं।

डेटा विश्लेषण (एनालिटिक्स) में कच्चे डेटा का विश्लेषण: किन बातों का ध्यान रखें?



कच्चे डेटा (Raw Data) का विश्लेषण करने से पहले उसकी गुणवत्ता और उपयोगिता सुनिश्चित करने के लिए कई बातों का ध्यान रखना आवश्यक होता है। कच्चे डेटा में निम्नलिखित बिंदु महत्वपूर्ण होते हैं:

 

1. डेटा की पूर्णता (Completeness)

   - डेटा में मिसिंग वैल्यूज (Missing Values) को पहचानें। किसी विशेष कॉलम या फ़ील्ड में बहुत अधिक मिसिंग वैल्यू हो सकती हैं, जो डेटा की उपयोगिता को प्रभावित करती हैं।

   - चेक करें कि क्या सभी आवश्यक डेटा पॉइंट्स मौजूद हैं और सभी रिकॉर्ड्स पूर्ण हैं।

 उदाहरण के लिए एक सर्वे में स्कूल के बच्चों से उनकी उम्र, कक्षा, और पसंदीदा विषय के बारे में जानकारी इकट्ठा की गई। अगर कुछ बच्चों की उम्र का डेटा मिसिंग है, तो यह सर्वे की पूर्णता को प्रभावित करता है। आयु के बिना यह आकलन करना मुश्किल हो जाएगा कि किसी कक्षा में बच्चों का औसत आयु क्या है।

2. डेटा की सटीकता (Accuracy)

   - डेटा का स्रोत और संग्रहण प्रक्रिया की जांच करें। जानें कि डेटा कितनी सटीकता से और किस प्रकार एकत्रित किया गया है।

   - डेटा में त्रुटियाँ (Errors) जैसे गलत एंट्री, डुप्लिकेट्स, या टाइपिंग मिस्टेक्स की जाँच करें।

उदाहरण: मान लें कि किसी कर्मचारी की सैलरी को 50,000 रुपये की बजाय गलती से 5,00,000 रुपये दर्ज कर लिया गया। यह सटीकता की कमी का उदाहरण है और डेटा एनालिसिस में भ्रम पैदा कर सकता है, क्योंकि औसत सैलरी का आकलन गलत होगा।

 

 3. संगतता (Consistency)

   - डेटा की एकरूपता सुनिश्चित करें। किसी भी अनियमितता, जैसे कि नाम या कैटेगरी में भिन्नता, का पता लगाएँ। उदाहरण के लिए, एक कॉलम में "Yes" और "YES" एक ही चीज़ को दर्शाते हैं, लेकिन दोनों की उपस्थिति संगतता को प्रभावित कर सकती है।

   - समय के साथ किसी विशेष फ़ील्ड या मेट्रिक में बदलावों की संगतता की जाँच करें।

उदाहरण: किसी कंपनी के डेटा में कर्मचारी की स्थिति को कभी "मैनेजर," कभी "Mgr" और कभी "Manager" लिखा गया है। यह संगतता की कमी है और डेटा का एनालिसिस करते समय अलग-अलग टर्म्स के लिए समान मान लेना मुश्किल हो सकता है। 

 4. प्रासंगिकता (Relevance)

   - जांचें कि क्या डेटा विश्लेषण के उद्देश्य के लिए उपयुक्त और प्रासंगिक है। अनावश्यक कॉलम्स और मेटाडेटा को हटा दें, ताकि एनालिसिस अधिक सटीक हो।

उदाहरण: यदि आप स्कूल के छात्रों की पढ़ाई की आदतों पर अध्ययन कर रहे हैं, तो उनकी जन्मतिथि पर आधारित डेटा प्रासंगिक नहीं है। इससे एनालिसिस में कोई खास मदद नहीं मिलेगी, बल्कि अनावश्यक डेटा की वजह से प्रोसेसिंग समय बढ़ सकता है।

  5. डेटा की संरचना (Data Structure)

   - डेटा को अच्छी तरह से व्यवस्थित किया हुआ होना चाहिए। उदाहरण के लिए, प्रत्येक कॉलम एक विशिष्ट विशेषता का प्रतिनिधित्व करे और प्रत्येक रो एक विशिष्ट ऑब्जेक्ट या इकाई का प्रतिनिधित्व करे।

   - अनस्टरक्चर्ड डेटा (जैसे टेक्स्ट) को एनालिसिस के लिए संरचित (टैबलर फॉर्म) में बदलने की आवश्यकता हो सकती है।

उदाहरण: मान लें कि डेटा को एक टेबल में नहीं बल्कि एक लंबी टेक्स्ट फ़ाइल में लिखा गया है जिसमें हर रिकॉर्ड एक ही लाइन पर है। इसे संरचित डेटा में बदलना आवश्यक है ताकि टेबल में हर कॉलम को एक विशेषता और हर रो को एक रिकॉर्ड के रूप में पहचाना जा सके।

 

 6. डुप्लिकेट डेटा (Duplicate Data)

   - डुप्लिकेट रिकॉर्ड्स की जांच करें, क्योंकि यह एनालिसिस को ग़लत दिशा में ले जा सकता है। अनावश्यक डुप्लिकेट्स को हटाना आवश्यक है।

 उदाहरण: किसी अस्पताल के मरीजों के रिकॉर्ड में एक ही मरीज का नाम, पता, और फोन नंबर दो बार दर्ज है। यह डुप्लिकेट डेटा है और रोगियों की संख्या का गलत अनुमान दे सकता है, जिससे संसाधन योजना में दिक्कत हो सकती है।

 7. डेटा में आउटलेयर (Outliers)

डेटा में ऐसे असामान्य मान (Outliers) की पहचान करें जो सामान्य डेटा वितरण से अलग हैं। आउटलेयर का कारण समझना जरूरी है, क्योंकि वे या तो डेटा त्रुटि हो सकते हैं या महत्वपूर्ण जानकारी को दर्शा सकते हैं।

मान लीजिए कि फ्लाइट में 100 लोग हैं, और उनमें से प्रत्येक की औसत आय 50,000 रुपये है। इसका मतलब है कि सभी यात्रियों की कुल आय होगी:


100 X 50,000 = 50,00,000 रुपये


अब मान लें कि मुकेश अंबानी, जिनकी कुल संपत्ति लगभग  9 लाख करोड़ रुपये है, उसी फ्लाइट में बैठते हैं। ऐसे में कुल संपत्ति हो जाएगी:

50,00,000 + 9,00,00,00,00,000 = 9,00,50,00,000 रुपये

अब औसत संपत्ति होगी:

औसत संपत्ति = 9,00,50,00,00,000/101  (लगभग 8,91,58,41,584 रुपये)


यह नया औसत मूल औसत से कई गुना बढ़ गया है, जो समूह की वास्तविक आर्थिक स्थिति का सही प्रतिनिधित्व नहीं करता। यही असामान्य मान (आउटलेयर) का प्रभाव है, क्योंकि मुकेश अंबानी की संपत्ति का निचले स्तर की आम संपत्ति से कोई संबंध नहीं है, लेकिन इस औसत से एक विकृत आंकड़ा उत्पन्न होता है। इस उदाहरण में मुकेश अंबानी आऊटलेयर है।

 

 8. डेटा का स्वरूप और प्रारूपण (Data Formatting)

   - सभी डेटा पॉइंट्स का सही फॉर्मेट होना चाहिए, जैसे कि तिथि, समय, मुद्रा, और माप की इकाइयाँ। गलत प्रारूप डेटा की व्याख्या को गड़बड़ कर सकता है।

   - डेटा में एक समान यूनिट्स का प्रयोग होना चाहिए। जैसे वजन के लिए किलोग्राम और ग्राम का एक ही फॉर्मेट होना चाहिए। 

9. डेटा का सुरक्षा और गोपनीयता (Data Security & Privacy)

   - व्यक्तिगत और संवेदनशील डेटा की गोपनीयता सुनिश्चित करें। डेटा को एनालिसिस के लिए उपयोग करने से पहले संवेदनशील जानकारी (जैसे नाम, ईमेल आदि) को गुप्त करें।

 उदाहरण: एक बैंक के ग्राहक का डेटा जैसे उनका नाम, खाता संख्या, और बैलेंस सार्वजनिक रूप से शेयर कर दिया गया। यह गोपनीयता का उल्लंघन है, और संवेदनशील जानकारी लीक होने का खतरा बढ़ जाता है।

10. समय-सापेक्षता (Timeliness)

   - डेटा कितना पुराना है, इसकी जाँच करें। यदि डेटा बहुत पुराना है, तो वह वर्तमान स्थिति को सही से दर्शा नहीं सकता।

उदाहरण के लिए किसी कंपनी के स्टॉक मूल्य का विश्लेषण करते समय नवीनतम डेटा का होना आवश्यक है। यदि हम 5 साल पुराना डेटा लेकर मौजूदा शेयर मूल्य का आकलन करने की कोशिश करेंगे, तो हमें उस कंपनी की वर्तमान वित्तीय स्थिति, बाजार की स्थितियों और नए आर्थिक परिवर्तनों का सही अंदाजा नहीं मिल पाएगा, और निवेश निर्णय गलत हो सकते हैं।

 

स्रोत और संदर्भ (Source & Reference)

   - डेटा का स्रोत और उसके संग्रहण की प्रक्रिया का ज्ञान होना चाहिए। इससे डेटा की विश्वसनीयता का पता चलता है।

 उदाहरण: मान लें कि एक रिसर्चर ग्लोबल वार्मिंग पर रिपोर्ट तैयार कर रहा है और इसमें जलवायु परिवर्तन से संबंधित आंकड़े शामिल कर रहा है। अगर वह डेटा किसी विश्वसनीय स्रोत जैसे IPCC (Intergovernmental Panel on Climate Change) या NASA से लेता है, तो उसके निष्कर्ष अधिक विश्वसनीय माने जाएंगे। लेकिन अगर डेटा किसी अनजान या संदिग्ध वेबसाइट से लिया गया हो, तो उसके परिणाम संदिग्ध होंगे और उस पर भरोसा नहीं किया जा सकेगा।

इन सभी बिंदुओं को ध्यान में रखते हुए कच्चे डेटा को तैयार करने से डेटा एनालिसिस की गुणवत्ता और सटीकता बढ़ जाती है। यदि आप इनमें से किसी बिंदु पर विस्तार से चर्चा करना चाहते हैं, तो मुझे बताएं!

Sunday, October 13, 2024

डाटा एनालिटिक्स और गणितीय मॉडल में मुख्य अंतर



गणितीय मॉडल और डेटा विश्लेषण, दोनों ही अपने-अपने क्षेत्र में बेहद महत्वपूर्ण हैं, लेकिन इनका उपयोग अलग-अलग संदर्भों में किया जाता है।

गणितीय मॉडल वास्तविक दुनिया की समस्याओं को हल करने के लिए गणितीय समीकरणों और प्रमेयों का उपयोग करते हैं। उदाहरण के लिए, यह मॉडल आपको बता सकता है कि कोई वायरस कितनी तेजी से फैलेगा या किसी वस्तु की बाजार में कितनी मांग होगी। न्यूटन के गति के नियम जैसे गणितीय मॉडल यह दर्शाते हैं कि बल और गति के बीच क्या संबंध है। गणितीय मॉडल तब उपयोग किए जाते हैं जब समस्या के लिए एक स्पष्ट नियम या सिद्धांत हो, जिसे गणितीय रूप से व्यक्त किया जा सके। इसका उद्देश्य है किसी सिस्टम को समझना और भविष्यवाणी करना।

दूसरी ओर, डेटा विश्लेषण का मुख्य उद्देश्य डेटा का अध्ययन कर निर्णय लेने में सुधार लाना है। इसमें डेटा को व्यवस्थित ढंग से विश्लेषण कर निष्कर्ष निकाले जाते हैं। उदाहरण के लिए, आप सेल्स डेटा का विश्लेषण कर सकते हैं कि कौन से क्षेत्र में किस उत्पाद की मांग अधिक है, या स्वास्थ्य डेटा का अध्ययन कर यह जान सकते हैं कि कौन से कारक किसी बीमारी के लिए जिम्मेदार हैं। डेटा विश्लेषण तब उपयोगी होता है जब हमें अज्ञात पैटर्न को समझना होता है। यह विश्लेषण सांख्यिकीय विधियों पर आधारित होता है और डेटा से जानकारी निकालने पर ध्यान केंद्रित करता है।

गणितीय मॉडल ज्यादातर पहले से ज्ञात सिद्धांतों पर आधारित होते हैं, जबकि डेटा विश्लेषण नए पैटर्न और जानकारी की खोज पर ध्यान केंद्रित करता है। दोनों का उद्देश्य अलग-अलग होता है, लेकिन दोनों ही निर्णय लेने की प्रक्रिया को बेहतर बनाने में सहायक होते हैं।

चलिए एक और हल्का-फुल्का उदाहरण लेते हैं!

मान लिजिये, आपके पास एक गोलगप्पे की दुकान है। अब, गणितीय मॉडल आपको पहले से बता देगा कि "अगर 50 लोग आए और हर किसी ने 10-10 गोलगप्पे खाए, तो आपको 500 गोलगप्पों की तैयारी करनी है।" यानी, सब कुछ नियमों के अनुसार, पहले से तय!

अब आता है डेटा विश्लेषण। यह देखेगा कि पिछले महीने किन-किन दिनों में ज्यादा लोग आए, कौन से लोग खट्टी चटनी पसंद करते हैं और कौन मीठी चटनी, और फिर वो आपके सलाह देगा, "अरे भैया, शुक्रवार को गोलगप्पे की डिमांड ज्यादा होती है, और अगर मीठी चटनी ज्यादा रखोगे तो बिक्री और बढ़ेगी!"

तो गणितीय मॉडल पहले से ही सब कुछ गणना कर चुका होता है, लेकिन डेटा विश्लेषण ग्राहक के मूड को देखकर भविष्य में पैटर्न पहचानता है और आपको सही दिशा दिखाता है।

Sunday, October 6, 2024

Data Analytics के चार मुख्य प्रकार

Descriptive Analytics, Diagnostic Analytics, Predictive Analytics, और Prescriptive Analytics— को विस्तार से समझने के साथ-साथ, Excel में प्रत्येक प्रकार के विश्लेषण के उदाहरण को भी देखेंगे। इन प्रकारों के माध्यम से हम विभिन्न प्रकार के डेटा का विश्लेषण कर सकते हैं और प्रभावी निर्णय ले सकते हैं।

 

 1. Descriptive Analytics (वर्णनात्मक विश्लेषण)

 वर्णनात्मक विश्लेषण का उद्देश्य यह बताना है कि पहले क्या हुआ था। इसका उपयोग पिछले प्रदर्शन को समझने के लिए किया जाता है। इसे आसानी से Excel के साथ किया जा सकता है।

उदाहरण: मान लीजिए, आपके पास किसी कंपनी की 2023 में हर महीने की बिक्री का डेटा है। Descriptive Analytics इस डेटा से हमें बताता है कि कुल बिक्री क्या थी, औसत बिक्री कितनी थी, और हर महीने का ट्रेंड कैसा था।

 

 Excel के एक  उदाहरण से समझते हैं

डेटा:

महीना

बिक्री (₹)

जनवरी

50,000

फरवरी 

45,000     

मार्च 

55,000     

अप्रैल 

60,000

मई   

48,000

जून   

52,000

 

Descriptive Analysis करने के चरण:

कुल बिक्री निकालना: `=SUM(B2:B7)`

औसत बिक्री निकालना: `=AVERAGE(B2:B7)`

महीने के हिसाब से सबसे ज्यादा बिक्री (MAX): `=MAX(B2:B7)`

 

 परिणाम:

- कुल बिक्री: ₹3,10,000

- औसत बिक्री: ₹51,667

- सबसे ज्यादा बिक्री: ₹60,000 (अप्रैल)

 2. Diagnostic Analytics (नैदानिक विश्लेषण)

 नैदानिक विश्लेषण बताता है कि कोई घटना क्यों हुई। इसका उपयोग डेटा के कारणों का विश्लेषण करने के लिए किया जाता है, जैसे कि बिक्री में अचानक कमी क्यों आई। 

 उदाहरण: कंपनी की बिक्री फरवरी में कम क्यों हुई? इस विश्लेषण में हम उस महीने के दौरान फैक्टर्स जैसे कस्टमर की शिकायतें, मौसम, या मार्केटिंग खर्चों का विश्लेषण करेंगे।

 

 Excel का उदाहरण:

आपको फरवरी की बिक्री में कमी का कारण पता करना है। मान लें कि कंपनी की मार्केटिंग खर्चें कम थीं और कस्टमर की शिकायतें ज्यादा थीं।

माह     

बिक्री (₹)

मार्केटिंग खर्चे (₹)

शिकायतें

जनवरी   

50,000

10,000

3

फरवरी   

45,000

5,000

7

मार्च   

55,000

12,000

2

 

 

 Diagnostic Analysis  करने के चरण:

 हम Excel में, संबंध (correlation) का पता लगाने के लिए =CORREL फंक्शन का उपयोग कर सकते हैं, जो हमें बताएगा कि किसी दो वेरिएबल्स (जैसे बिक्री और मार्केटिंग खर्च) के बीच कितना मजबूत संबंध है।

-मार्केटिंग खर्च और बिक्री के बीच संबंध देखना: `=CORREL(B2:B4, C2:C4)` 

शिकायतों और बिक्री के बीच संबंध देखना: `=CORREL(B2:B4, D2:D4)`

 

  परिणाम:

अगर कॉरिलेशन का परिणाम नेगेटिव आता है, तो इसका मतलब है कि ज्यादा शिकायतों से बिक्री में कमी आई है और कम मार्केटिंग खर्च से भी बिक्री कम हुई।

  • मार्केटिंग खर्च और बिक्री के बीच संबंध: 0.85 (यह दर्शाता है कि जैसे-जैसे मार्केटिंग खर्च बढ़ता है, बिक्री भी बढ़ती है)
  • शिकायतों और बिक्री के बीच संबंध: -0.90 (यह ऋणात्मक (नेगेटिव) संबंध दर्शाता है, यानी जैसे-जैसे शिकायतें बढ़ती हैं, बिक्री घटती है।


  •  

    3. Predictive Analytics (पूर्वानुमान विश्लेषण)

    पूर्वानुमान विश्लेषण भविष्य में क्या होगा, इसका अनुमान लगाने के लिए किया जाता है। Excel में हम ट्रेंडलाइन और भविष्यवाणी के लिए फ़ोरकास्ट फ़ंक्शन का उपयोग कर सकते हैं।

     उदाहरण: अगर आपके पास पिछले 6 महीनों की बिक्री का डेटा है, तो आप अगले महीने की बिक्री का अनुमान लगा सकते हैं।

     

     Excel का  उदाहरण:

    डेटा:

    माह

    बिक्री (₹)

    जनवरी

    50,000

    फरवरी 

    45,000     

    मार्च 

    55,000     

    अप्रैल 

    60,000

    मई   

    48,000

    जून   

    52,000

     

    Predictive Analysis स्टेप्स:

    फ़ॉरकास्टिंग: अगले महीने की बिक्री का पूर्वानुमान करने के लिए, हम Excel में FORECAST फ़ॉर्मूला लगा सकते हैं:

       - `=FORECAST(7, B2:B7, A2:A7)` 

     

      परिणाम:

    भविष्यवाणी की गई बिक्री (जुलाई) लगभग ₹53,000 हो सकती है।

     

     4. Prescriptive Analytics (निर्देशात्मक विश्लेषण)

    निर्देशात्मक विश्लेषण यह बताता है कि हमें भविष्य में क्या कदम उठाने चाहिए। इसका उद्देश्य सही निर्णय लेने के लिए सुझाव देना होता है। Excel में इसका उपयोग Solver Tool और Scenario Analysis के माध्यम से किया जा सकता है।

    उदाहरण: एक कंपनी अपने लाभ को अधिकतम करना चाहती है। इसके लिए उन्हें यह पता लगाना है कि उन्हें कितनी मात्रा में उत्पाद बनाना चाहिए और कितनी कीमत पर बेचना चाहिए ताकि उनका लाभ बढ़ सके।

     

     Excel उदाहरण:

    मान लीजिए कंपनी उत्पाद A और उत्पाद B का उत्पादन कर रही है। उन्हें उत्पादन का सर्वोत्तम संयोजन पता करना है ताकि उनका मुनाफा अधिकतम हो।

    उत्पाद 

     प्रति यूनिट मुनाफा (₹)

     उत्पादन लागत (₹)

    उपलब्ध संसाधन

    A       

    100

    50

    1,000

    B

    150

    70

    1,500

     

    Prescriptive Analysis स्टेप्स:

    1. Solver Tool का उपयोग करके अधिकतम मुनाफा निकालें, और संसाधनों का उपयोग सीमित करें।

     

      परिणाम:

    - Solver टूल की सहायता से यह निर्धारित किया जा सकता है कि किस संयोजन से अधिकतम मुनाफा प्राप्त होगा।

     हम भविष्य के ब्लोग्स में प्रायोगिक अभ्यास द्वारा उपरोक्त विश्लेषणों के बारे में  और अधिक जानेंगें।

    सांख्यिकी का मुलभूत ज्ञान

      डेटा एनालिटिक्स में सांख्यिकी का मुलभूत ज्ञान बेहद आवश्यक है क्योंकि यह डेटा को व्यवस्थित, विश्लेषित, और सही ढंग से समझने में मदद करता है।...