paint-brush
ओपन टेबल फॉर्मेट में इंटरऑपरेबिलिटी ट्रेंड एंटरप्राइज डेटा आर्किटेक्चर के लिए क्या दर्शाता हैद्वारा@minio
989 रीडिंग
989 रीडिंग

ओपन टेबल फॉर्मेट में इंटरऑपरेबिलिटी ट्रेंड एंटरप्राइज डेटा आर्किटेक्चर के लिए क्या दर्शाता है

द्वारा MinIO6m2024/02/16
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

ओपन टेबल फॉर्मेट, आधुनिक डेटा स्टैक और क्लाउड ऑपरेटिंग मॉडल का संगम डेटा प्रबंधन में एक परिवर्तनकारी युग का प्रतीक है।
featured image - ओपन टेबल फॉर्मेट में इंटरऑपरेबिलिटी ट्रेंड एंटरप्राइज डेटा आर्किटेक्चर के लिए क्या दर्शाता है
MinIO HackerNoon profile picture


इस गर्मी में डेटाब्रिक्स और अपाचे आइसबर्ग दोनों ने अपने ओपन टेबल प्रारूपों में सुधार किए। डेटाब्रिक्स की घोषणा की गई डेल्टा झील 3.0 सभी सबसे लोकप्रिय ओपन टेबल प्रारूपों में डेटा पढ़ और लिख सकते हैं: डेल्टा टेबल, आइसबर्ग और अपाचे हुडी। डेल्टा यूनिवर्सल फॉर्मेट (यूनिफॉर्म) इसे बनाता है ताकि ओपन टेबल फॉर्मेट इंटरऑपरेबल हो जाएं, जिससे इस या उस फॉर्मेट में डेटा की अतिरिक्त प्रतियां बनाने और संग्रहीत करने की आवश्यकता से बचा जा सके। मौजूदा क्वेरी इंजनों का उपयोग करने वाली डेटा टीमें जैसे डकडीबी , ड्रेमियो , और आइसबर्ग या हुडी फ़ाइलों पर क्वेरी करने वाले अन्य लोग बिना रूपांतरण के सीधे डेल्टा तालिकाएँ पढ़ सकते हैं।


लगभग उसी समय, आइसबर्ग ने क्वेरी इंजन और प्लेटफ़ॉर्म सहित कई नए समर्थन की घोषणा की हिमपात का एक खंड , एडब्ल्यूएस एथेना , अपाचे डोरिस और स्टाररॉक्स। डेटाब्रिक्स और आइसबर्ग की इन घोषणाओं के साथ, इंटरऑपरेबिलिटी डेटा पोर्टेबिलिटी के साथ-साथ जुड़ गई है। डिज़ाइन द्वारा ओपन टेबल प्रारूप इस अवधारणा को बढ़ावा देते हैं कि आपको अपने डेटा को किसी भी टूल के साथ एक्सेस करने, नियंत्रित करने, साझा करने और संचालित करने में सक्षम होना चाहिए, जहां भी आप चाहें, चाहे वह सार्वजनिक क्लाउड में हो, आपके निजी क्लाउड में हो। -किनारे, या नंगे-धातु पर।

ओपन टेबल फॉर्मेट को समझना

आइए इन घोषणाओं को संदर्भ में रखें। ओपन टेबल प्रारूप डेटा लेक को प्रदर्शन और अनुपालन मानकों को प्राप्त करने की अनुमति देते हैं जो अतीत में केवल पारंपरिक डेटा वेयरहाउस या डेटाबेस द्वारा ही प्राप्त किए जा सकते थे, डेटा लेक वातावरण के लचीलेपन को संरक्षित करते हुए।


तीन प्रमुख ओपन टेबल प्रारूप हैं:


हिमशैल मूल रूप से नेटफ्लिक्स द्वारा विशेष रूप से डेटा लेक के भीतर पर्याप्त डेटा वॉल्यूम को संभालने के लिए डिज़ाइन किया गया था। यह ओपन टेबल प्रारूप समय यात्रा, गतिशील स्कीमा विकास और विभाजन विकास जैसी विशिष्ट विशेषताओं का दावा करता है। ये क्षमताएं इसे क्रांतिकारी बनाती हैं, जो एक ही डेटासेट पर क्वेरी इंजन द्वारा समवर्ती और सुरक्षित संचालन को सक्षम बनाती हैं।


डेल्टा झील लेकहाउस आर्किटेक्चर में एक ओपन-सोर्स स्टोरेज फ्रेमवर्क है जो मिनिओ जैसे ऑब्जेक्ट स्टोरेज पर डेटा लेक को सशक्त बनाता है। यह ACID लेनदेन, स्केलेबल मेटाडेटा हैंडलिंग और अपाचे स्पार्क के लिए एकीकृत प्रसंस्करण सुनिश्चित करता है, विश्वसनीयता और स्केलेबिलिटी प्रदान करता है। डेल्टा लेक जटिल स्पार्क वर्कलोड के प्रदर्शन और शुद्धता की चुनौतियों को संभाल सकता है, विशेष रूप से भारी संगामिति के तहत, गैर-परमाणु अपडेट और मेटाडेटा संचालन के कारण महत्वपूर्ण बाधाएं पैदा होती हैं।


Hudl Hadoop पारिस्थितिकी तंत्र में निहित है, और Hudi का प्राथमिक उद्देश्य स्ट्रीमिंग डेटा के अंतर्ग्रहण के दौरान विलंबता को कम करना है, जो टेबल, लेनदेन, अपसर्ट/डिलीट, उन्नत इंडेक्स और क्लाउड-नेटिव ऑब्जेक्ट स्टोरेज सहित विभिन्न स्टोरेज कार्यान्वयन के साथ संगतता जैसी सुविधाएं प्रदान करता है। मिनिओ की तरह।


विभिन्न प्रारूपों के बीच चयन करने के बारे में बहुत कुछ लिखा गया है, कुछ लोगों ने इस पर जोर भी दिया है 80% कार्यात्मक तुल्यता तीन प्राथमिक ओपन टेबल प्रारूपों में से। अंतरसंचालनीयता के माहौल को देखते हुए अंतरों का यह सम्मिश्रण समझ में आता है जिसमें ये खुले तालिका प्रारूप बनाए गए थे और फलते-फूलते रहे हैं। इन प्रारूपों के रचनाकारों ने विक्रेता लॉक-इन और परिचालन नियंत्रण की पारंपरिक धारणाओं पर क्षमता को प्राथमिकता दी।

आधुनिक डेटा स्टैक के भाग के रूप में ओपन टेबल प्रारूप

इन हालिया घोषणाओं से पहले ही, ओपन टेबल प्रारूप पहले से ही आधुनिक डेटा लेक डिज़ाइन का अभिन्न अंग बन गए थे। और पारस्परिक रूप से, डेटा झीलें आधुनिक डेटा स्टैक का अभिन्न अंग रही हैं। हाल ही में सर्वे द्वारा ड्रेमियो पाया गया कि 70% उत्तरदाताओं ने कहा कि उनका आधे से अधिक विश्लेषण तीन वर्षों के भीतर डेटा झील में है या होगा। यह व्यापक रूप से अपनाया जाना अंतरसंचालनीयता, लचीलेपन और प्रदर्शन पर ज़ोर देते हुए संगठनों द्वारा अपने डेटा की संरचना और प्रबंधन करने के तरीके में एक आदर्श बदलाव का प्रतीक है।


यह वास्तव में कोई आश्चर्य की बात नहीं है कि क्लाउड-नेटिव डेटा झीलें और उनके घटक और ओपन टेबल प्रारूप जैसी प्रौद्योगिकियां आधुनिक डेटा स्टैक में केंद्र चरण बन गई हैं। यह उन संगठनों को थोक में बेचे जाने वाले पारंपरिक, अखंड विरासत हार्डवेयर और सॉफ़्टवेयर के बिल्कुल विपरीत है, जो अपने पुराने सिस्टम पर 'क्लाउड टेक्नोलॉजी' वाक्यांश को थोपने की उम्मीद कर रहे हैं। क्लाउड-नेटिव बनना एक एपीआई जोड़ने से कहीं अधिक है - आधुनिक डेटा स्टैक विभिन्न डेटा हैंडलिंग पहलुओं के लिए तैयार किए गए उपकरणों का एक मॉड्यूलर और विशेष समूह है। यह अनुकूलनशीलता के लिए बनाया गया है, क्लाउड में पैदा हुआ है और उच्च-प्रदर्शन मानकों पर कायम है। ऐसी विशेषताएँ जो आधुनिक डेटा स्टैक को संगठनों के लिए एक आकर्षक विकल्प बनाती हैं। स्टैक की मॉड्यूलरिटी विकल्पों की एक श्रृंखला प्रदान करती है, जो संगठनों को एक विशेष डेटा इंफ्रास्ट्रक्चर तैयार करने की अनुमति देती है जो उनकी विशिष्ट आवश्यकताओं के अनुरूप होती है, जो लगातार विकसित हो रहे डेटा परिदृश्य में चपलता को बढ़ावा देती है।


विकल्पों की इस निरंतर विकसित होती श्रृंखला के बावजूद, ऐसी परिभाषित विशेषताएं हैं जो स्टैक के घटकों के माध्यम से बुनती हैं:


  • क्लाउड-नेटिव: आधुनिक डेटा स्टैक को विभिन्न क्लाउड वातावरणों में निर्बाध रूप से स्केल करने के लिए डिज़ाइन किया गया है, जो विक्रेता लॉक-इन को रोकने के लिए कई क्लाउड के साथ संगतता सुनिश्चित करता है।


  • अनुकूलित प्रदर्शन: दक्षता के लिए इंजीनियर किए गए स्टैक में ऐसे घटक शामिल होते हैं जो प्रदर्शन के लिए सॉफ़्टवेयर-प्रथम दृष्टिकोण और डिज़ाइन लेते हैं।


  • रेस्टफुल एपीआई संगतता: स्टैक अपने घटकों के बीच एक मानकीकृत संचार ढांचा स्थापित करता है। यह अंतरसंचालनीयता को बढ़ावा देता है और माइक्रोसर्विसेज के निर्माण का समर्थन करता है।


  • अलग-अलग भंडारण और गणना: स्टैक कम्प्यूटेशनल संसाधनों और भंडारण क्षमता की स्वतंत्र स्केलिंग को सक्षम बनाता है। यह दृष्टिकोण लागत दक्षता को अनुकूलित करता है और प्रत्येक पहलू को विशिष्ट आवश्यकताओं के अनुसार स्केल करने की अनुमति देकर समग्र प्रदर्शन को बढ़ाता है।


  • खुलेपन के प्रति प्रतिबद्धता: ओपन टेबल प्रारूपों का समर्थन करने के अलावा, आधुनिक डेटा स्टैक ओपन-सोर्स समाधान के रूप में खुलेपन को अपनाता है। यह प्रतिबद्धता मालिकाना साइलो को समाप्त करती है और विक्रेता लॉक-इन को कम करती है, सहयोग, नवाचार और बेहतर डेटा पहुंच को बढ़ावा देती है। खुलेपन के प्रति समर्पण विभिन्न प्लेटफार्मों और उपकरणों में स्टैक की अनुकूलनशीलता को मजबूत करता है, जिससे समावेशिता सुनिश्चित होती है।

बिजनेस स्टैंडर्ड के रूप में डेटा पोर्टेबिलिटी और इंटरऑपरेबिलिटी


वास्तव में डेटा पोर्टेबिलिटी और इंटरऑपरेबिलिटी को अपनाने का मतलब है कि डेटा जहां कहीं भी हो, उसे बनाने और उस तक पहुंचने में सक्षम होना। यह दृष्टिकोण लचीलेपन की सुविधा प्रदान करता है, जिससे संगठनों को विक्रेता लॉक-इन या डेटा साइलो द्वारा बाधित किए बिना विभिन्न उपकरणों की क्षमताओं का उपयोग करने की अनुमति मिलती है। लक्ष्य डेटा तक सार्वभौमिक पहुंच को सक्षम करना, संगठनों के भीतर अधिक चुस्त और अनुकूलनीय डेटा पारिस्थितिकी तंत्र को बढ़ावा देना है।


यह समझना कि एक ऑपरेटिंग मॉडल के रूप में क्लाउड किसी विशिष्ट स्थान के बजाय क्लाउड-नेटिव तकनीक के सिद्धांतों पर बनाया गया है, डेटा पोर्टेबिलिटी प्राप्त करने के लिए महत्वपूर्ण है। कुछ संगठन संघर्ष इस प्रयास में और जबरदस्त कीमत पर क्लाउड में अपना रास्ता खरीदने का प्रयास किया गया। वास्तविकता यह है कि क्लाउड अपनाने से औसत कंपनी को एक अवसर मिलता है लाभप्रदता में 20 से 30 प्रतिशत की वृद्धि वास्तविक प्रभाव और वास्तविक लागत बचत निजी बुनियादी ढांचे पर क्लाउड ऑपरेटिंग मॉडल को अपनाने से आती है।


कई स्थापित संगठन सक्रिय रूप से इस दर्शन को अपना रहे हैं, क्लाउड से कार्यभार वापस लाने का विकल्प चुन रहे हैं और पर्याप्त लागत बचत प्राप्त कर रहे हैं, जैसी कंपनियों के साथ एक्स.कॉम , 37सिग्नल्स, और एक प्रमुख उद्यम सुरक्षा फर्म औसतन 60% की बचत बादल के निकास से. क्लाउड ऑपरेटिंग मॉडल प्रतीत होता है कि विरोधाभासी विचारों के सह-अस्तित्व की अनुमति देता है: कंपनियों को क्लाउड पर माइग्रेट करने और कार्यभार को वापस लाने से लाभ हो सकता है। मुख्य निर्धारक क्लाउड ऑपरेटिंग मॉडल को अपनाना है, जो बुनियादी ढांचे, विकास और तकनीकी दक्षता के लिए संगठनों के दृष्टिकोण को मौलिक रूप से बदल देता है। यह मॉडल लचीलेपन, दक्षता और दीर्घकालिक सफलता के लिए अनुकूलन करता है - चाहे वह सार्वजनिक क्लाउड में हो या उससे परे - और आधुनिक डेटा स्टैक की अवधारणा के साथ सटीक रूप से मेल खाता है, ओपन टेबल प्रारूपों के साथ डेटा पोर्टेबिलिटी और इंटरऑपरेबिलिटी को सक्षम करता है।

निष्कर्ष

डेटाब्रिक्स, अपाचे आइसबर्ग और हुडी द्वारा ओपन टेबल फॉर्मेट में हालिया प्रगति डेटा प्रबंधन में एक महत्वपूर्ण क्षण का संकेत देती है। डेल्टा लेक 3.0 की सार्वभौमिक अनुकूलता और अपाचे आइसबर्ग के लिए विस्तारित समर्थन डेटा इंफ्रास्ट्रक्चर कंपनियों और जमीनी कार्यान्वयनकर्ताओं दोनों द्वारा निर्बाध डेटा पोर्टेबिलिटी और इंटरऑपरेबिलिटी के प्रति प्रतिबद्धता को दर्शाता है।


ये विकास आधुनिक डेटा स्टैक की अंतर्निहित मॉड्यूलैरिटी के साथ संरेखित हैं, जहां ओपन टेबल प्रारूप प्रदर्शन और अनुपालन मानकों को प्राप्त करने में केंद्रीय भूमिका निभाते हैं। यह बदलाव पृथक नहीं है बल्कि क्लाउड ऑपरेटिंग मॉडल के साथ प्रतिच्छेद करता है। सार्वजनिक क्लाउड के आकर्षण से परे, निजी बुनियादी ढांचे पर क्लाउड ऑपरेटिंग मॉडल को अपनाने से वास्तविक प्रभाव और लागत बचत सामने आती है।


ओपन टेबल फॉर्मेट, आधुनिक डेटा स्टैक और क्लाउड ऑपरेटिंग मॉडल का संगम डेटा प्रबंधन में एक परिवर्तनकारी युग का प्रतीक है। यह दृष्टिकोण विभिन्न परिवेशों में अनुकूलनशीलता सुनिश्चित करता है, चाहे वह सार्वजनिक हो या निजी, ऑन-प्रिमाइसेस। डेटा लेक आर्किटेक्चर जटिलताओं को नेविगेट करने वालों के लिए, मिनिओ में हमारी टीम सहायता के लिए तैयार है। हमसे hello@minio.io या हमारे पर जुड़ें ढीला जैसे ही आप अपनी डेटा यात्रा शुरू करते हैं, सहयोगात्मक चर्चा के लिए चैनल।