جب ایس کیو ایل کافی نہیں ہے: بڑے پیمانے پر نئے ڈیٹا مراکز کے لئے کنٹرول

ویڈیو: This country made Bitcoin legal. Here’s what happened.

مواد

گوگل فائل سسٹم: ایک بڑا کیس اسٹڈی
کوئی کیڑے نہیں ، کوئی تناؤ نہیں - آپ کی زندگی کو تباہ کیے بغیر زندگی کو تبدیل کرنے والے سافٹ ویئر تخلیق کرنے کے لئے مرحلہ وار گائیڈ
کور ٹکنالوجی پر ایک نظر
دوسرے بڑے سسٹم اس کو کیسے حاصل کرتے ہیں؟
ڈی ایف ایس کو برقرار رکھنا

ٹیکا وے:

ڈویلپرز اور انجینئرز کو پلیٹ فارم پر خدمات کو تیز کرنے اور بہتر بنانے کے لئے مستقل طور پر کام کرنے کی ضرورت ہے جو 1990 کے عہد کے اپنے قدیم نمونے سے کہیں آگے بڑھ چکے ہیں۔

ہماری نجی زندگیوں کے بارے میں بہت سارے این ایس اے ڈیٹا سینٹرز کے بارے میں ہر طرح کی خوش بختی کے ساتھ ، ہزاروں ڈیٹا بٹس کے ساتھ ، یہاں ایک چیز ہے جس کے بارے میں زیادہ سے زیادہ بات نہیں کی گئی ہے ، کم از کم سی این این پر۔ اس میں انجینئرنگ کا مسئلہ شامل ہے جو کلاؤڈ ٹکنالوجی ، بڑے اعداد و شمار اور متاثر کن جسمانی ڈیٹا اسٹوریج سنٹرز کے ساتھ ابھرا ہے جو اب پوری دنیا میں تعمیر ہورہے ہیں۔ تو یہ کیا ہے؟ ٹھیک ہے ، اس سے کوئی فرق نہیں پڑتا ہے کہ کون ان سہولیات کو چلانے والے بڑے آئی ٹی سسٹموں میں سے کسی کا نظم و نسق کر رہا ہے ، ایسے سافٹ ویئر سسٹم کی ضرورت ہے جو اس اعداد و شمار کو تیزی سے پائپ لائن میں آنے اور باہر آنے میں مدد فراہم کرتے ہیں۔ یہ ضرورت آج کل پیشہ ور افراد کو درپیش آئی ٹی کے سب سے دلچسپ سوالات یا پہیلیاں کی نمائندگی کرتی ہے۔

جیسا کہ بہت سے ماہرین نے بتایا ، آج کل ڈیٹا پروسیسنگ کی انتہائی مانگ روایتی نقطہ نظر سے بہت آگے ہے۔ سیدھے الفاظ میں ، SQL استفسار انٹرفیس جیسے سادہ ڈیٹا بیس ڈھانچے اور ٹولز کا استعمال کرنا پچھلے کچھ سالوں میں تیار کردہ ملکیتی نظاموں کی پسند کے لئے کافی پروسیسنگ پاور یا فعالیت فراہم نہیں کرے گا۔ آج کی بڑی ٹیک کمپنیوں کے آرکائیو کو انتہائی توسیع پانے والی ٹکنالوجی کی ضرورت ہے۔ انہیں ڈیٹا پروسیسنگ ٹولز کی ضرورت ہوتی ہے جو ان پٹ اور آؤٹ پٹ کے نتائج کو ایک ہی سرور کی سہولت سے کہیں زیادہ حجم میں حاصل کرسکتے ہیں۔ انہیں ایسے حل کی ضرورت ہے جن کی نمو کو تیزی سے بڑھایا جاسکے ، ایسے حل جن میں مصنوعی ذہانت کی پیچیدہ سطحیں شامل ہوں ، آئی ٹی ڈیپارٹمنٹ کے ذریعہ آسان انتظام کے ل designed تیار کردہ حل۔

سوال یہ ہے کہ کمپنیاں اور سرکاری ادارے روایتی ڈیٹا ہینڈلنگ راستے کی حدود کو کیسے فتح کرتے ہیں؟ یہاں ایک نہایت ہی امید افزا اختیار پر ایک نظر ڈالیں: ایسا سافٹ ویئر جو بڑے اعداد و شمار اور ایک سے زیادہ ڈیٹا سینٹرز کا انتظام سنبھالتا ہے۔

گوگل فائل سسٹم: ایک بڑا کیس اسٹڈی

گوگل اپنے ڈیٹا سینٹرز تک رسائی حاصل کرنے کے لئے ملکیتی ٹکنالوجی کا استعمال کرتے ہوئے بڑے ڈیٹا کو سنبھالنے اور متعدد ڈیٹا سینٹر انتظامیہ کے لئے عام ماڈل کی ایک بہترین مثال ہے۔ گوگل فائل سسٹم (جی ایف ایس) ، جو 2003 میں تیار کیا گیا تھا ، ڈیٹا سسٹم میں تیز رفتار ترامیم کے بڑے حجم کی حمایت کرنے کے لئے ڈیزائن کیا گیا ہے جو ایک پلیٹ فارم میں اتنی نئی معلومات حاصل کرنے اور باہر آنے کا حصہ ہیں کیونکہ لاکھوں صارفین یہاں کلک کرتے ہیں۔ ایک ہی وقت میں. ماہرین اس کو بطور تقسیم فائل سسٹم کہتے ہیں اور ان انتہائی پیچیدہ تکنیک کو بیان کرنے کے لئے "ڈیٹا آبجیکٹ اسٹوریج" کی اصطلاح استعمال کرتے ہیں۔ حقیقت میں ، تاہم ، یہ شرائط اس لحاظ سے سطح کو بھی نہیں کھینچتی ہیں کہ وہ کیا کام کرتی ہے۔

انفرادی طور پر ، جی ایف ایس جیسے سسٹم کی تشکیل کرنے والی خصوصیات اور اجزاء اب کسی حد تک توڑ نہیں پائیں گے ، لیکن وہ پیچیدہ ہیں۔ ان میں سے بہت ساری نسبتا new نئی اختراعات کے طور پر اس کا احاطہ کیا گیا ہے جو ایک نئے ، ہمیشہ ، ہمیشہ منسلک عالمی آئی ٹی سسٹم کی بنیاد کا حصہ ہیں۔ اجتماعی طور پر ، جی ایف ایس جیسا سسٹم اپنے حصوں کی رقم کے مقابلے میں کہیں زیادہ ہے: یہ ایک بہت زیادہ پوشیدہ لیکن انتہائی پیچیدہ نیٹ ورک ہے جس میں انفرادی ڈیٹا کے ٹکڑوں کو اس طرح پھینک دیا جاتا ہے اور یہ کہ اس عمل میں ، اگر مکمل طور پر ضعف کی شکل دی جائے تو ، انتشار کی طرح نظر آئے گا۔ اس اعداد و شمار کو کہاں جانا ہے اس میں بہت زیادہ توانائی اور عزم کا تقاضا ہے ، کیونکہ ان سسٹمز کے جنگی اسٹیشنوں کی دیکھ بھال کرنے والے آسانی سے تسلیم کریں گے۔

"بہت ساری تفصیلات موجود ہیں جن کے استعمال کے شعبوں پر گہرا اثر پڑتا ہے - جس میں بیرونی اور اندرونی ٹکڑے ٹکڑے ، لاگ ان پر مبنی بمقابلہ جگہ جگہ کی تازہ کاری ، اور لین دین میں مستقل مزاجی کی سطح شامل ہیں - جس کا خلاصہ یہ ہے کہ یہ کسی ایک جملے کے جملے میں کیسے کام کرتا ہے۔ ، "سنچولک کے سی ای او اور شریک بانی مومچل مائکائیلوف کا کہنا ہے۔

انہوں نے کہا ، "ایک تقسیم شدہ فائل سسٹم یا تو مقامی نام خالی جگہوں اور حصہ لینے والے نوڈس کی خالی جگہوں کا تقسیم شدہ اجتماع ہے ، یا ایک لوکل فائل سسٹم جو تقسیم شدہ تالا منیجر کے حصے کی مدد سے مشترکہ اسٹوریج تک رسائی حاصل کرنے والے متعدد نوڈس پر چلتا ہے۔"

کیری لیبل آٹومک میں سینئر پروڈکٹ مینیجر ہیں ، یہ کمپنی اپنے پیمانے پر آٹومیشن پلیٹ فارم کے لئے مشہور ہے۔ لیبل کا کہنا ہے کہ اگرچہ ڈی ایف ایس کو ایک سسٹم کی حیثیت سے بیان کرنا درست ہے جو ہارڈ ویئر کے کم لاگت والے ٹکڑوں سے منسلک سرورز کو صرف کام کا بوجھ تفویض کرتا ہے ، جو واقعی پوری کہانی کو نہیں بتاتا ہے۔

کوئی کیڑے نہیں ، کوئی تناؤ نہیں - آپ کی زندگی کو تباہ کیے بغیر زندگی کو تبدیل کرنے والے سافٹ ویئر تخلیق کرنے کے لئے مرحلہ وار گائیڈ

جب آپ سافٹ ویئر کے معیار کی پرواہ نہیں کرتے ہیں تو آپ اپنی پروگرامنگ کی مہارت کو بہتر نہیں کرسکتے ہیں۔

"جس چیز کی آپ کو گمشدگی کا سامنا کرنا پڑتا ہے اس کا سب سے اچھا عنصر ہے کیسے لیبل نے کہا ، وہ جو کرتے ہیں وہ کرتے ہیں۔

جب آپ تکنیکی تفصیلات سے دور ہوجاتے ہیں اور صرف تقسیم شدہ فائل سسٹم کے پیچھے بنیادی خیال کے بارے میں سوچتے ہیں تو ، "ٹھنڈا عنصر" جس کے بارے میں لیبل بات کرتا ہے وہ عیاں ہے۔ یہ بڑے ڈیٹا ہینڈلنگ سسٹم پرانے فائل / فولڈر سسٹم کو ان ڈھانچے کے ساتھ تبدیل کرتے ہیں جن میں نہ صرف ایک سے زیادہ ترسیل کے نظام شامل ہوتے ہیں بلکہ ایک "آبجیکٹ پر مبنی" نقطہ نظر بھی شامل ہوتا ہے ، جہاں ایک دوسرے کی بڑی تعداد یہاں رکاوٹوں کو روکنے کے لئے اکٹھا کیا جاتا ہے۔

مثال کے طور پر ، ایک جدید ترین شاہراہ نظام کے بارے میں سوچئے ، جہاں سیکڑوں ہزاروں کاریں سیدھے طور پر ملٹی لین میں صرف نہیں ہوتیں ، بلکہ صاف ستھرا سہ شاخہ پتی یا آکسوبو ڈویژنوں میں کھڑی ہوجاتی ہیں ، جو آس پاس پھیلے ہوئے ہیں اور بھیجے جاتے ہیں۔ مختلف مقامات پر اپنی منزل مقصود کی طرف۔ آسمان سے ، ہر چیز سوئس گھڑی کی طرح کوریوگرافی دکھائی دیتی ہے۔ یہ اس قسم کا بصری ماڈل ہے جس کو انجینئر دیکھتے ہیں جب وہ معلومات کو "لات مار" کر کے کثیر الجہتی اعداد و شمار کے ضوابط اسکیما کی مختلف سطحوں تک پہنچانے کے لئے حدود کے بارے میں معلومات فراہم کرنے کے نئے طریقے دیکھتے ہیں۔ چشمی کو ایک طرف چھوڑتے ہوئے ، یہ ایک ہینڈلنگ سسٹم کا اعلی سطحی مقصد ہے: ان خود ساختہ اشیاء کو اپنے سرایت شدہ میٹا ڈیٹا کے ساتھ اعلی رفتار سے آگے بڑھاتے رہیں جہاں مستقل مزاجی کے اہداف تک پہنچنے کے ل an ، آخری صارف کو مطمئن کرنا ، یا یہاں تک کہ کسی اعلی سطح کے مشاہدے یا تجزیے کو بھی مطلع کرنے کے لئے۔

کور ٹکنالوجی پر ایک نظر

شان گیلغر کا ایک مضمون جو آرس ٹیکنیکا پر شائع ہوا ہے اس نے GFS ڈیزائن کو کچھ زیادہ قابل انتظام حصوں میں توڑ دیا ہے ، اور اس پر اشارہ کیا ہے کہ گوگل میں شیٹ کے نیچے کیا ہے۔

ڈیٹا پڑھنے اور لکھنے کے لئے جی ایف ایس ایک بے کار اور غلطی روادار ماڈل سے شروع ہوتا ہے۔ یہاں خیال یہ ہے کہ کسی ایک ڈرائیو کو مخصوص اپ ڈیٹ لکھنے کے بجائے ، نئے سسٹم متعدد مقامات پر ڈیٹا کا ایک حصہ لکھ دیتے ہیں۔ اس طرح ، اگر ایک لکھنے میں ناکام ہوجاتا ہے تو ، باقی رہ جائیں گے۔ اس کو ایڈجسٹ کرنے کے ل network ، ایک بنیادی نیٹ ورک کا جزو دوسرے ماتحت یونٹوں کو ڈیٹا سنبھالنے کو تیار کرتا ہے ، جب کوئی مؤکل اس کے لئے "کال کرتا ہے" جب ڈیٹا کو دوبارہ جمع کرتا ہے۔ یہ سب ایک میٹا ڈیٹا پروٹوکول کے ذریعہ ممکن ہوا ہے جو اس کی نشاندہی کرنے میں مدد کرتا ہے کہ کچھ تازہ کاریوں اور ٹرانسمیشن کے نتائج زیادہ سے زیادہ سسٹم کے اندر کہاں ہیں۔

اس کا ایک اور بہت اہم پہلو یہ ہے کہ یہ جعلی بھاری نظام ڈیٹا مستقل مزاجی کو کیسے نافذ کرتا ہے۔ جیسا کہ گیلغر نوٹ کرتا ہے ، جی ایف ایس ڈیزائن کچھ مستقل مزاجی کی قربانی دیتا ہے جبکہ اب بھی "ایٹممیٹی کو نافذ کرتا ہے" یا اس اصول کی حفاظت کرتے ہیں کہ وقت کے ساتھ ملنے کے لئے متعدد اسٹوریج اکائیوں میں ڈیٹا کس طرح اپ ڈیٹ ہوجاتا ہے۔ ایسا لگتا ہے کہ گوگل کا "مستقل مزاجی ماڈل" BASE ماڈل کے لازمی تھیوری پر عمل پیرا ہے ، جو مستقل مزاجی کے نفاذ کے ل longer طویل مدت کے عوض بدلے میں زیادہ لچک فراہم کرتا ہے۔

دوسرے بڑے سسٹم اس کو کیسے حاصل کرتے ہیں؟

مائیکیلوف کہتے ہیں ، "جب کافی حد تک بڑے پیمانے پر پہنچ جاتا ہے تو ، اعداد و شمار میں تضادات یا بدعنوانی ناگزیر ہوجاتی ہیں۔" "لہذا ، تقسیم فائل سسٹم کا ایک بنیادی ہدف بدعنوانی کی موجودگی میں زیادہ سے زیادہ آپریشن کرنے کی اہلیت ہونا چاہئے ، جبکہ بیک وقت بدعنوانی سے نمٹنے کے لئے موثر طریقے فراہم کرنا۔" میکائیلوف نے بے کار طریقے سے احتیاطی طور پر عمل درآمد کے ذریعے کارکردگی کو محفوظ رکھنے کی ضرورت کا بھی ذکر کیا۔

"مثال کے طور پر ، ہر ڈسک پر میٹا ڈیٹا (ڈیٹا کے بارے میں ڈیٹا) بنانا اس ڈسک کو اس قابل بناتا ہے کہ اگر اس کے آئینے کی کاپی خراب ہوگئی ہے تو وہ اس کے مناسب ڈاٹا ڈھانچے کو دوبارہ بنا سکتا ہے۔" "اضافی طور پر ، RAID کی سطح کو فائل سسٹم ایگریگیٹر یا مشترکہ حجم مینیجر کی سطح پر اسٹوریج کی ناکامیوں سے نمٹنے کے لئے استعمال کیا جاسکتا ہے۔"

ایک اور مستقل مزاجی ماڈل پر تبادلہ خیال کرتے ہوئے ، لیبل نے ہڈوپ ڈسٹریبیوٹڈ فائل سسٹم (ایچ ڈی ایف ایس) کہلائے جانے والے نظام پر توجہ مرکوز کی ، جسے وہ "انڈسٹری ڈی فیکٹو معیار" کہتے ہیں۔

لیبل کا کہنا ہے کہ ایچ ڈی ایف ایس میں ، ہر ڈیٹا بلاک کو تین بار مختلف نوڈس پر ، اور دو مختلف ریکوں پر نقل کیا جاتا ہے۔ اعداد و شمار کو آخر سے آخر تک جانچا جاتا ہے۔ ناکامیوں کی اطلاع نیومنوڈ کو مل جاتی ہے ، ایک ڈیٹا ہینڈلر جو کرپٹ بلاکس سے چھٹکارا پاتا ہے اور نیا بناتا ہے۔

یہ سب "صاف ڈیٹا" کی ان اقسام کی حمایت کرتا ہے جو ان بڑے پیمانے پر ڈیٹا سسٹم کی سالمیت کے لئے بہت اہم ہیں۔

ڈی ایف ایس کو برقرار رکھنا

جی ایف ایس پر ایک اور بہت ہی مختلف نظر اکتوبر 2012 میں وائرڈ مصنف اسٹیون لیوی کے مضمون سے آئی ہے۔ گوگل کے اجتماعی ٹاپ ڈاون نیٹ ورک ہینڈلنگ کے لئے سافٹ ویئر اپروچ کو نمایاں کرنے میں یہ بہت زیادہ متاثر کن ہے۔

لیوی لکھتے ہیں ، "گذشتہ برسوں میں ، گوگل نے ایک ایسا سافٹ ویئر سسٹم بھی بنایا ہے جس کی مدد سے وہ اپنے ان گنت سرورز کا انتظام کرسکتا ہے جیسے کہ وہ ایک دیو ہستی ہے۔ اس کے اندرون ملک ڈویلپر کٹھ پتلی آقاؤں کی طرح کام کرسکتے ہیں ، اور ہزاروں کمپیوٹرز کو انجام دینے کے لئے بھیج رہے ہیں۔ ایک مشین چلانے کی طرح کام آسانی سے۔ "

ایسا کرنے میں ٹن سائبر پر مبنی اور ماحولیاتی دیکھ بھال بھی شامل ہے ، سرشار ٹیسٹ ٹیموں سے جو سرور کو "توڑ" کرنے کی کوشش کر رہی ہے ، تاکہ ڈیٹا کریپٹ کے تمام ہالوں میں درجہ حرارت کو احتیاط سے کنٹرول کیا جاسکے۔

لیوی نے جی ایف ایس کے لئے اضافی ٹیکنالوجیز کا بھی تذکرہ کیا ، جیسے میپریڈوسیس ، کلاؤڈ ایپلی کیشن ٹول ، اور ہڈیپ ، ایک تجزیاتی انجن جو GFS کے ساتھ کچھ ڈیزائن اصولوں کا اشتراک کرتا ہے۔ ان ٹولز کا اپنا اثر ہوتا ہے کہ ڈیٹا سینٹر سے ہینڈلنگ کے بڑے نظام کس طرح تیار ہوتے ہیں ، اور مستقبل میں اس کے ظہور میں کیا امکان ہے۔ (بگ ڈیٹا کے ارتقا میں ان ٹیکنالوجیز کے بارے میں مزید معلومات حاصل کریں۔)

مائیکیلوف کا خیال ہے کہ میپریڈوسک میں ڈیٹا سینٹر سے زیادہ سے زیادہ نظام کی حمایت کرنے کی صلاحیت ہے ، اور مشترکہ اور جمع شدہ فائل سسٹم کے "واحد عمل" کے بارے میں بات کی گئی ہے جو "مشترکہ فائل سسٹم کے نام نوڈس کو مشترکہ کلسٹر میں SSDs کے ساتھ اسٹوریج کے ل keep رکھ سکتا ہے۔ "

اپنے حصے کے لئے ، لیبل بیچ پروسیسنگ (ہڈوپ تعاون یافتہ طریقہ) سے اسٹریم پراسیسنگ کی طرف جانے کا اقدام دیکھتا ہے ، جو ان ڈیٹا آپریشنز کو ریئل ٹائم کے قریب لائے گا۔

لیبل کا کہنا ہے کہ ، "ہم جس تیزی سے ڈیٹا پر کاروائی کر سکتے ہیں اور کاروباری فیصلہ سازوں یا اپنے صارفین کو زیادہ سے زیادہ مسابقتی فائدہ حاصل کرسکیں گے ،" لیبل کہتے ہیں ، جو مذکورہ پروسیسنگ اصطلاحات کو ان شرائط کے ساتھ تبدیل کرنے کا بھی مشورہ دیتے ہیں جن پر توجہ مرکوز ہوتی ہے۔ اصل استعمال کنندہ. "ہم وقت ساز" سرگرمیوں ، یا انجام کار صارف کے ساتھ مطابقت پانے والی سرگرمیاں ، اور "متضاد" سرگرمیاں جو عمل کے لحاظ سے زیادہ لچکدار ہیں کے بارے میں سوچ کر ، لیبل کا کہنا ہے کہ کمپنیاں ایس ایل اے اور دیگر وسائل کو اس بات کی وضاحت کے ل can استعمال کرسکتی ہیں کہ پیش کردہ سروس سسٹم کس طرح کام کرے گا۔ .

ایک لحاظ سے ، یہ سب کچھ جو کچھ ابلتا ہے ، وہ یہ ہے کہ ڈویلپرز اور انجینئرز کو پلیٹ فارم پر خدمات کو تیز کرنے اور بہتر بنانے کے لئے مستقل طور پر کام کرنے کی ضرورت ہے جو 1990 کی دہائی کے دور کے آثار قدیمہ سے کہیں زیادہ بڑھ چکے ہیں۔ اس کا مطلب ہے کہ اعداد و شمار کی مشینری کو تنقیدی نگاہ سے دیکھنا اور ان طریقوں سے رکاوٹوں کو توڑنا جو نہ صرف بڑھتی آبادی کی حمایت کرتے ہیں ، بلکہ یہ کہ تعزیراتی تبدیلی وقفے وقفے سے ہو رہی ہے جسے پنڈت "اگلا صنعتی انقلاب" قرار دے رہے ہیں۔ امکان ہے کہ ان محاذوں پر سب سے زیادہ توڑ پانے والے مستقبل کے بازاروں اور معیشتوں میں غلبہ حاصل کر لیں۔