ہڈوپ کے بارے میں جاننے کے لئے 7 چیزیں

مصنف: Eugene Taylor
تخلیق کی تاریخ: 8 اگست 2021
تازہ کاری کی تاریخ: 20 جون 2024
Anonim
The TDM Today Show! Episode 06
ویڈیو: The TDM Today Show! Episode 06

مواد


ماخذ: پریشروا / ڈریم ٹائم ڈاٹ کام

ٹیکا وے:

ہڈوپ برسوں سے اعداد و شمار کے تجزیے میں مدد فراہم کررہا ہے ، لیکن اس کے بارے میں شاید آپ کو کچھ چیزیں معلوم نہیں ہوں گی۔

ہڈوپ کیا ہے؟ یہ ایک پیلے رنگ کا کھلونا ہاتھی ہے۔ آپ کی توقع کیا نہیں تھی؟ اس کے بارے میں: اس اوپن سورس سافٹ ویئر پروجیکٹ کے شریک تخلیق کار - ڈوگ کٹنگ نے اس کا نام اپنے بیٹے سے لیا جس نے کھلونا ہاتھی ہڈوپ کو پکارا۔ مختصرا In ، ہڈوپ ایک ایسا سافٹ ویئر فریم ورک ہے جو اپاچی سافٹ ویئر فاؤنڈیشن نے تیار کیا ہے جو ڈیٹا انٹیسیوٹ ، ڈسٹری بیوٹ کمپیوٹنگ تیار کرنے کے لئے استعمال کیا جاتا ہے۔ اور یہ ایک اور بز ورڈ ریڈرز کا ایک اہم جز ہے جو کبھی نہیں پا سکتا ہے: بگ ڈیٹا۔ یہاں سات چیزیں ہیں جو آپ کو اس انوکھے ، آزادانہ طور پر لائسنس یافتہ سافٹ ویئر کے بارے میں جاننا چاہ.۔

ہڈوپ نے اس کا آغاز کیسے کیا؟

بارہ سال قبل ، گوگل نے بڑے پیمانے پر ڈیٹا اکٹھا کرنے کے لئے ایک پلیٹ فارم بنایا تھا۔ جیسا کہ کمپنی اکثر کرتی ہے ، گوگل نے اپنا ڈیزائن عوام کو دو کاغذات کی شکل میں فراہم کیا: گوگل فائل سسٹم اور میپریڈوسیس۔

اسی وقت ، ڈوگ کٹنگ اور مائک کافریلا ایک نئے سرچ انجن نچٹ پر کام کر رہے تھے۔ دونوں میں بڑی مقدار میں کوائف کو سنبھالنے کے معاملے میں بھی کشمکش جاری تھی۔ تب دونوں محققین کو گوگل کے کاغذات کی ہوا مل گئی۔ اس خوش قسمتی چوراہے نے کٹنگ اور کیفریلا کو ایک بہتر فائل سسٹم اور ڈیٹا کو ٹریک رکھنے کا ایک طریقہ متعارف کروا کر سب کچھ تبدیل کردیا ، آخر کار ہڈوپ کی تخلیق کا باعث بنی۔

ہڈوپ کے بارے میں کیا اہم ہے؟

آج ، ڈیٹا اکٹھا کرنا پہلے سے کہیں زیادہ آسان ہے۔ اس تمام اعداد و شمار کا ہونا بہت سے مواقع پیش کرتا ہے ، لیکن اس کے علاوہ چیلنجز بھی موجود ہیں:

  • ڈیٹا کی بڑی مقدار میں پروسیسنگ کے نئے طریقوں کی ضرورت ہوتی ہے۔
  • جو ڈیٹا ضبط کیا جارہا ہے وہ غیر ساختہ شکل میں ہے۔
غیر ساختہ اعداد و شمار کی بے تحاشا مقدار میں ہیرا پھیری کرنے کے چیلنجوں پر قابو پانے کے لئے ، کٹنگ اور کافریلا نے دو حصوں کا حل نکالا۔ اعداد و شمار کی مقدار کے مسئلے کو حل کرنے کے لئے ، ہڈوپ تقسیم شدہ ماحول یعنی کموڈٹی سرورز کا ایک نیٹ ورک استعمال کرتا ہے - ایک متوازی پروسیسنگ کلسٹر تشکیل دیتا ہے ، جو تفویض کردہ کام پر عملدرآمد کرنے کی زیادہ طاقت لاتا ہے۔

اگلا ، انہیں غیر ساختہ اعداد و شمار یا اعداد و شمار کو فارمیٹس میں نمٹانا پڑا کہ معیاری رشتہ دار ڈیٹا بیس سسٹم کو ہینڈل کرنے سے قاصر تھے۔ کٹنگ اور کیفریلا نے ہڈوپ کو کسی بھی قسم کے ڈیٹا کے ساتھ کام کرنے کے لئے ڈیزائن کیا: تشکیل یافتہ ، غیر ساختہ ، تصاویر ، آڈیو فائلیں ، یہاں تک کہ۔ یہ کلودیرا (ہڈوپ انٹیگریٹر) وائٹ پیپر وضاحت کرتا ہے کہ یہ کیوں ضروری ہے:

    "آپ کے تمام ڈیٹا کو قابل استعمال بناتے ہوئے ، نہ کہ آپ کے ڈیٹا بیس میں کیا ہے ، ہڈوپ آپ کو پوشیدہ تعلقات کو ننگا کرنے دیتا ہے اور ایسے جوابات ظاہر کرتا ہے جو ہمیشہ پہنچ سے دور رہتے ہیں۔ آپ ہنچوں کی بجائے ہارڈ ڈیٹا کی بنیاد پر مزید فیصلے کرنا شروع کرسکتے ہیں ، اور دیکھو مکمل اعداد و شمار کے سیٹ پر ، نہ صرف نمونے اور خلاصے۔ "

پڑھنے پر سکیما کیا ہے؟

جیسا کہ پہلے ذکر ہوا ، ہڈوپ کے فوائد میں سے ایک غیر ساختہ ڈیٹا کو ہینڈل کرنے کی صلاحیت ہے۔ ایک لحاظ سے ، وہ "سڑک کے نیچے ڈنڈے کو لات مار رہا ہے۔" آخر کار اعداد و شمار کو تجزیہ کرنے کے لئے کسی نہ کسی طرح کی ساخت کی ضرورت ہوتی ہے۔

یہی وجہ ہے کہ پڑھنے پر اسکیما عمل میں آتا ہے۔ پڑھا ہوا سکیما یہ ہے کہ اعداد و شمار کی شکل کس طرح موجود ہے ، اعداد و شمار کو کہاں تلاش کرنا ہے (یاد رکھیں ڈیٹا کئی سروروں میں بکھر گیا ہے) ، اور اعداد و شمار پر کیا کرنا ہے - کوئی آسان کام نہیں۔ یہ کہا جاتا ہے کہ ہڈوپ سسٹم میں ڈیٹا کو جوڑنے کے ل. کاروباری تجزیہ کار ، شماریاتی ماہر اور جاوا پروگرامر کی مہارت کی ضرورت ہوتی ہے۔ بدقسمتی سے ، ان قابلیت کے ساتھ بہت سے لوگ نہیں ہیں۔

Hive کیا ہے؟

اگر ہڈوپ کامیاب ہونے والا تھا تو ، اعداد و شمار کے ساتھ کام کرنا آسان بنانا پڑا۔ تو ، اوپن سورس ہجوم کام کرنے کو ملا اور چھتہ پیدا کیا:

    "Hive اس اعداد و شمار پر ڈھانچے کو پروجیکٹ کرنے اور HiveQL نامی SQL نما ​​زبان کا استعمال کرتے ہوئے ڈیٹا سے استفسار کرنے کے لئے ایک طریقہ کار مہیا کرتا ہے۔ اسی وقت یہ زبان روایتی نقشہ / کم پروگرامرز کو اپنی مرضی کے مطابق نقشہ سازی اور کم کرنے والوں کو پلگ کرنے کی بھی اجازت دیتی ہے جب اس میں تکلیف ہوتی ہے یا HiveQL میں اس منطق کا اظہار کرنے سے قاصر ہے۔ "

Hive دونوں جہانوں کو بہترین بناتا ہے: SQL کمانڈز سے واقف ڈیٹا بیس کے اہلکار ڈیٹا میں ہیرا پھیری کرسکتے ہیں ، اور پڑھنے کے عمل سے متعلق اسکیما سے واقف ڈویلپر اپنی مرضی کے مطابق سوالات پیدا کرنے کے اہل ہیں۔

ہڈوپ کس طرح کے ڈیٹا کا تجزیہ کرتا ہے؟

ویب تجزیات پہلی چیز ہے جو ذہن میں آتی ہے ، ویب سائٹوں کو بہتر بنانے کے ل Web ویب لاگز اور ویب ٹریفک کا تجزیہ کرتے ہیں۔ ، مثال کے طور پر ، ویب تجزیہ کاروں میں شامل ہے ، ہڈوپ کو استعمال کرتے ہوئے کمپنی کے جمع کردہ ڈیٹا کی ٹیرابائٹس کو ترتیب دیتے ہیں۔

کمپنیاں خطرے کے تجزیے ، فراڈ کا پتہ لگانے اور کسٹمر بیس قطعہ بندی انجام دینے کے لئے ہڈوپ کلسٹرز کا استعمال کرتی ہیں۔ یوٹیلیٹی کمپنیاں ہڈوپ کو اپنے الیکٹریکل گرڈ سے سینسر ڈیٹا کا تجزیہ کرنے کے لئے استعمال کرتی ہیں ، جس سے وہ بجلی کی پیداوار کو بہتر بناتے ہیں۔ ہدف ، 3 ایم اور میڈٹروکس جیسی بڑی کمپنیاں مصنوعات کی تقسیم ، کاروباری خطرے کی تشخیص اور کسٹمر بیس قطعہ بندی کو بہتر بنانے کے لئے ہڈوپ استعمال کرتی ہیں۔

ہڈوپ میں بھی یونیورسٹیوں کی سرمایہ کاری ہوتی ہے۔ سافٹ ویئر میں یونیورسٹی آف سینٹ تھامس گریجویٹ پروگراموں کے ایک ایسوسی ایٹ پروفیسر ، بریڈ روبین نے ذکر کیا کہ ان کی ہڈوپ مہارت یونیورسٹی میں تحقیقی گروپوں کے ذریعہ مرتب کردہ اعداد و شمار کی کثیر مقدار میں مدد فراہم کررہی ہے۔

کیا آپ ہڈوپ کی حقیقی دنیا کی مثال دے سکتے ہیں؟

ایک معروف مثال ٹائمز مچائن ہے۔ نیو یارک ٹائمز میں پورے صفحے کے اخبار TIFF کی تصاویر کا ایک مجموعہ ہے ، اس سے وابستہ میٹا ڈیٹا ، اور 1851 سے لے کر 1922 تک کے ڈیٹا کی ٹیرا بائٹس کے مضمون ہیں۔ EY2 / S3 / ہڈوپ سسٹم اور خصوصی کوڈ کا استعمال کرتے ہوئے NYT کے ڈیریک گوٹفریڈ ،:

    "TFF میں 405،000 بہت بڑی TIFF تصاویر ، SGML میں 3.3 ملین آرٹیکلز اور 405،000 ایکس ایم ایل فائلوں کو آئتاکار خطوں میں آرٹیکلز کی نقشہ سازی کی گئ ہے۔ یہ ڈیٹا زیادہ ویب دوستانہ 810،000 PNG تصاویر (تمبنےل اور مکمل تصاویر) اور 405،000 جاوا اسکرپٹ فائلوں میں تبدیل کردیا گیا تھا۔ "

ایمیزون ویب سروسز کے کلاؤڈ میں سرورز کا استعمال کرتے ہوئے ، گوٹفریڈ نے بتایا کہ وہ ٹائمس مچین کے لئے مطلوبہ تمام اعداد و شمار پر 36 گھنٹے سے بھی کم وقت میں کارروائی کرنے میں کامیاب ہیں۔

کیا ہڈوپ پہلے ہی متروک ہے یا صرف مارفنگ ہے؟

ہڈوپ کو ایک دہائی سے زیادہ عرصہ گزر چکا ہے۔ اس کا متعدد کہنا متروک ہے۔ ایک ماہر ، ڈاکٹر ڈیوڈ ریکو ، نے کہا ہے کہ "آئی ٹی کی مصنوعات کم وقت کی ہوتی ہیں۔ کتے کے سالوں میں ، گوگلز کی مصنوعات تقریبا 70 70 ہوتی ہیں ، جبکہ ہڈوپ کی عمریں 56 ہیں۔"

ریکو کے کہنے سے کچھ حقیقت ہوسکتی ہے۔ ایسا معلوم ہوتا ہے کہ ہڈوپ ایک بڑی حد سے گزر رہا ہے۔ اس کے بارے میں مزید جاننے کے ل Rub ، روبین نے مجھے جڑواں شہروں ہڈوپ صارف گروپ کے اجلاس میں مدعو کیا ، اور گفتگو کا موضوع یاران کا تعارف تھا:

    "اپاچی ہڈوپ 2 میں ایک نیا میپریڈس انجن شامل ہے ، جس میں پچھلے عمل درآمد کے مقابلے میں بہت سارے فوائد ہیں جن میں بہتر اسکیل ایبلٹی اور وسائل کے استعمال شامل ہیں۔ نیا عمل درآمد شدہ ایپلی کیشنز کو چلانے کے لئے عام وسائل کے انتظام کے نظام پر بنایا گیا ہے جسے یاران کہا جاتا ہے۔"
ہڈوپ کو ڈیٹا بیس اور مشمولات کے نظم و نسق کے حلقوں میں بہت ساری بازگشت ملتی ہے ، لیکن اس کے آس پاس ابھی بھی بہت سارے سوالات ہیں اور اس کا بہتر استعمال کس طرح کیا جاسکتا ہے۔ یہ کچھ ہی ہیں۔ اگر آپ کے پاس اور ہے تو ، وہ ہمارا راستہ ہے۔ اچھا Techopedia.com پر بہترین جواب دیں۔