ڈیٹا کی کان میں۔۔وہاراامباکر

آسٹریلیا کے ایک مالیاتی ادارے نے فروری 2002 میں گاڑیوں کے حادثات کے انشورنس کلیم کا ڈیٹا پبلک کیا جس میں 160000 دعوووں میں سے یہ دکھایا گیا تھا کہ کسی کے برج کا تعلق حادثے سے کیا ہے؟ سب سے خطرناک ڈرائیور برج جوزا، حوت اور ثور والے نکلے۔ سب سے محفوظ برج جدی، عقرب اور قوس والے۔ لیکن پریشان نہ ہوں، انشورنس کمپنیاں آپ کا برج دیکھ کر انشورنس ریٹ طے نہیں کریں گی۔

چند آسٹرولوجر ایسے تھے جنہوں نے یہ دیکھ کر جشن منایا کہ “دیکھا، ہم نہ کہتے تھے۔ ستارے قسمت لکھتے ہیں”۔ لیکن یہ نتیجہ ہمیں کیا دکھاتا ہے؟

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
کمپیوٹنگ کی ٹیکنالوجی طاقتور ہو رہی ہے۔ ڈیٹا حاصل کرنے اور اس میں سے مطلب ڈھونڈنے کی رفتار تیز ہو رہی ہے۔ اس ڈیٹا میں سے کانکنی کر کے پیٹرن تلاش کئے جا سکتے ہیں۔ وہ بھی جو “بظاہر” پیٹرن ہیں۔

اس چیز کو پہچاننے کی ضرورت ہے کہ دنیا میں بہت سے بظاہر پیٹرن موجود ہیں جو کسی گہری حقیقت کی طرف اشارہ نہیں کرتے۔ کئی پیٹرن اصل ہیں۔ درجہ حرارت کے پیٹرن دیکھ کر موسموں کے چکر معلوم کئے گئے تھے لیکن بہت کچھ رینڈم ہے۔

ڈیٹا کے تجزیے کے لئے ہم دو سٹیپ کا عمل استعمال کرتے ہیں۔ پہلا پیٹرن کی پہچان (اور یہ ہمارے دماغ کی سب سے بڑی مہارت ہے)۔ دوسرا، اس اصل اور بظاہر پیٹرن میں فرق کرنا۔ یہ کام آسان نہیں اور ہمارا دماغ اس میں غلط مثبت کی طرف جھکاوٗ رکھتا ہے۔ یعنی اس جگہ پر انہیں دیکھنا جہاں وہ موجود نہیں۔ دوسرا سٹیپ یہ ہے کہ ہم پیٹرن کا تجزیہ کرتے ہیں کہ واقعی اس کی تُک بنتی ہے؟ کیا یہ ہمارے باقی علم سے مطابقت رکھتا ہے؟ اس کو ماہرِ نفسیات “حقیقت کو ٹیسٹ کرنا” کہتے ہیں۔ اور ہم اس دوسرے سٹیپ میں اتنے اچھے نہیں۔

یہ وہ وجہ ہے کہ ہمیں سائنس کی ضرورت پڑتی ہے۔ سائنس کا ایک بڑا کام اصل پیٹرن کو اتفاقی سے الگ کرنا ہے۔ یہ حقیقت کو ٹیسٹ کرنے کا رسمی اور باقاعدہ طریقہ ہے۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
ڈیٹا مائننگ میں ہم ڈیٹا کے بڑے سیٹ کا تجزیہ کرتے ہیں۔ رینڈم ڈیٹا ایک سا پھیلا نہیں ہوتا۔ اس لئے حادثاتی پیٹرنز کے ابھرنے کی توقع کی جاتی ہے۔ چونکہ اس میں پہلے سے یہ نہیں معلوم ہوتا کہ دیکھا کیا جا رہا ہے، اس لئے ہر کوریلیشن ایک نئی دریافت ہوتی ہے۔ ہم اپنی زندگی میں بھی ایسے کرتے ہیں۔

ڈاکٹر نے محسوس کیا کہ فلاں علامات والے مریض زیادہ آ رہے ہیں۔ پہلے اتنے تو نہیں تھے۔ وبا پھوٹ پڑی ہے؟
کسی نے نوٹ کیا کہ ہر منگل کو دفتر میں اس کے ساتھ کوئی برا واقعہ پیش آتا ہے۔ منگل کا دن منحوس ہے؟

ہم ہر وقت ایسی ہی ڈیٹا مائننگ کر رہے ہیں۔ کچھ پیٹرن انفارمیشن رکھتے ہیں، زیادہ پیٹرن نہیں۔ اور ضروری نہیں کہ غیرمعمولی لگنے والا پیٹرن بھی کوئی معنی رکھے۔ لاکھوں واقعات جن میں سے ہر ایک کے ہونے کا امکان کسی روز میں لاکھوں میں ایک کا ہو۔۔۔۔ اس کا مطلب یہ ہے کہ ایسا کوئی نہ کوئی واقعہ روزانہ ہو گا۔ امکان کی کیلکولیشن ڈیٹا دیکھنے سے پہلے نکالی جاتی ہے، نہ کہ بعد میں (اور یہ وہ نکتہ ہے جہاں پر شماریات کے ماہرین بھی کئی بار دھوکہ کھا جاتے ہیں)۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
اس کا ٹھیک طریقہ یہ ہے کہ اگلا کام یہ کیا جاتا ہے کہ نیا ڈیٹا لے کر ٹیسٹ کیا جاتا ہے کہ کیا یہ کورلیشن ابھی بھی باقی ہے اور اس میں پچھلے ڈیٹا میں سے کچھ استعمال نہیں کیا جاتا جس کی بنیاد پر یہ پیٹرن نکلا تھا۔ نئے ڈیٹا پر ہم امکان کی کیلکولیشن کا سوال پہلے کر رہے ہیں۔ نئے ڈیٹا کو پچھلے سے بالکل الگ ہونا چاہیے۔

ایک اور امریکی کمپنی (انشورنس ہاٹ لائن) نے ایک لاکھ انشورنس کے دعووں پر اسی قسم کا تجزیہ کیا جیسا ہم نے پہلے دیکھا تھا۔ اس میں برج میزان، دلو اور حمل والے ڈرائیور سب سے برے نکلے اور برج اسد، جوزا اور سرطان والے بہترین۔ یہ نتائج پہلے والے تجزئے سے بالکل مختلف تھے۔

ظاہر ہے کہ یہ نتائج توقع کے مطابق تھے۔ کسی بھی ڈیٹا میں تجزیہ کیا جاتا تو کوئی نہ کوئی برج تو آگے ہونا تھا اور پیچھے۔ اور اگر برج اور حادثات کا کوئی تعلق نہیں تو اس کی پیشگوئی یہ ہے کہ الگ الگ ڈیٹا میں کون آگے ہے اور کون پیچھے؟ اس کے درمیان کوئی ربط نہیں ہو گا۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
ڈیٹا مائننگ سائنس میں کی جاتی ہے۔ مثلاً، بیماریوں کی سٹڈی میں یہ بہت اہم ہے۔ ان میں کوریلیشن ڈھونڈنے جاتے ہیں۔ اور اس مائننگ سے نکلنے والے نتائج کو ابتدائی (preliminary) کہا جاتا ہے۔ تصدیق کے پراسس سے گزر کر پتا لگتا ہے کہ یہ اصل ہیں بھی یا نہیں اور یہ وقت طلب کام ہے۔ کئی بار برسوں لگتے ہیں۔ جبکہ میڈیا اکثر ان ابتدائی رپورٹوں کو دیکھ کر اس طرح پیش کرتا ہے کہ گویا یہ نتائج ہیں اور ان کے ساتھ باقاعدہ کانٹیکسٹ نہیں دیا جاتا۔

بغیر تصدیق کے میڈیا تک ان ابتدائی کورریلیشن کو بتانے میں صرف میڈیا ہی نہیں، سائنسدان اور ادارے بھی قصوروار ہیں۔ .نیا دلچسپ کورریلیشن ملا ہے” اور “کورریلیش کی تصدیق ہوئی ہے” میں بہت فرق ہے۔ اور یہ وہ وجہ ہے کہ اخباری سرخیاں “سائنسدانوں کی دریافت” جیسی خبروں کی مسلسل زد میں رہتی ہیں۔

جہاں پر سائنس اور اس کی رپورٹنگ میں یہ بظاہر کورریلیشن ایک مسئلہ ہیں جن سے اچھے سائنسدان اور شماریات کے ماہرین کو واقف ہونا چاہیے۔ وہاں پر سوڈوسائنس چلتی ہی ان پر ہے۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
اپنی روزمرہ کی دنیا میں ہم یہ پیٹرن دیکھتے ہیں۔ یہ ہم سے باتیں کرتے ہیں۔ ہماری کامن سینس ہماری ٹھیک راہنمائی نہیں کرتی۔ ڈیٹا کے سمندر سے ٹھیک انفارمیشن نکالنے کے سسٹمیٹک طریقے ہیں۔ اگر ایسا نہیں کریں گے تو ہم اس غلط فہمی میں بھی مبتلا ہو سکتے ہیں کہ آسمان پر ستاروں کے پیٹرن کسی طریقے سے سڑک پر ہونے والے حادثے کا امکان کم یا زیادہ کر سکتے ہیں۔

۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔۔
میرا مشورہ: موٹرسائیکل سواری کے وقت ہیلمٹ پہنا کریں۔ خواہ موٹر سائیکل چلا رہے ہوں یا پچھلی نشست پر بیٹھے ہوں۔ اس سے بچنے کا امکان بہت بڑھ جائے گا۔ خواہ برج کوئی بھی ہو اور خواہ منگل کا منحوس دن ہو یا بدھ کا مبارک دن۔۔۔

بذریعہ فیس بک تبصرہ تحریر کریں

براہ راست تبصرہ تحریر کریں۔

Your email address will not be published. Required fields are marked *