دورة التنقيب عن البيانات

0
1176

أولا سنتطرق لتعريف ما هو علم التنقيب عن البيانات  أو    Data  Mining    , تعرٌف على أنها عملية تحليل تساعد على استكشاف البيانات واستخراجها . حتى نقرب لك الصورة أكثر , لك أن تتخيل أن عملية استخراج البيانات  التي تكون مبعثرة  أو غير منسقة  تشبه عملية استخراج الألماس أوالذهب من باطن الأرض حيث تكون مواد خام ليس لها أي تصنيف ولا أي فائدة ، هي المهمة الأكثر أهمية في استخراج شذرات غير تافهة من كميات كبيرة من البيانات.

في يومنا هذا فإن المعلومات  تزداد  بطريقة غير  منطقية  وبطريقة  ملحوظة بدرجة  كبيرة , ونلاحظ حدوث تطور في السوشيال ميديا, بالاضافه الى وجود عدد كبير من   الmulti media  الموجود على Internet servers  .

على الرغم من أن تعريف استخراج البيانات أو التنقيب عنها يبدو واضحا ومباشر، ولكنك قد تٌفاجأ أن الكثير من الناس تفسر مفهومها بشكل خاطئ ويربطون مفهومها بعمل الرسوم البيانية أو جداول SQL .

على سبيل المثال: استخراج البيانات هو ليس  حول استخراج مجموعة من الناس من مدينة معينة في قاعدة البيانات الخاصة بك ؛ لكن مهمتها  تكمن في العثور على مجموعات من الناس متشابهة  أو قريبة من نوع بياناتك . وبالمثل، فإن استخراج البيانات ليس حول خلق رسم بياني.على سبيل المثال، فإن عدد الأشخاص الذين يعانون من السرطان ضد طاقة الكهرباء , في هذه الحالة تكمن أهمية التنقيب عن البيانت في هذا السؤال: هل فرصة الحصول على السرطان أعلى إذا كنت تعيش بالقرب من خط كهرباء ؟

البيانات بحد ذاتها تكون غير منظمة وموجودة في حياتنا اليومية وتتواجد بشتى الصور والطرق وتكون خام وغير معروف عنها أي معلومات مفيدة وتسمىInformation  أو Data  أو Row Data  لذلك فإن الهدف الأساسي هو تحصيل داتا تفيدنا ,  وبمجرد الحصول على هذه الداتا فاننا نقوم  بعملية Knowledge Extraction  والتي تحول البيانات من صيغتها ال Row Data  الى Knowledge data  التي تفيدنا .

في البداية عليك أن تسال نفسك , كيف أقوم  بتحليل هذه البيانات وابني عليها قرارات منطقية ؟ يوجد طرق كثيرة و search strategies و   Knowledge strategies   موجودة في التنقيب عن البيانات تعتمد الى حد كبير في عملية تحليل هذه البيانات .

البيئة التي تدعم هذا النوع من تحليل البيانات تدعى ويكا Weka  وهي عبارة عن بيئة تطوير تحتوي على العديد من الخوارزميات هدفها معالجة الداتا بحالة Row Data  وتحويلها الى حالة knowledge Data  , عملية التحويل تحتاج الى استراتيجية محددة وهذا الاستراتيجية توفرها لنا Weka .

Data Mining تعتمد بصورة كبيرة على ايجاد الطرق المنهجية في عملية معالجة هذه الداتا واستخلاص النتائج منها بصور منطقية واعتماد النتائج بعملية prediction  أو عملية Extraction  لهذا الداتا .

إن مهام استخراج البيانات ذات شقين:

  1. خلق القدرة التنبؤية باستخدام خصائص للتنبؤ بقيم غير معروفة أو مستقبلية لنفس الخصائص.
  2. وخلق قدرة وصفية لإيجاد أنماط مثيرة للاهتمام وتصنيفات من قبل الإنسان تصف البيانات.

في هذا المقال، سوف نقوم بتغطية أربعة تقنيات استخراج البيانات:

  • الانحدار (التنبؤ) ……..  Regression (Predictive)
  • اكتشاف القاعدة (الوصف) Association Rule Discovery (descriptive)…….
  • التصنيف (التنبوء) Classification (Predictive)………
  • التجميع (الوصف) Clustering (descriptive)……..

الانحدار

الانحدار هو النسخة الأكثر مباشرة و البسيطة فيما نسميه “القدرة التنبؤية”. عندما نستخدم تحليل الانحدار فنحن نريد أن نتوقع قيمة لخاصية معطاه استنادا إلى قيم الخصائص الأخرى للبيانات، سواء الخطية أو غير الخطية .

وهنا بعض الأمثلة:

  • توقع إيرادات منتج جديد استنادا إلى المنتجات المماثلة.
  • التنبؤ بالسرطان استنادا إلى عدد السجائر المستهلكة، والمواد الغذائية المستهلكة، والعمر، وما إلى ذلك.
  • التنبؤ بسلسلة زمنية لسوق الأسهم والمؤشرات.

اكتشاف القاعدة (الوصف)

اكتشاف القاعدة هو وسيلة وصفية مهمة في استخراج البيانات. انها طريقة بسيطة جدا، ولكن سوف يفاجأ لكم كم الذكاء والبصيرة التي يمكن أن توفرها – العديد من الشركات تستخدم هذا النوع من المعلومات على أساس يومي لتحسين الكفاءة والحصول الإيرادات.

التصنيف

التصنيف هو عملية مهمة أخرى يجب التعامل معها قبل الشروع  في مرحلة التحليل. افترض أن لديك مجموعة من السجلات records: كل سجل يحتوي على مجموعة من السمات attributes، حيث واحدة من السمات هي فئتنا. هدفنا هو العثور على نموذج  للطبقة  class التي سوف تكون قادرة على التنبؤ على السجلات الغير مرئية أو الغير معروفة بدقة .

التجميع

هو تقنية مهمة تهدف إلى تحديد مجموعات الكائنات (التفكير في مجموعات مختلفة من المستهلكين) بحيث تكون الكائنات داخل نفس المجموعة متشابهة لبعضها البعض. وتقلص مشكلة التجميع في هذا المعنى إلى ما يلي:

وبالنظر إلى مجموعة من نقاط البيانات، ولكل منها مجموعة من الصفات، ومقياس تشابه، مثلا:

نقاط البيانات في مجموعة واحدة هي أكثر مماثلة لبعضها البعض.

نقاط البيانات في مجموعات منفصلة هي أقل مماثلة لبعضها البعض.

ولتعرف مجالات العمل وتطبيقات التنقيب عن البيانات انقر هنا .