التنقيب في البيانات[1] (بالإنجليزية: data mining) هي عملية بحث محوسب ويدوي عن معرفة من البيانات دون فرضيات مسبقة عما يمكن أن تكون هذه المعرفة.[2][3][4]
كما ويعرف التنقيب في البيانات على أنه عملية تحليل كمية بيانات (عادة ما تكون كمية كبيرة)، لإيجاد علاقة منطقية تلخص البيانات بطريقة جديدة تكون مفهومة ومفيدة لصاحب البيانات. يطلق اسم «نماذج» models على العلاقات والبيانات الملخصة التي يتم الحصول عليها من التنقيب في البيانات. يتعامل تنقيب البيانات عادة مع بيانات يكون قد تم الحصول عليها بغرض غير غرض التنقيب في البيانات (مثلاً قاعدة بيانات التعاملات في مصرف ما) مما يعني أن طريقة التنقيب في البيانات لاتؤثر مطلقاً على طريقة تجميع البيانات ذاتها. هذه هي أحد النواحي التي يختلف فيها التنقيب في البيانات عن الإحصاء، ولهذا يشار إلى عملية التنقيب في البيانات على أنها عملية إحصائية ثانوية. يشير التعريف أيضاً إلى أن كمية البيانات تكون عادة كبيرة، أما في حال كون كمية البيانات صغيرة فيفضل استخدام الطرق الإحصائية العادية في تحليلها.
عند التعامل مع حجم كبير من البيانات تظهر مسائل جديدة مثل كيفية تحديد النقاط المميزة في البيانات، وكيفية تحليل البيانات في فترة زمنية معقولة وكيفية قرار ما إذا كانت أي علاقة ظاهرية تعكس حقيقة في طبيعة البيانات. عادة يتم التنقيب في بيانات تكون جزءاً من كامل البيانات حيث يكون الغرض عادة تعميم النتائج على كامل البيانات (مثلاً تحليل البيانات الحالية لمستهلكي منتج ما بغرض توقع طلبات المستهلكين المستقبلية). من أحد أهداف تنقيب البيانات أيضاً هو اختزال كميات البيانات الكبيرة أو ضغطها بحيث تعبر بشكل بسيط عن كامل البيانات بدون تعميم.
أنواع التنقيب
هناك نوعان أساسيان للتنقيب في البيانات هما: التنقيب الاستشرافي والتنقيب الوصفي.
التنقيب الاستشرافي ينتج عنه نموذج عن النظام الذي تصفه البيانات المستخدمة في التنقيب. أما التنقيب الوصفي فينتج عنه معلومات جديدة بناء على المعلومات الموجودة داخل البيانات المستخدمة في عملية التنقيب.
الكيفية
في الحقيقة ان تنقيب البيانات هو مرحلة واحدة ضمن ما يدعى «اكتشاف المعرفة في قواعد البيانات» وهو المصطلح الأدق حيث يتظمن خطوات ممنهجة ومتسلسلة ودقيقة وهي :
اولا :معالجة البيانات وهذة المرحلة تهتم جمع البيانات من عدة قواعد بيانات وفحصها للتأكد من خلوها من الاخطاء أو النقص أو التعارض ومن ثم إعادة معالجتها وتشفيرها وتجميعها
رابعا :اختيار نوع التنقيب وصفي أو تنبئي واختيار الخوارزمية المناسبة لعمل التنقيب
خامسا :تنفيذ التنقيب لاستخراج المعارف والانماط
سادسا: تقييم المعارف المستخرجة وتحديد اين منها يعتبر مفيدا ومن ثم الاستفادة من هذه المعارف
أهداف التنقيب
هناك ثلاثة أهداف للتنقيب في البيانات:
1) من أجل تعليل بعض الظواهر المرئية. مثال:
2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.
3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.
وسائل التنقيب في البيانات
هناك عدة وسائل مختلفة من أجل التنقيب في البيانات. اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها. يمكن إجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.
- الكشف عن قانون Rule Discovery: البحث عن منوال معين أو علاقة معينة في جزئية كبيرة من البيانات.
- معالجة الإشارات Signal Processing: ايجاد الظواهر المتشابه مع بعضها البعض
- شبكات عصبونية Neural Nets: تطوير نماذج قابلة لتنبؤ النتائج. هذه النماذج تم تطويرها بناء على أسس تم استنباطها من عقل الإنسان.
- منحنيات غير ثابتة Fractals: تصغير البيانات الكبيرة من دون ضياع المعلومات
تطبيقات التنقيب في البيانات
وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم.
التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)
- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.
- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.
- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.
- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع
- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.
- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.
تطبيقات التنقيب في البيانات بدأت تنمو بصورة كبيرة للأسباب التالية:
1) كمية البيانات الموجودة في مخزن البيانات وسوق البيانات تنمو بصورة أسية (exponential).
ومن أجل ذلك، فإن المستخدم يحتاج إلى أدوات متطورة من مثل التنقيب في البيانات من اجل استخلاص الفائدة والمعرفة من هذه البيانات.
2) الكثير من أدوات التنقيب عن البيانات بدأت تظهر مؤخرا، وكل أداة أفضل من الأخرى.
3) المنافسة الشديدة الموجودة في السوق تدفع الشركات إلى الاستفادة القصوى من البيانات التي بيدها. عمليات التنقيب في البيانات تفعل ذلك تماما.
أدوات التنقيب عن البيانات
نماذج التنقيب في البيانات نوعان: النماذج التنبؤية (Predictives) والنماذج الوصفية (Descriptives).
النماذج التنبؤية تهدف إلى التنبؤ بقيمة بعض الخصائص. مثل التنبؤ باحتمال الشراء للزبون. أما النماذج الوصفية فتنقسم إلى صنفين: نماذج العنقدة التي تسمح بتجميع الأفراد، والأحداث، آو المنتجات في عناقيد، ونماذج الارتباط التي تسمح بتحديد العلاقات بينهم.
وهناك عدة أدوات للتنقيب في البيانات، من أهمها الأدوات الآتية:
1. التلخيص (Summarization):
يشير التلخيص إلى أساليب تفتيت كتل البيانات الكبيرة إلى مقاييس موجزة، توفر وصفا عاما للمتغيرات وعلاقاتها.[5] ومن الأمثلة على أساليب التلخيص نذكر: المتوسطات، والمجاميع، والإحصائيات الوصفية التي تتضمن مقاييس النزعة المركزية مثل المتوسط الحسابي و الوسيط والمنوال، ومقاييس التشتت مثل الانحراف المعياري. وعلى الرغم من أن مقاييس التلخيص تعطي صورة كبيرة عن بعض التفاصيل ذات العلاقة فإنها غالبا ما تهمل تفاصيل أخرى ذات أهمية كبيرة تتعلق بسلوك المستهلك خصوصا.
2. التصنيف(Classification) :
يتمثل التصنيف في تفسير أو التنبؤ بخاصية فرد ما من خلال خصائص أخرى. هذه الخاصية هي عموما كيفية.[6] ويمكن انجاز التصنيف بالاعتماد على الأساليب الإحصائية القديمة مثل الانحدار والتحليل التمييزي، أو بالاعتماد على أساليب حديثة نسبيا مثل قوى الارتباط والاستنتاج المستند إلى الحالة والشبكات العصبية.
وكأمثلة عن طرق التصنيف المستعملة كجزء من تطبيقات استكشاف المعرفة التي تتضمن تصنيف اتجاهات الأسواق المالية، والتحديد الآلي للأشياء المهمة في صورة كبيرة من قواعد البيانات.
3. التنبؤ (Prediction) :
يشبه التنبؤ التصنيف أو التقدير، ما عدا أن البيانات تصنف على أساس التنبؤ بسلوكها المستقبلي أو تقدير قيمتها المستقبلية.[7] حيث أن المتغير التابع المتنبأ به هو متغير كمي. ومن الأدوات التقليدية المستخدمة في التنبؤ نذكر على سبيل المثال: الانحدارات بأنواعها و التحليل التمييزي. أما الأساليب الجديدة فتشتمل على قواعد الارتباط و شجرة القرار و الشبكات العصبية و الخوارزميات الوراثية.
4. العنقدة أو التجزئة(Clustering) :
يتمثل التجميع العنقودي أو التجزئة إلى قطاعات في البحث عن مجموعات متجانسة في مجتمع من الأفراد.[6] و يشير التجميع العنقودي أو التجزئة إلى قطاعات إلى عملية تشكيل مجموعات أو قطاعات مؤلفة من أفراد أو أصحاب أسر، و ذلك بالاستناد إلى معلومات متضمنة في مجاميع من المتغيرات التي تصفهم. و الغرض من التجميع العنقودي المساعدة على تطوير برامج تسويقية مصممة على مقاسات الزبائن أنفسهم، و التي بالإمكان استخدامها لاستهداف أعضاء لكل قطاع من هذه القطاعات على أمل ترغيبهم في تكرار الشراء أو التحول إلى زبائن موالين.[5]
وتتم أساليب التجميع العنقودي غالبا بمساعدة أساليب التحليل العنقودي الإحصائية و الأساليب المستندة إلى شجرة القرار، و الشبكات العصبية و الخوارزميات الوراثية.
5. تحليل الارتباط(Rule Analysis) :
يتمثل الارتباط في البحث عن علاقات أو ارتباطات موجودة بين عدة خصائص.[6] و يشير تحليل الارتباط إلى مجموعة من الأساليب التي تستخدم لربط أنماط الشراء عبر القطاعات المتقاطعة أو عبر الوقت. فمثلا يقوم أسلوب تحليل سلة السوق (نوع من أنواع الارتباط) باستخدام المعلومات الكامنة في السلع التي اشتراها المستهلكون فعليا للتنبؤ بالسلع المحتمل شراؤهم إياها إذا ما تم تقديم عروض خاصة لهم أو إذا تم تعريفهم بهذه السلع.[5]
6. الكشف عن التغيرات أو الانحرافات (Change and deviation detection) :
يرتكز على استكشاف التغيرات المهمة جدا في البيانات من خلال قياسات سابقة أو قيم معيارية.
مراحل عملية التنقيب في البيانات
تسير عملية التنقيب في البيانات بالعديد من المراحل والخطوات، وتتلخص في الآتي:[8]
1- فهم طبيعة الأعمال (Business Understanding): يعتبر المطلب الأول لاكتشاف المعرفة هو فهم المشاكل والمسائل التي تواجهها الأعمال. وبمعنى أخر، كيف يمكن تحقيق المنفعة الأعظم من التنقيب في البيانات، مما يتطلب وجود صيغة واضحة ومحددة لأهداف الأعمال.
2- فهم البيانات (Data Understanding): تعتبر مسالة معرفة ماهية وطبيعة البيانات عامل مهم في نجاح عملية التنقيب في البيانات واكتشاف المعرفة. حيث أن معرفة البيانات بصورة جيدة تعني مساعدة المصممين على استخدام الخوارزميات أو الأدوات المستخدمة للمسائل المحددة بدقة عالية. وهذا يقود إلى تعظيم فرص النجاح بالإضافة إلى رفع الفعالية والكفاءة لنظام اكتشاف المعرفة.
ويمكن تلخيص الخطوات الضرورية لعملية فهم البيانات كالآتي:
تجميع البيانات(Data Collection): و هي الخطوة الموجهة نحو تحديد مصدر البيانات في الدراسة بما في ذلك استخدام البيانات العامة الخارجية مثل الضرائب و غيرها.
توصيف البيانات(Data Description): و هي الخطوة التي تركز على توصيف محتويات الملف الواحد من الملفات أو الجداول.
جودة البيانات و تحقيقها(Data Quality and Verification): هذه الخطوة تحدد ما إذا كان تقليل أو إهمال بعض البيانات غير الضرورية أو كونها رديئة الجودة و قد لا تنفع في الدراسة. لأن النموذج الجيد يحتاج إلى بيانات جيدة مما يتوجب أن تكون البيانات صحيحة و ذات مضمون دقيق.
التحليل الاسترشادي للبيانات(Exploratory Analysis of Data): تستخدم الأساليب مثل الإظهار المرئي أو التصور أو عملية التحليل المباشر(OLAP) التي تؤدي إلى إجراء التحليل الأولي للبيانات. و تعتبر هذه الخطوة مهمة و ضرورية.
3- تهيئة البيانات (Data Preparation): و تشمل الخطوات التالية:
الاختار (Selection) و تعني اختيار المتغيرات المتوقعة و حجم العينة.
صياغة المتغيرات وتحويلها (Construction and Transformation Variables) حيث يجب دائما أن تصاغ المتغيرات الجديدة لبناء النماذج الفعالة.
تكامل البيانات (Data Integration): حيث أن مجاميع البيانات في دراسة التنقيب عن البيانات من الممكن خزنها في قواعد بيانات متعددة الأغراض التي تكون بحاجة إلى توحيدها في قاعدة بيانية واحدة.
تصميم و تنسيق البيانات (Data Formatting) حيث تتعلق هذه الخطوة في إعادة ترتيب حقول البيانات كما يتطلب في نموذج التنقيب في البيانات.
4- صياغة نماذج الحل و ثبوتها (Model Building and Validation): إن بناء و صياغة نموذج الحل السليم و الدقيق يتم من خلال عملية الخطأ و الصواب، حيث كثيرا ما تحتاج مثل هذه العملية إلى مساعدة المختصين في التنقيب عن البيانات بهدف اختبار و فحص مختلف البدائل للحصول على أفضل نموذج لحل المشكلة قيد الدراسة.
5- التقييم و تعليل نتائج النموذج(Evaluation and Interpretation): حالما يتم صياغة النموذج و التحقق من ثباته و صدقه، تجري مباشرة عملية التحقق من ثبات حزمة البيانات التي يتم تغذيتها بواسطة النموذج. وبما أن نتاجات هذه البيانات معروفة، لذا فان النتائج المتوقعة تقارن مع النتائج الفعلية في ثبات حزمة البيانات قيد التشغيل. و تؤدي هذه المقارنة أو المفاضلة إلى التحقق من دقة النموذج.
6- نشر وتوزيع النموذج(Model Deployment): حيث تشتمل هذه الخطوة على نشر و توزيع النموذج داخل المنظمة لمساعدة عملية صنع القرار. و أن النموذج الصالح يجب أيضا أن يحقق الرضا لدى المستفيدين طالما أن اختيار النموذج لابد أن يتم من خلال الدراسة الاسترشادية أو نموذج مصغر من الدراسة الشاملة.
مجالات تطبيق تنقيب قواعد البيانات في منظمات الأعمال
عرف التنقيب في البيانات نجاحا كبيرا و ازدادت تطبيقاته في منظمات الأعمال و ذاك راجع إلى النمو الكبير في البيانات خاصة الموجودة في قواعد البيانات و مخازن البيانات، و المنافسة الشديدة في السوق، مما يدفع هذه المنظمات إلى الاستفادة القصوى من البيانات التي تمتلكها باستخدام التنقيب في البيانات.
وقد بدأ استخدام التنقيب في البيانات في منظمات التوزيع، ثم انتقلت بعدها سريعا إلى البنوك، و مؤسسات التأمين، و شركات الهاتف (خاصة الهاتف النقال)، و مؤسسات المياه و الكهرباء، و مؤخرا مؤسسات النقل الجوي و النقل بالسكك الحديدية...الخ. و كانت تطبيقاتها الأولى في ميدان إدارة العلاقة مع الزبون من خلال تحليل سلوك الزبائن من أجل الوصول إلى جعلهم أكثر وفاء و اقتراح منتجات وفق رغباتهم.
وهناك عدة ميادين لتطبيق التنقيب في البيانات في منظمات الأعمال، من أبرزها الميادين الآتية:[8]
1- التسويق: استخدمت الشبكات العصبية الاصطناعية في دراسات التسويق المستهدف بما في ذلك الحصص السوقية. و قد ساعدت هذه الأساليب التسويق على استخدام نهج تحصيص الزبائن وفقا إلى الحقائق الديمغرافية (السكانية) الأساسية مثل الجنس والعمر والمجموعات وكذلك أنماطهم الشرائية.
2- التجزئة: لقد استخدمت أساليب التنقيب في البيانات بصورة فعالة في التنبؤ بالمبيعات حيث أخذت العديد من المتغيرات في الدراسات مثل متغيرات السوق المتعددة، قدرات الزبائن المستندة على العادات المتبعة في الشراء. كما ساعدت أساليب مثل تحليل السلة الشرائية أو السلة السوقية كثيرا على إيجاد أي من المنتجات التي يمكن أن تشترى سوية من قبل الزبائن.
3- البنوك: لقد أثبتت تنبؤات الأعمال والمالية على أنها الأساليب الممتازة في تطبيقات أساليب التنقيب في البيانات. وقد استخدمت هذه الأساليب في إيجاد الأسعار المضمونة وتنبؤات السعر المستقبلية وأداء الأسهم. كما وقد حققت استخدامات مثل هذه الأساليب النجاح في تطوير أنظمة القياس الرقمية في تحديد مخاطرة القروض والاحتيالات المالية.
4- التأمين: لقد استخدمت أساليب التنقيب في البيانات كذلك وبصورة واسعة في مجال شركات التأمين وخاصة في تحصيص مجاميع الزبائن بهدف تحديد أسعار البوليصة وذبذبات المطالبات المتوقعة مستقبلا، وتحديد المطالبات المزيفة.
5- الاتصالات: حيث استخدمت وبصورة فعالة أساليب التنقيب في البيانات مثل الشبكات العصبية في محاولة تقليل – الخضخضة- التي تظهر عندما تفقد المنظمة هؤلاء الزبائن خلال المنافسة وذهابهم إلى المنافسين الآخرين.
6- إدارة العمليات: حيث استخدمت الشبكات العصبية في عمليات التخطيط والجدولة وإدارة المشاريع بالإضافة إلى إدارة الجودة.
^Mikut, Ralf؛ Reischl, Markus (سبتمبر–أكتوبر 2011). "Data Mining Tools". Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. ج. 1 ع. 5: 431–445. DOI:10.1002/widm.24. مؤرشف من الأصل في 2018-01-17. اطلع عليه بتاريخ 2011-10-21.
^ ابعبد الستار العلي، عامر إبراهيم قنديلجي، غسان العمري (2006). المدخل إلى إدارة المعرفة (ط. 1). الأردن، عمان: دار المسيرة للنشر و التوزيع و الطباعة. ص. 98 -102.