Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تقنية وتكنولوجيا

إطلاق العنان للرؤى: بناء بطاقة الأداء باستخدام الانحدار اللوجستي | بواسطة فاسيلي موروزوف


بعد بطاقة الائتمان؟ بوليصة تأمين؟ هل تساءلت يومًا عن الرقم المكون من ثلاثة أرقام الذي يشكل هذه القرارات؟

نحو علم البيانات

مقدمة

يتم استخدام النتائج من قبل عدد كبير من الصناعات لاتخاذ القرارات. تستخدم المؤسسات المالية ومقدمو خدمات التأمين النتائج لتحديد ما إذا كان شخص ما مناسبًا للحصول على الائتمان أو السياسة. حتى أن بعض الدول تستخدم التقييم الاجتماعي لتحديد مدى مصداقية الفرد والحكم على سلوكه.

على سبيل المثال، قبل استخدام النتيجة لاتخاذ قرار تلقائي، كان العميل يذهب إلى أحد البنوك ويتحدث إلى شخص ما بشأن المبلغ الذي يريد اقتراضه وسبب حاجته إلى قرض. قد يفرض موظف البنك أفكاره وتحيزاته الخاصة في عملية صنع القرار. من أين هذا الشخص؟ ما الذي يرتدونه؟ وحتى كيف أشعر اليوم؟

النتيجة تعادل الملعب وتسمح بتقييم الجميع على نفس الأساس.

تم إنشاؤها بواسطة مولد الصور DeepAI

في الآونة الأخيرة، شاركت في العديد منها كاجل المسابقات وتحليلات مجموعات البيانات المميزة. تهدف مسابقة الملعب الأولى لعام 2024 إلى تحديد احتمالية مغادرة العميل للبنك. هذه مهمة شائعة ومفيدة لأقسام التسويق. في هذه المسابقة، اعتقدت أنني سأضع جانبًا تقنيات النمذجة القائمة على الأشجار وتقنيات النمذجة الجماعية المطلوبة عادةً لتكون قادرًا على المنافسة في هذه المهام، وأعود إلى الأساسيات: الانحدار اللوجستي.

سأرشدك هنا خلال تطوير نموذج الانحدار اللوجستي، وتحويله إلى درجة، وعرضه كبطاقة أداء. الهدف من القيام بذلك هو إظهار كيف يمكن أن يكشف هذا عن رؤى حول بياناتك وعلاقتها بهدف ثنائي. وميزة هذا النوع من النماذج هو أنه أسهل وأبسط في الشرح، حتى للجمهور غير التقني.

يمكن العثور على دفتر ملاحظات Kaggle الذي يحتوي على جميع التعليمات البرمجية والرياضيات الخاصة بي هنا. هذه المقالة سوف تركز على النقاط البارزة.

ما هي النتيجة؟

تعتمد النتيجة التي نصفها هنا على نموذج الانحدار اللوجستي. يقوم النموذج بتعيين أوزان لميزات الإدخال الخاصة بنا وسينتج احتمالية يمكننا تحويلها من خلال خطوة المعايرة إلى نتيجة. بمجرد أن نحصل على ذلك، يمكننا تمثيله ببطاقة الأداء: والتي توضح كيفية قيام الفرد بتسجيل النقاط بناءً على بياناته المتاحة.

دعنا نذهب من خلال مثال بسيط.

يدخل السيد X إلى أحد البنوك بحثًا عن قرض لمشروع تجاري جديد. يستخدم البنك درجة بسيطة تعتمد على الدخل والعمر لتحديد ما إذا كان ينبغي الموافقة على الفرد أم لا.

السيد X هو شاب ذو دخل منخفض نسبيًا. تمت معاقبته بسبب عمره، لكنه سجل نتائج جيدة (ثاني أفضل نتيجة) في نطاق الدخل. في المجمل، سجل 24 نقطة في بطاقة الأداء هذه، وهي درجة متوسطة المدى (الحد الأقصى لعدد النقاط هو 52).

غالبًا ما يستخدم البنك قطع النقاط لتحديد عدد النقاط المطلوبة للقبول بناءً على السياسة الداخلية. تعتمد النتيجة على الانحدار اللوجستي المبني على بعض التعريفات الثنائية، باستخدام مجموعة من الميزات للتنبؤ باحتمالات السجل.

في حالة البنك، قد يحاول الانحدار اللوجستي التنبؤ بتلك التي فاتتها المدفوعات. بالنسبة لمزود التأمين، أولئك الذين قدموا مطالبة من قبل. بالنسبة للنتيجة الاجتماعية، أولئك الذين حضروا تجمعًا فوضويًا (لست متأكدًا حقًا مما ستتنبأ به هذه النتائج ولكني سأكون منبهرًا بمعرفة ذلك!).

لن نتناول كل ما هو مطلوب لتطوير النموذج بالكامل، ولكن بعض الخطوات الأساسية التي سيتم استكشافها هي:

  • أوزان تحويل الأدلة: جعل ميزاتنا المستمرة منفصلة عن طريق ربطها كما هو الحال في مثال Mr X.
  • معايرة مخرجات الانحدار اللوجستي لدينا لتوليد النتيجة: تحويل احتمالنا إلى رقم أكثر سهولة في الاستخدام عن طريق تحويله إلى نتيجة.
  • تمثيل درجاتنا كبطاقة أداء: إظهار كيفية مساهمة كل ميزة في النتيجة النهائية.

أوزان تحويل الأدلة

في مثال السيد X، رأينا أن النموذج يحتوي على ميزتين تعتمدان على قيم رقمية: عمر السيد X ودخله. وقد تم تجميع هذه المتغيرات في مجموعات لتسهيل فهم النموذج وما الذي يحرك نتيجة الفرد. إن استخدام هذه المتغيرات المستمرة بشكل مباشر (على عكس استخدامها داخل المجموعة) يمكن أن يعني درجات مختلفة بشكل كبير بالنسبة للاختلافات الصغيرة في القيم. وفي سياق مخاطر الائتمان أو التأمين، فإن هذا يجعل من الصعب تبرير القرار وتفسيره.

هناك مجموعة متنوعة من الطرق للتعامل مع النطاقات، ولكن عادةً ما يتم اتباع نهج تلقائي أولي، قبل ضبط المجموعات يدويًا للحصول على معنى نوعي. هنا، قمت بإدخال كل ميزة مستمرة بشكل فردي في شجرة القرار للحصول على مجموعة أولية من المجموعات.

بمجرد توفر المجموعات، قمت بحساب أوزان الأدلة لكل مجموعة. الصيغة لهذا موضحة أدناه:

صيغة أوزان الأدلة (WoE). يمكن قلب التوزيعات لعكس العلاقة في ميزاتك.

هذه تقنية تحويل شائعة الاستخدام في نمذجة بطاقة الأداء حيث يتم استخدام الانحدار اللوجستي نظرًا لعلاقته الخطية باحتمالات السجل، وهو الشيء الذي يهدف الانحدار اللوجستي إلى التنبؤ به. لن أخوض في الرياضيات هنا حيث تم تناول هذا بالتفصيل الكامل في دفتر ملاحظات Kaggle الخاص بي.

بمجرد حصولنا على أوزان الأدلة لكل ميزة نطاقية، يمكننا تصور الاتجاه. من بيانات Kaggle المستخدمة للتنبؤ بتراجع البنوك، قمت بتضمين اثنتين من الميزات لتوضيح التحولات.

الصورة من قبل المؤلف

تُظهر الأشرطة الحمراء المحيطة بكل أوزان الأدلة فاصل ثقة بنسبة 95%، مما يعني أننا متأكدون بنسبة 95% من أن أوزان الأدلة ستقع ضمن هذا النطاق. ترتبط الفترات الضيقة بالمجموعات القوية التي لديها حجم كافٍ لتكون واثقة من أوزان الأدلة.

على سبيل المثال، تحتوي الفئتان 16 و22 من الرصيد المجمع على أعداد منخفضة من العملاء الذين يغادرون البنك (19 و53 حالة في كل مجموعة على التوالي) ولهما أوسع فترات ثقة.

تكشف الأنماط عن رؤى حول علاقة الميزات وفرصة مغادرة العميل للبنك. تعد ميزة العمر أسهل قليلاً في الفهم، لذا سنتعامل معها أولاً.

مع تقدم العميل في السن، من المرجح أن يغادر البنك.

الاتجاه واضح إلى حد ما ورتيب في الغالب باستثناء بعض المجموعات، على سبيل المثال، الأفراد الذين تتراوح أعمارهم بين 25 و 34 عامًا أقل عرضة للمغادرة مقارنة بالحالات التي تتراوح أعمارهم بين 18 و 24 عامًا. وما لم تكن هناك حجة قوية تدعم سبب حدوث ذلك (معرفة المجال تلعب دورًا!)، فقد نفكر في تجميع هاتين الفئتين لضمان وجود اتجاه رتيب.

يعد الاتجاه الرتيب أمرًا مهمًا عند اتخاذ قرارات منح الائتمان أو بوليصة التأمين نظرًا لأن هذا غالبًا ما يكون متطلبًا تنظيميًا لجعل النماذج قابلة للتفسير وليست دقيقة فقط.

وهذا يقودنا إلى ميزة التوازن. النمط غير واضح وليس لدينا حجة حقيقية لنطرحها هنا. يبدو أن العملاء ذوي الأرصدة المنخفضة لديهم فرصة أقل لمغادرة البنك ولكنك ستحتاج إلى تجميع عدة مجموعات لجعل هذا الاتجاه منطقيًا.

من خلال تجميع الفئات 2-9، 13-21 وترك 22 بمفردها (في الصناديق 1 و2 و3 على التوالي) يمكننا أن نبدأ في رؤية الاتجاه. ومع ذلك، فإن الجانب السلبي لهذا هو فقدان التفاصيل في ميزاتنا ومن المحتمل أن يؤثر على أداء النموذج النهائي.

الصورة من قبل المؤلف

بالنسبة لمسابقة Kaggle، لم يكن النموذج الخاص بي بحاجة إلى أن يكون قابلاً للتفسير، لذلك لم أقم بإعادة تجميع أي من الميزات وركزت فقط على إنتاج النتيجة الأكثر تنبؤًا بناءً على التجميعات التلقائية التي طبقتها. في بيئة الصناعة، قد أفكر مرتين قبل القيام بذلك.

تجدر الإشارة إلى أن رؤيتنا تقتصر على الميزات المتوفرة لدينا وقد تكون هناك أسباب أساسية أخرى للسلوك الملحوظ. على سبيل المثال، قد يكون الاتجاه العمري مدفوعًا بتغيرات السياسة بمرور الوقت مثل الانتقال إلى الخدمات المصرفية عبر الإنترنت، ولكن لا توجد طريقة مجدية لتسجيل ذلك في النموذج دون توفر بيانات إضافية.

إذا كنت تريد إجراء تجميعات تلقائية للميزات الرقمية، فقم بتطبيق هذا التحويل وإنشاء هذه الرسوم البيانية المرتبطة بنفسك، ويمكن إنشاؤها لأي مهمة تصنيف ثنائية باستخدام مستودع Python الذي قمت بتجميعه هنا.

بمجرد توفر هذه الميزات، يمكننا احتواء الانحدار اللوجستي. سيكون للانحدار اللوجستي المجهز تقاطع وسيكون لكل ميزة في النموذج معامل مخصص لها. ومن هذا يمكننا أن نستنتج احتمالية مغادرة شخص ما للبنك. لن أقضي بعض الوقت هنا في مناقشة كيفية ملاءمتي للانحدار، ولكن كما كان من قبل، كل التفاصيل متوفرة في دفتر ملاحظات Kaggle الخاص بي.

يمكن أن ينتج عن الانحدار اللوجستي المجهز احتمالية، إلا أن هذا ليس مفيدًا بشكل خاص للمستخدمين غير التقنيين للنتيجة. وعلى هذا النحو، نحتاج إلى معايرة هذه الاحتمالات وتحويلها إلى شيء أكثر دقة وقابلية للتفسير.

تذكر أن الانحدار اللوجستي يهدف إلى التنبؤ باحتمالات السجل. يمكننا إنشاء النتيجة عن طريق إجراء تحويل خطي لهذه الاحتمالات بالطريقة التالية:

في مخاطر الائتمان، عادة ما يتم تعيين النقاط لمضاعفة الاحتمالات واحتمالات 1:1 على 20 و500 على التوالي، ولكن هذا ليس هو الحال دائمًا وقد تختلف القيم. ولأغراض تحليلي، تمسكت بهذه القيم.

يمكننا تصور النتيجة المعايرة من خلال رسم توزيعها.

الصورة من قبل المؤلف

لقد قمت بتقسيم التوزيع حسب المتغير المستهدف (ما إذا كان العميل سيترك البنك)، وهذا يوفر التحقق المفيد من أن جميع الخطوات السابقة قد تم تنفيذها بشكل صحيح. أولئك الذين من المرجح أن يغادروا البنك يسجلون درجات أقل وأولئك الذين يبقون يسجلون درجات أعلى. هناك تداخل، ولكن النتيجة نادرا ما تكون مثالية!

واستنادًا إلى هذه النتيجة، قد يقوم قسم التسويق بتعيين حد نهائي لتحديد العملاء الذين يجب استهدافهم بحملة تسويقية معينة. يمكن تعيين هذا القطع من خلال النظر في هذا التوزيع وتحويل النتيجة مرة أخرى إلى احتمال.

إن ترجمة درجة 500 ستعطي احتمالًا بنسبة 50% (تذكر أن احتمالات 1:1 تساوي 500 لخطوة المعايرة). وهذا يعني أن نصف عملائنا الذين تقل درجاتهم عن 500 سيغادرون البنك. إذا أردنا استهداف المزيد من هؤلاء العملاء، فسنحتاج فقط إلى رفع الحد الفاصل.

تمثيل درجاتنا كبطاقة أداء

نحن نعلم بالفعل أن الانحدار اللوجستي يتكون من تقاطع ومجموعة من الأوزان لكل من الميزات المستخدمة. نحن نعلم أيضًا أن أوزان الأدلة لها علاقة خطية مباشرة مع احتمالات السجل. وبمعرفة ذلك، يمكننا تحويل أوزان الأدلة لكل ميزة لفهم مساهمتها في النتيجة الإجمالية.

لقد عرضت هذا لجميع الميزات الموجودة في النموذج في دفتر Kaggle الخاص بي، ولكن فيما يلي أمثلة رأيناها بالفعل عند تحويل المتغيرات إلى نموذج أوزان الأدلة.

عمر

توازن

ميزة هذا التمثيل، على عكس نموذج أوزان الأدلة، هو أنه يجب أن يكون منطقيًا لأي شخص دون الحاجة إلى فهم الرياضيات الأساسية. أستطيع أن أخبر أحد زملائي في التسويق أن العملاء الذين تتراوح أعمارهم بين 48 و63 عامًا يسجلون نقاطًا أقل من العملاء الآخرين. من المرجح أن يغادر العميل الذي ليس لديه رصيد في حسابه أكثر من العميل الذي لديه رصيد مرتفع.

ربما لاحظتم أن اتجاه التوازن في بطاقة الأداء هو عكس ما لوحظ في مرحلة أوزان الأدلة. الآن، أصبحت الأرصدة المنخفضة تسجل درجات أقل. ويرجع ذلك إلى المعامل المرتبط بهذه الميزة في النموذج. إنه سلبي وكذلك يعكس الاتجاه الأولي. يمكن أن يحدث هذا نظرًا لوجود تفاعلات مختلفة تحدث بين الميزات أثناء تركيب النموذج. ويجب اتخاذ قرار بشأن ما إذا كانت هذه الأنواع من التفاعلات مقبولة أو ما إذا كنت تريد إسقاط الميزة إذا أصبح الاتجاه غير بديهي.

يمكن للوثائق الداعمة أن تشرح التفاصيل الكاملة لأي نتيجة وكيفية تطويرها (أو على الأقل ينبغي!)، ولكن باستخدام بطاقة الأداء فقط، يجب أن يتمكن أي شخص من الحصول على رؤى فورية!

خاتمة

لقد استكشفنا بعض الخطوات الأساسية في تطوير النتيجة بناءً على الانحدار اللوجستي والأفكار التي يمكن أن يجلبها. إن بساطة الناتج النهائي هي سبب استمرار استخدام هذا النوع من النقاط حتى يومنا هذا في مواجهة تقنيات التصنيف الأكثر تقدمًا.

كانت النتيجة التي طورتها لهذه المسابقة تبلغ مساحتها تحت المنحنى 87.4%، في حين كانت أفضل الحلول المبنية على تقنيات التجميع حوالي 90%. وهذا يدل على أن النموذج البسيط لا يزال تنافسيًا، على الرغم من أنه ليس مثاليًا إذا كنت تبحث فقط عن الدقة. ومع ذلك، إذا كنت تبحث في مهمة التصنيف التالية عن شيء بسيط ويمكن تفسيره بسهولة، فماذا عن التفكير في بطاقة الأداء للحصول على رؤى حول بياناتك؟

مرجع

[1] والتر ريد، أشلي تشاو، التصنيف الثنائي مع مجموعة بيانات Bank Churn (2024)، Kaggle.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى