تقنية وتكنولوجيا

متعدد الحدود ساذج بايز المصنف | بواسطة يوان موكين


مثال عملي كامل لتصنيف مراجعة النص

نحو علم البيانات

في هذا المنشور الجديد، سنحاول فهم كيفية عمل مصنف Naive Bayes متعدد الحدود وتقديم أمثلة عملية مع Python وScikit-Learn.

ما سنراه:

  • ما هو التوزيع متعدد الحدود: على عكس مصنفات Gaussian Naive Bayes التي تعتمد على التوزيع الغاوسي المفترض، تعتمد مصنفات Bayes الساذجة متعددة الحدود على التوزيع متعدد الحدود.
  • النهج العام لإنشاء المصنفات التي تعتمد على نظرية بايز، إلى جانب الافتراض الساذج بأن ميزات الإدخال مستقلة عن بعضها البعض بالنظر إلى فئة مستهدفة.
  • كيف يتم “تركيب” المصنف متعدد الحدود من خلال تعلم/تقدير الاحتمالات متعددة الحدود لكل فئة – باستخدام خدعة التجانس للتعامل مع الميزات الفارغة.
  • كيف يتم حساب احتمالات العينة الجديدة، باستخدام خدعة مساحة السجل لتجنب التجاوز.

جميع الصور من قبل المؤلف.

إذا كنت على دراية بالتوزيع متعدد الحدود، فيمكنك الانتقال إلى الجزء التالي.

تمثيل توزيعين متعددي الحدود (مع 10 معلمات). تمثل تلك احتمالية ظهور كلمة معينة في مراجعة النص.

الخطوة الأولى المهمة لفهم مصنف Naive Bayes متعدد الحدود هو فهم ما هو توزيع متعدد الحدود يكون.

بكلمات بسيطة، فهو يمثل احتمالات تجربة يمكن أن يكون لها عدد محدود من النتائج وتتكرر N مرات، على سبيل المثال، مثل رمي حجر النرد بـ 6 وجوه مثلاً 10 مرات وحساب عدد مرات ظهور كل وجه. مثال آخر هو حساب عدد مرات ظهور كل كلمة في المفردات في النص.

يمكنك أيضًا رؤية التوزيع متعدد الحدود باعتباره امتدادًا للتوزيع ذي الحدين: باستثناء رمي عملة معدنية ذات نتيجتين محتملتين (ذات الحدين)، فإنك تقوم برمي حجر نرد له 6 نتائج (متعدد الحدود). أما بالنسبة للتوزيع ذي الحدين، فإن مجموع كل احتمالات النتائج المحتملة يجب أن يساوي 1. لذلك يمكن أن يكون لدينا:

رابط المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى