تقنية وتكنولوجيا

إتقان مؤامرات التشتت في 5 دقائق! – التقنية اليوم


علوم البيانات سريعة النجاح

تعلم تحليل النص الرسومي باستخدام NLTK

صورة بلون بني داكن لشارلوك هولمز وهو يفحص كتابًا باستخدام عدسة مكبرة.
شيرلوك هولمز (بواسطة DALL-E3)

ال مجموعة أدوات اللغة الطبيعية (NLTK) يأتي مع ميزة ممتعة تسمى أ مؤامرة التشتت يتيح لك نشر موقع الكلمة في النص. وبشكل أكثر تحديدًا، فإنه يرسم تكرارات الكلمة مقابل عدد الكلمات من بداية النص.

فيما يلي مثال لمؤامرة التشتت للشخصيات الرئيسية في رواية شيرلوك هولمز، كلب الصيد من باسكرفيل:

مخطط تشتت يستخدم علامات التجزئة الزرقاء الرأسية للإشارة إلى حدوث كلمة في النص.
حبكة التشتت للشخصيات الرئيسية في رواية “كلب آل باسكرفيل” (للمؤلف)

تمثل علامات التجزئة الزرقاء الرأسية مواقع الكلمات المستهدفة في النص. يغطي كل صف المجموعة من البداية إلى النهاية.

إذا كنت على دراية كلب الصيد من باسكرفيل – ولن أفسد الأمر إذا لم تكن كذلك – إذن ستقدر الظهور المتناثر لهولمز في المنتصف، وعودة مورتيمر المتأخرة، والتداخل بين باريمور وسيلدن وكلب الصيد.

يمكن أن يكون لمؤامرات التشتت تطبيقات عملية أكثر. على سبيل المثال، تخيل أنك عالم بيانات تعمل مع المساعدين القانونيين في قضية جنائية تتعلق بالتداول من الداخل. لمعرفة ما إذا كان المتهم قد اتصل بأعضاء مجلس الإدارة قبل القيام بالصفقات غير القانونية مباشرةً، يمكنك تحميل رسائل البريد الإلكتروني التي تم استدعاء المتهم فيها كسلسلة متواصلة وإنشاء مخطط تشتيت للتحقق من تجاور الأسماء.

يقوم علماء الاجتماع بتحليل مؤامرات التشتت لدراسة اتجاهات اللغة المتعلقة بموضوعات محددة. ومن خلال تتبع ظهور مصطلحات مثل “تغير المناخ” أو “السيطرة على الأسلحة” في المقالات الإخبارية، يمكنهم الحصول على نظرة ثاقبة للأولويات التي تهم المجتمع على أطر زمنية محددة.

في هذا علوم البيانات سريعة النجاح المشروع، سنكتب كود بايثون الذي تم إنشاؤه كلب الصيد من باسكرفيل مؤامرة التشتت المبينة سابقا.

سوف نستخدم نسخة من الرواية المخزنة في هذا الجوهر. لقد جاء في الأصل من مشروع جوتنبرج، مصدر عظيم لأدب المجال العام. كما هو موصى به لمعالجة اللغة الطبيعية، فقد قمت بتجريدها من…

رابط المصدر

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى