إتقان مؤامرات التشتت في 5 دقائق! – التقنية اليوم
النشرة الإخبارية
Sed ut perspiciatis unde.
علوم البيانات سريعة النجاح
تعلم تحليل النص الرسومي باستخدام NLTK
ال مجموعة أدوات اللغة الطبيعية (NLTK) يأتي مع ميزة ممتعة تسمى أ مؤامرة التشتت يتيح لك نشر موقع الكلمة في النص. وبشكل أكثر تحديدًا، فإنه يرسم تكرارات الكلمة مقابل عدد الكلمات من بداية النص.
فيما يلي مثال لمؤامرة التشتت للشخصيات الرئيسية في رواية شيرلوك هولمز، كلب الصيد من باسكرفيل:
تمثل علامات التجزئة الزرقاء الرأسية مواقع الكلمات المستهدفة في النص. يغطي كل صف المجموعة من البداية إلى النهاية.
إذا كنت على دراية كلب الصيد من باسكرفيل – ولن أفسد الأمر إذا لم تكن كذلك – إذن ستقدر الظهور المتناثر لهولمز في المنتصف، وعودة مورتيمر المتأخرة، والتداخل بين باريمور وسيلدن وكلب الصيد.
يمكن أن يكون لمؤامرات التشتت تطبيقات عملية أكثر. على سبيل المثال، تخيل أنك عالم بيانات تعمل مع المساعدين القانونيين في قضية جنائية تتعلق بالتداول من الداخل. لمعرفة ما إذا كان المتهم قد اتصل بأعضاء مجلس الإدارة قبل القيام بالصفقات غير القانونية مباشرةً، يمكنك تحميل رسائل البريد الإلكتروني التي تم استدعاء المتهم فيها كسلسلة متواصلة وإنشاء مخطط تشتيت للتحقق من تجاور الأسماء.
يقوم علماء الاجتماع بتحليل مؤامرات التشتت لدراسة اتجاهات اللغة المتعلقة بموضوعات محددة. ومن خلال تتبع ظهور مصطلحات مثل “تغير المناخ” أو “السيطرة على الأسلحة” في المقالات الإخبارية، يمكنهم الحصول على نظرة ثاقبة للأولويات التي تهم المجتمع على أطر زمنية محددة.
في هذا علوم البيانات سريعة النجاح المشروع، سنكتب كود بايثون الذي تم إنشاؤه كلب الصيد من باسكرفيل مؤامرة التشتت المبينة سابقا.
سوف نستخدم نسخة من الرواية المخزنة في هذا الجوهر. لقد جاء في الأصل من مشروع جوتنبرج، مصدر عظيم لأدب المجال العام. كما هو موصى به لمعالجة اللغة الطبيعية، فقد قمت بتجريدها من…
رابط المصدر
اكتشاف المزيد من موقع علم
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.