تجزئة النص

المساعدة في نموذج اللغة للاختيار بين العديد من حلول التجزئة والتعرف.

تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة.

مشاكل التجزئة

[عدل]

تجزئة الكلمات

[عدل]

تجزئة الكلمات هي عملية تقسيم نص مكتوب بلغة ما إلى الكلمات المكونه له.

في الإنجليزية والعديد من اللغات الأخرى التي تستخدم الأبجدية اللاتينية، تعتبر المسافة فاصل جيد بين الكلمات (محدد للكلمة)، على الرغم من أن استخدام هذه الطريقة محدود بسبب وجود لغات تحتوي على تراكيب لغوية. يتم كتابة العديد من الأسماء المركبة الإنجليزية بطرق مختلفة (على سبيل المثال، ice<span typeof="mw:Entity" id="mwHw"> </span>box = ice-box = icebox ؛ pig sty = pig-sty = pigsty) كما أن هناك اختلاف في ما إذا كان المتحدثون يفكرون بها على أنها مقاطع اسمية أو أسماء مفردة. في المقابل، تُظهر الأسماء المركبة الألمانية تباينًا إملائيًا أقل.

ومع ذلك، فإن المسافة غير موجودة في بعض النصوص المكتوبة، وبدونها تتزايد صعوبة تجزئة الكلمات. من اللغات التي تكون فيها تجزئة الكلمات عملية غير بسيطة: الصينية واليابانية، حيث يتم تحديد الجمل وليس الكلمات، والتايلاندية واللاوية، حيث يتم تحديد العبارات والجمل وليس الكلمات، والفيتنامية حيث يتم تحديد المقاطع وليس الكلمات.

مع ذلك، في بعض أنظمة الكتابة مثل الحروف جعزية التي تستخدم في الأمهرية والتغرينية، تكون حدود الكلمات واضحة (على الأقل تاريخيا) باستخدام أحرف غير المسافة.

قام Unicode Consortium بنشر ملحق قياسي بشأن تجزئة النص، [1] لاستكشاف قضايا التجزئة في النصوص متعددة النصوص.

تقسيم الكلمات هو عملية تحليل النص المتسلسل (أي النص الذي لا يحتوي على مسافات أو فواصل أخرى بين الكلمات) لاستنتاج مكان وجود فواصل الكلمات.

تجزئة المقصد

[عدل]

تجزئة المقصد هي عملية تقسيم الكلمات المكتوبة إلى مقاطع رئيسية (مجموعتان أو أكثر من الكلمات).

تجزئة الجملة

[عدل]

تجزئة الجملة هي عملية تقسيم النص إلى الجمل المكونة له. في الإنجليزية وبعض اللغات الأخرى، يعد استخدام علامات الترقيم، ولا سيما النقطة، تقديرًا تقريبيًا معقولاً لنهاية الجملة. ومع ذلك، حتى في الإنجليزية، فإن هذه المشكلة ليست بالهينة بسبب استخدام النقطة للاختصارات وليس فقط لإنهاء الجملة. على سبيل المثال، «د.» ليس جملة كاملة في «ذهب د. سميث إلى المحلات التجارية في شارع جونز». عند معالجة النص، يمكن أن تساعد جداول الاختصارات التي تحتوي على نقاط في منع الخطأ في تحديد حدود الجملة.

كما هو الحال مع تجزئة الكلمات، لا تحتوي جميع اللغات المكتوبة على أحرف ترقيم يمكن إستخدامها لتحديد حدود الجملة.

تجزئة الموضوع

[عدل]

يشمل تحليل الموضوع مهمتين رئيسيتين: تحديد الموضوع وتجزئة النص. في حين أن الأول هو تصنيف بسيط لنص معين، فإن الأخير يشير إلى أن المستند قد يحتوي على عدة مواضيع، وقد تكون مهمة تجزئة النص هي اكتشاف هذه الموضوعات تلقائيًا وتجزئة النص وفقًا لذلك. وقد تكون حدود الموضوع واضحة من عناوين الأقسام والفقرات، ولكن في حالات أخرى، يحتاج المرء إلى استخدام تقنيات مماثلة لتلك المستخدمة في تصنيف الوثائق.

قد تكون تجزئة النص إلى مواضيع أو خطابات مفيدًا في بعض مهام المعالجة الطبيعية للغات: يمكن أن يحسن بشكل كبير من عملية استرجاع المعلومات أو التعرف على الكلام (عن طريق فهرسة/التعرف على المستندات بشكل أكثر دقة أو عن طريق إعطاء جزئية من مستند كنتيجة لإستعلام ما). وهي ضرورية أيضًا في أنظمة الكشف عن الموضوعات وتتبعها وفي تلخيص النصوص.

تم تجربة العديد من الأساليب المختلفة [2] مثل HMM ، السلاسل المعجمية، تشابه المقاطع عن طريق التواجد المشترك للكلمات، التجميع، نمذجة المواضيع، إلخ.

تعتبر العملية غامضة حيث غالبًا ما يختلف الأشخاص الذين يقومون بتقييم أنظمة تجزئة النص في حدود الموضوع. وبالتالي فإن تقييم تجزئة النص يمثل مشكلة صعبة أخرى.

مشاكل التجزئة الأخرى

[عدل]

قد تكون هناك حاجة إلى تجزئة النص إلى مقاطع أخرى إلى جانب القطاعات المذكورة، بما في ذلك المقاطع الصرفية (مهمة وعادة ما تسمى التحليل الصرفي) أو الفقرات.

نُهج التقسيم الآلي

[عدل]

التجزئة الآلية هي مشكلة في تخصص معالجة اللغات الطبيعية حيث يقوم الحاسب بتنفيذ عملية تجزئة النص.

عندما لا تتوفر علامات الترقيم والقرائن المماثلة بشكل ثابت، غالبًا ما تتطلب مهمة التجزئة استخدام تقنيات متقدمة، مثل اتخاذ القرارات الإحصائية، القواميس الكبيرة، والقيود النحوية والدلالية. عادة ما تعمل أنظمة معالجة اللغات الطبيعية الفعالة وأدوات تجزئة النص على نص من مصادر ومجالات محددة. على سبيل المثال، تعد معالجة نصوص السجلات الطبية مشكلة مختلفة تمامًا عن معالجة المقالات الإخبارية أو الإعلانات العقارية.

تبدأ عملية تطوير أدوات تجزئة النص بتجميع مجموعة كبيرة من النصوص في المجال المرغوب. ثم يتم اتباع إحدى الطريقتين:

  • التحليل اليدوي للنصوص وكتابة مجموعة من القواعد المخصصة
  • وضع تعليقات توضيحية توضح الحدود على عينة من النصوص واستخدم التعلم الآلي

تستخدم بعض أنظمة تجزئة النص بعض الترميزات مثل HTML ومعلومات عن تنسيقات المستندات مثل PDF كأدلة إضافية لتمييز حدود الجملة والفقرة.

انظر أيضًا

[عدل]

المراجع

[عدل]
  1. ^ UAX #29 نسخة محفوظة 16 ديسمبر 2020 على موقع واي باك مشين.
  2. ^ Jeffrey C. Reynar (1998). "Topic Segmentation: Algorithms and Applications". جامعة بنسيلفانيا. IRCS-98-21. مؤرشف من الأصل (PDF) في 2016-03-03. اطلع عليه بتاريخ 2007-11-08.