يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. (مارس 2016) |
في علم اللغويات الـ corpus وترجمته بالعربية المتن أو المحتوى أو المكنز النصي هو مجموعة كبيرة من النصوص المنظمة والمهيكلة (وفي الوقت الحالي عادة ما تكون مجمعة ومعالجة إلكترونيا) تستخدم لعمل تحليل إحصائي واختبار فرضي, لفحص مقدار ظهور أو صحة القواعد اللغوية في مجال محدد. المتن قد يحتوي على نصوص من لغة واحدة ويسمى (monolingual corpus) أو نصوص بيانية من لغات متعددة ويسمى (multilingual corpus) والمتون التي تحتوي على نصوص من أكثر من لغة وتكون قد نسقت من أجل المقارنة تسمى (aligned parallel corpora.). لجعل المتون أكثر فائدة للبحوث اللغوية غالبا ما تخضع لعملية تسمى (ِAnnotation). مثال على ذلك إدخال معلومات مع كل كلمة في المتن عن نوع هذه الكلمة (اسم , فعل , حرف .... الخ) تضاف إلى المتن في شكل وسوم (Tags). مثال آخر إدخال كل كلمة مع أصلها (يذهب , ذهب). بعض المتون تكون معالجة ومحللة بشكل أعمق من ذلك فهناك عدد من المتون الصغيرة تكون قد خضعت لعملية تحليل نحوي كامل (Parsing) وعادة ما تسمى ب Treebank. وهذه العملية صعبة لذلك المتون المحللة نحويا بالكامل عادة ما تكون صغيرة تحوي على ما يقارب الواحد إلى الثلاثة مليون كلمة. وهناك أنواع عديدة لتحليل النصوص مثل التحليل المورفولوجي والدلالي.