تنقيب الأنماط المتسلسلة

يعد تنقيب الأنماط المتسلسلة أحد مواضيع تنقيب البيانات الذي يهتم بالعثور على أنماط ذات علاقة إحصائية بين أمثلة البيانات، حيث إن القيم يتم إيصالها بواسطة متسلسلة.

بالعادة يفترض ان القيم مجزئة وبالتالي يرتبط تنقيب الزمن المتسلسل معه بشكل جيد، ولكن عادةً يعتبر نشاط مختلف.

يعتبر تنقيب البيانات المتسلسل حالة خاصم من تنقيب البيانات المهيكلة

هناك العديد من المفاتيح التقليدية لحساب المشاكل المعنونة في المجال.

وهذا يتضمن بناء قاعدة بيانات فعالة وفهارس للتسلسل المعلومات، واستخراج الانماط ذات الحدوث المتكرر، مقارنة السلاسل للعثور على التشابهات، وتعويض أعضاء المتسلسلات المفقودة.

بشكل عام، تنقيب السلاسل مشكلة يمكن تصنيفها كتنقيب المصفوفات التي تعتمد على خوارزميات معالجة المصفوفات والتنقيب عن العناصر التي ترتكز على تعلم قواعد الارتباط.

نماذج المعالجة المحلية تجعل تنقيب الانماط المتسلسلة انماط أكثر تعقيدا التي تستطيع ان تتضمن خيارات حصرية، حلقات و إنشاء التزامن بالإضافة إلى ترتيب المنشاءات المتسلسلة.

تنقيب المصفوفات

تتعامل تنقيب المصفوفات بالعادة مع حروف محدودة لبنود تظهر في سلاسل، ولكن السلسلة بحد ذاتها ممكن ان تكون طويلة جدا.

امثلة على حروف يمكن ان تكون هكذا، رموز الاسكي في اللغة الطبيعية، النوكليوتيدات الادنين أو جوانين سايتوسين أو ثايمين في تسلسل الحمض النووي أو الاحماض الامينية أو سلاسل البروتين.

في تطبيقات علم الاحياء تحليل ترتيب الرموز في المصفوفة يمكن ان يستخدم لتشخيص سلاسل الحمض النووي والبروتين لمعرفة خصائصها.

معرفة التسلسل للرموز الحمض النووي والبروتين ليس الهدف الاسمى بحد ذاته.

بدلا من ذلك المهمة الاساسية تكمن بفهم السلسلة، من ناحية تركيبها ووظائفها البيولوجية.

هذا عادتا يحقق اولا من خلال تعريف المناطق الفردية أو وحدات البناء في كل سلسلة ومن ثم نقوم بتعيين وظائف لكل وحدة بناء.

في العديد من الحالات يتطلب مقارنة بين سلسلة معطاة واخرى معطاة سابقا.

المقارنة بين المصفوفات تصبح أكثر تعقيدا عند الادراج، الحذف والطفرات في السلسلة

يقدم Abouelhoda & Ghanem (2010) دراسة استقصائية وتصنيف للخوارزميات الرئيسية للمقارنة التسلسلية للمعلوماتية الحيوية، والتي تشمل: ^[1]

المشاكل المرتبطة بالتكرار: التي تتعامل مع العمليات على تسلسل واحد ويمكن أن تستند إلى مطابقة سلاسل دقيقة أو طرق مطابقة تقريبية للسلاسل لإيجاد طول ثابت متكرر وتكرار أقصى طول، والعثور على تكرار مترادف، وإيجاد متابعات فريدة ومفقودة (غير مكتوبة) المتتالية.
مشاكل المحاذاة: التي تتعامل مع المقارنة بين السلاسل عن طريق محاذاة أولاً تسلسل واحد أو أكثر؛ تتضمن أمثلة الطرق الشائعة BLAST لمقارنة تسلسل واحد مع تسلسلات متعددة في قاعدة بيانات، وClustalW لمحاذاة متعددة. يمكن أن تستند خوارزميات المحاذاة إلى طرق دقيقة أو تقريبية، ويمكن أيضًا تصنيفها على أنها محاذاة عالمية، ومحاذاة شبه عالمية ومحاذاة محلية. انظر محاذاة التسلسل.

تنقيب العناصر

بعض المشاكل في التنقيب المتسلسل تضفي على نفسها اكتشاف البنود المتكررة وترتيب ظهورها، مثالا على ذلك، شخص يبحث عن نماذج

إذا قام عميل بشراء سيارة، فمن المتوقع ان يشتري تامين خلال اسبوع أو في مجال اسعار الاسهم،

«في غضون يومين {Nokia up و Ericsson up} ، فمن المحتمل أن {Motorola up و Samsung up} إذا»

عادتا التنقيب عن البنود يستخدم في تطبيقات التسويق لاكتشاف الانتظام بين الحوادث المتكررة في المعاملات الكبيرة

و على سبيل المثال، بواسطة تحليل معاملات العملاء ك سلال الشراء في المتاجر، شخص يستطيع ان يستحدث قاعدة إذا ما قام العميل بشراء البصل والبطاطا سويا فانه من الممكن ان يشتري لحم البرغر في نفس العملية

يقدم Han et al مسحًا وتصنيفًا للخوارزميات الرئيسية لتعدين مجموعة العناصر. (2007).^[2]

الاسلوبان الشائعان اللذان يطبقان على متسلسلات قواعد البيانات للتنقيب عن البنود المتكررة هما خوارزمية apriori و المستحدثة مؤخرا تقنية FP-growth

تطبيقات

مع التنوع الكبير في المنتجات وتصرفات المشترين، يعد ذلك الرف أحد أهم الموارد في بيئة البيع.

بائعو التجزئة لا يستطيعون زيادة ارباحهم لكن، تقليل التكلفة بواسطة الإدارة الملائمة لتخصيص مساحة التخزين وعرض المنتجات.

لحل هذه المشكلة George and Binu (2013) قاموا بتقديم وسيلة للتنقيب انماط الشراء باستخدام خوارزمية PrefixSpan

و وضع المنتجات على الرفوف بالاعتماد على ترتيب انماط الشراء الذهنية.

خوارزميات

الخوارزميات شائعة الاستخدام تشمل:

خوارزمية نظام الأفضليات المعمم
اكتشاف متسلسل باستخدام فئات التكافؤ (SPADE)
FreeSpan
PrefixSpan
MAPres ^[3]

انظر أيضا

عملية التعدين
تحليل التسلسل (المعلوماتية الحيوية)
تجميع تسلسل
وسم التسلسل

المراجع

^ Abouelhoda، M.؛ Ghanem، M. (2010). "String Mining in Bioinformatics". في Gaber (المحرر). Scientific Data Mining and Knowledge Discovery. Springer. DOI:10.1007/978-3-642-02788-8_9. ISBN:978-3-642-02787-1.
^ Han، J.؛ Cheng، H.؛ Xin، D.؛ Yan، X. (2007). "Frequent pattern mining: current status and future directions". Data Mining and Knowledge Discovery. ج. 15 ع. 1: 55–86. DOI:10.1007/s10618-006-0059-1.
^ Ahmad، Ishtiaq؛ Qazi, Wajahat M.؛ Khurshid, Ahmed؛ Ahmad, Munir؛ Hoessli, Daniel C.؛ Khawaja, Iffat؛ Choudhary, M. Iqbal؛ Shakoori, Abdul R.؛ Nasir-ud-Din (1 مايو 2008). "MAPRes: Mining association patterns among preferred amino acid residues in the vicinity of amino acids targeted for post-translational modifications". Proteomics. ج. 8 ع. 10: 1954–1958. DOI:10.1002/pmic.200700657. PMID:18491291.

[1] Abouelhoda، M.؛ Ghanem، M. (2010). "String Mining in Bioinformatics". في Gaber (المحرر). Scientific Data Mining and Knowledge Discovery. Springer. DOI:10.1007/978-3-642-02788-8_9. ISBN:978-3-642-02787-1.

[2] Han، J.؛ Cheng، H.؛ Xin، D.؛ Yan، X. (2007). "Frequent pattern mining: current status and future directions". Data Mining and Knowledge Discovery. ج. 15 ع. 1: 55–86. DOI:10.1007/s10618-006-0059-1.

[3] Ahmad، Ishtiaq؛ Qazi, Wajahat M.؛ Khurshid, Ahmed؛ Ahmad, Munir؛ Hoessli, Daniel C.؛ Khawaja, Iffat؛ Choudhary, M. Iqbal؛ Shakoori, Abdul R.؛ Nasir-ud-Din (1 مايو 2008). "MAPRes: Mining association patterns among preferred amino acid residues in the vicinity of amino acids targeted for post-translational modifications". Proteomics. ج. 8 ع. 10: 1954–1958. DOI:10.1002/pmic.200700657. PMID:18491291.

[1]

[2]

[3]