دادهورزی (انفورماتیک) تنوعزیستی (به انگلیسی: Biodiversity informatics) استفاده از تکنیکهای دادهورزی در اطلاعات تنوعزیستی برای مدیریت، ارائه، کشف، اکتشاف و تجزیه و تحلیل بهبود یافتهاست. این روش، بهطور معمول بر پایهای از اطلاعات آرایهشناسی، زیستجغرافیایی یا زیستمحیطی که به صورت دیجیتالی ذخیره شدهاند، ساخته میشود، که با استفاده از روشهای به روز رایانشی، میتواند برای مشاهده و تجزیه و تحلیل اطلاعات موجود و همچنین مدلهای پیشبینیکنندهٔ اطلاعات ناموجود، روشهای جدیدی ارائه دهد. دادهورزی تنوعزیستی یک علم نسبتاً جوان است (این اصطلاح در حدود سال ۱۹۹۲ ابداع شدهاست)، اما در سراسر جهان، صدها نفر از آن استفاده میکنند، از جمله، تعداد افراد زیادی که در طراحی و ساخت پایگاهدادههای آرایهشناسی (تاکسونومی) مشارکت دارند. اصطلاح «دادهورزی تنوعزیستی» بهطور کلی به ادارهٔ اطلاعات تنوعزیستی توسط روشهای رایانشی، اشاره میکند. معمولاً برای ادارهٔ دادههای خاص زیستشناسی مولکولی توسط روشهای رایانشی، اصطلاح وسیعتر «بیوانفورماتیک» استفاده میشود.
دادهورزی تنوعزیستی (که با بیوانفورماتیک متفاوت ولی مرتبط است)، استفاده از روشهای فناوریاطلاعات برای مشکلات سازماندهی، دسترسی، تجسم و تجزیه و تحلیل دادههای اولیه تنوعزیستی است. دادههای تنوعزیستی اولیه، از نامها، مشاهدات و سوابق نمونهها و دادههای ژنتیکی و ریختشناسی مرتبط با یک نمونه تشکیل شدهاست. دادهورزی تنوعزیستی، حتی ممکن است به مدیریت اطلاعات گونههای بینام مانند آنچه در نمونهگیریهای زیستمحیطی و تعیین توالی نمونههای میدانی مختلط تولید میشوند، نیاز داشتهباشد. اصطلاح دادهورزی تنوعزیستی همچنین برای مسائل رایانشی مختص به نام اشخاص زیستی استفاده میشود، مانند تولید الگوریتمهائی که برای مقابله با چندینی نمایشدهندههای دادهها استفاده میشوند.
میتوان گفت که دادهورزی تنوعزیستی، همراه با ساخت اولین بانکهای اطلاعاتی ساختارشناسی رایانشی در اوایل دهه ۱۹۷۰ آغاز شدهاست، و تا اواخر دههٔ ۱۹۹۰ پیشرفت کردهاست، از طریق توسعههای متوالی ابزارهای جستجوی توزیعشده، از جمله تحلیلگر گونهها از دانشگاه کانزاس، شبکه اطلاعات تنوعزیستی NABIN در آمریکای شمالی، CONABIO در مکزیک، و دیگران،[۱] تأسیس سازمان اطلاعات جهانی تنوعزیستی در سال ۲۰۰۱، و توسعه همزمان انواع مدلسازی طاقچه و دیگر ابزارهای کار با دادههای دیجیتالیشده تنوعزیستی از اواسط دهه ۱۹۸۰ به بعد (به عنوان مثال[۲]). در سپتامبر سال ۲۰۰۰، ژورنال ساینس نسخه ویژهای را به «بیوانفورماتیک برای تنوعزیستی» اختصاص داد،[۳] مجله «دادهورزی تنوعزیستی» در سال ۲۰۰۴ نشر را آغاز کرد و چندین کنفرانس بینالمللی از در دههٔ ۲۰۰۰، متخصصان دادهورزی زیستشناسی را گرد هم آورد، از جمله همایش الکترونیکی زیست کره بایگانیشده در ۲ آوریل ۲۰۱۹ توسط Wayback Machine در ژوئن ۲۰۰۹ در لندن.
مطابق مکاتبات بازسازی شده توسط والتر براندزون،[۴] اصطلاح «دادهورزی تنوعزیستی» توسط جان وایتینگ در سال ۱۹۹۲ ابداع شده، تا فعالیتهای گروهی موسوم به شرکتگان دادهورزی زیستی تنوعزیستی کانادا را پوشش دهد، گروهی که درگیر ترکیب اطلاعات پایهای تنوعزیستی با اقتصاد محیطزیستی و اطلاعات جغرافیایی به صورت GPS و GIS هستند. سپس، به نظر میرسد که ارتباط واضح با جهان GPS / GIS را از دست داده و با ادارهٔ رایانشی هر جنبهای از اطلاعات تنوعزیستی مرتبط شدهاست (به عنوان مثال نگاه کنید به[۵]).
یک مسئله مهم برای دادهورزی تنوعزیستی در مقیاس جهانی، عدم حضور یک لیست مرجع کامل از گونههای شناختهشده در جهان است، اگر چه این یک هدف پروژه Catalog of Life است، که حدود ۱٫۶۵ میلیون گونه از ۱٫۹ میلیون گونه تخمینی، را در فهرست سالیانه سال ۲۰۱۶ خود توصیف کردهاست. یک تلاش مشابه برای گونههای فسیلی، پایگاه داده Paleobiology[۶] است که از تعداد کل ناشناخته، حدود بیش از ۱۰۰٬۰۰۰ نام برای گونههای فسیلی را سند میکند.
استفاده از سیستم لینه برای نامگذاری دوکلمهای برای گونهها، و تککلمهای برای جنسها و مراتب بالاتر، به مزیتهای بسیاری منجر میشود، اما همچنین باعث ایجاد مشکلاتی با همآواها (حالتی که یک نام برای گونههای متعدد استفاده شود، ناآگاهانه یا از عمد)، مترادفها (نامهای چندگانه برای یک گونه)، و همچنین نمایشهای متعدد یک نام به دلیل اختلافات املایی، خطاهای جزئی املایی، تعدد در نحوه استناد به نام نویسندهها و تاریخها و موارد دیگر میشود. در ادامه، ممکن است در طول زمان نامها به دلیل تغییر نظرات آرایهشناختی تغییر کنند (به عنوان مثال، قرارگیری یک گونه در دستهبندی صحیح، یا ارتقا یک زیرگونه به رتبه گونهها یا بالعکس)، و همچنین ممکن است شرح حال یک گونه، به دلیل نظرات مختلف نویسندگان تغییر کند. یک راه حل پیشنهادی برای حل این مشکل، استفاده از شناسههای Life of Science یا همان Lsids برای ارتباطات ماشین به ماشین است، اگرچه این رویکرد، طرفداران و مخالفان خود را دارد.
موجودات زنده میتوانند به روشهای مختلفی طبقهبندی شوند (به صفحه اصلی آرایهشناسی زیستی مراجعه کنید)، که میتواند برای سیستمهای انفورماتیک تنوعزیستی که هدف تعیین یک یا چند دستهبندی دارند، مشکلات طرحی ایجاد کند. این که آیا یک سیستم طبقهبندی اجماعی واحد ممکن است به دست آید، یک سؤال باز است، اما کاتالوگ حیات فعالیتهایی را در این زمینه انجام دادهاست[۷] که توسط یک سامانه منتشرشده در سال ۲۰۱۵ توسط M. Ruggiero و همکاران، موفق شدهاست.[۸]
اطلاعات «اولیه» مربوط به تنوعزیستی را میتوان دادههای پایهای در مورد وقوع و تنوع گونهها (یا در حقیقت هر گونه قابل تشخیص) دانست، که معمولاً در ارتباط با اطلاعات مربوط به توزیع آنها در مکان، زمان، یا هر دو است. چنین اطلاعاتی ممکن است در قالب نمونههای نگهداریشده و اطلاعات مرتبط با آن باشد، به عنوان مثال مجموعههای تاریخی طبیعی در موزهها و مجموعه گیاهان دارویی خشکشده، یا به عنوان سوابق مشاهدهای، مانند نظرسنجیها، یا به عنوان مشاهدات حرفهای و سایر مشاهدات برنامهریزیشده یا برنامهریزینشده که شامل مشاهداتی که در محدوده علوم شهروندی قرار میگیرند. فراهم دسترسی برخط دیجیتالی و منسجم به این مجموعه وسیع از دادههای اصلی اولیه، یک کارکرد اصلی دادهورزی تنوعزیستی است که در قلب شبکههای داده تنوعزیستی منطقهای و جهانی قرار دارد، مانند OBIS و تسهیلات جهانی اطلاعات تنوع زیستی.
به عنوان یک منبع ثانویه دادههای تنوعزیستی، ادبیات علمی مربوط به آن را میتواند توسط انسان یا (احتمالاً) توسط الگوریتمهای بازیابی اطلاعات تخصصی، تجزیه و تحلیل کرد، تا اطلاعات تنوعزیستی در آنجا گزارش شود. مؤلفههای چنین فعالیتی (مانند استخراج شناسههای کلیدی آرایهشناختی، اصطلاحات نمایهای، و غیره) سالهاست که توسط بانکهای اطلاعات دانشگاهی و موتورهای جستجو دنبال میگردند. اما برای حداکثر ارزش دادهورزی تنوعزیستی، در صورت ایدئال، خود دادههای وقایع اولیه باید بازیابی شوند و سپس به صورت یک یا چند فرم استاندارد ارائه شوند. برای مثال هر دو پروژهٔ Plazi و INOTAXA بایگانیشده در ۳ ژوئن ۲۰۲۰ توسط Wayback Machine، ادبیات آرایهشناختی را به فرمتهای XML تبدیل میکنند، که میتواند توسط برنامههای سرویسگیرنده خواندهشود. کتابخانه میراث تنوعزیستی نیز، در دیجیتال کردن بخشهای قابل توجهی از ادبیات آرایهشناختی که در حق چاپ نیستند، در حال پیشرفت است.
همانند سایر علوم مرتبط با داده، دادهورزی تنوعزیستی از تصویب استانداردها و رویکردهای مناسب به منظور پشتیبانی از ارتباطات ماشین با ماشین و قابلیت همکاری اطلاعات در حوزه خاص خود بهره میبرد. نمونههایی از استانداردهای مناسب، شامل طرح XML هسته داروین برای نمونهها و دادههای تنوعزیستی مبتنی بر نظارت که از سال ۱۹۹۸ به بعد به دست آمدهاند، به علاوه پسوندهایی از آن، طرح انتقال مفاهیم آرایهشناختی، به علاوه استانداردهای دادههای توصیفی ساختاریافته و دسترسی به مجموعه دادههای زیستی (ABCD)؛ در حالی که رویکردهای بازیابی و انتقال دادهها شامل DiGIR (اکنون اکثراً جایگزین شده) و TAPIR (پروتکل دسترسی TDWG برای بازیابی اطلاعات) هستند. نگهداری و نظارت بر توسعه بسیاری از این استانداردها و پروتکلها در حال حاضر توسط گروه کاری بانکهای اطلاعاتی آرایهشناسی (TDWG) انجام میگردد.
در کنفرانس الکترونیکی زیستکره در سال ۲۰۰۹ در انگلستان،[۹] مضامین زیر تصویب شدند، که نشاندهنده طیف گستردهای از فعالیتهای دادهورزی تنوعزیستی فعلی و نحوه ممکن طبقهبندی آنها است:
یک کارگاه آموزشی پس از کنفرانس، متشکل از افراد با نقشهای مهم در علم انفورماتیک تنوعزیستی کنونی، همچنین به یک قطعنامه کارگاه منجر شد که از جمله جنبههای دیگر، بر لزوم ایجاد منابع جهانی برای دادهورزی تنوعزیستی تأکید کرد.
جهانی:
پروژههای منطقهای/ملی:
لیستی از بیش از ۶۰۰ فعالیت در زمینه انفورماتیک تنوعزیستی، در پایگاهداده «پروژههای اطلاعرسانی تنوعزیستی جهان» در TDWG یافت میشود.
{{cite journal}}
: More than one of |بازیابی=
و |access-date=
specified (help); More than one of |تاریخ بایگانی=
و |archive-date=
specified (help); More than one of |نشانی بایگانی=
و |archive-url=
specified (help)