מפת עימוד רצפים (SAM) היא פורמט מבוסס טקסט במקור לאחסון רצפים ביולוגיים אשר עוברים עימוד לרצף ייחוס שפותח על ידי הנג לי ובוב הנדסאקר.[1] הוא פותח כאשר מפתחי מיזם אלף הגנומים רצו להתרחק מפורמט ממפה MAQ והחליטו לעצב פורמט חדש. העיצוב הכולל המופרד ב-TAB של הפורמט הגיע מפורמט מוקדם יותר בהשראת ה-PSL של התוכנה BLAT. השם של SAM הגיע מ-גאבור מארס מאוניברסיטת יוטה, שבמקור היה לו פורמט תחת אותו שם אבל עם תחביר שונה, יותר דומה לפלט של BLAST.[2] הוא נמצא בשימוש נרחב לאחסון נתונים, כגון רצפי נוקלאוטידים, שנוצרו על ידי הדור הבא של טכנולוגיות הריצוף, והתקן הורחב כך שיכלול רצפים לא ממופים.[3] הפורמט תומך ברידים קצרים וארוכים (עד 128 מגה-בייט) המיוצרים על ידי פלטפורמות ריצוף שונות ומשמש לאחזקת נתונים ממופים בתוך ערכת הכלים לניתוח הגנום (GATK) וברחבי מכון Broad, מכון Wellcome Sanger, ולאורך פרויקט 1000 הגנומים.
פורמט SAM מורכב מכותרת ומקטע עימוד. המקבילה הבינארית של קובץ SAM היא קובץ (Binary Alignment Map) BAM, המאחסן את אותם נתונים בייצוג בינארי דחוס.[4] ניתן לנתח ולערוך קובצי SAM באמצעות התוכנה SAMtools.[1] קטע הכותרת חייב להיות לפני קטע העימוד אם הוא קיים. כותרות מתחילות בסמל '@', שמבדיל אותן מקטע העימוד. לקטעי עימוד יש 11 שדות חובה, כמו גם מספר משתנה של שדות אופציונליים.[1]
אל"ם | שדה | סוּג | תיאור קצר |
---|---|---|---|
1 | QNAME | חוּט | תבנית שאילתה NAME |
2 | FLAG | Int | FLAG חלקית |
3 | RNAME | חוּט | רצף הפניות NAME |
4 | POS | Int | מיפוי POSition מבוסס 1 השמאלי ביותר |
5 | MAPQ | Int | איכות מיפוי |
6 | CIGAR | חוּט | CIGAR string |
7 | RNEXT | חוּט | רפ. שם בן/בת הזוג/הקריאה הבאה |
8 | PNEXT | Int | מיקום בן הזוג/הקריאה הבאה |
9 | TLEN | Int | אורך התבנית שנצפה |
10 | SEQ | חוּט | קטע רצף |
11 | QUAL | חוּט | ASCII של בסיס בקנה מידה Phred QUALity+33 |
השדה FLAG מוצג כמספר שלם בודד, אך הוא סכום דגלים בשיטת סיביות לציון תכונות מרובות של יישור קריאה.[5] כל תכונה מציינת ביט אחד בייצוג הבינארי של המספר השלם.
מספר שלם | בינארי | תיאור (פירוש קריאה משולב) |
---|---|---|
1 | 000000000001
|
תבנית בעלת תבניות מרובות ברצף (קריאה מותאמת) |
2 | 000000000010
|
כל קטע מיושר כראוי בהתאם ליישור (קרא ממופה בזוג מתאים) |
4 | 000000000100
|
פלח לא ממופה (קרא1 לא ממופה) |
8 | 000000001000
|
הפלח הבא בתבנית לא ממופה (קרא2 לא ממופה) |
16 | 000000010000
|
SEQ בהשלמה הפוכה (read1 בהשלמה הפוכה) |
32 | 000000100000
|
SEQ של הקטע הבא בתבנית בהשלמה הפוכה (read2 בהשלמה הפוכה) |
64 | 000001000000
|
הקטע הראשון בתבנית (הוא read1) |
128 | 000010000000
|
הקטע האחרון בתבנית (הוא read2) |
256 | 000100000000
|
לא יישור ראשוני |
512 | 001000000000
|
יישור נכשל בבדיקות איכות |
1024 | 010000000000
|
PCR או שכפול אופטי |
2048 | 100000000000
|
יישור משלים (למשל יישור ספציפי, יכול להיות חלק מקריאה מפוצלת או אזור קשור) |
תכונות FLAG נסכמות כדי לקבל את הערך הסופי, למשל שורת SAM הנובעת מרשומת FASTQ מצמדת של Illumina בעלת ערך FLAG 2145 תציין:
ערך הדגל | מַשְׁמָעוּת | סכום דגל |
---|---|---|
1 | קריאה משויכת | 1 |
32 | read2 הושלם הפוך | 33 |
64 | לקרוא 1 | 97 |
2048 | יישור משלים | 2145 |
מהמפרט:[5]
הסוג יכול להיות אחד מ- A (תו), B (מערך כללי), f (מספר אמיתי), H (מערך הקסדצימלי), i (מספר שלם) או Z (מחרוזת).
תיוג | סוג | הסבר |
---|---|---|
AM | i | איכות המיפוי הקטנה ביותר בתבנית ללא תלות בתבנית |
AS | i | ציון יישור שנוצר על ידי מיישר |
BC | Z | רצף ברקוד המזהה את המדגם |
BQ | Z | היסט לאיכות היישור הבסיסית (BAQ) |
BZ | Z | איכות Phred של בסיסי הברקוד המולקולריים הייחודיים בתגית OX |
CB | Z | מזהה תא |
CC | Z | שם סימוכין של הפגיעה הבאה |
CG | B,I | BAM only: CIGAR in BAM's binary encoding if (and only if) it consists of >65535 operators |
CM | i | ערוך מרחק בין רצף הצבעים להפניית הצבע (ראו גם NM) |
CO | Z | הערות בטקסט חופשי |
CP | i | הקואורדינטה השמאלית ביותר של הפגיעה הבאה |
CQ | Z | קריאת צבע איכויות בסיס |
CR | Z | בסיסי רצף ברקוד סלולרי (לא מתוקן) |
CS | Z | רצף קריאת צבע |
CT | Z | תג הערה קריאה מלאה, משמש לתכונות דמה של הערת קונצנזוס |
CY | Z | איכות Phred של רצף הברקוד הסלולרי בתג CR |
E2 | Z | שיחות הבסיס השניות בסבירות גבוהה |
FI | i | אינדקס הפלח בתבנית |
FS | Z | סיומת פלחים |
FZ | B,S | עוצמות אות זרימה |
GC | ? | שמור מטעמי תאימות לאחור |
GQ | ? | שמור מטעמי תאימות לאחור |
GS | ? | שמור מטעמי תאימות לאחור |
H0 | i | מספר פגיעות מושלמות |
H1 | i | מספר כניסות של 1 הפרש (ראו גם NM) |
H2 | i | מספר כניסות של 2 הבדלים |
HI | i | שאילתה לאינדקס הפגיעה |
IH | i | המספר הכולל של כניסת שאילתה |
LB | Z | ספריה |
MC | Z | מחרוזת CIGAR לחבר/הקטע הבא |
MD | Z | מחרוזת לאי התאמה של עמדות |
MF | ? | שמור מטעמי תאימות לאחור |
MI | Z | מזהה מולקולרי; מחרוזת המזהה באופן ייחודי את המולקולה שממנה נגזר הרשומה |
MQ | i | איכות מיפוי של בן הזוג/הקטע הבא |
NH | i | מספר היישורים המדווחים המכילים את השאילתה ברשומה הנוכחית |
NM | i | ערוך מרחק להפניה |
OA | Z | יישור מקורי |
OC | Z | סיגר מקורי (הוצא משימוש; השתמש ב-OA במקום זאת) |
OP | i | מיקום מיפוי מקורי (הוצא משימוש; השתמש ב-OA במקום זאת) |
OQ | Z | איכות בסיס מקורית |
OX | Z | בסיסי ברקוד מולקולרי ייחודי מקורי |
PG | Z | תוכנית |
PQ | i | סבירות Phred של התבנית |
PT | Z | קרא הערות עבור חלקים מרצף הקריאה המרופד |
PU | Z | יחידת פלטפורמה |
Q2 | Z | איכות Phred של רצף הזוג/הקטע הבא בתג R2 |
QT | Z | איכות Phred של רצף הברקוד לדוגמה בתג BC |
QX | Z | ציון איכות של המזהה המולקולרי הייחודי בתג RX |
R2 | Z | רצף בן הזוג/הקטע הבא בתבנית |
RG | Z | קבוצת רידים |
RT | ? | שמור מטעמי תאימות לאחור |
RX | Z | בסיסי רצף של המזהה המולקולרי הייחודי (אולי מתוקן). |
S2 | ? | שמור מטעמי תאימות לאחור |
SA | Z | יישורים קנוניים אחרים ביישור כימרי |
SM | i | איכות מיפוי בלתי תלויה בתבנית |
SQ | ? | שמור מטעמי תאימות לאחור |
TC | i | מספר הקטעים בתבנית
הסתברות Phred |
U2 | Z | שהקריאה השנייה תהיה שגויה מותנית בכך שהטוב ביותר יהיה שגוי |
UQ | i | סבירות Phred של הקטע, מותנה בכך שהמיפוי יהיה נכון |
X? | ? | שמור למשתמשי קצה |
Y? | ? | שמור למשתמשי קצה |
Z? | ? | שמור למשתמשי קצה |