בקריפטוגרפיה ומדעי המחשב, עץ מרקל (Merkle tree) הוא עץ גיבובבינארי שבו כל קודקוד מסומן בערך גיבוב של שני בניו (או ערכי העלים) והוא סוג של טבלת גיבוב בצורת רשימה היררכית. כלומר, קיים קשר בין ערכי כל הצמתים החל מהעלים ועד לשורש העץ. עץ מרקל פותח על ידי רלף מרקל (אנ') ב-1979[1].
במקור עץ מרקל הוצע לייעול אלגוריתם חתימה דיגיטלית חד-פעמית של למפורט. במקום לספק מפתח חתימה ומפתח אימות נפרדים עבור כל מסמך, אפשר לצמצם את מספר מפתחות האימות למפתח אימות ציבורי יחיד שהוא בעצם שורש העץ. כל חתימה על מסמך ניתנת לאימות על ידי שורש העץ שמבטיח את אמינות העץ כולו. בדרך זו החותם יכול לחתום על מסמכים שונים ולשולחם ליעדים שונים ואת כולם ניתן יהיה לאמת באמצעות מפתח ציבורי אחד המשותף לכל המקבלים. מספר המסמכים שניתן לחתום ולאמת באמצעות מפתח יחיד מוגבל למספר העלים המרבי שהעץ יכול להכיל. יש לשים לב שעדיין נדרשים מפתחות חתימה שונים עבור כל המסמכים.
לעץ מרקל שימושים בתחומים שונים, בעיקר הבטחת שלמות רשימות גדולות במסדי נתונים, ניהול מערכת קבצים, שיתוף קבצים, חותם זמן וחתימה דיגיטלית מבוססת גיבוב. הרעיון הוא לייצג את ערכי הגיבוב של רשימה גדולה של מידע במבנה כזה שניתן יהיה לאמת את שלמות כל אחת מהכניסות על ידי בדיקה שערך הגיבוב שלה נמנה עם עלי העץ. ההוכחה שערך גיבוב נתון הוא עלה בעץ הגיבוב דורשת עבודה וכמות מידע שהם בסדר גודל לוגריתמי ביחס למספר הצמתים. הבדיקה נעשית על ידי מעבר ובדיקת הערכים לאורך המסלול מהעלה לשורש העץ. לצורך כך דרוש מידע על עלים וצמתים אחים לאורכו של המסלול. היתרון שבעץ מרקל שהוא מחייב לשמור בזיכרון רק את שורש העץ לעומת זאת ללא עץ מרקל יהיה צורך לשמור את ערכי גיבוב של כל מסמך או פיסת מידע במסד נתונים כלשהו.
עץ האימות של מרקל[8] נועד בתחילה לשיפור חתימת למפורט. הרעיון הוא להשתמש בעץ בינארי מושלם שעליו מייצגים חתימות חד-פעמיות. כל עלה משמש לחתימה על מסמך אחד ואילו אימות כל החתימות נעשה על ידי שורש העץ. עץ האימות יכול לעבוד עם כל פונקציית גיבוב וכל סכמת חתימה דיגיטלית חד-פעמית (בקיצור OTS) כמו חתימת למפורט או חתימת וינטרניץ. הוכח שעץ מרקל נקרא בטוח תחת CMA (התקפת מסר-נבחר) כל עוד פונקציית הגיבוב שבה משתמשים חסינה מפני התנגשויות ופונקציית החתימה שבבסיסו בטוחה גם היא תחת מודל התקפת מסר-נבחר.
"התקפת מסר-נבחר" הוא מודל ביטחון שבו מניחים שלמתקיף יכולת לקבל לידיו חתימות תקפות על מסמכים שונים לפי בקשתו ועם מידע זה הוא מנסה לזייף חתימה על מסמך מסוים (אחר) או לגלות את מפתח החתימה הפרטי של החותם הלגיטימי כדי לזייף חתימה על כל מסמך שירצה. במילים אחרות קיומם של חתימות רבות על מסמכים שונים אינו תורם מידע שיכול להועיל להתקפה נגד האלגוריתם.
תיאור עץ מרקל בסיסי:
החותם בוחר שלם המייצג את גובה העץ כך שיתאים לחתימה על לכל היותר מסמכים. זאת בניגוד לסכמות חתימה דיגיטלית אחרות כמו DSA שתאורטית אינן מוגבלות במספר המסמכים עליהם אפשר לחתום.
החותם מכין זוגות של מפתחות; מפתח חתימה/מפתח אימות בהתאמה כאשר . הכנת המפתחות מתבצעת על ידי בחירת מחרוזת אקראית ואז חישוב הפונקציה החד כיוונית שלה המשמשת כמפתח ציבורי.
מכין את עלי העץ שערכם הוא הגיבוב של המפתחות הציבוריים. אם נתונה פונקציית גיבוב מוסכמת ערכו של כל עלה יהיה כאשר .
קודקודי העץ הפנימיים מחושבים לפי הכלל הבא: צומת אב מכיל את ערך הגיבוב של שרשור ערכי שני הצמתים (או עלים) הבנים, השמאלי והימני. אם נסמן צומת ב- כאשר מייצג את גובה הצומת ו- הוא ערך בין 0 ל- המייצג את מספר העלה או הצומת בגובה , אז ערכו של כל צומת בניסוח רשמי הוא:
כדי לחשב את שורש העץ אין חובה לאחסן את כל העץ בזיכרון. אפשר באמצעות פונקציה רקורסיבית לבנות את העץ מלמטה למעלה ולחשב את הערכים לפי הצורך עד הרמה העליונה ביותר שהיא שורש העץ. להלן תיאור אלגוריתם בסיסי לבניית עץ גיבוב של מרקל. הרעיון הוא לחשב את העלים ובמידת האפשר את אבותיהם באותה נשימה. לשם כך מפעילים מחסנית עם פונקציות אתחול (init), דחיפה (push) ושליפה (pop) הרגילות.
ב. כל עוד גובהו של שווה לגובה הצומת בראש המחסנית .
1. בצע שליפה: .
2. חשב את צומת האב: .
ג. בצע דחיפה: .
2. שלוף את השורש: .
3. החזר את .
האלגוריתם נעזר בתת-שגרה הנקראת שמייצרת עם הפונקציה החד-כיוונית את זוג המפתחות הבא (מפתח פרטי/מפתח ציבורי) וכן מבצעת גיבוב של המפתח הציבורי אותו היא מחזירה כעלה . בתרשים משמאל מתואר סדר בניית הצמתים של האלגוריתם. בכל שלב של האלגוריתם נמצאים במחסנית לכל היותר צמתים והוא מבצע קריאות לתת-שגרה בנוסף ל- הפעלות של פונקציית הגיבוב.
תחילה החותם מכין מהמסמך את התמצית (אותה אפשר לקבל באמצעות פונקציית גיבוב כמו SHA-2) ואז מכין את החתימה עם מפתח החתימה הסודי . כאשר מייצג את אינדקס החתימה הפנויה בעץ. כזכור העץ מכיל חתימות חד-פעמיות לכן צריך אינדקס כדי להבטיח שלא יהיה שימוש כפול בחתימה. בנוסף, החותם חייב לשלוח יחד עם החתימה גם את מפתח האימות הציבורי המתאים למסמך כי המקבל מחזיק רק בשורש העץ כמפתח אימות.
החותם צריך לכלול בחתימה את הערכים הבאים:
האינדקס המייצג את מספרה הסידורי של החתימה בעץ.
החתימה החד-פעמית על תמצית המסמך לפי אלגוריתם החתימה החד-פעמית שנעשתה עם מפתח החתימה הפרטי .
מפתח האימות הציבורי המתאים .
"מסלול אימות" שהוא הרצף הכולל רשימה של צמתים בעץ איתם המאמת ישתמש כדי לשחזר את המסלול מהעלה לשורש העץ כדי לאמת את מפתח החתימה . היות שחישוב כל צומת דורש את שני הצמתים הבנים, כל צומת במסלול האימות הוא למעשה צומת האח של הצומת הנוכחי בגובה לאורך המסלול מהעלה לשורש כך שמתקיים:
במילים אחרות, במהלך התנועה במעלה העץ, הפנייה שמאלה או ימינה נקבעת לפי הערך של במקרה שהוא מספר זוגי הפנייה תהיה ימינה ואם הוא אי-זוגי הפנייה תהיה שמאלה.
כאשר המאמת מקבל את החתימה יחד עם המסמך הוא פועל בשני צעדים:
תחילה בודק עם פונקציית האימות של ה-OTS עם מפתח האימות ש- היא חתימה תקפה על התמצית . פעולה זו היא חלק מאלגוריתם החתימה והיא נפרדת מהעץ.
אם הצעד הראשון הסתיים בהצלחה, המאמת מוודה את אמינותו של מפתח האימות עצמו על ידי בניית המסלול מהעלה לשורש . לשם כך הוא משתמש באינדקס ובמסלול האימות כדלהלן:
במהלך בניית המסלול האינדקס משמש להחלטה באיזה סדר לגבב את ערכי שני הצמתים הנוכחיים כדי לקבל את צומת האב. אם הוא מספר זוגי אז למעשה הצומת הנוכחי ימני לכן יש להוסיף את הצומת השני משמאלו ואילו אם הוא אי-זוגי הסדר הפוך.
אם המאמת מצליח לבנות מסלול לשורש העץ כך שראש המסלול שווה ל-. הרי שהיות ששורש העץ הוא מפתח ציבורי מאומת הוא יכול להיות משוכנע ש- אותנטי וכי לא שונה באופן זדוני או כתוצאה מטעות כלשהי. במקרה זה תהליך אימות החתימה הושלם בהצלחה. אחרת, המסמך כנראה שונה או השתבש או שהחתימה זויפה.
עץ מרקל חוסך במקום אחסון בזיכרון אך עדיין אינו יעיל מבחינה מעשית ככלי לחתימה דיגיטלית מאסיבית בגלל כמה סיבות:
היות שכל חתימה חד-פעמית, חייבים לאחסן את כל החתימות בזיכרון.
כמות החתימות המרבית מוגבלת למספר העלים בעץ, ליתר דיוק עבור עץ בגובה .
החתימות עצמן גדולות מאוד. אם הוא פרמטר ביטחון בסיביות, כל חתימה צריכה להכיל סיביות או עבור כלשהו במקרה של חתימת וינטרניץ.
מלבד החתימה נדרש "מסלול אימות" מה שגורם להתנפחות נוספת של החתימה. אורך מסלול האימות הוא בסדר גודל לוגריתמי כלומר צמתים עבור עץ בגובה .
יש צורך לנהל רישום של החתימות שכבר השתמשו בהן מה שמציב קושי נוסף בניהול ותחזוקת החתימות.
קיימים מספר שיפורים לעץ מרקל. לבעיה הראשונה קיים פתרון פשוט[9] והוא להשתמש במחולל פסאודו אקראי בקיצור PRNG. פתרון דומה הוצע על ידי מרקל. במקרה זה כל חתימה חד פעמית נדרשת להכנה פעמיים, פעם אחת כאשר בונים את העץ ובפעם השנייה כאשר חותמים על מסמך. התועלת בכך היא שכעת החותם אינו צריך לשמור בזיכרון חתימות כלל אלא רק גרעין התחלתי סודי שממנו הוא יכול לייצר אותם לפי הצורך.
השיטה היא לבחור תחילה גרעין ראשוני באורך סיביות עבור . כדי ליצור חתימה חד-פעמית אחת מייצרים גרעין מקומי , ממנו מכינים באופן איטרטיבי את כל הערכים של החתימה ובד בבד מעדכנים את הגרעין עבור החתימה הבאה, בניסוח רשמי עבור כל חתימה מבצעים פעם אחת:
.
ואת החתימה מייצרים באופן איטרטיבי כמידת הצורך:
בכל סבב הערך של מעודכן בבד בבד עם יצירת . מזה נובע שכאשר רוצים לחשב מפתח מסוים לפי אינדקס, צריך רק את ממנו אפשר להכין את .
אם משתמשים במחולל פסאודו-אקראי אין צורך לשלוח את מפתח האימות הציבורי יחד עם החתימה, כי אפשר להכין אותו מהחתימה עצמה. תועלת נוספת שבשימוש במחולל פסאודו אקראי היא שכעת עץ מרקל מספק גם ביטחון לפנים (forward security) כל עוד המחולל בטוח לשימוש. ביטחון לפנים של חתימה דיגיטלית היא תכונה חשובה שמשמעותה היא שכל החתימות שנעשו לפני שמפתח כלשהו נפסל בגלל חשיפה נותרות בטוחות. כאן המחולל יכול לשמש רק להכנת מפתחות חדשים גם בהינתן הגרעין ההתחלתי לא ניתן להשתמש בו כדי לגלות מפתחות קודמים.
אלגוריתם עץ מרקל הקלאסי צורך זיכרון בסדר גודל של גיבובים וזמן ביצוע של קריאות לפונקציית הגיבוב, כאשר הוא מספר העלים. מבחינה פרקטית דרישות אילו גדולות מדי. "בעיית מסלול האימות" היא מציאת אלגוריתם סדרתי יעיל המפיק מסלול אימות הקצר ביותר מהעלה לשורש בעץ מרקל. מצד אחד הפתרון הנאיבי הוא שמירת כל העץ בזיכרון כך שכל המסלולים זמינים ללא צורך במידע נוסף אך במחיר של שימוש מוגזם בזיכרון. זה אינו מעשי. מצד שני חישוב מסלול אימות בנפרד עבור כל עלה אמנם חוסך בצריכת זיכרון אך במחיר עלייה בסיבוכיות זמן הביצוע. מסתבר שבמהלך בניית מסלולים לכל העלים בעץ נוצרת 'חפיפה', קיימים צמתים רבים המשותפים לכמה מסלולים ולכן טבעי לנצל מידע שנאסף בזמן בניית מסלול לעלה אחד, כדי לקצר את הזמן והמידע הדרוש לבניית מסלול עבור העלה הבא.
לאור זאת הוצעו מספר שיפורים לאלגוריתם עץ מרקל המתואר לעיל המציעים שיפור הן בזמן ביצוע והן בצריכת זיכרון. ביניהם אלגוריתמים לחיפוש (tree traversal) מהאלגוריתם הקלאסי ועד אלגוריתם חיפוש פרקטלי[10] שבו מתייחסים לעץ מרקל כאל יער של עצי מרקל (מכאן השם), איתו אפשר להגיע לזמן ביצוע של וזיכרון בסדר גודל של . אלגוריתם אחר מציע סיבוכיות של ולמקום בסדר גודל [11][12].
^Dynamo: Amazon’s Highly Available Key-value Store, Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash Lakshman, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall and Werner Vogels