פרק 3: כיצד נראה טקסט טלאים?
קביעת ציפיות
לפני בחינת מבנה התורה, חיוני לקבוע ציפיות ברורות. המדע פועל באמצעות השוואת תצפיות לתחזיות. אם ברצוננו לדעת האם התורה הורכבה ממקורות מרובים, עלינו לשאול: כיצד נראה החתימה הסטטיסטית של תהליך כזה?
זו אינה שאלה היפותטית. העקרונות מבוססים היטב בתחומים הנעים מבלשנות משפטית ועד עיבוד אותות. כאשר אותות עצמאיים מעורבבים, משולבים או מחוברים יחד, התוצר המורכב נושא עמו עקבות ניתנים לזיהוי של הרכבתו — ללא קשר למיומנות העריכה.
המדע של זיהוי טקסטים מורכבים
הבלשנות המשפטית המודרנית פיתחה ארגז כלים מתוחכם לקביעה האם טקסט הוא פרי עבודתו של מחבר יחיד או מחברים מרובים. התחום נולד מצורך מעשי: זיהוי גניבה ספרותית, זיהוי מחברים אנונימיים, אימות יצירות שנויות במחלוקת וניתוח הודעות איום.
התובנה היסודית פשוטה: לכל מחבר יש אידיאולקט — דפוס ייחודי, ברובו לא מודע, של שימוש בשפה. דפוס זה מתגלה באופן אמין ביותר לא במילות התוכן שהמחבר בוחר (המשתנות לפי נושא) אלא במילות הפונקציה — המילים הקטנות והנפוצות כמו "ה", "ו", "ב", "אשר", "לא" — המשמשות באופן כה אוטומטי עד שהן מתנגדות לשליטה מודעת.
כאשר מחברים מרובים תורמים לטקסט יחיד, האידיאולקטים השונים שלהם יוצרים אות מורכב. ואת האות המורכב הזה ניתן לפרק — בדיוק כפי שמנסרה מפרקת אור לבן לצבעי הרכיבים שלו.
חמש החתימות של הרכבה מורכבת
אם מחברים שונים — הכותבים בזמנים שונים, בהקשרים חברתיים שונים, עם אוצרי מילים והרגלים סגנוניים שונים — כל אחד יצר חלק מטקסט גדול, וחלקים אלה שולבו מאוחר יותר על ידי עורכים, המסמך המתקבל יישא לפחות חמש חתימות סטטיסטיות:
1. שונות סגנונית מקומית
קטעים שונים יראו פרופילים סטטיסטיים שונים. לכל מחבר יהיו דפוסים אופייניים ב:
- תדירות מילים: הקצב שבו מילים ספציפיות מופיעות. מחבר אחד עשוי להשתמש ב"הנה" פי שניים יותר ממחבר אחר.
- אורך משפטים: האורך הטיפוסי של פסוקיות ומשפטים. כותבים משפטיים נוטים למשפטים ארוכים ומורכבים יותר; כותבי נרטיב למשפטים קצרים וחדים יותר.
- התפלגות אותיות: התדירות היחסית של אותיות שונות. זה מושפע מבחירת אוצר מילים, העדפות מורפולוגיות והרגל סגנוני.
- מבנה מורפולוגי: היחס בין שמות עצם לפעלים, תדירות צורות פעל ספציפיות, השימוש בבניות דקדוקיות מסוימות.
בטקסט טלאים, מדידת כל אחת מהתכונות הללו לאורך הטקסט תחשוף קפיצות — שינויים פתאומיים בגבולות בין בלוקי המקור. התכונה תהיה יציבה מקומית בתוך כל בלוק אך תשתנה כאשר מקור אחד מפנה את מקומו לאחר.
2. גבולות ניתנים לזיהוי
בנקודות שבהן מקור אחד מסתיים ואחר מתחיל, יהיו שינויים מדידים במספר תכונות סטטיסטיות בו-זמנית. זוהי התובנה המפתח: תכונה יחידה עשויה להשתנות מסיבות רבות — שינוי נושא, מעבר בז'אנר, שיא רגשי. אך כאשר תכונות עצמאיות מרובות כולן משתנות באותו מקום, ההסבר החסכני ביותר הוא שינוי מקור.
עקרון זה שימש בהצלחה לזיהוי:
- קטעים מזויפים שהוכנסו למכתבים אותנטיים
- קטעים שנכתבו על ידי כותב צללים בזיכרונות פוליטיים
- הוספות בכתבי יד עתיקים
- תורמים מרובים לטקסטים אנונימיים
אלגוריתמי זיהוי נקודות שינוי מודרניים מתוכננים בדיוק למצוא גבולות כאלה. הם עוקבים אחר תכונות מרובות בו-זמנית ומסמנים מקומות שבהם מתרחשים שינויים בו-זמניים. כאשר הם מיושמים על טקסטים מורכבים ידועים, הם מזהים את נקודות החיבור בדיוק מרשים.
3. מבנה ארוך טווח מוגבל
בטקסט טלאים, מתאמים סטטיסטיים יהיו חזקים בתוך בלוקי מקור בודדים אך יתפוגגו במהירות על פני גבולות מקור. ה"זיכרון" של הטקסט — המידה שבה ידיעת המצב הסטטיסטי בנקודה אחת מנבאת את המצב בנקודה רחוקה — יהיה מוגבל לגודל הטיפוסי של בלוקי מקור בודדים.
ניקח אנלוגיה: אם תערבבו יחד דפים מחמישה רומנים שונים, הטקסט המתקבל יראה קוהרנטיות מקומית (בתוך כל דף) אך לא קוהרנטיות ארוכת טווח (על פני דפים מרומנים שונים). אורך המתאם — המרחק שעליו הטקסט "זוכר" את מצבו — יהיה בערך דף אחד.
אם התורה הורכבה מבלוקי מקור של, נניח, כמה פרקים כל אחד, אז מתאמים יתרחבו על פני כמה פרקים לכל היותר. מעבר למרחק הזה, הטקסט יתנהג יותר כמו רצף אקראי של קטעים לא קשורים.
4. תכונות בסיס לא עקביות
התכונות הסטטיסטיות הבסיסיות של הטקסט — כמו ההתפלגות הכללית של סוגי אותיות — ישתנו מקטע לקטע. האידיאולקט של כל מחבר משאיר חותם אופייני אפילו על התכונות הבסיסיות ביותר של הטקסט.
בבלשנות משפטית, עקרון זה משמש באופן שגרתי. תדירויות האותיות של טקסט אנגלי שנכתב על ידי דובר שפת אם שונות מעט אך באופן מדיד מאלה של דובר שאינו שפת אם. מסמך משפטי שנכתב על ידי משרד עורכי דין אחד מראה תדירויות אותיות שונות בעדינות ממסמך שנכתב על ידי אחר. טקסט שנכתב בחיפזון שונה בתכונות סטטיסטיות בסיסיות מטקסט שנכתב בזהירות.
אם התורה מכילה קטעים של מחברים מרובים, כל אחד כותב עם הרגליו המורפולוגיים שלו, היינו מצפים שהתפלגות האותיות הבסיסית תתנודד — תראה ערכים שונים בקטעים שונים, עם דפוס התנודה המשקף את מבנה המקור.
5. קיבוץ קוהרנטי למקור
אם תכונות סטטיסטיות מרובות נמדדות עבור כל קטע של הטקסט ומוצגות במרחב תכונות רב-ממדי, קטעים מאותו מקור אמורים להתקבץ יחד. קטעים ממקורות שונים אמורים ליצור קבוצות נפרדות, מופרדות במרחקים מדידים.
זהו העקרון שמאחורי ניתוח סטילומטרי מודרני: כל מחבר תופס אזור אופייני במרחב התכונות הסטטיסטי. כאשר טקסט לא ידוע מוצג באותו מרחב, הוא נופל ליד הקבוצה של מחברו האמיתי.
בטקסט טלאים, מיפוי קטעים למרחב תכונות יחשוף את המבנה המורכב — קבוצות נפרדות מרובות, אחת לכל מקור.
קו הבסיס
יחד, חמש החתימות הללו מגדירות מה שהיינו מצפים מטקסט טלאים:
- שונות מקומית בתכונות סטטיסטיות בסיסיות
- גבולות בו-זמניים ניתנים לזיהוי על פני תכונות מרובות
- טווח מתאם מוגבל, מוגבל על ידי גודל בלוק המקור
- תכונות בסיס לא עקביות על פני קטעים
- קיבוץ קוהרנטי למקור במרחב תכונות
קו בסיס זה אינו תיאורטי. הוא אומת באינספור מחקרים של טקסטים מורכבים ידועים, מסמכים מזויפים וקורפוסים רב-מחברים. כאשר טקסטים מורכבים ממקורות עצמאיים, החתימות הללו מופיעות. הן עשויות להיות חזקות או חלשות יותר בהתאם לדמיון המקורות ולמיומנות העורכים, אך הן נוכחות באופן עקבי.
התחזית הנגדית
אם התורה אינה טלאים — אם היא יוצרה על ידי תהליך חיבור יחיד, בין אם התהליך הזה כלל מחבר אחד, צוות מתואם או מאמץ עריכה מאוחד עמוקות — אז היינו מצפים לפרופיל סטטיסטי שונה מאוד:
- תכונות בסיס חלקות ויציבות לאורך כל הטקסט, עם שונות לא גדולה ממה שהיה צפוי משינויי ז'אנר בתוך תהליך חיבור יחיד
- אין גבולות בו-זמניים רב-תכונתיים — תכונות בודדות עשויות להשתנות (כאשר התוכן משתנה), אך השינויים לא יתיישרו
- מתאמים ארוכי טווח המתרחבים על פני חלקים גדולים של הטקסט — אולי חוצים ספרים שלמים
- מיקום קוהרנטי יחיד במרחב תכונות רב-ממדי, מופרד בבירור מקורפוסים אחרים
המבחן
הפרקים הבאים מיישמים בדיוק את המבחנים הללו על התורה. אנו מודדים תכונות בסיס (אחוז יסוד) על פני כל חמשת הספרים. אנו מחפשים גבולות בו-זמניים רב-תכונתיים. אנו מחשבים מתאמים ארוכי טווח ואורכי מתאם. אנו משווים את מיקום התורה במרחב תכונות ל-17 קורפוסי השוואה.
התוצאות חד-משמעיות.
תכונות הבסיס של התורה יציבות פי 1.8 מהנביאים רב-המחברים הידועים. אורך המתאם המודלי שלה חוצה כמעט ספר שלם — בערך 1,100 פסוקים. הגבולות הבו-זמניים הרב-תכונתיים שלה מספרם בדיוק אפס. מיקומה במרחב תכונות חמש-ממדי מופרד בבירור מכל קורפוס השוואה, עם יחס הפרדה של פי 2.1.
אלה אינן חתימות של טלאים. אלה חתימות של מערכת.
והמסע להבנת המערכת הזו מתחיל ביחידה הקטנה ביותר: האות העברית.