שיטות ונתונים
קורפוס
כל הניתוח בספר זה מבוצע על נוסח התורה המסורתי, הנגיש דרך ה-API הציבורי של Sefaria.org. הטקסט כולל את חמישה חומשי תורה:
| ספר | פרקים | פסוקים | מילים | אותיות |
|---|---|---|---|---|
| בראשית | 50 | 1,533 | 20,614 | ~78,064 |
| שמות | 40 | 1,210 | 16,713 | ~63,529 |
| ויקרא | 27 | 859 | 11,950 | ~44,790 |
| במדבר | 36 | 1,288 | 16,408 | ~63,530 |
| דברים | 34 | 956 | 14,294 | ~54,892 |
| **סך הכל** | **187** | **5,846** | **79,979** | **304,805** |
אין שימוש בנתונים קנייניים. הקורפוס המוערך (torah_corpus.csv), שפותח באופן עצמאי על ידי המחבר במשך מספר שנים, משמש אך ורק לאימות — לעולם לא לאימון. כל האלגוריתמים ניתנים לשחזור באמצעות ה-API הציבורי של ספריא בלבד.
עיבוד מקדים
1. הסרת ניקוד: סימני התנועות (ניקוד) מוסרים לצורך הניתוח המורפולוגי הבסיסי. ניתוח נפרד עם שימור הניקוד מדגים שיפור של +4.3% בחיזוי המשמעות.
2. צורות סופיות: אותיות עם צורות סופיות (ך→כ, ם→מ, ן→נ, ף→פ, ץ→צ) מנורמלות לצורותיהן הסטנדרטיות.
3. טיפול במקף: מילים המחוברות במקף (־) מטופלות כמילים נפרדות.
4. הסרת HTML: כל הסימון מתגובת ה-API מוסר, תוך שימור הטקסט העברי בלבד.
חלוקת האותיות
22 אותיות האלפבית העברי מחולקות לארבע קבוצות:
| קבוצה | אותיות | מספר | קריטריון |
|---|---|---|---|
| **יסוד** | ג ד ז ח ט ס ע פ צ ק ר ש | 12 | לעולם אינן משמשות כמורפמות דקדוקיות; תמיד נושאות תוכן סמנטי ברמת השורש |
| **AMTN** | א מ ת נ | 4 | משמשות הן כעיצורי שורש והן כסמנים דקדוקיים (זמן, גוף, רפלקסיבי) |
| **YHW** | י ה ו | 3 | משמשות הן כעיצורי שורש והן כסמנים דקדוקיים (מגדר, שייכות, גרימה) |
| **BKL** | ב כ ל | 3 | משמשות הן כעיצורי שורש והן כסמנים דקדוקיים (מילות יחס, קשר) |
חלוקה זו קבועה לאורך כל הניתוחים. אין כוונון פרמטרים, אין אופטימיזציה, אין התאמה תלוית טקסט. אותו מיפוי 22→4 מייצר כל ממצא בספר זה. שינוי החלוקה משנה כל תוצאה, מה שהופך את המערכת לניתנת להפרכה מלאה.
הקריטריון הוא מורפולוגי טהור: אות היא יסוד אם ורק אם היא לעולם אינה מתפקדת כקידומת דקדוקית, סיומת או סמן הטיה בעברית מקראית. 10 האותיות הנותרות כולן בעלות תפקידים כפולים — לעתים עיצור שורש, לעתים סמן דקדוקי — ומסווגות לשלוש תת-קבוצות בקרה לפי תפקידן הדקדוקי.
אחוז יסוד
עבור כל מחרוזת אותיות עבריות w = c₁c₂...cₙ:
אחוז יסוד(w) = |{cᵢ : cᵢ ∈ יסוד}| / n × 100
זהו האחוז של האותיות במחרוזת השייכות לקבוצת היסוד. ניתן לחשב עבור מילה בודדת, פסוק, פרק, ספר או התורה כולה.
ציון מצב
עבור כל חלון של k פסוקים רצופים, יהי:
- Y = מספר הפסוקים המכילים את השם יהוה
- E = מספר הפסוקים המכילים את השם אלהים
ציון מצב = (Y − E) / (Y + E)
כאשר ציון מצב > 0, החלון הוא דומיננטי-יהוה. כאשר ציון מצב < 0, הוא דומיננטי-אלהים. כאשר ציון מצב ≈ 0, שני השמות מופיעים באופן שווה. חלון ברירת מחדל: k = 50 פסוקים (מחליק, צעד = 1).
אוטוקורלציה
פונקציית האוטוקורלציה מודדת עד כמה האות דומה לגרסה מוזחת בזמן של עצמה:
ACF(τ) = Σᵢ (xᵢ − μ)(xᵢ₊τ − μ) / Σᵢ (xᵢ − μ)²
כאשר x הוא סדרת אחוז יסוד או ציון מצב, μ הוא הממוצע, ו-τ הוא הפיגור (בפסוקים). דעיכה איטית של ACF מעידה על זיכרון ארוך טווח; דעיכה מהירה מעידה על עצמאות.
ניתוח קנה מידה
פונקציית התנודה F(s) מודדת את סטיית הממוצע הריבועי של האות המשולב מהמגמות המקומיות בקנה מידה s:
F(s) ∝ sᵅ
המעריך α מאפיין את האות:
- α = 0.5: לא מתואם (רעש לבן)
- α > 0.5: מתמיד (מתואם ארוך טווח)
- α < 0.5: אנטי-מתמיד
מחשבים את α בנפרד עבור אחוז יסוד וציון מצב, מה שמניב את חוק הקנה מידה הכפול: α_base = −0.266, α_mode = −0.056 (יחס 4.7×).
זיהוי נקודות שינוי
לזיהוי גבולות מבניים, משתמשים בגלאי הסטת ממוצע בחלון מחליק:
עבור כל מיקום i בסדרת אחוז יסוד פסוק אחר פסוק:
1. חישוב ממוצע אחוז יסוד בחלון השמאלי [i−w, i)
2. חישוב ממוצע אחוז יסוד בחלון הימני [i, i+w)
3. רישום ההפרש המוחלט |ימין − שמאל|
4. נרמול Z של כל ההפרשים
5. סימון מיקומים שבהם Z > סף והמיקום הוא מקסימום מקומי
פרמטרי ברירת מחדל: w = 40 פסוקים, סף Z > 1.0. החוסן מאומת על פני w ∈ {20, 30, 40, 50, 60, 75}.
מבחני ערבוב
כל הטענות הסטטיסטיות מאומתות כנגד מודלי אפס:
1. ערבוב חלוקה: הקצאה אקראית של 22 אותיות לקבוצות של 12/4/3/3 (1,000 איטרציות)
2. ערבוב מיקום: תמורה אקראית של אותיות בתוך כל מילה (1,000 איטרציות)
3. ערבוב גבולות: הצבה אקראית של אותו מספר גבולות על פני הטקסט (1,000 איטרציות)
4. ערבוב טקסט: תמורה אקראית של פסוקים תוך שימור הסטטיסטיקה ברמת הפסוק (1,000 איטרציות)
ממצא מדווח כמשמעותי רק אם הערך האמיתי עולה על 95% מהערכים המעורבבים (p < 0.05).
תוכנה
כל הקוד כתוב ב-Python 3.8+ באמצעות ספריות סטנדרטיות (numpy, collections, json, re) בתוספת scikit-learn עבור מסווה GBM. אין צורך בתוכנה מסחרית. קוד מקור מלא לכל ארבעת האלגוריתמים מסופק בנספח ב.
יכולת שחזור
לשחזור כל ממצא:
1. התקנת Python 3.8+
2. הרצת `python3 torah_root_analyzer.py --demo` (מוריד את התורה מספריא באופן אוטומטי)
3. הפעלת סקריפט הניתוח הרלוונטי
כל הנתונים ציבוריים. כל הקוד מסופק. כל הפרמטרים מתועדים לעיל. אין צעדים נסתרים.