ג½

שיטות ונתונים

קורפוס

כל הניתוח בספר זה מבוצע על נוסח התורה המסורתי, הנגיש דרך ה-API הציבורי של Sefaria.org. הטקסט כולל את חמישה חומשי תורה:

ספר	פרקים	פסוקים	מילים	אותיות
בראשית	50	1,533	20,614	~78,064
שמות	40	1,210	16,713	~63,529
ויקרא	27	859	11,950	~44,790
במדבר	36	1,288	16,408	~63,530
דברים	34	956	14,294	~54,892
סך הכל	187	5,846	79,979	304,805

אין שימוש בנתונים קנייניים. הקורפוס המוערך (torah_corpus.csv), שפותח באופן עצמאי על ידי המחבר במשך מספר שנים, משמש אך ורק לאימות — לעולם לא לאימון. כל האלגוריתמים ניתנים לשחזור באמצעות ה-API הציבורי של ספריא בלבד.

✦

עיבוד מקדים

1. הסרת ניקוד: סימני התנועות (ניקוד) מוסרים לצורך הניתוח המורפולוגי הבסיסי. ניתוח נפרד עם שימור הניקוד מדגים שיפור של +4.3% בחיזוי המשמעות.

2. צורות סופיות: אותיות עם צורות סופיות (ך→כ, ם→מ, ן→נ, ף→פ, ץ→צ) מנורמלות לצורותיהן הסטנדרטיות.

3. טיפול במקף: מילים המחוברות במקף (־) מטופלות כמילים נפרדות.

4. הסרת HTML: כל הסימון מתגובת ה-API מוסר, תוך שימור הטקסט העברי בלבד.

✦

חלוקת האותיות

22 אותיות האלפבית העברי מחולקות לארבע קבוצות:

קבוצה	אותיות	מספר	קריטריון
יסוד	ג ד ז ח ט ס ע פ צ ק ר ש	12	לעולם אינן משמשות כמורפמות דקדוקיות; תמיד נושאות תוכן סמנטי ברמת השורש
AMTN	א מ ת נ	4	משמשות הן כעיצורי שורש והן כסמנים דקדוקיים (זמן, גוף, רפלקסיבי)
YHW	י ה ו	3	משמשות הן כעיצורי שורש והן כסמנים דקדוקיים (מגדר, שייכות, גרימה)
BKL	ב כ ל	3	משמשות הן כעיצורי שורש והן כסמנים דקדוקיים (מילות יחס, קשר)

חלוקה זו קבועה לאורך כל הניתוחים. אין כוונון פרמטרים, אין אופטימיזציה, אין התאמה תלוית טקסט. אותו מיפוי 22→4 מייצר כל ממצא בספר זה. שינוי החלוקה משנה כל תוצאה, מה שהופך את המערכת לניתנת להפרכה מלאה.

הקריטריון הוא מורפולוגי טהור: אות היא יסוד אם ורק אם היא לעולם אינה מתפקדת כקידומת דקדוקית, סיומת או סמן הטיה בעברית מקראית. 10 האותיות הנותרות כולן בעלות תפקידים כפולים — לעתים עיצור שורש, לעתים סמן דקדוקי — ומסווגות לשלוש תת-קבוצות בקרה לפי תפקידן הדקדוקי.

✦

אחוז יסוד

עבור כל מחרוזת אותיות עבריות w = c₁c₂...cₙ:

אחוז יסוד(w) = |{cᵢ : cᵢ ∈ יסוד}| / n × 100

זהו האחוז של האותיות במחרוזת השייכות לקבוצת היסוד. ניתן לחשב עבור מילה בודדת, פסוק, פרק, ספר או התורה כולה.

✦

ציון מצב

עבור כל חלון של k פסוקים רצופים, יהי:

Y = מספר הפסוקים המכילים את השם יהוה
E = מספר הפסוקים המכילים את השם אלהים

ציון מצב = (Y − E) / (Y + E)

כאשר ציון מצב > 0, החלון הוא דומיננטי-יהוה. כאשר ציון מצב < 0, הוא דומיננטי-אלהים. כאשר ציון מצב ≈ 0, שני השמות מופיעים באופן שווה. חלון ברירת מחדל: k = 50 פסוקים (מחליק, צעד = 1).

✦

אוטוקורלציה

פונקציית האוטוקורלציה מודדת עד כמה האות דומה לגרסה מוזחת בזמן של עצמה:

ACF(τ) = Σᵢ (xᵢ − μ)(xᵢ₊τ − μ) / Σᵢ (xᵢ − μ)²

כאשר x הוא סדרת אחוז יסוד או ציון מצב, μ הוא הממוצע, ו-τ הוא הפיגור (בפסוקים). דעיכה איטית של ACF מעידה על זיכרון ארוך טווח; דעיכה מהירה מעידה על עצמאות.

✦

ניתוח קנה מידה

פונקציית התנודה F(s) מודדת את סטיית הממוצע הריבועי של האות המשולב מהמגמות המקומיות בקנה מידה s:

F(s) ∝ sᵅ

המעריך α מאפיין את האות:

α = 0.5: לא מתואם (רעש לבן)
α > 0.5: מתמיד (מתואם ארוך טווח)
α < 0.5: אנטי-מתמיד

מחשבים את α בנפרד עבור אחוז יסוד וציון מצב, מה שמניב את חוק הקנה מידה הכפול: α_base = −0.266, α_mode = −0.056 (יחס 4.7×).

✦

זיהוי נקודות שינוי

לזיהוי גבולות מבניים, משתמשים בגלאי הסטת ממוצע בחלון מחליק:

עבור כל מיקום i בסדרת אחוז יסוד פסוק אחר פסוק:

1. חישוב ממוצע אחוז יסוד בחלון השמאלי [i−w, i)

2. חישוב ממוצע אחוז יסוד בחלון הימני [i, i+w)

3. רישום ההפרש המוחלט |ימין − שמאל|

4. נרמול Z של כל ההפרשים

5. סימון מיקומים שבהם Z > סף והמיקום הוא מקסימום מקומי

פרמטרי ברירת מחדל: w = 40 פסוקים, סף Z > 1.0. החוסן מאומת על פני w ∈ {20, 30, 40, 50, 60, 75}.

✦

מבחני ערבוב

כל הטענות הסטטיסטיות מאומתות כנגד מודלי אפס:

1. ערבוב חלוקה: הקצאה אקראית של 22 אותיות לקבוצות של 12/4/3/3 (1,000 איטרציות)

2. ערבוב מיקום: תמורה אקראית של אותיות בתוך כל מילה (1,000 איטרציות)

3. ערבוב גבולות: הצבה אקראית של אותו מספר גבולות על פני הטקסט (1,000 איטרציות)

4. ערבוב טקסט: תמורה אקראית של פסוקים תוך שימור הסטטיסטיקה ברמת הפסוק (1,000 איטרציות)

ממצא מדווח כמשמעותי רק אם הערך האמיתי עולה על 95% מהערכים המעורבבים (p < 0.05).

✦

תוכנה

כל הקוד כתוב ב-Python 3.8+ באמצעות ספריות סטנדרטיות (numpy, collections, json, re) בתוספת scikit-learn עבור מסווה GBM. אין צורך בתוכנה מסחרית. קוד מקור מלא לכל ארבעת האלגוריתמים מסופק בנספח ב.

✦

יכולת שחזור

לשחזור כל ממצא:

1. התקנת Python 3.8+

2. הרצת `python3 torah_root_analyzer.py --demo` (מוריד את התורה מספריא באופן אוטומטי)

3. הפעלת סקריפט הניתוח הרלוונטי

כל הנתונים ציבוריים. כל הקוד מסופק. כל הפרמטרים מתועדים לעיל. אין צעדים נסתרים.

✦ ✦ ✦