PDFSub
מחיריםAPIMergeCompressEditE-Signדפי בנקבלוג
חזרה לבלוג
מדריךאקסלטבלאותכלי PDF

כיצד לחלץ טבלאות מ-PDF לאקסל: השוואת 5 שיטות

28 בפברואר 2026
T
Todd Lahman
Founder, PDFSub

קבצי PDF מאחסנים טבלאות כפרגמנטי טקסט מפוזרים במיקומי x,y - ללא שורות, ללא עמודות, ללא תאים. כך תוכלו להכניס את הנתונים הללו לגיליון אלקטרוני, מכלי דפדפן חינמיים ועד סקריפטים של Python.


How to Extract Tables from PDF to Excel: 5 Methods Compared

יש לכם קובץ PDF עם טבלה שאתם צריכים באקסל. אולי זה דוח כספי, דפי חשבון בנק, חשבונית או מאמר מחקר. הנתונים נמצאים שם - מאורגנים בצורה מסודרת בשורות ועמודות על המסך. אבל כשאתם מנסים להוציא אותם, הכל מתפרק.

זה קורה מכיוון ש-PDF אינו פורמט נתונים. זהו פורמט תצוגה. אין מושג של "טבלה", "שורה" או "עמודה" במפרט ה-PDF. מה שנראה כמו טבלה מובנית הוא למעשה עשרות פרגמנטי טקסט המוצבים במיקומי x,y ספציפיים על קנבס. חילוץ המבנה הזה בחזרה לגיליון אלקטרוני הוא בעיית הנדסה הפוכה - וכלים שונים מטפלים בכך בהצלחה משתנה.

מדריך זה מכסה 5 שיטות לחילוץ טבלאות מקבצי PDF, מתי כל אחת מהן עובדת הכי טוב, ומה לעשות כשדברים משתבשים.

למה חילוץ טבלאות מקבצי PDF הוא קשה

5 Methods for Extracting PDF Tables to Excel - Accuracy Comparison

לפורמט PDF אין טבלאות

מפרט ה-PDF (ISO 32000-2:2020) מגדיר זרם תוכן - רצף של אופרטורים הממקמים תווים בודדים במיקומים מדויקים. שורת טבלה פשוטה כמו "תאריך | תיאור | סכום" עשויה להיות מאוחסנת כ:

BT /F1 10 Tf 72 650 Td (01/15/2026) Tj 200 0 Td (Office Supplies) Tj 180 0 Td (125.00) Tj ET

אין תגיות <table>, <tr>, או <td>. אין מזהי שורות. אין גבולות עמודות. הקווים הוויזואליים שאתם רואים סביב תאים הם פעולות ציור נפרדות שאינן קשורות כלל לטקסט. כלי חילוץ חייב להסיק את המבנה כולו מיחסים מרחביים.

שלושה סוגי גבולות טבלה

טבלאות עם גבולות (סריג) כוללות קווים נראים סביב כל תא. אלו הקלות ביותר לחילוץ מכיוון שהקווים מגדירים במפורש את גבולות התאים. נפוץ בדוחות כספיים רשמיים, טפסים ממשלתיים ודוחות סטנדרטיים.

טבלאות ללא גבולות (זרם) אינן כוללות קווים כלל. המבנה מוגדר כולו על ידי יישור רווחים - פריטי טקסט החולקים x-קואורדינטות עקביות בין שורות יוצרים עמודות משתמעות. נפוץ במאמרי מחקר, חשבוניות וקטלוגי מוצרים.

טבלאות עם גבולות חלקיים כוללות רק גבולות חלקיים - בדרך כלל קווים אופקיים בין מקטעים אך ללא מפרידים אנכיים. נפוץ מאוד בדפי חשבון בנק, דוחות ברוקרים וחשבונות שירות. אלו הקשות ביותר לחילוץ מכיוון שגבולות חלקיים מטעים מנתחי מצב סריג בעוד שגבולות חסרים מפחיתים את הביטחון של מנתחי מצב זרם.

PDF מתויגים לעומת PDF לא מתויגים

PDFs מתויגים כוללים מטא-דאטה מבני המזהה כותרות, פסקאות ותאי טבלה. ל-PDFs לא מתויגים אין דבר מזה - כלי החילוץ מקבל רק קואורדינטות גולמיות. הרוב המכריע של קבצי PDF אינם מתויגים, כולל כמעט כל דפי חשבון בנק, חשבוניות ודוחות כספיים.


שיטה 1: PDFSub חילוץ טבלאות (חינם + גיבוי AI)

כלי חילוץ טבלאות של PDFSub משתמש בגישה תלת-שכבתית הממקסמת דיוק תוך מזעור עלויות:

שכבה 1: זיהוי מבוסס קואורדינטות (דפדפן, חינם)

הכלי מנסה תחילה חילוץ כולו בדפדפן שלכם:

  • מנתח את זרם התוכן של ה-PDF כדי לחלץ כל פריט טקסט עם x,y הקואורדינטות שלו
  • מקבץ פריטי טקסט לשורות על בסיס קרבה של y-קואורדינטות
  • מנתח דפוסי יישור של x-קואורדינטות בין שורות כדי לזהות גבולות עמודות
  • דורש מינימום 3 שורות, 2 עמודות, ו-70%+ ביטחון

אם נמצאו טבלאות טובות, תקבלו נתונים מובנים באופן מיידי - ללא העלאת שרת, ללא צריכת קרדיטים של AI, והקובץ שלכם לעולם לא עוזב את המכשיר שלכם.

שכבה 2: חילוץ בצד השרת (pdfplumber, חינם)

אם זיהוי מבוסס קואורדינטות לא מוצא טבלאות, הכלי משתמש ב-pdfplumber (רישיון MIT) בשרת. זה מזהה גם קווים מפורשים (גבולות מצוירים) וגם קווים משתמעים (דפוסי יישור מילים), מוצא הצטלבויות, מזהה מלבנים וממפה טקסט לתאים.

שכבה 3: חילוץ AI (משתמש בקרדיטים)

עבור PDF סרוקים, פריסות מורכבות, או טבלאות ששיטות מבוססות כללים אינן יכולות לנתח, הכלי נסוג לחילוץ ראייה מבוסס AI. ניתן גם להפעיל "כוח חילוץ AI" כדי לדלג ישירות לשכבה זו כאשר אתם יודעים שהטבלה מורכבת.

פורמטי פלט: אקסל (.xlsx), CSV, JSON.

הכי טוב עבור: חילוץ מהיר ללא התקנת תוכנה. PDF דיגיטליים מעובדים לחלוטין בדפדפן שלכם לפרטיות מקסימלית.


שיטה 2: Power Query באקסל (Windows בלבד)

זמין באקסל 2019+ וב-Microsoft 365 ב-Windows: נתונים → קבל נתונים → מקובץ → מ-PDF.

איך זה עובד

  1. לחצו על נתונים → קבל נתונים → מקובץ → מ-PDF
  2. בחרו את קובץ ה-PDF שלכם
  3. Power Query מציג חלונית ניווט המפרטת טבלאות מזוהות בכל עמוד
  4. בחרו את הטבלאות שברצונכם, לחצו על המר נתונים כדי לנקות, ואז טען

יתרונות

  • מובנה באקסל - ללא עלות נוספת למנויי Microsoft 365
  • מנוע הטרנספורמציה של Power Query מטפל בעיבוד לאחר מכן היטב (מילוי למטה, ציר, מיזוג עמודות)
  • יכול לרענן נתונים אם ה-PDF המקור מתעדכן
  • תומך בחיבור מספר טבלאות מאותו PDF

מגבלות

  • Windows בלבד - לא זמין באקסל עבור Mac, אקסל אונליין, או מובייל
  • מתקשה עם טבלאות ללא גבולות - עובד הכי טוב עם טבלאות עם גבולות ברורים
  • אין OCR - לא יכול לחלץ מקבצי PDF סרוקים/תמונה
  • טבלאות מרובות עמודים בעייתיות - כל עמוד מיובא לעיתים קרובות כטבלה נפרדת, הדורשת חיבור ידני
  • שורות מרובות שורות - טקסט עטוף בתאים לעיתים קרובות מתפצל למספר שורות, הדורש ניקוי

הכי טוב עבור: משתמשי Windows עם Microsoft 365 שיש להם טבלאות פשוטות עם גבולות.


שיטה 3: Adobe Acrobat (בתשלום)

קובץ → ייצא PDF → גיליון אלקטרוני → חוברת עבודה של Microsoft Excel

תמחור (2026)

  • Acrobat Standard: $12.99 לחודש (תוכנית שנתית)
  • Acrobat Pro: $19.99 לחודש (תוכנית שנתית)
  • Export PDF (עצמאי): תוכנית המרה בלבד ברמה נמוכה יותר

יתרונות

  • OCR מובנה למסמכים סרוקים
  • בדרך כלל שומר על עיצוב עבור טבלאות פשוטות עם גבולות
  • עיבוד אצווה זמין ב-Pro

מגבלות

  • יקר לחילוץ טבלאות בלבד - $156–$240 לשנה
  • טבלאות מורכבות עם תאים ממוזגים וטווחי עמודות מרובות עדיין מייצרות פלט לא מסודר
  • קבצים עשויים להיות מועלים לענן של Adobe לעיבוד - בעייתי עבור נתונים פיננסיים רגישים
  • דורש התקנת דסקטופ

הכי טוב עבור: משתמשים שכבר משלמים עבור Acrobat Pro וזקוקים לייצוא טבלאות מזדמן עם OCR.


שיטה 4: העתק-הדבק (ידני)

הגישה האינטואיטיבית ביותר - והזו שנכשלת הכי הרבה פעמים עבור טבלאות.

בעיות נפוצות

  • כל הנתונים בעמודה אחת - כל הטבלה מודבקת ללא חלוקות עמודות
  • מספרים הופכים לטקסט - סמלי מטבע, סוגריים ומפרידים שוברים עיצוב מספרי
  • תוכן תא מרובה שורות יוצר שורות פנטום - תיאור שעוטף בשתי שורות בתא הופך לשתי שורות נפרדות
  • כותרות מופרדות מנתונים - שורת הכותרת מתנתקת
  • עמודות לא מסודרות - נתונים זזים מכיוון שריווח תווים אינו מתורגם לטאבים

פתרון חלקי

הדביקו לאקסל, ואז השתמשו ב-נתונים → טקסט לעמודות עם מפרידי רווח או רוחב קבוע. הפעילו "התייחס למפרידים רצופים כאחד". זה עובד עבור טבלאות פשוטות מאוד ומרווחות היטב, אך נכשל עבור כל דבר עם תוכן תא מרובה מילים.

הכי טוב עבור: חילוץ טבלה קטנה ופשוטה אחת כמוצא אחרון.


שיטה 5: ספריות Python (למפתחים)

שלוש ספריות ברישיון MIT מטפלות בחילוץ טבלאות PDF באופן תכנותי:

Tabula-py

עטיפת Python סביב Tabula (Java). דורש זמן ריצה של Java.

  • מצב סריג לטבלאות עם גבולות (מוצא קווים והצטלבויות)
  • מצב זרם לטבלאות ללא גבולות (משתמש ביישור טקסט)
  • טוב לעיבוד אצווה בסקריפטים
  • אין תמיכה ב-OCR

Camelot

מציע גם מצבי סריג וגם מצבי זרם.

  • בדרך כלל עולה בביצועים על Tabula עבור טבלאות עם גבולות
  • מצב זרם כולל פרמטרים תצורה נוספים לכוונון עדין
  • מספק דוחות דיוק עם כל חילוץ
  • דורש תלות ב-Ghostscript. אין תמיכה ב-OCR

pdfplumber

גישה מבוססת קואורדינטות: מחלץ כל תו עם מיקומו המדויק, ואז מסיק את המבנה.

  • מטפל במגוון הרחב ביותר של סוגי טבלאות
  • נותן את השליטה הגדולה ביותר אך דורש תצורה נוספת
  • זוהי הספרייה ש-PDFSub משתמש בה בצד השרת
  • אין תמיכה ב-OCR

הכי טוב עבור: מפתחים המבצעים אוטומציה של זרימות עבודה לחילוץ טבלאות חוזרות, עיבוד אצוות גדולות של מסמכים דומים.


בעיות נפוצות וכיצד לפתור אותן

תאים ממוזגים

כאשר תאים משתרעים על פני שורות או עמודות מרובות, רוב הכלים מציבים את התוכן בתא השמאלי העליון ומשאירים את האחרים ריקים, או שאינם מסדרים את כל העמודות הבאות. אין פתרון אוניברסלי - לפורמט CSV אין מושג של מיזוג, כך שמידע על מיזוג תמיד אובד.

תיקון: חלצו את הטבלה, ואז תקנו ידנית ארטיפקטים של מיזוג באקסל. עבור טבלאות חוזרות עם אותו דפוס מיזוג, שקלו סקריפט עיבוד לאחר מכן.

תוכן מרובה שורות בתוך תאים

תיאורים ארוכים שעוטפים בתוך תא הופכים לשורות מרובות בפלט, ודוחפים את כל הנתונים הבאים מחוץ לסדר. זוהי שגיאת החילוץ הנפוצה ביותר עבור מסמכים פיננסיים.

תיקון: לאחר החילוץ, חפשו שורות שחסרות להן תאריכים וסכומים - אלו כנראה שורות המשך השייכות לשורה שמעליהן. באקסל, מזגו אותן ידנית או השתמשו בנוסחת עזר.

טבלאות המשתרעות על פני מספר עמודים

כלים חייבים לקבוע היכן הטבלה ממשיכה, האם להסיר כותרות חוזרות, וכיצד לסנן כותרות תחתונות של עמודים. כלים רבים מתייחסים לכל עמוד באופן עצמאי.

תיקון: אם הכלי שלכם נותן תוצאות לפי עמוד, אמזגו את הגיליונות והסירו שורות כותרת חוזרות. ודאו שהשורה האחרונה בעמוד N מתחברת כראוי לשורה הראשונה בעמוד N+1.

בעיות עיצוב מטבע

מספרים שליליים בסוגריים ((1,234.56)) מודבקים כטקסט, לא כמספרים. סמלי מטבע ומפרידי אלפים גם שוברים עיצוב מספרי.

תיקון: לאחר החילוץ, בחרו את עמודת הסכום והשתמשו ב"מצא והחלף" כדי להסיר תווים $, (, ). ואז עיצבו את העמודה כמספר. עבור שליליים בסוגריים, החליפו ( ב- - והסירו ), ואז המירו לפורמט מספר.

עמימות תאריך

01/02/2026 - האם זה ה-2 בינואר או ה-1 בפברואר? כלי החילוץ שומר על המחרוזת כפי שהיא, אך אקסל עשוי לפרש אותה מחדש בהתאם לאזור שלכם.

תיקון: בדקו את קובץ ה-PDF המקור לרמזים לגבי פורמט התאריך (חפשו תאריכים עם ערכי יום > 12). הגדירו את פורמט התאריך של אקסל כך שיתאים למקור לפני הייבוא.


השוואת דיוק

שיטה טבלאות פשוטות עם גבולות ללא גבולות עם גבולות חלקיים PDF סרוקים
PDFSub (קואורדינטות + AI) 90–99% 75–95% 70–95% 85–95% (AI)
Power Query 85–95% 40–60% 50–70% לא נתמך
Adobe Acrobat 90–95% 70–80% 70–85% 80–90%
Tabula ~68% 55–70% 50–65% לא נתמך
Camelot ~73% 65–75% 60–70% לא נתמך
העתק-הדבק 30–50% 10–30% 10–30% לא אפשרי

טווחים משקפים שונות במורכבות המסמך. נתוני בנצ'מרק ממחקרי Procyons 2025 PDF Extraction Benchmark והשוואות Camelot.


באיזו שיטה כדאי להשתמש?

תרחיש השיטה הטובה ביותר למה
חילוץ חד-פעמי מהיר PDFSub ללא התקנה, מבוסס דפדפן, חילוץ קואורדינטות חינם
טבלה פשוטה עם גבולות, Windows Power Query מובנה באקסל, ללא עלות נוספת
PDF סרוק PDFSub (AI) או Adobe Acrobat דורש יכולת OCR
נתונים פיננסיים רגישים PDFSub עיבוד מבוסס דפדפן, הקובץ לעולם אינו מועלה
עיבוד אצווה חוזר Python (pdfplumber) ניתן לתסריט, ניתן לאוטומציה
כבר יש לכם Acrobat Pro Adobe Acrobat כבר משלמים, טבלאות פשוטות עובדות היטב
טבלה קטנה אחת, ללא כלים העתק-הדבק מוצא אחרון, בדקו הכל

טיפים לתוצאות מיטביות

השתמשו ב-PDF מקוריים. הורידו מסמכים מהמקור שלהם במקום לסרוק נייר. ל-PDF מקוריים יש טקסט מושלם, מה שהופך את החילוץ למדויק באופן דרמטי.

זהו תחילה את סוג הטבלה. טבלאות עם גבולות עובדות עם כמעט כל כלי. טבלאות ללא גבולות דורשות מצב זרם או חילוץ AI. ידיעת הסוג עוזרת לכם לבחור את השיטה הנכונה מראש.

התחילו עם שיטות חינמיות מבוססות כללים. נסו חילוץ מבוסס קואורדינטות תחילה. רק אז הסלימו ל-AI כאשר שיטות מבוססות כללים מפיקות תוצאות גרועות - זה חוסך זמן וקרדיטים.

תמיד ודאו את הפלט. בדקו את ספירת השורות, יישור העמודות, ערכים מספריים וסכומים. לעולם אל תסמכו על פלט חילוץ באופן עיוור.

שימו לב לעיצוב מספרים. לאחר החילוץ, ודאו שמספרים הם אכן מספרים באקסל (מיושרים לימין), לא מחרוזות טקסט (מיושרים לשמאל). סמלי מטבע ושליליים בסוגריים הם אשמים נפוצים.

עבור נתונים רגישים, העדיפו כלים מבוססי דפדפן. דוחות פיננסיים, דפי חשבון בנק ומסמכי מס מכילים מידע רגיש. כלים המעבדים PDF בדפדפן שלכם לעולם אינם מעלים את הקובץ שלכם, מה שמבטל את הסיכון לחשיפת נתונים.


נסו בחינם

מוכנים לחלץ טבלאות מה-PDF שלכם? העלו קובץ עכשיו - PDFSub מנסה תחילה חילוץ מבוסס קואורדינטות בחינם, עם גיבוי AI לטבלאות מורכבות. PDF דיגיטליים מעובדים לחלוטין בדפדפן שלכם. התחילו ניסיון חינם של 7 ימים.

חזרה לבלוג

שאלות? צור קשר

PDFSub

כל כלי ה-PDF והמסמכים שאתה צריך במקום אחד. מהיר, מאובטח ופרטי.

תואם GDPRתואם CCPAמוכן ל-SOC 2
מופעל על ידי PDFSub Engine

מוצר

  • כל הכלים
  • תכונות
  • דפי בנק
  • API
  • מחירים
  • שאלות נפוצות
  • בלוג

תמיכה

  • אודות
  • מרכז עזרה
  • צור קשר
  • שאלות נפוצות

משפטי

  • מדיניות פרטיות
  • תנאי שימוש
  • מדיניות קובצי Cookie

© 2026 PDFSub. כל הזכויות שמורות.

מיוצר באמריקה עם עבור אנשים בכל מקום