بسم الله الرحمن الرحيم
الصلاة والسلام على اشرف المرسلين صلى الله عليه وسلم
السلام عليكم ورحمة الله
كيفية تحويل Convert PDF To Text On Linux إلى نص على
لينكس
(واجهة المستخدم الرسومية وسطر الأوامر)
إلى نص لينكس PDF To Text
تقدم هذه المقالة أداتين لتحويل مستندات PDF إلى نص قابل للتحرير على نظام Linux ، باستخدام أداة رسومية (Caliber) وأداة سطر أوامر (pdftotext).
تجدر الإشارة إلى أن كلا من الأدوات المستخدمة لاستخراج النص من ملفات PDF المذكورة في هذه المقالة لا يمكن استخراج النص إذا كان PDF يتكون من الصور (على سبيل المثال صفحات / صور الكتب الممسوحة ضوئيًا).
تحويل PDF إلى نص باستخدام عيار (GUI)
Caliber
عبارة عن مجموعة برامج مجانية ومفتوحة المصدر. وهو يدعم تنظيم وعرض وتحرير وتحويل الكتب الإلكترونية ، ودعم مجموعة واسعة من التنسيقات. يتم تشغيل التطبيق على Linux و macOS و Microsoft Windows.
يجب أن تكون Caliber متوفرة في مستودعات توزيع Linux ، ويجب أن تكون قادرًا على تثبيتها باستخدام أي متجر برامج لديك على نظامك. على سبيل المثال ، لتثبيته على Debian أو Ubuntu أو Linux Mint أو Fedora أو openSUSE أو Arch Linux ، استخدم:
دبيان ، أوبونتو أو لينوكس منت:
sudo apt install calibre
فيدورا:
sudo dnf install calibre
openSUSE:
sudo zypper install calibre
Arch Linux:
sudo pacman -S calibre
قد يتم تثبيت Caliber أيضًا على Linux باستخدام حزمة Flathub (يتطلب إعداد Flathub / Flatpak على بعض توزيعات Linux).
هناك طريقة أخرى لتثبيت Caliber على نظام Linux موضحة في صفحة تنزيل التطبيق ، حيث ستجد أيضًا macOS و Windows binaries.
الآن بعد أن تم تثبيت Caliber على النظام الخاص بك ، قم بتشغيله وانقر Add books لإضافة PDF (أو ملفات PDF متعددة - يدعم Caliber الدفعي تحويل ملفات PDF متعددة إلى النص) تريد تحويله إلى نص.
من قائمة الكتب ، حدد ملف PDF (أو ملفات PDF متعددة لتحويل الدُفعات إلى .txt) التي تريد تحويلها إلى نص ، وانقر فوق Convert books الزر. في الجانب العلوي الأيسر من نافذة التحويل ، اختر TXT باعتباره Output format:
عيار تحويل PDF إلى نص
هناك العديد من الخيارات التي يمكنك تعديلها في مربع حوار التحويل هذا. على سبيل المثال ، يمكنك اختيار إزالة التباعد تلقائيًا بين الفقرات ، أو إدراج سطر فارغ بين الفقرات
( Look & Feel -> Layout).
يمكنك أيضًا تعيين نمط ترميز الأحرف ونهاية السطر (النظام ، يونيكس ، النوافذ ، old_mac) ، وحتى تنسيقه لتخفيضه.
بعد الانتهاء من التكوين ، انقر فوق OK الزر لبدء تحويل PDF إلى نص. يمكن العثور على ملف .txt المحول في الدليل حيث قمت بتعيين موقع مكتبة Caliber
(ثم في AuthorName/BookName مجلدات فرعية ؛ إذا تعذر تحديد اسم المؤلف أو الكتاب ، فسيتم تسمية المجلد الفرعي "Unknown").
ما تفتقر إليه Caliber في هذه الحالة هو وسيلة لتحويل صفحة أو نطاق صفحات فقط - يمكنها حاليًا فقط تحويل ملفات PDF بأكملها إلى نص.
تحويل PDF إلى نص باستخدام pdftotext (سطر الأوامر)
pdftotext
عبارة عن أداة مساعدة لسطر الأوامر تقوم بتحويل ملفات PDF إلى نص عادي. يحتوي على العديد من الخيارات ، بما في ذلك القدرة على تحديد نطاق الصفحات للتحويل ، والحفاظ على التخطيط المادي الأصلي للنص بأفضل طريقة ممكنة ، وتعيين نهايات الأسطر (لينكس ، دوس أو ماك) ، وحتى العمل مع ملفات PDF محمية بكلمة مرور.
جزء pdftotextis من حزمة أدوات
poppler / poppler-utils / poppler-tools
(اعتمادًا على توزيع Linux الذي تستخدمه).
قم بتثبيت هذه الحزمة على النحو التالي:
Debian و Ubuntu و Linux Mint وتوزيعات Linux الأخرى المستندة إلى Debian / Ubuntu:
sudo apt install poppler-utils
فيدورا:
sudo dnf install poppler-utils
openSUSE:
sudo zypper install poppler-tools
Arch Linux:
sudo pacman -S poppler
في توزيعات Linux الأخرى ، استخدم مدير الحزم لتثبيت حزمة poppler / poppler-utils.
الآن بعد تثبيت الحزمة ، يمكنك تحويل ملف PDF إلى نص عادي والحفاظ على تنسيقه (أوصي باستخدام هذا -layout
الخيار للحفاظ على التخطيط الفعلي الأصلي ، ولكن يمكنك تجربته بدونه أيضًا) باستخدام:
pdftotext -layout input.pdf output.txt
ستحتاج إلى استبدال input.pdf اسم ملف PDF ، output.txt وبالاسم الذي تريد استدعاء ملف TXT الذي تم إنشاؤه. أضف أيضًا المسارات قبل أسماء الملفات إذا لزم الأمر (على سبيل المثال
~/Documents/mypdf.pdf
إذا لم يتم تحديد ملف نصي للإخراج ، فسوف يقوم pdftotext بتسمية الملف بنفس اسم الملف مثل ملف PDF الأصلي.
يحتفظ خيار التخطيط بتنسيق PDF عند تحويله إلى نص ، حتى إذا كانت حالات PDF متعددة الأعمدة.
ماذا لو كنت تريد فقط تحويل نطاق صفحات من PDF إلى نص ، بدلاً من ملف PDF بأكمله؟
استخدم -f
(الصفحة الأولى للتحويل) و -l
(الصفحة الأخيرة للتحويل)
متبوعة برقم الصفحة ، مثل هذا:
pdftotext -layout -f M -l N input.pdf
استبدال M و N مع الأول والأخير رقم الصفحة لاستخراج، و input.pdf مع اسم الملف PDF.
ليست هناك تعليقات:
إرسال تعليق
(( مَا يَلْفِظُ مِنْ قَوْلٍ إِلَّا لَدَيْهِ رَقِيبٌ عَتِيدٌ))