تاريخ اليوم
 كيفية تحويل Convert PDF To Text On Linux إلى نص على  لينكس

كيفية تحويل Convert PDF To Text On Linux إلى نص على لينكس



شارك المقالة


بسم الله الرحمن الرحيم 
الصلاة والسلام على اشرف المرسلين صلى الله عليه وسلم 
السلام عليكم ورحمة الله


 كيفية تحويل Convert PDF To Text On Linux إلى نص على 

لينكس 


(واجهة المستخدم الرسومية وسطر الأوامر)


إلى نص لينكس  PDF To Text

تقدم هذه المقالة أداتين لتحويل مستندات PDF إلى نص قابل للتحرير على نظام Linux ، باستخدام أداة رسومية (Caliber) وأداة سطر أوامر (pdftotext). 
تجدر الإشارة إلى أن كلا من الأدوات المستخدمة لاستخراج النص من ملفات PDF المذكورة في هذه المقالة لا يمكن استخراج النص إذا كان PDF يتكون من الصور (على سبيل المثال صفحات / صور الكتب الممسوحة ضوئيًا).

تحويل PDF إلى نص باستخدام عيار (GUI)

Caliber
عبارة عن مجموعة برامج مجانية ومفتوحة المصدر. وهو يدعم تنظيم وعرض وتحرير وتحويل الكتب الإلكترونية ، ودعم مجموعة واسعة من التنسيقات. يتم تشغيل التطبيق على Linux و macOS و Microsoft Windows. 
يجب أن تكون Caliber متوفرة في مستودعات توزيع Linux ، ويجب أن تكون قادرًا على تثبيتها باستخدام أي متجر برامج لديك على نظامك. على سبيل المثال ، لتثبيته على Debian أو Ubuntu أو Linux Mint أو Fedora أو openSUSE أو Arch Linux ، استخدم:

دبيان ، أوبونتو أو لينوكس منت:
sudo apt install calibre

فيدورا:
sudo dnf install calibre

openSUSE:

sudo zypper install calibre

Arch Linux:

sudo pacman -S calibre

قد يتم تثبيت Caliber أيضًا على Linux باستخدام حزمة Flathub (يتطلب إعداد Flathub / Flatpak على بعض توزيعات Linux). 

هناك طريقة أخرى لتثبيت Caliber على نظام Linux موضحة في صفحة تنزيل التطبيق ، حيث ستجد أيضًا macOS و Windows binaries. 
الآن بعد أن تم تثبيت Caliber على النظام الخاص بك ، قم بتشغيله وانقر  Add books لإضافة PDF (أو ملفات PDF متعددة - يدعم Caliber الدفعي تحويل ملفات PDF متعددة إلى النص) تريد تحويله إلى نص.

من قائمة الكتب ، حدد ملف PDF (أو ملفات PDF متعددة لتحويل الدُفعات إلى .txt) التي تريد تحويلها إلى نص ، وانقر فوق Convert books الزر. في الجانب العلوي الأيسر من نافذة التحويل ، اختر TXT باعتباره Output format:

عيار تحويل PDF إلى نص
هناك العديد من الخيارات التي يمكنك تعديلها في مربع حوار التحويل هذا. على سبيل المثال ، يمكنك اختيار إزالة التباعد تلقائيًا بين الفقرات ، أو إدراج سطر فارغ بين الفقرات 
( Look & Feel -> Layout).
يمكنك أيضًا تعيين نمط ترميز الأحرف ونهاية السطر (النظام ، يونيكس ، النوافذ ، old_mac) ، وحتى تنسيقه لتخفيضه. 
بعد الانتهاء من التكوين ، انقر فوق OK الزر لبدء تحويل PDF إلى نص. يمكن العثور على ملف .txt المحول في الدليل حيث قمت بتعيين موقع مكتبة Caliber
 (ثم في AuthorName/BookName مجلدات فرعية ؛ إذا تعذر تحديد اسم المؤلف أو الكتاب ، فسيتم تسمية المجلد الفرعي "Unknown"). 

ما تفتقر إليه Caliber في هذه الحالة هو وسيلة لتحويل صفحة أو نطاق صفحات فقط - يمكنها حاليًا فقط تحويل ملفات PDF بأكملها إلى نص.



تحويل PDF إلى نص باستخدام pdftotext (سطر الأوامر)

pdftotext 
عبارة عن أداة مساعدة لسطر الأوامر تقوم بتحويل ملفات PDF إلى نص عادي. يحتوي على العديد من الخيارات ، بما في ذلك القدرة على تحديد نطاق الصفحات للتحويل ، والحفاظ على التخطيط المادي الأصلي للنص بأفضل طريقة ممكنة ، وتعيين نهايات الأسطر (لينكس ، دوس أو ماك) ، وحتى العمل مع ملفات PDF محمية بكلمة مرور. 
جزء pdftotextis من حزمة أدوات
 poppler / poppler-utils / poppler-tools
(اعتمادًا على توزيع Linux الذي تستخدمه). 
قم بتثبيت هذه الحزمة على النحو التالي:

Debian و Ubuntu و Linux Mint وتوزيعات Linux الأخرى المستندة إلى Debian / Ubuntu:

sudo apt install poppler-utils

فيدورا:
sudo dnf install poppler-utils

openSUSE:

sudo zypper install poppler-tools

Arch Linux:

sudo pacman -S poppler

في توزيعات Linux الأخرى ، استخدم مدير الحزم لتثبيت حزمة poppler / poppler-utils. 

الآن بعد تثبيت الحزمة ، يمكنك تحويل ملف PDF إلى نص عادي والحفاظ على تنسيقه (أوصي باستخدام هذا -layout
الخيار للحفاظ على التخطيط الفعلي الأصلي ، ولكن يمكنك تجربته بدونه أيضًا) باستخدام:

pdftotext -layout input.pdf output.txt

ستحتاج إلى استبدال input.pdf اسم ملف  PDF ، output.txt وبالاسم الذي تريد استدعاء ملف TXT الذي تم إنشاؤه. أضف أيضًا المسارات قبل أسماء الملفات إذا لزم الأمر (على سبيل المثال 

~/Documents/mypdf.pdf 

إذا لم يتم تحديد ملف نصي للإخراج ، فسوف يقوم pdftotext بتسمية الملف بنفس اسم الملف مثل ملف PDF الأصلي. 
يحتفظ خيار التخطيط بتنسيق PDF عند تحويله إلى نص ، حتى إذا كانت حالات PDF متعددة الأعمدة. 

ماذا لو كنت تريد فقط تحويل نطاق صفحات من PDF إلى نص ، بدلاً من ملف PDF بأكمله؟
 استخدم -f
(الصفحة الأولى للتحويل) و -l
(الصفحة الأخيرة للتحويل) 
متبوعة برقم الصفحة ، مثل هذا:

pdftotext -layout -f M -l N input.pdf

استبدال M و N مع الأول والأخير رقم الصفحة لاستخراج، و input.pdf مع اسم الملف PDF. 

ليست هناك تعليقات:

إرسال تعليق

(( مَا يَلْفِظُ مِنْ قَوْلٍ إِلَّا لَدَيْهِ رَقِيبٌ عَتِيدٌ))

السلام عليكم و رحمة الله و بركاته

الصلاة والسلام على اشرف المرسلين صلى الله عليه وسلم

مدونة نادي لينكس الاغواط الجزائري هي مدونة لتعريف على نظام لينكس وعلى بعض انوعه التوزيعات لينكس لتشجيع على استخدم النظام ربما يكون غير معروف للبعض الهدف هو تعميم والتعريف بالنظام لينكس هي بمثابة اول خطوة الى عالم لينكس ربما الكثير منا لا يعرف الكثير عنه وفي مدونة نادي لينكس الاغواط الجزائري

بحث هذه المدونة الإلكترونية

إجمالي مرات مشاهدة الصفحة

نموذج الاتصال

الاسم

بريد إلكتروني *

رسالة *