Вытащить текст из PDF

Преобразование документа в формате PDF в редактируемый текст

1. Функция «Сохранить как текст» («Save as text»).

В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.

2. Функция «Выделение текста» («Text Select»).

Также в Adobe Reader имеется простой инструмент «Text Select» («Выделение текста»), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.

3. OCR-программы.

Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition — оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним.

Эти программы и их подробные характеристики можно найти по следующим ссылкам:

4. Программы-конверторы PDF-файлов и их характеристики можно найти по следующим ссылкам:

  • abbyy.ru > программа ABBYY PDF Transformer (конвертирование в Word, Excel);
  • toppdf.com > программа PDF2Word (конвертирование в Word);
  • verypdf.com > программа VeryPDF PDF2Word (конвертирование в Word);
  • hellopdf.com > программа Free PDF to Word Converter (конвертирование в Word);
  • soliddocuments.com > программа Solid Converter PDF(конвертирование в Word, Excel);
  • tweakpdf.com > программа Tweak PDF Converter (конвертирование в Word).

5. Бесплатные онлайн-сервисы для конвертации файлов:

  • zamzar.com > сервис ZamZar — бесплатный онлайн конвертор файлов, способный преобразовать PDF документ во многие графические и текстовые форматы. Сервис работает через электронную почту. Лимит на размер исходного файла — 100 мБ. Файл хранится на сервере в течение 24 часов;
  • freepdfconvert.com > сервис FreePDFConvert — конвертация PDF в Word (doc), Excel (xls) или RichText (rtf), извлечение картинок из PDF. После конвертации сервис предоставляет возможность скачать файл, отправить его на указанный почтовый ящик, удалить файл с сервера. Интервал до отправки следующего файла — 30 минут;
  • pdfonline.com > сервис PDFOnline — преобразование документов PDF в Word (RTF). Сервис не требует указания почтового ящика и не накладывает ограничений на размер файла и количество загрузок по времени;
  • freepdftoword.org — бесплатный сервис от производителей программного обеспечения Solid. Для конвертации файла PDF в отформатированный документ Word разработчики предлагают предварительно отправить им PDF документ по электронной почте, обратно придёт конвертированный в Word документ.
  • pdfconverter.com — бесплатный сервис для преобразования PDF в Excel. Умеет преобразовывать также сканированные PDF. Нет ограничений на размер или количество конвертируемых файлов. Имеется также платная расширенная версия PDF Converter Elite с постоянно расширяющимся фунцкионалом.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *