Самый доступный вид уникального контента для новичков — скан. Но от нахождения книги с уникальным текстом до загрузки статей на WordPress приличный период как по времени, так и по затрачиваемому труду. В этой статье я распишу как обрабатываю скан Я.
1. Сканируем книгу.
Тут главное правило это хорошо прижимать её к сканеру, чтобы меньше ошибок при распознавании было потом. Сканировать можно напрямую в FineReader, либо любыми другими средствами, формат желательно сразу выбрать pdf, но сохранение в любой другой формат подойдет.
2. Подготовка скана.
Итак имеем отсканенную книгу одного из следующих форматов: pdf, djvu или в виде картинок. На этом этапе необходимо получить pdf файл.
- у меня например стандартная прога для скана при сохранении в pdf сохраняет каждую страницу в отдельный файл, чтобы все страницы собрать в один файл нужно воспользоваться программой PDF Split-Merge v2.2 (версия на момент написания статьи). Она очень быстро и без никакой мороки склеивает все pdf файлы в один.
- для всех остальных случаев существует программа doPDF. Которая встраивается в систему как виртуальный принтер, при печати на котором вместо печати все страницы загоняются в pdf файл. Таким образом чтобы перегнать картинки в pdf отправляем на печать все картинки, выбираем куда сохранить готовый файл и ждем. С djvu тоже самое, программа которая умеет печатать djvu и вообще является самым удобным ридером называется WinDjView. Чтобы сменить например ориентацию изображений, то в настройке печати просто настраиваем печать с нужной ориентацией.
В итоге на этом этапе мы получаем pdf файл, в котором содержится вся наша книга, с нормальной горизонтальной ориентацией текста.
3. Удаление лишнего из pdf.
Если сразу после второго этапа распознать книгу, то мы получим очень очень много лишнего и грязного в нашем тексте, а именно: надписи с рисунков, подписи к рисункам, поясняющие пометки внизу страниц, номера страниц, типографские номера и др. Все это искать и удалять в огромной горе текста очень очень муторно и тяжело, поэтому ото всего этого я решил избавляться еще в формате pdf.
Для этого я использую программу PDFEditPortable (портейбл просто удобнее, устанавливать не надо, а так ставьте какую хотите).
Итак, имеем например такой рисунок посреди текста:
Мало того что подпись под рисунком мелким шрифтом и 100% коряво распознается, так еще и посреди осмысленного текста будут эти каракули. Берем в панели инструмент:
И этим черным прямоугольником обводим всю картинку, получаем:
Таким образом закрашиваем все картинки с описаниями, номера страниц, и в общем все записи какие считатете ненужными. Чтобы при распознании распознался только чистый текст и было намного меньше мороки, ведь обвести на картинке в 100 раз легче, чем искать потом по всему тексту этот фрагмент и удалять...
Тут же стоит отметить что делать ГС из скана можно двумя способами:
- С сохранением названий разделов, названий глав и т.д. и публикацией в соответствующие категории блога. Т.е. чтобы человек заедший на сайт мог реально что-то найти для себя полезное из той книги.
- Без сохранения каких либо разделов, т.е. чистый ГС. Уже на этом этапе можно удалять все названия глав, разделов и т.д. Оставляя просто сплошной текст. Потом будет вообще легко.
Я обычно пользуюсь вторым вариантом, так как в дальнейшем при разбивании на статьи намного проще, и не нужно возиться с этими разделами...
4. Распознавание
Для этого нам понадобится программа под названием FineReader. Качайте последнюю версию.
Я использую такие настройки, думаю они наиболее оптимальны:
Сохраняем в doc или rtf — не столь важно. Язык распознавания ставлю только русский, боюсь если поставить английский то многие русские буквы будут распознаны как английские и такая путаница ни к чему.
Итак, на этом этапе получаем только текст, без ничего лишнего, в вордовском документе.
5. Чистка текста.
Естественно в тексте при распознавании появились ошибки, по другому и быть не может. Для начала нужно удалить разные ненужные символы пунктом меню ворда — Заменить.
Что будем заменять? Два пробела подряд заменяем на один и так несколько раз, если мы используем второй вариант из пункта 3, то заменяем Знак абзаца на пустоту, т.е. удаляем абзацы. Также если скан был некачественным, то могут присутствовать всякие «левые» символы типа $, ^, & которые в книге вряд ли присутствовали изначально. В общем чтобы это определить просто листаем и просматриваем текст и если видим какой-то левый символ, то через замену удаляем его из всего текста.
Теперь проходимся с включенным режимом проверки провописания по красным словам и исправляем их, обычно когда скан качественный таких ошбиочных слов максимум по 1-2 на страницу.
В итоге получаем вордовский документ с чистым сплошным текстом без абзацев, либо если мы сохраняли разделы текст с абзацами и разделами.
О том как полученный текст подготовить к экспорту в WordPress напишу в слудующей статье, эта что-то и так слишком огромная:)