Гайд по скану от Курского бомжа
Самый доступный вид уникального контента для новичков — скан. Но от нахождения книги с уникальным текстом до загрузки статей на WordPress приличный период как по времени, так и по затрачиваемому труду. В этой статье я распишу как обрабатываю скан Я.
1. Сканируем книгу.
Тут главное правило это хорошо прижимать её к сканеру, чтобы меньше ошибок при распознавании было потом. Сканировать можно напрямую в FineReader, либо любыми другими средствами, формат желательно сразу выбрать pdf, но сохранение в любой другой формат подойдет.
2. Подготовка скана.
Итак имеем отсканенную книгу одного из следующих форматов: pdf, djvu или в виде картинок. На этом этапе необходимо получить pdf файл.
- у меня например стандартная прога для скана при сохранении в pdf сохраняет каждую страницу в отдельный файл, чтобы все страницы собрать в один файл нужно воспользоваться программой PDF Split-Merge v2.2 (версия на момент написания статьи). Она очень быстро и без никакой мороки склеивает все pdf файлы в один.
- для всех остальных случаев существует программа doPDF. Которая встраивается в систему как виртуальный принтер, при печати на котором вместо печати все страницы загоняются в pdf файл. Таким образом чтобы перегнать картинки в pdf отправляем на печать все картинки, выбираем куда сохранить готовый файл и ждем. С djvu тоже самое, программа которая умеет печатать djvu и вообще является самым удобным ридером называется WinDjView. Чтобы сменить например ориентацию изображений, то в настройке печати просто настраиваем печать с нужной ориентацией.
В итоге на этом этапе мы получаем pdf файл, в котором содержится вся наша книга, с нормальной горизонтальной ориентацией текста.
3. Удаление лишнего из pdf.
Если сразу после второго этапа распознать книгу, то мы получим очень очень много лишнего и грязного в нашем тексте, а именно: надписи с рисунков, подписи к рисункам, поясняющие пометки внизу страниц, номера страниц, типографские номера и др. Все это искать и удалять в огромной горе текста очень очень муторно и тяжело, поэтому ото всего этого я решил избавляться еще в формате pdf.
Для этого я использую программу PDFEditPortable (портейбл просто удобнее, устанавливать не надо, а так ставьте какую хотите).
Итак, имеем например такой рисунок посреди текста:
Мало того что подпись под рисунком мелким шрифтом и 100% коряво распознается, так еще и посреди осмысленного текста будут эти каракули. Берем в панели инструмент:
И этим черным прямоугольником обводим всю картинку, получаем:
Таким образом закрашиваем все картинки с описаниями, номера страниц, и в общем все записи какие считатете ненужными. Чтобы при распознании распознался только чистый текст и было намного меньше мороки, ведь обвести на картинке в 100 раз легче, чем искать потом по всему тексту этот фрагмент и удалять...
Тут же стоит отметить что делать ГС из скана можно двумя способами:
- С сохранением названий разделов, названий глав и т.д. и публикацией в соответствующие категории блога. Т.е. чтобы человек заедший на сайт мог реально что-то найти для себя полезное из той книги.
- Без сохранения каких либо разделов, т.е. чистый ГС. Уже на этом этапе можно удалять все названия глав, разделов и т.д. Оставляя просто сплошной текст. Потом будет вообще легко.
Я обычно пользуюсь вторым вариантом, так как в дальнейшем при разбивании на статьи намного проще, и не нужно возиться с этими разделами...
4. Распознавание
Для этого нам понадобится программа под названием FineReader. Качайте последнюю версию.
Я использую такие настройки, думаю они наиболее оптимальны:
Сохраняем в doc или rtf — не столь важно. Язык распознавания ставлю только русский, боюсь если поставить английский то многие русские буквы будут распознаны как английские и такая путаница ни к чему.
Итак, на этом этапе получаем только текст, без ничего лишнего, в вордовском документе.
5. Чистка текста.
Естественно в тексте при распознавании появились ошибки, по другому и быть не может. Для начала нужно удалить разные ненужные символы пунктом меню ворда — Заменить.
Что будем заменять? Два пробела подряд заменяем на один и так несколько раз, если мы используем второй вариант из пункта 3, то заменяем Знак абзаца на пустоту, т.е. удаляем абзацы. Также если скан был некачественным, то могут присутствовать всякие «левые» символы типа $, ^, & которые в книге вряд ли присутствовали изначально. В общем чтобы это определить просто листаем и просматриваем текст и если видим какой-то левый символ, то через замену удаляем его из всего текста.
Теперь проходимся с включенным режимом проверки провописания по красным словам и исправляем их, обычно когда скан качественный таких ошбиочных слов максимум по 1-2 на страницу.
В итоге получаем вордовский документ с чистым сплошным текстом без абзацев, либо если мы сохраняли разделы текст с абзацами и разделами.
О том как полученный текст подготовить к экспорту в WordPress напишу в слудующей статье, эта что-то и так слишком огромная:)
Лучший керамогранит и керамическая плитка. Большой выбор. Скидки.
Похожие статьи:
- Акция: до 700 рублей в подарок от Курского! Срок действия акции: до 01.01.2012 Каждому вебмастеру нужен хостинг под...
- Внутренняя оптимизация сайта, Азы SEO О SEO оптимизации начал читать и интересоваться совсем недавно, потому...
- ToDO: 100 настроенных WordPress блогов за день Что-то давно не было практики – исправляюсь. В этом посте...
- Создаем псевдо интернет-магазин под сапу По просьбам читателей пишу руководство по созданию псевдо интернет-магазина под...
- Пошаговое руководство создания сателлита на WordPress на 1-3к страниц В прошлом посте я писал о том как можно за...
Окт 6, 2009 at 23:22:44
В принципе можно выделять блоки для распознавания прямо в Finereader'е. Зависит от структуры исходника, конечно, но чаще всего — сокращает количество операций.
Еще в Finereader'е есть офигительная опция — «Обучение». Если шрифт нестандартный или исходник плохого качества, можно вручную «обучить» программу правильному распознаванию — на паре-тройке страниц, после этого количество ошибок в режиме автоматического распознавания существенно сокращается.
И еще: после распознавания в Ворде желательно автоматом убрать все знаки «мягкого переноса» (функция Заменить — Больше — Специальный — Мягкий перенос, менять на пустоту).
[Reply]
Окт 6, 2009 at 23:27:01
Не понял что за мягкий перенос
В файнридере деление на строки отключено+в ворде знаки абзаца убираю, получается сплошной текст без каких либо переносов.
Ну а обучать при плохом качестве думаю толку немного... если шрифт особый, то поможет, а вот если качество плохое на каждой странице могут же быть разные символы в плохом качестве, а на другой они же в хорошем...
Вообще способов много, и я пробовал по разному, но в конце концов пришел к описанному способу.
[Reply]
Окт 6, 2009 at 23:59:09
Я все делал в FineReader: сканил, выделял, распознавал. Старался сохранять картинки, если их качество было удовлетворительное.
А сейчас уже, наверное, все более-менее вменяемое пересканили.))
Хоть и не очень много книжек отсканил, но передергивает от воспоминаний об этом. Муторная, блин, работа. Под настроение.
[Reply]
Окт 7, 2009 at 16:41:47
Ну все никогда не пересканить)))) В библиотеке всегда можно найти тонну книжек, которые не в индексе яши. Только это и правда все очень муторно... монотонно сидеть и чес за часом делаешь одно и тоже... надоедает очень быстро, но это лучше, чем платить $$$ за контент для новичков.
[Reply]
Окт 16, 2009 at 20:46:22
У меня отсканенные сайты в первую очередь вылетели с АГС, хоть и контент читал и проверял вручную, так что не работаю больше со сканом.
[Reply]
Окт 16, 2009 at 22:54:04
Сегодня только обнаружил что совсем недавно новый сателлит на скане тоже вылетел, апа 2 всего прожил... И не пойму в чем закономерность или как яша определяет скан, так как 2 сата на скане нормально живут уже с месяц. Но считая что всего 2 живут, а штук 8 других забанены то отскана тоже отказался:)
[Reply]
Окт 20, 2009 at 16:48:19
Блин люди вы меня напугали я тут пол книжки отсканил... домен регнул... а как контент добывать? рерайт?
[Reply]
Окт 20, 2009 at 16:59:26
Если скан хорошо обработать и он будет уник, то все нормально должно быть по идее... У некоторых же и на копипасте даже сайты живут:)
[Reply]
Окт 24, 2009 at 01:50:55
Курский бомж, хотел задать вопрос, ты про Зебрум лайт слышал? Говорят легко делаются сателиты... Сам недавно узнал, но на сервере какой-то библиотеки не хватает, а времени закинуть нету (учеба, работа), так и не попробовал...
Если что отпишись
[Reply]
Окт 26, 2009 at 07:44:18
И в тему (сегодня только 500 страниц добавил), и не в тему (мысли о вылете из Индекса в первые 2 АПа пугают) одновременно. Статья сама по себе классная, но более интересной, пожалуй, будет вторая часть, т.к. действительно интересный вопрос: как эти 500 страниц теперь по-человечески в ВП добавить...
[Reply]
Ноя 11, 2009 at 21:43:40
Перспективный блоггер, по человечески в ВП добавить не так и сложно, напишу обязательно, просто подзабыл... извиняюсь... А щас времени в обрез((((
Nikola, лучше всего на своей ЦМС вообще делать))) в так лучше WP думаю ничего нету
[Reply]
мая 18, 2010 at 07:09:45
Книга с уникальным текстом это как? книга же кем-то написана и прочитана, смыссл какой в этом?
[Reply]
Курский бомж Reply:
мая 18, 2010 at 10:18 дп
Текст уникальный для поисковиков, вот какой смысл.
[Reply]
мая 19, 2010 at 6:27 дп
я имею ввиду, что книга — это уже не уникальный текст
[Reply]
Курский бомж Reply:
мая 19, 2010 at 11:48 дп
В seo под словом уникальность подразумевается уникальность для поисковых систем, а не для людей, а книг целые миллионы, и из них далеко не все проиндексированы в ПС.
[Reply]