feedburner
Подпишись по e-mail:

test

Окт
5

Гайд по скану от Курского бомжа

Автор: Курский бомж | Рубрика Для новичков, Сателлиты

Самый доступный вид уникального контента для новичков — скан. Но от нахождения книги с уникальным текстом до загрузки статей на WordPress приличный период как по времени, так и по затрачиваемому труду. В этой статье я распишу как обрабатываю скан Я.

1. Сканируем книгу.

Тут главное правило это хорошо прижимать её к сканеру, чтобы меньше ошибок при распознавании было потом. Сканировать можно напрямую в FineReader, либо любыми другими средствами, формат желательно сразу выбрать pdf, но сохранение в любой другой формат подойдет.

2. Подготовка скана.

Итак имеем отсканенную книгу одного из следующих форматов: pdf, djvu или в виде картинок. На этом этапе необходимо получить pdf файл.

  • у меня например стандартная прога для скана при сохранении в pdf сохраняет каждую страницу в отдельный файл, чтобы все страницы собрать в один файл нужно воспользоваться программой PDF Split-Merge v2.2 (версия на момент написания статьи). Она очень быстро и без никакой мороки склеивает все pdf файлы в один.
  • для всех остальных случаев существует программа doPDF. Которая встраивается в систему как виртуальный принтер, при печати на котором вместо печати все страницы загоняются в pdf файл. Таким образом чтобы перегнать картинки в pdf отправляем на печать все картинки, выбираем куда сохранить готовый файл и ждем. С djvu тоже самое, программа которая умеет печатать djvu и вообще является самым удобным ридером называется WinDjView. Чтобы сменить например ориентацию изображений, то в настройке печати просто настраиваем печать с нужной ориентацией.

В итоге на этом этапе мы получаем pdf файл, в котором содержится вся наша книга, с нормальной горизонтальной ориентацией текста.

3. Удаление лишнего из pdf.

Если сразу после второго этапа распознать книгу, то мы получим очень очень много лишнего и грязного в нашем тексте, а именно: надписи с рисунков, подписи к рисункам, поясняющие пометки внизу страниц, номера страниц, типографские номера и др. Все это искать и удалять в огромной горе текста очень очень муторно и тяжело, поэтому ото всего этого я решил избавляться еще в формате pdf.

Для этого я использую программу PDFEditPortable (портейбл просто удобнее, устанавливать не надо, а так ставьте какую хотите).

Итак, имеем например такой рисунок посреди текста:

ScreenShot037

Мало того что подпись под рисунком мелким шрифтом и 100% коряво распознается, так еще и посреди осмысленного текста будут эти каракули. Берем в панели инструмент:

ScreenShot040

И этим черным прямоугольником обводим всю картинку, получаем:

ScreenShot039

Таким образом закрашиваем все картинки с описаниями, номера страниц, и в общем все записи какие считатете ненужными. Чтобы при распознании распознался только чистый текст и было намного меньше мороки, ведь обвести на картинке в 100 раз легче, чем искать потом по всему тексту этот фрагмент и удалять...

Тут же стоит отметить что делать ГС из скана можно двумя способами:

  1. С сохранением названий разделов, названий глав и т.д. и публикацией в соответствующие категории блога. Т.е. чтобы человек заедший на сайт мог реально что-то найти для себя полезное из той книги.
  2. Без сохранения каких либо разделов, т.е. чистый ГС. Уже на этом этапе можно удалять все названия глав, разделов и т.д. Оставляя просто сплошной текст. Потом будет вообще легко.

Я обычно пользуюсь вторым вариантом, так как в дальнейшем при разбивании на статьи намного проще, и не нужно возиться с этими разделами...

4. Распознавание

Для этого нам понадобится программа под названием FineReader. Качайте последнюю версию.

Я использую такие настройки, думаю они наиболее оптимальны:

ScreenShot043

ScreenShot042

ScreenShot044

Сохраняем в doc или rtf — не столь важно. Язык распознавания ставлю только русский, боюсь если поставить английский то многие русские буквы будут распознаны как английские и такая путаница ни к чему.

Итак, на этом этапе получаем только текст, без ничего лишнего, в вордовском документе.

5. Чистка текста.

Естественно в тексте при распознавании появились ошибки, по другому и быть не может. Для начала нужно удалить разные ненужные символы пунктом меню ворда — Заменить.

Что будем заменять? Два пробела подряд заменяем на один и так несколько раз, если мы используем второй вариант из пункта 3, то заменяем Знак абзаца на пустоту, т.е. удаляем абзацы. Также если скан был некачественным, то могут присутствовать всякие «левые» символы типа $, ^, & которые в книге вряд ли присутствовали изначально. В общем чтобы это определить просто листаем и просматриваем текст и если видим какой-то левый символ, то через замену удаляем его из всего текста.

Теперь проходимся с включенным режимом проверки провописания по красным словам и исправляем их, обычно когда скан качественный таких ошбиочных слов максимум по 1-2 на страницу.

В итоге получаем вордовский документ с чистым сплошным текстом без абзацев, либо если мы сохраняли разделы текст с абзацами и разделами.

О том как полученный текст подготовить к экспорту в WordPress напишу в слудующей статье, эта что-то и так слишком огромная:)


Лучший керамогранит и керамическая плитка. Большой выбор. Скидки.


Похожие статьи:

  1. Внутренняя оптимизация сайта, Азы SEO О SEO оптимизации начал читать и интересоваться совсем недавно, потому...
  2. Акция: до 700 рублей в подарок от Курского! Срок действия акции: до 01.01.2012 Каждому вебмастеру нужен хостинг под...
  3. ToDO: 100 настроенных WordPress блогов за день Что-то давно не было практики – исправляюсь. В этом посте...
  4. Пошаговое руководство создания сателлита на WordPress на 1-3к страниц В прошлом посте я писал о том как можно за...
  5. Создаем псевдо интернет-магазин под сапу По просьбам читателей пишу руководство по созданию псевдо интернет-магазина под...


Понравилась статья? Подпишись на RSS и получай новые посты моментально!

15 комментариев. Может быть выскажите свое мнение?

  1. Seo XP
    Окт 6, 2009 at 23:22:44
    #1

    В принципе можно выделять блоки для распознавания прямо в Finereader'е. Зависит от структуры исходника, конечно, но чаще всего — сокращает количество операций.

    Еще в Finereader'е есть офигительная опция — «Обучение». Если шрифт нестандартный или исходник плохого качества, можно вручную «обучить» программу правильному распознаванию — на паре-тройке страниц, после этого количество ошибок в режиме автоматического распознавания существенно сокращается.

    И еще: после распознавания в Ворде желательно автоматом убрать все знаки «мягкого переноса» (функция Заменить — Больше — Специальный — Мягкий перенос, менять на пустоту).

    [Reply]

  2. Курский бомж
    Окт 6, 2009 at 23:27:01
    #2

    Не понял что за мягкий перенос :-) В файнридере деление на строки отключено+в ворде знаки абзаца убираю, получается сплошной текст без каких либо переносов.

    Ну а обучать при плохом качестве думаю толку немного... если шрифт особый, то поможет, а вот если качество плохое на каждой странице могут же быть разные символы в плохом качестве, а на другой они же в хорошем...

    Вообще способов много, и я пробовал по разному, но в конце концов пришел к описанному способу.

    [Reply]

  3. Земляк
    Окт 6, 2009 at 23:59:09
    #3

    Я все делал в FineReader: сканил, выделял, распознавал. Старался сохранять картинки, если их качество было удовлетворительное.

    А сейчас уже, наверное, все более-менее вменяемое пересканили.))

    Хоть и не очень много книжек отсканил, но передергивает от воспоминаний об этом. Муторная, блин, работа. Под настроение.

    [Reply]

  4. Курский бомж
    Окт 7, 2009 at 16:41:47
    #4

    Ну все никогда не пересканить)))) В библиотеке всегда можно найти тонну книжек, которые не в индексе яши. Только это и правда все очень муторно... монотонно сидеть и чес за часом делаешь одно и тоже... надоедает очень быстро, но это лучше, чем платить $$$ за контент для новичков.

    [Reply]

  5. Блогер Ильдар
    Окт 16, 2009 at 20:46:22
    #5

    У меня отсканенные сайты в первую очередь вылетели с АГС, хоть и контент читал и проверял вручную, так что не работаю больше со сканом.

    [Reply]

  6. Курский бомж
    Окт 16, 2009 at 22:54:04
    #6

    Сегодня только обнаружил что совсем недавно новый сателлит на скане тоже вылетел, апа 2 всего прожил... И не пойму в чем закономерность или как яша определяет скан, так как 2 сата на скане нормально живут уже с месяц. Но считая что всего 2 живут, а штук 8 других забанены то отскана тоже отказался:)

    [Reply]

  7. NC2009
    Окт 20, 2009 at 16:48:19
    #7

    Блин люди вы меня напугали я тут пол книжки отсканил... домен регнул... а как контент добывать? рерайт?

    [Reply]

  8. Курский бомж
    Окт 20, 2009 at 16:59:26
    #8

    Если скан хорошо обработать и он будет уник, то все нормально должно быть по идее... У некоторых же и на копипасте даже сайты живут:)

    [Reply]

  9. Nikola
    Окт 24, 2009 at 01:50:55
    #9

    Курский бомж, хотел задать вопрос, ты про Зебрум лайт слышал? Говорят легко делаются сателиты... Сам недавно узнал, но на сервере какой-то библиотеки не хватает, а времени закинуть нету (учеба, работа), так и не попробовал...

    Если что отпишись ;)

    [Reply]

  10. Перспективный блоггер
    Окт 26, 2009 at 07:44:18
    #10

    И в тему (сегодня только 500 страниц добавил), и не в тему (мысли о вылете из Индекса в первые 2 АПа пугают) одновременно. Статья сама по себе классная, но более интересной, пожалуй, будет вторая часть, т.к. действительно интересный вопрос: как эти 500 страниц теперь по-человечески в ВП добавить...

    [Reply]

  11. Курский бомж
    Ноя 11, 2009 at 21:43:40
    #11

    Перспективный блоггер, по человечески в ВП добавить не так и сложно, напишу обязательно, просто подзабыл... извиняюсь... А щас времени в обрез((((

    Nikola, лучше всего на своей ЦМС вообще делать))) в так лучше WP думаю ничего нету

    [Reply]

  12. merr
    мая 18, 2010 at 07:09:45
    #12

    Книга с уникальным текстом это как? книга же кем-то написана и прочитана, смыссл какой в этом?

    [Reply]

    Курский бомж Reply:

    Текст уникальный для поисковиков, вот какой смысл.

    [Reply]

    merr Reply:

    я имею ввиду, что книга — это уже не уникальный текст

    [Reply]

    Курский бомж Reply:

    В seo под словом уникальность подразумевается уникальность для поисковых систем, а не для людей, а книг целые миллионы, и из них далеко не все проиндексированы в ПС.

    [Reply]

Post a Comment