feedburner
Подпишись по e-mail:

мая
10

Как вывести сайт из бана Яндекса

Автор: Курский бомж | Рубрика Для новичков, Сателлиты

dogtags

Я уже ни один раз выводил домены из бана яндекса, методы ни у кого не подсматривал и не спрашивал, просто действовал по логике.

1. Самый простой случай – когда вы зарегистрировали новый домен (например дроп), а он оказался в бане яндекса. Ведь до регистрации никак не проверить… Тут все просто. Яндексоиды тоже люди и понимают, что если вы зарегистрировали новый домен то понятия не имели что там было раньше. Вы – жертва обстоятельств. Этим и пользуемся: вешаем на сайт малостраничник, либо вообще одностраничник (я только одностраничниками и выводил) и пишем Платону письмо примерно такого содержания “зарегистрировал новый домен, а он в бане, что мне делать??”, обычно отвечают через пару дней–неделю с положительным ответом и домен вскоре уже в индексе. Когда я регистрировал дропнутые домены с тиц10 это было как нельзя кстати, так как попадались и в бане яндекса.

2. Выкинули уже ваш ГС. Тут сложнее, так как вроде бы и вы виноваты, домен же ваш, а значит и ГС был ваш, а значит доверия к вам нету, но все решается тем же способом. Вешаем на домен однстраничник или малостраничник, пишем Платону. Вот тут уже у меня было 50 на 50, часть сайтов без проблем разбанивают, а часть нет.

Теперь еще 2 важных момента – это что размещать на заглушках-одностраничниках и в какой форме писать платону.

На первый вопрос четкого ответа нету, все зависит от вашей логики и фантазии. Что именно размещаю там я говорить не буду, а то еще перестанет работать=) Да и пробовал я всего один способ который сразу же заработал, может быть и другие будут работать, что в голове работников яндекса одному только ему и известно. Нужно просто поразмыслить с точки зрения естественности – почему страница всего одна и почему это яндекс должен её вывести из бана. Сайт из единственной странички со статьей “выращивание морковки” вряд ли кто разбанит, так как понятно для чего эта страничка создавалась…

На второй вопрос четкий ответ дам – пишите платону оригинально. Почему-то некоторым отвечают в течение пары месяцев, мне же ни разу не задерживали ответ более недели, хоть положительный, хоть отрицательный. Просто опять же представьте себя на стороне суппорта, приходит тысячи писем и на них надо ответить, часть из них со стандартными заголовками, часть не со стандартными, но с “продвинутыми” от всяких сеошников, которые уже наверно достали суппорт. А если у вас будет заголовок от ламера, ну можно помягче скачать “от простого непродвинутого человека”, да еще и с оригинальным заголовком, то это сразу попадется в глаза и письмо будет прочитано и отчечено. Вот такая простая логика, которая пока что не подводила.

Насчет вывода этими способами из под АГС пока ничего сказать не могу, так как не пробовал=) Написал насчет АГС всего по одному сайту, ответили как всегда быстро, но суть письма была “снимите сапу”))) Щас доход с этого сайта упадет сосем, сниму сапу, напишу еще раз и узнаем выводятся ли сайты из под АГС….

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Мар
29

Создай свой блог даже если ничего в этом не смыслишь

Автор: Курский бомж | Рубрика WordPress, Для новичков

Предоставляю услуги по созданию блогов на WordPress, все подробности тут.

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Мар
27

Пошаговое руководство создания сателлита на WordPress на 1-3к страниц

Автор: Курский бомж | Рубрика Для новичков, Сателлиты

В прошлом посте я писал о том как можно за 5$ получить 1000—2000-3000 страниц в индексе яндекса.

Вот индексация на текущий момент пары моих первых сателлитов:

ScreenShot151

ScreenShot152

Сейчас же пошагово распишу весь процесс на примере создания сателлита на WordPress (если кого интересует создание фотогаллерей или магазинов, а у них получается самое большое количество страниц в индексе, то пишите в комментарии, и я напишу руководства по их созданию).

Делаем сателлит

1. Итак, регистрируемся на Sayts. В разделе Сателлиты жмем Создать новый. Вводим название, выбераем тематику и еще там сейчас ввели удобную функцию Начальная дата постов и Конечная дата постов. Ждем пока напарсятся посты (от нескольких часов до нескольких дней, хотя писали что переехали на новые серваки, может дело будет идти быстрее) и в итоге получим такое (кликабельно):

ScreenShot147

2. Скачиваем xml файл по ссылке WordPress. Также скачиваем программку TextKit FREE. Запускаем её, импортируем скачанный xml файл через Импорт > RSS (Atom) / Wordpress.

теперь мы можем расставить даты через раздел Автодата:

ScreenShot148

Так я расставлял даты когда еще не было такой функции в самом сервисе.

3. Теперь раскидываем все посты по рубрикам! Это штука очень нужная. Во-первых для хорошей индексации Яндексом и логичности сайта (не 1000 перемешанных постов, а например 10 рубрик по 100 постов). Во-вторых, для того чтобы сапа съела как можно больше страниц (подробнее об этом ниже). Вот как это выглядит:

ScreenShot149

Если тематика сайта – фильмы, то в качестве рубрик можно брать жанры фильмов, для других тематик думаю придумаете рубрики сами.

4. Теперь экспортируем посты с выставленными датами и раскиданные по рубрикам. Для этого жмем Экспорт > WordPress, путь к картинкам я удаляю, оставляя пустую строку. Хохраняем полученный xml файл.

5. Теперь у нас есть готовые посты, разбитые по рубрикам и с проставленными датами, кажется осталось совсем немного – импортировать этот файл в Wordpress, но не тут-то было. На хостинге даже на 1000 постов не хватает оперативной памяти! А если делаем сайт на 3000 или 5000 постов, то тем более ничего не получится. Сейчас напишу как решается эта проблема.

6. Устанавливаем Denwer, ставим на него Wordpress (инструкций как это сделать в интернете полно) либо используем любой уже ненужный блог на WP на денвере. Заходим на http://localhost/tools/phpmyadmin/ и выбираем нашу базу данных блога в меню слева.

7. Жмем значок корзины (то есть очищаем записи) напротив 4-х следующих таблиц:

ScreenShot110

8. Заходим в админку блога в Инструменты > Импорт > Wordpress, выбираем наш xml файл, который получили в программе TextKit, ждем пока не появится:

ScreenShot104

9. Опять заходим на http://localhost/tools/phpmyadmin/ , выбираем нашу базу данных и жмем Экспорт. Далее в списке таблиц снимаем выделение со всех и выделяем только 4 штуки:

ScreenShot106

И ставим сжатие gzip:

ScreenShot107

Сохраняем файл дампа *****.sql.gz

10. Заходим в phpmyadmin на вашем хостинге (где собственно и расположен сам сателлит). Жмем значок корзины (то есть очищаем записи) напротив 4-х следующих таблиц:

ScreenShot110

Выбираем нужную базу данных и жмем Импорт. Выбираем файл *****.sql.gz и импортируем его.

Заходим на блог и радуемся!

Как уберечь сателлит от АГС??

Одним из основных факторов попадания под АГС является дублированный контент. Значит надо от него сразу же избавиться. Устанавливаем плагин All in One SEO Plugin и ставим галочки напротив:

ScreenShot150

Напротив категорий тоже можно поставить, но я делаю другим методом. Ставлю еще один плагин под названием Evermore, который автоматом расставляет теги more в постах и получается что в разделах тех же категорий мы видим от поста либо только заголовок с картинкой, либо 1-2 предложения. Что думаю вряд ли сойдет за дублированный контент, это же не копии целых постов, зато сохраняет отличную перелинковку.

Еще советы чтобы не попать под фильтр или АГС:

  • желательны домены с выдержкой, например я пару месяцев назад делал несколько сателлитов, заполнил несколькими новостями с рерайтом и забросил, сейчас же повесил на них сателлиты от Sayts и пока живут хорошо.
  • перед добавлением в сапу тоже желательно подождать, если сайту суждено вылететь, то если вы сразу добавите его в сапу, все равно много не отожмете… а с хоть какой-то выдержкой у него будет больше шансов выжить в яндексе.
  • убрать дублированнй контент, ну об этом уже сказал.

Добавление в сапу.

Хотелось бы еще сказать про добавление в сапу.

Как известно робот сапы берет с главной страницы сайта 500 ссылок, переходит по ним, и с этих страниц переходит максимум по 150 ссылкам.

И так как мы добавлили Рубрики на сателлит (штук 8-12 думаю оптимально, можно больше), то засунуть много страниц в сапу очень просто! Заходим в Настройки > Чтение и в параметре На страницах блога отображать не более ставим штук 100-150. Но это нужно делать всего лишь на пару часов! Перед добавлением в сапу сделали, после индексации в сапе поставили обратно. А то яндексу может не понравиться. Получается что робот сапы переходит в рубрики, а оттуда он увидит каждый пост.

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Мар
8

Как сделать сателлит не напрягаясь?

Автор: Курский бомж | Рубрика Для новичков, Сателлиты

Сейчас идет сапомарафон и несколько сателлитов для него я попробовал сделать через cервис автоматического создания сайтов Sayts.ru. Всего за 5$ мы получаем 1000 страничный сателлит.

Контент предоставляется награбленный, обрабатывается он каким либо образом или нет не знаю. Но все прекрасно знают что и копипаст сейчас живет прекрасно в индексе, взять те же варезники, сотни сайтов копируют друг у друга одинаковые новости и все счастливы.

Посмотрим примеры, которые предлагает сам сервис (зеленым – количество страниц в яндексе):

  1. Пример Варезника на тему Фильмы на 1000 страниц. 9 страниц
  2. Пример Фотогалереи автомобильной тематики на 1000 картинок. 3608 страниц
  3. Пример Магазина с категории "DVD плееры и рекордеры" на 1000 товаров. 2206 страниц
  4. Пример Форума категории Телевидение на 1000 постов. 181 страница

Как видно варезник съел АГС, потому что сделан он вообще тяп ляп… Форумы тоже индексируются фигово это всем известно. А вот 3608 или 2206 страниц в индексе за 5$ это очень даже неплохо! Конечно гарантий долгой жизни нам никто не дает, но даже эти сайты, которые уже давно лежат в паблике находятся в индексе.

Лично я делаю через этот сервис сателлиты на Wordpress, вот индексация одного из сайтов на 1000 страниц:

 index

В сапу еще не добавлял, но такой нулевик без проблем может дорости до 20-30 рублей в сутки! Что окупит затраты меньше чем за неделю.

Сервис добывает контент, то есть это инструмент, а вот как им распорядиться и сколько на нем можно зарабатывать зависит только от вас.

Например скачать контент из раздела сателлиты можно для любой CMS:

sayts

Импортировать RSS вообще можно куда угодно.

Пошаговое руководство по изготовлению сателлита на Wordpress на несколько тысяч страниц с помощью Sayts, а также советы как не попасть под АГС напишу на днях! Так что подписывайтесь и следите за обновлениями!

А пока можете Зарегистрироваться в сервисе и посмотреть что да как и попробовать сделать пару сайтиков.

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Мар
5

Error ссылки в сапе не чинятся

Автор: Курский бомж | Рубрика Для новичков

image

Появляется куча Error ссылок в сапе. Думал что это связано с изменениями IP, но есть несколько странностей:

1. Появляются только на DLE (в сапе всего один сайт на этом движке). У меня куча сайтов на WP – в них ни одной ссылки с еррором!

2. Появляются только на страницах тэгов (на других страницах ни одного еррора нету), но не на всех, почти на всех.

Код ставил как и вручную, прописывая в index.php, так и с помощью плагина — результат один и тот же…

Не хочется исключать все страницы тегов из сапы… это почти 600 страниц  :( . И как решить проблему тоже нигде не нашел… и разные виды кодов пробовал – без толку. Может какая-то кривая сборка ДЛЕ… (8.3 нулл), либо что-то другое…

В общем если есть какие-нибудь мысли — подскажите, а то уже несколкьо дней бьюсь и все без толку.

UPD: Решил проблему!

Как раз специально для тегов в DLE  придумали специальный код, только с ним все работает:

if (!defined('_SAPE_USER')){
define('_SAPE_USER', '<strong>xxxxx_sape_code</strong>');
}
$o['host'] = '<strong>http://site.ru</strong>';
if (substr($_SERVER['REDIRECT_URL'], 0, 6) == "/tags/") {
$o['request_uri'] = str_replace ("%2B", "+", str_replace ("%2F", "/", rawurlencode ($_SERVER['REDIRECT_URL'])));
} else {
$o['request_uri'] = $_SERVER['REDIRECT_URL'];
}
require_once($_SERVER['DOCUMENT_ROOT'].'/'._SAPE_USER.'/sape.php');
$sape = new SAPE_client($o);
$tpl->set('{sape_links}', $sape->return_links(1));
$tpl->set('{sape_links2}', $sape->return_links(1));
$tpl->set('{sape_links3}', $sape->return_links());
$tpl->set('{sape_temp}', $_SERVER['REDIRECT_URL']);
if (substr($_SERVER['REDIRECT_URL'], 0, 6) == "/tags/") {
$tpl->set('{sape_temp2}', str_replace ("%2B", "+", str_replace ("%2F", "/", rawurlencode ($_SERVER['REDIRECT_URL']))) );
}

Код вставляем в index.php перед $tpl->compile ( ‘main’ );

Потом в шаблоне в нужных местах ставим макросы {sape_links}, {sape_links2}, {sape_links3} — там будут выводиться ссылки. Не забывайте, что если решите размещать всего одну ссылку на странице макросом например {sape_links}, то return_links () должен быть без каких-либо значений в скобках, так как последний вызов функции return_links должен быть без аргументов.

Спасибо за подсказку iven.ru!

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Фев
22

250 целевых посетителей к каждому посту

Автор: Курский бомж | Рубрика Для новичков

Как совершенно бесплатно получить до 250 уникальных целевых посетителей к каждому своему посту, часть из которых станет постоянными читателями, чаcть подпишется на RSS, все это с помощью TopSape.

В прошлом посте я решил попробовать попасть в ППБ сайта topsape, разместив на него ссылку, мне это не стоило ни копейки, зато я получил: почти 250 целевых посетителей тематик seo, манимейкинг, часть из которых прокомментировала пост, прибавилось подписчиков RRS и надеюсь прбавилось постоянных читателей.

ScreenShot117

Для тех кто не знает, объясняю принцип работы. Вы размещаете в любом своем посте ссылку на topsape, и уже очень скоро на главной странице topsape появляется ссылка на вашу статью и немного текста из неё:

ScreenShot118

Ссылка на ваш пост появляется в самом верху сайта с неплохой посещаемостью (700 уников в день увидят ссылку на вашу статью) и целевой аудиторией (манимейкерской) совершенно бесплатно!

Теперь о том, как привлечь как можно больше посетителей:

  • Заголовок поста должен привлекать внимание, ведь вы сами не будете нажимать на ссылку “что я думаю об апе тиц”, это как-то уныло, а если тот же пост но с заголовком “как я получил +50 тиц на свой сайт”, то сразу появляется желание узнать как (естественно это должна быть правда, а не выдумка, если вам дорога репутация).
  • Описание под ссылкой на пост, я так понял, что это то предложение, в котором и встречается ссылка на topsape. Поэтому это предложение тоже должно нести интересную информацию, чтобы заинтересовать пользователя.
  • Ну и нужно чтобы ваша ссылка провисела в сайдбаре топсапы как можно дольше, тут конечно же не угадаешь, но можно предположить в какое время дня блоггеры пишут больше, а в какое почти не пишут.

Таким образом, можно на свои интересные посты получать бесплатно столько целевых посетителей, почти не прилагая усилий. И самое главное что это совсем не зависит от того раскрученный ли вы блоггер с 1000 подписчиков, либо совсем новичок, главное чтобы был интересный пост!

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Дек
15

Халявная футболка от SmartBucks

Автор: Курский бомж | Рубрика Для новичков

Почти не слежу за текущими новостями, а только сегодня узнал про акцию от смартбакса:

14/12/2009, 00:01

От сегодня, 14ого декабря, с 0:00 по Московскому времени, до 27ого декабря, 24:00 часов, будет проходить новогодняя акция нашей партнерской программы. Готовьте свой трафик, и спешите зарезервировать сувенирные футболки, с логотипом Smart Bucks. Поскольку сувениры вызвали небывалый ажиотаж, их осталось не так много!
Подробности и правила акции в более ранней новости, более подробно, можете уточнить у саппорта.

Так что надеюсь что еще успел, хочется футболочку :-)

Также у них проходит предновогодняя акция!

Как видите, все предельно просто, срубите в указанный период как можно больше капусты, и дополнительно получите призовые!
1-ое место: 2010 WMZ
2-ое место: 1000 WMZ
3-ее место: 500 WMZ

Всего лишь перекинуть траффик если он у вас есть и 2010 баксов могут быть ваши. Хороший подарок к новому году(хотя я думаю тем кто в топе эти 2к$ не так уж и много)))

Интересный платник у них появился неизменит.ру, как замена sms-разводам, но с той же идеей.

В общем регистрируемся в Smart Bucks, и спешим получить бесплатную футболку :-) Либо 2010$ у кого хватит сил :-)

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Окт
10

Внутренняя оптимизация сайта, Азы SEO

Автор: Курский бомж | Рубрика SEO, Для новичков

О SEO оптимизации начал читать и интересоваться совсем недавно, потому что на продаже ссылок далеко не выедешь, а вот на контенте можно и очень хорошо:)

Бесплатное и наилучшее средство привлечения контента — поисковики. Но чтобы сайт чаще и выше присутствовал в выдаче необходима его оптимизация специально под поисковики — Search Optimization, т.е. SEO.

Первое с чего стоит начать — внутренняя оптимизация сайта. Потому что грамотная внутренняя оптимизация это основная часть, которая будет влиять на успех в поисковой выдаче и влиять на размер бюджета продвигаемого сайта, т.е. чем лучше внутренняя оптимизация, тем меньше понадобиться денежных вложений.

Теперь вкратце о внутренней оптимизации. Например  страница продвигается по запросу: «купить аэробус». Как нам необходимо организовать структуру страницы и сайта, чтобы по этому запросу, вбитому в поисковой системе выдавало наш сайт?

1. Уникальность текста.

Самое главное — нужно чтобы текст был 100% уникальным, потому что всю работу неуникальный текст может зарубить на корню.

2. Title страницы.

Нужно обязательно вхождение поискового запроса в Title страницы. И если такой запрос один (а лучше одну страницу продвигать по одному прямому запросу, ну и парой косвенных можно), то нужно его расположить в самом начале Title. То есть тайтл у нас будет иметь вид: <title>Купить аэробус дешего быстро</title>. «Купить аэробус дешего» и «купить аэробус быстро» это будут косвенные запросы.

3. Тег <H1>.

Существует такой тег <H1>, который является как бы главным заголовком страницы. И внутренняя оптимизация обязательно должна вклуючать работу с этим тегом. А именно, этот тэг должен присутствовать на странице всего 1 раз и обязательно с вхождением ключевой фразы, можно делать фразу такую же как в Title.

4. Количество вхождений.

Нужный нам поисковый запрос должен встречаться в тексте статьи именно в такой форме, в какой он присутствует в Title, H1 и по которому мы собственно оптимизируем страницу. Считается оптимальным 2 вхождения на 1000 символов, но это все очень примерно. Также можно включать помимо этих вхождений либо вхождения в косвенной форме, либо по косвенным запросам.

5. Объем текста.

Внутренняя оптимизация также зависит от объема текста на странице. Замечено, что чем больше объем уникального текста, тем она Яндексом ценится выше.

6. Внутренняя перелинковка.

На продвигаемую страницу сайта ссылки с этого же самого сатйа должны быть с анкором, в котором содержится нужный нам поисковый запрос.

7. Внешние ссылки.

Как можно меньше внешних ссылок на странице, потому что часть веса утекает по ним.

8. ЧПУ.

Ссылки на страницы сайта должны заканчиваться на «.html», даже если они динамические, нужно сделать так чтобы они приняли нужный вид. Это можно сделать либо через саму CMS, либо через .httacces

На этом конечно же внутренняя оптимизация сайта не заканчивается, есть еще много тонкостей, но это основа.

О том как я оптимизировал блог WordPress и что для этого использовал расскажу в слудующем посте. И это, кстати, моя первая статья, которую я пытался оптимизировать, так что если все правильно, увижу результаты :-)

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong

Окт
5

Гайд по скану от Курского бомжа

Автор: Курский бомж | Рубрика Для новичков, Сателлиты

Самый доступный вид уникального контента для новичков — скан. Но от нахождения книги с уникальным текстом до загрузки статей на WordPress приличный период как по времени, так и по затрачиваемому труду. В этой статье я распишу как обрабатываю скан Я.

1. Сканируем книгу.

Тут главное правило это хорошо прижимать её к сканеру, чтобы меньше ошибок при распознавании было потом. Сканировать можно напрямую в FineReader, либо любыми другими средствами, формат желательно сразу выбрать pdf, но сохранение в любой другой формат подойдет.

2. Подготовка скана.

Итак имеем отсканенную книгу одного из следующих форматов: pdf, djvu или в виде картинок. На этом этапе необходимо получить pdf файл.

  • у меня например стандартная прога для скана при сохранении в pdf сохраняет каждую страницу в отдельный файл, чтобы все страницы собрать в один файл нужно воспользоваться программой PDF Split-Merge v2.2 (версия на момент написания статьи). Она очень быстро и без никакой мороки склеивает все pdf файлы в один.
  • для всех остальных случаев существует программа doPDF. Которая встраивается в систему как виртуальный принтер, при печати на котором вместо печати все страницы загоняются в pdf файл. Таким образом чтобы перегнать картинки в pdf отправляем на печать все картинки, выбираем куда сохранить готовый файл и ждем. С djvu тоже самое, программа которая умеет печатать djvu и вообще является самым удобным ридером называется WinDjView. Чтобы сменить например ориентацию изображений, то в настройке печати просто настраиваем печать с нужной ориентацией.

В итоге на этом этапе мы получаем pdf файл, в котором содержится вся наша книга, с нормальной горизонтальной ориентацией текста.

3. Удаление лишнего из pdf.

Если сразу после второго этапа распознать книгу, то мы получим очень очень много лишнего и грязного в нашем тексте, а именно: надписи с рисунков, подписи к рисункам, поясняющие пометки внизу страниц, номера страниц, типографские номера и др. Все это искать и удалять в огромной горе текста очень очень муторно и тяжело, поэтому ото всего этого я решил избавляться еще в формате pdf.

Для этого я использую программу PDFEditPortable (портейбл просто удобнее, устанавливать не надо, а так ставьте какую хотите).

Итак, имеем например такой рисунок посреди текста:

ScreenShot037

Мало того что подпись под рисунком мелким шрифтом и 100% коряво распознается, так еще и посреди осмысленного текста будут эти каракули. Берем в панели инструмент:

ScreenShot040

И этим черным прямоугольником обводим всю картинку, получаем:

ScreenShot039

Таким образом закрашиваем все картинки с описаниями, номера страниц, и в общем все записи какие считатете ненужными. Чтобы при распознании распознался только чистый текст и было намного меньше мороки, ведь обвести на картинке в 100 раз легче, чем искать потом по всему тексту этот фрагмент и удалять...

Тут же стоит отметить что делать ГС из скана можно двумя способами:

  1. С сохранением названий разделов, названий глав и т.д. и публикацией в соответствующие категории блога. Т.е. чтобы человек заедший на сайт мог реально что-то найти для себя полезное из той книги.
  2. Без сохранения каких либо разделов, т.е. чистый ГС. Уже на этом этапе можно удалять все названия глав, разделов и т.д. Оставляя просто сплошной текст. Потом будет вообще легко.

Я обычно пользуюсь вторым вариантом, так как в дальнейшем при разбивании на статьи намного проще, и не нужно возиться с этими разделами...

4. Распознавание

Для этого нам понадобится программа под названием FineReader. Качайте последнюю версию.

Я использую такие настройки, думаю они наиболее оптимальны:

ScreenShot043

ScreenShot042

ScreenShot044

Сохраняем в doc или rtf — не столь важно. Язык распознавания ставлю только русский, боюсь если поставить английский то многие русские буквы будут распознаны как английские и такая путаница ни к чему.

Итак, на этом этапе получаем только текст, без ничего лишнего, в вордовском документе.

5. Чистка текста.

Естественно в тексте при распознавании появились ошибки, по другому и быть не может. Для начала нужно удалить разные ненужные символы пунктом меню ворда — Заменить.

Что будем заменять? Два пробела подряд заменяем на один и так несколько раз, если мы используем второй вариант из пункта 3, то заменяем Знак абзаца на пустоту, т.е. удаляем абзацы. Также если скан был некачественным, то могут присутствовать всякие «левые» символы типа $, ^, & которые в книге вряд ли присутствовали изначально. В общем чтобы это определить просто листаем и просматриваем текст и если видим какой-то левый символ, то через замену удаляем его из всего текста.

Теперь проходимся с включенным режимом проверки провописания по красным словам и исправляем их, обычно когда скан качественный таких ошбиочных слов максимум по 1-2 на страницу.

В итоге получаем вордовский документ с чистым сплошным текстом без абзацев, либо если мы сохраняли разделы текст с абзацами и разделами.

О том как полученный текст подготовить к экспорту в WordPress напишу в слудующей статье, эта что-то и так слишком огромная:)

Google Bookmarks del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru RUmarkz Memori.ru rucity.com МоёМесто.ru Mister Wong