Я недавно писал что заинтересовался парсингом контента. Копипаст вроде бы нормально живет в индексе, главное это дизайн и структура самого сайта.
После продолжительных поисков наткнулся на парсер конента под названием X-Parser, который меня сразу заинтересовал. Сейчас расскажу почему… Почти во всех известных и не очень парсерах происходит граббинг контента с одного сайта, например с каталога статей, таким образом у нас будет всего несколько сайтов в виде источника, а это палевно когда половина контента с сайта появляется на другом, да и жутко неудобно…
В X-Parser же есть такая функция как парсинг контента по ключевикам! Вы вбиваете нужные ключевики по тематике вашего сайта, они ищутся в поисковике и программа сама заходит на сайты в выдаче и парсит оттуда статью, причем объем ограничен только глубиной выдачи. Вот это и правда бездонный источник конента… Эта функция незаменима для доров (либ.ру и другие крупные бибилотеки уже по 100 раз все использовали, а тут неограниченное количество контента для дорвеев) и для сателлитов.
Так как изначально я искал парсер для сателлитов, то необходимо было удобство импорта сграбленного в CMS… Сказал об этом автору, и он тут же сделал экспорт контента под формат TextKit, все для клиента как говорится, любые ваши пожелания по функционалу будут учтены. Теперь можно в 2 клика мышки загрузить весь сграбленный контент в любую CMS. Также по-моей просьбе автор сейчас работает над парсингом тематических картинок и распределением их в тексте статей, когда это будет доделано обновления естественно бесплатны.
Но это я описал всего лишь функции которые незаменимы для меня, кроме них в X-Parser еще куча функционала, настоящий комбайн, который умеет:
1. Парсить выдачу любых поисковых систем по ключевым фразам сохраняя сниппеты и ссылки.
2. Парсить контент (текстовый) с любого сайта по заданному домену.
3. Парсить контент (текстовый) по ключевым фразам из выдачи любой ПС.
4. Парсить контент (текстовый) по заданному списку URLов.
5. Парсить внутренние ссылки с любого URLа в частности или сайта в целом.
6. Парсить внешние ссылки с любого URLа в частности или сайта в целом.
Также в комплекте Прокси чекер который сам собирает проски из свободных источников, проверяет их, оставляет рабочие и самые быстрые.
Парсер может работать через прокси и в несколько потоков, что позволяет парсить около 500мб текста в сутки!
Учитывая что парсер постоянно развивается, лучше поспешить пока