Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 06/07/10 в 19:07 |
Есть 10 статей с одного источника. Внутри статей есть одинаковые куски текста (ну всякое дерьмо типа имя автора\постовые\релатед линк\ иконки на социалки, закладки \ прочие левые линки). Как на основе сравнительного анализа (накладываем друг на друга как полупрозрачные слои) текстов понять какие именно куски одинаковы и их удалить?
|
|
|
|
programmer
С нами с 08.12.02
Сообщения: 7615
Рейтинг: 5760
|
Добавлено: 06/07/10 в 20:34 |
разбей текст на части
текст[1][part1]
текст[1][part2]
потом прогоняй куски на совпадение
если хоть 1 есть - удаляй из всех
|
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 06/07/10 в 21:56 |
разбить на части ничего не даст
1. мама мыла раму <p>ссылка тут</p> <span>постовой<span>
2. карл у мамы клары украл кларнет и раму вымыл <p>ссылка тут</p> <span>постовой<span>
разбиваем на слова по пробелу, находим первое слово "мама" и находим маму во втором предложении, с рамой тоже самое.
по 2 слова:
1. {мама мыла} {раму <p>ссылка} {тут</p>} {<span>постовой<span>}
2. {карл у} {мамы клары} {украл кларнет} {и раму} {вымыл <p>ссылка} {тут</p>}
и ничего не находим
причем ни к позиции ни к тегам я прицепиться не могу. произвольная структура
Такой вариант наверно:
-разбиваем текст на слова. все слова одного текста прогоняем по второму тексту. у совпадающих слов у второго текста - цепляем следующее слово за ним. цепляем следующее за ним - у первого текста. и словосочетания прогоняем. но...хлебные крошки и релатед пост разные на всех страницах. верстка (в произвольном случае) вброшена инлайн прямо в тело поста
|
|
|
|
programmer
С нами с 08.12.02
Сообщения: 7615
Рейтинг: 5760
|
Добавлено: 06/07/10 в 22:42 |
а как то strip_tags заюзать, не ...?
|
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 07/07/10 в 15:22 |
да не. так хоть я могу к span[last] \ p[last] на крайняк прицепиться (если допустить что верстка меняться не будет (а если вдруг сменится то алерты бросать)). если теги убрать то вообще труба...
|
|
|
|
Текстовая реклама в форме ответа Заголовок и до четырех строчек текста Длина текста до 350 символов Купить рекламу в этом месте! |