С нами с 20.05.05
Сообщения: 18
Рейтинг: 2
|
Добавлено: 27/09/05 в 16:08 |
ТЗ:
Есть основной текст
Есть 5 ключевых слов (или фраз)
Необходимо сделать скрипт, который генерирует уникальный текст на основе заданного, при этом нужно использовать эти ключевые слова (процентное содержание). Очень важно, чтобы текст сохранял читабельность, хотябы на уровне понимания смысла написанного (этот смысл заложен в основном тексте).
Основной текст достаточно видоизменять так, чтобы никто из поисковиков не принял его за зеркала страниц, сгенерированных на основе заданного текста.
Дальше доработаю скрипт сам.
Если готовых решений ни у кого нет, тогда подскажите хотя-бы алгоритм или примерно куда рыть. Тут цепи маркова мне кажется не совсем подходят.
|
|
|
|
С нами с 20.05.05
Сообщения: 18
Рейтинг: 2
|
Добавлено: 27/09/05 в 16:11 |
Кстати текст, который будет генерироваться служит "водой" для разбавления ссылок, которые будут формироваться отдельно на этой странице (как раз 5 штук, по каждому из ключевых слов на разные страницы сайта). Другими словами текст - это "прикрытие" для ссылок и он ОБЯЗАТЕЛЬНО должен сохранять читаемость.
Вот реальный пример страницы, текст которой нужно изменить:
http://1ya.ru/sites.php?t=1&cat_2=70&incat_2=1076&item_2=128
Ключевые слова являются ссылками справа.
пробовал текст просто разбавлять ключевыми словами, но получилась не читаемая фигня
|
|
|
|
С нами с 07.01.04
Сообщения: 2868
Рейтинг: 1536
|
Добавлено: 27/09/05 в 16:24 |
А че думать лень?
Применяешь цепи Маркова к основному тексту, свои ключевые фразы пихаешь в полученый текст после предлогов, глаголов.
Получится хороший текст.
|
|
|
|
С нами с 20.05.05
Сообщения: 18
Рейтинг: 2
|
Добавлено: 27/09/05 в 16:33 |
хм, тогда по-порядку, как можно программно определить часть речи? хотя-бы примерно
Насколько я понял про цепи Маркова, это просто связь типа много ко многим, в ключе частей речи. Так? К примеру для одного существительного подходит куча прилагательнх, равно как и эти прилагательные еще подходят к другой куче существительных.
Кстати мне подсказали еще вариант:
составлять словарь синонимов для слов, и подставлять их рандумом. Только ведь этот словарь составлять опухнешь
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 27/09/05 в 19:36 |
чисто несколько замечаний....
марков для СЕ хорошо работает при анализе БОЛЬШИХ тематических текстов. Если делать на основе тех 3х обзацев что в твоем примере, то достаточно отличный текст не получится. Есть вариант использовать модифицированные алгоритмы маркова, но на русском языке это будет нечитабельно.
словарь синонимов в твоем случае намного проще.., при условии что тебе нужно будет сгенерить ограниченное кол-во новых текстов на основе старого. для массового производства это не пойдет, так как опять же будет дубликате контент которого ты хочешь избежать.
так что или коретируй ТЗ.., или нанимай кучу переводчиков чтобы писали тексты - дешевле обойдется ;)
|
|
|
|
С нами с 07.01.04
Сообщения: 2868
Рейтинг: 1536
|
Добавлено: 27/09/05 в 20:30 |
Что речь о русском тексте идет - не заметил. Текст будет нечитабелен если использовать цепочки Маркова из-за падежей.
Что касается словарей, то есть и словарь синонимов и частей речи русского языка, у меня где-то были от программы разбирающей тематику текста.
|
|
|
|
С нами с 20.05.05
Сообщения: 18
Рейтинг: 2
|
Добавлено: 27/09/05 в 22:19 |
Цитата: |
словарь синонимов в твоем случае намного проще.., при условии что тебе нужно будет сгенерить ограниченное кол-во новых текстов на основе старого. для массового производства это не пойдет, так как опять же будет дубликате контент которого ты хочешь избежать. |
Ну скажем, ограниченное - да, но количество от 1000 и более для одного и того-же текста. Сам текст может быть любым, т.к. его забивают пользователи.
Хорошо, тогда возможно есть способы скрытого "размытия текста"? Может кто сталкивался уже? Ну к примеру невидимые для глаза вставки между слов. Правда я не знаю реакцию поисковиков на такие страницы, каков процент "раскрываемости" подлога.
Я вот думаю чего сделать: генерировать на странице что-угодно, а вот при помощи javascript выодить нормальный контент, а левый - скрывать.
Ваше мнение?
Собственно задача этой страницы - размыть ссылки среди текста, чтобы вес больше был. Такая страница генерируется на более чем 1500 сайтов, поэтому уникальность текста очень важна, иначе просто зазеркалируют всех.
Возможно есть какие-то другие способы размытия ссылок в тексте?
Цитата: | Что касается словарей, то есть и словарь синонимов и частей речи русского языка, у меня где-то были от программы разбирающей тематику текста. |
У меня есть программа "Metromir" кажется, но выковырять оттуда базу синонимов не получается. Программа скорее всего шифрует свою базу синонимов, а хотелось бы в открытом виде
|
|
|
|
пенсионер
С нами с 07.11.02
Сообщения: 2612
Рейтинг: 1166
|
Добавлено: 27/09/05 в 23:12 |
zaartix писал: | Ну скажем, ограниченное - да, но количество от 1000 и более для одного и того-же текста. Сам текст может быть любым, т.к. его забивают пользователи. |
словарь синонимов (даже при хорошей базе), это максимум 10-ток уникальных вариантов, так что тебя это не спасет.
|
|
|
|