С нами с 01.12.06
Сообщения: 36
Рейтинг: 17
|
Добавлено: 31/01/07 в 17:36 |
Вообщем, берём текст. Берём в нём каждое слово, пытаемся найти его в базе синонимов. Нашли - возвращаем случайный синоним. Не нашли - возвращаем оригинал. При возвращении синонима учитывается регистр его первой буквы слова (первого слова). База синонимов английская. Другие языки также рассматриваются для разработки. В базе 30.000 позиций с 10-20 синонимами на каждое слово.
Кому нужно - icq четыре-три-девять-559237.
|
|
Синонимизатор с базой - $50. Скоростной парсер Google - $50.
ICQ 439-559-237
|
0
|
|
|
С нами с 26.11.02
Сообщения: 580
Рейтинг: 344
|
Добавлено: 31/01/07 в 19:44 |
было бы неплохо сэмплы посмотреть
несколько предложений в оригинале и в обработке
|
|
|
|
С нами с 01.12.06
Сообщения: 36
Рейтинг: 17
|
Добавлено: 31/01/07 в 19:49 |
Оригинал:
Цитата: | An automobile (or motor car) is a wheeled passenger vehicle that carries its own motor. Most definitions of the term specify that automobiles are designed to run primarily on roads, to have seating for one to seven people, typically have four wheels and be constructed principally for the transport of people rather than goods. However, the term is far from precise. |
Результаты:
Цитата: | An saloon (or enginery car) is a wheeled cosmopolite monochromatic film that car
ries its grant motor. Rule definitions in connection with the identify focus on
that automobiles are devised against sail basically upon roads, in feel seating
in preference to atomic unto seven people, typically procure four jalopy and be
present constructed overall in lieu of the rapture concerning everybody though a
s compared with goods. However, the agree is distant out of precise. |
Цитата: | An manifold (or wreck car) is a wheeled visiting fireman television drama that c
arries its not oppose motor. Dominion definitions as to the specify typify that
automobiles are voluntary on arabesque at the start re roads, versus pronounce s
eating pro terran until seven people, typically bear with four bus and obtain co
nstructed first and foremost all for the exultation in point of brood to a degre
e otherwise goods. However, the confines is faraway ex precise. |
|
|
Синонимизатор с базой - $50. Скоростной парсер Google - $50.
ICQ 439-559-237
|
0
|
|
|
Генератор случайных букв
С нами с 01.02.04
Сообщения: 1014
Рейтинг: 455
|
Добавлено: 31/01/07 в 20:32 |
Ээээ, а смысл? В таком качестве исполнения - это совершенно бестолковый генератор текста справится лучше.
|
|
|
|
С нами с 01.12.06
Сообщения: 36
Рейтинг: 17
|
Добавлено: 31/01/07 в 20:34 |
Обоснования?
|
|
Синонимизатор с базой - $50. Скоростной парсер Google - $50.
ICQ 439-559-237
|
0
|
|
|
беспартийный единоличник
С нами с 30.10.03
Сообщения: 5211
Рейтинг: 1117
|
Добавлено: 31/01/07 в 21:05 |
Это альтернатива цепям Маркова или для чего?
|
|
Не говорите людям, что вы о них думаете. Говорите им приятное.
|
0
|
|
|
С нами с 01.12.06
Сообщения: 36
Рейтинг: 17
|
Добавлено: 31/01/07 в 21:06 |
Можно накладывать как на настоящий текст, так и на результат работы маркова и других линейных алгоритмов модификации текстов.
|
|
Синонимизатор с базой - $50. Скоростной парсер Google - $50.
ICQ 439-559-237
|
0
|
|
|
Генератор случайных букв
С нами с 01.02.04
Сообщения: 1014
Рейтинг: 455
|
Добавлено: 31/01/07 в 21:28 |
Белый Гендальф писал: | Обоснования? |
Зачем проводить такую замену на синонимы, если текст теряет читаемость? Правильные синонимизаторы текста должны оставлять его смысловую нагрузку и грамматическую правильность.
В ином случае проще (быстрее) генерировать тексты с использованием релевантных тематических словарей.
Пример работы удачного синонимизатора:
Дано:
Hot and sexy asian girl gets fucked hard in her shaved pussy.
Результат:
Sweet and bootilicius orient doll gets pumped rock hard in her fuckin bald cunt.
Последний раз редактировалось: Вацлав (31/01/07 в 21:42), всего редактировалось 1 раз
|
|
|
|
1К13!
С нами с 07.05.04
Сообщения: 7721
Рейтинг: 2428
|
Добавлено: 31/01/07 в 21:42 |
идея хорошая, но не новая.
продукт пойдёт, если к базе будет соответствующий софт (лучше - серверный) с достаточно гибкими настройками, а именно - вероятность замены слова на синоним; замена существительных, прилагательных, глаголов - по выбору. Т.е. не надо весь текст синонимизировать.
для обеспечения какой-никакой уникальности достаточно заменить
коля ел колбасу с майонезом
на
коля кушал колбасу с майонезом
а пока получается
коля питался мясопродуктами в соусе
здесь соотношение "уникальность/осмысленность" сильно теряет в плане осмысленности.
|
|
|
|
С нами с 01.12.06
Сообщения: 36
Рейтинг: 17
|
Добавлено: 31/01/07 в 22:08 |
Это база в комплекте к софту. Необходимая функциональность достигается.
|
|
Синонимизатор с базой - $50. Скоростной парсер Google - $50.
ICQ 439-559-237
|
0
|
|
|
С нами с 01.12.06
Сообщения: 36
Рейтинг: 17
|
Добавлено: 31/01/07 в 22:13 |
Цена повышена. Подробности в ICQ 439-559-237.
|
|
Синонимизатор с базой - $50. Скоростной парсер Google - $50.
ICQ 439-559-237
|
0
|
|
|
С нами с 08.10.04
Сообщения: 667
Рейтинг: 710
|
Добавлено: 01/02/07 в 00:34 |
benzole писал: | Т.е. не надо весь текст синонимизировать.
для обеспечения какой-никакой уникальности достаточно заменить
коля ел колбасу с майонезом
на
коля кушал колбасу с майонезом
а пока получается
коля питался мясопродуктами в соусе
|
Поисковик тебя будет ловить по "колбасу с майонезом" => саплименталс )
ЗЫ А мы с тобой не срались как-то пару лет назад на МХ по поводу доров? )
Топикстартеру - основным критерием, определяющим ценность ТВОЕГО софта, будет наличие баз с релевантными синонимами. Т.е. библиотеки. Так как сам скрипт по себе большой ценности имхо не представляет - пока что нет в нем ниче сложного. В приведенных тобой примерах текст вообще в лоб меняется. Там где есть множественное число или склонение - замен нет /хотя мог и просмотреть конечно/.
Взятая таблица синонимов из ворднет к примеру - штука охеренная конечно при всей своей полноте, но содержит излишнюю информацию, что часто искажает смысл текста ВООБЩЕ /как ты и показал/.
(Вот поэтому некоторые товарищи, имея хорошие библиотеки и алгоритмы, не продают софт а дают доступ к нему со своей выгодой.)
А по правильной "синонимизации" - Вацлав знает вариант как И ГДЕ набрать правильные с точки зрения поисковика синонимы. Но не скажет. И я не скажу... Ибо нех.
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 00:46 |
vashman писал: | Поисковик тебя будет ловить по "колбасу с майонезом" => саплименталс ) |
На основании чего? Это словосочетание будет верно, статистически часто встречаться в текстах.
|
|
|
|
С нами с 08.10.04
Сообщения: 667
Рейтинг: 710
|
Добавлено: 01/02/07 в 00:53 |
LOVE писал: | На основании чего? Это словосочетание будет верно, статистически часто встречаться в текстах. |
абсолютно согласен. но говорил как есть - по одному предложению поймает. в переделаной таким образом статье или куску текста - хз.
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 01:13 |
Да даже если будет одно предложение - весь текст:
Колбоса с майонезом.
Что он поймает? Какие основания, где здесь дубль и т.п.?
или я не понял тебя?
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 01:20 |
Он может поймать по тексту целиком. Проанализировав весь текст. Но это представляется очень сложным, во-первых вычислительные мощности, это он должен поднять весь кластер, все свои данные чтобы найти похожий текст, а потом сопоставить его? И все из за колбосы с майонезом....
Даже если он будет это делать.......... погрешность будет слишком велика имхо. А если тексты составляются из частей: колбоса с майонезом и копченая колбоса, и предложения перемешиваются, то поисковику будет почти нереально докопаться до истины (это если именно о дорах говорить).
Достаточно минимума замен по синонимам, перемешки очередности предложений + разбавление текста схожим по теме, имхо.
|
|
|
|
С нами с 08.10.04
Сообщения: 667
Рейтинг: 710
|
Добавлено: 01/02/07 в 01:40 |
про шинглы прочитай, multiword features или вот к примеру алгоритмы яндекса company.yandex.ru/articles/article7.html (descriptive words) /ну и если совсем заинтересуешься темой - ключевые слова - нечеткие дубликаты )/
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 01:46 |
Читал. Не верится. Погрешность должна быть велика. Могу ошибаться конечно.
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 01:51 |
Если тексты одной тематики, то изначально ведь там будет совпадение словосочетаний + слова используемые будут теми же в большом %.
|
|
|
|
С нами с 08.10.04
Сообщения: 667
Рейтинг: 710
|
Добавлено: 01/02/07 в 01:53 |
LOVE писал: | Читал. Не верится. Погрешность должна быть велика. Могу ошибаться конечно. |
конечно велика. а кто говорит что гугла идеален? про яндыкз вообще молчу )
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 01:54 |
Отловить маркова то не проблема. А вот измененный текст реальный + замешанный текст уже не так просто имхо. Это может быть только одним из параметров пессимизации имхо. 99% дать мне кажется нельзя + мощности.
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 01:57 |
А вот с google bombing бороться проще, чем с текстом, на данный момент. На это ставка пока и делается. Тексты пока будут палиться только откровенно написанные машиной, хотя как я понимаю люди до сих пор используют маркова и не испытывают проблем.
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 02:00 |
Тем более гугл не в состоянии определить первоисточник. Кто у кого украл текст?! Они этого не знают, точнее могут знать, но основываясь на своих данных, которые не могут быть 100% точными.
|
|
|
|
С нами с 08.10.04
Сообщения: 667
Рейтинг: 710
|
Добавлено: 01/02/07 в 02:10 |
мы с тобой топик афтара UP-им или как? может нуивонах и в другом месте пообсуждаем при случае? )
|
|
|
|
С нами с 06.11.02
Сообщения: 24551
Рейтинг: 5315
|
Добавлено: 01/02/07 в 02:12 |
согласен
|
|
|
|