С нами с 20.11.07
Сообщения: 148
Рейтинг: 3
|
Добавлено: 28/12/07 в 14:55 |
Все, кто работает с поисковыми системами, рано или поздно сталкиваются с проблемой получения качественного уникального контента. Кто-то заказывает уникальный контент у копирайтеров, а кто-то видоизменяет существующий путем перевода или синонимизации. Но услуги копирайтеров при больших масштабах будут стоить очень дорого, да и производительность копирайтеров оставляет желать лучшего. А видоизменение контента не всегда дает желаемый результат: при переводе маленьких текстов процент изменяемых слов очень мал, а при использовании обычной синонимизации теряется читабельность текста, так как в английском языке некоторые одинаковые слова обладают разными смыслами.
Приведу один яркий пример:
В предложении “These clay blocks are for home construction” (“Эти глиняные блоки для постройки дома”) слово “blocks” используется как существительное во множественном числе от слова block (блок). Допустим мы его можем заменить словом “bricks” (brick - кирпич). Однако в предложении “He blocks this action” (“Он блокирует это действие”) слово “blocks” является глаголом настоящего времени 3-го лица, означающем действие “блокировать”. При обычной синонимизации мы заменили во втором предложении слово “blocks” на слово “bricks” и получили предложение “He bricks this action” (Он “кирпичит” это действие).
Не правда ли смешно получается? Теряется смысл и читабельность текста. А это самое главное (если конечно Вы делаете сайты не только для поисковых систем). Помимо этого существуют разные формы слова(времена, множественное и единственное число и т.д.), которые также необходимо корректно обрабатывать. Ведь, например, слово “running” может быть существительным, прилагательным или глаголом. Еще одна проблема кроется в том, что принадлежащее к одной части речи слово может также иметь разные значения. Как грамотно обработать слово и заменить синонимом, подходящим по смыслу? В английском языке примерно 10% слов имеют более одного значения. Однако эти 10% как раз и являются самыми часто используемыми словами. Я давно озадачился этой проблемой и провел несколько бессонных недель за разработкой новой системы синонимизации, которая лишена этого недостатка. В результате для разработки новой системы были применены большое количество различных алгоритмов работы с текстом и несколько различных баз данных по английскому языку.
Вот что получилось:
1. Система синонимизации для каждого слова в предложении определяет его часть речи (существительное/прилагательное/глагол/и т.д.), а также число, время и другие параметры.
2. Далее система определяет смысловое значение слова. Тоесть в каком смысле используется это слово в конкретном данном предложении.
3. Затем ищутся сходные по смыслу слова-синонимы.
4. Если такие слова существуют, то выбирается одно случайное слово.
5. Далее это слово морфологически модифицируется с целью придания ему тех же параметров первоначального слова (время/число/и т.д.)
6. Первоначальное слово заменяется полученным словом.
Хочу сразу заметить, что система предельно корректно морфологически модифицирует слова. Например, слово “woman” при переводе в множественное число станет “women”, а не “womans”. Тоесть соблюдаются все правила и исключения английского языка. К сожалению, не все идеально в этом мире. Также и эта система имеет некий допустимый порог ошибок. Однако смею Вас заверить, что качество синонимизации остается на допустимом уровне, и текст не теряет своей привлекательности и смысловой нагрузки.
Вот некоторые характеристики:
1. Система работает на PHP(Zend)+MySQL.
2. Размер базы порядка 15 мегабайт.
3. Для работы требуется VPS либо выделенный сервер.
4. Синонимизируется в среднем 50% слов.
5. Ошибки синонимизации составляют примерно от 2 до 10 процентов в зависимости от тематики исходного текста.
6. Без дополнительных настроек синонимизируется адалт тематика (дески к галерам, платникам и т.д.), синонимизируется фарма-тематика, и уж конечно синонимизируются RSS фиды.
7. Синонимизации подлежат только синтаксически правильно оформленные предложения на английском языке без HTML тэгов.
Стоимость.
В стоимость скрипта входит установка и настройка “под ключ”. Также возможны апдейты базы данных в будущем с целью исправления ошибок синонимизации. Покупка подразумевает собой использование только в личных целях без дальнейшей перепродажи скрипта и предоставления доступа к нему другим лицам.
- Специальная предновогодняя цена: до 23:59 31 декабря 2007 года - $400.
- Специальная новогодняя цена до 23:59 10 января 2008 года - $500.
- Далее цена будет составлять $1000.
Сервис синонимизации.
Также продается исключительное право на создание сервиса синонимизации для дальнейшего предоставления платного доступа к нему. В стоимость входит сама система синонимизации и право предоставления сервиса неограниченному количеству пользователей. Также я предоставлю систему учета доступа пользователей к сервису. Право это исключительное и продается только один раз. Все подробности по поводу стоимости обсуждаются в аське. Примерная цифра - $5000.
Примеры.
Примеры синонимизации некоторых типов контента, а также тестовый доступ к системе будут размещены в этом топике через несколько часов (по окончанию установки системы на веб-сервере).
|
|
|
|
осинизатор
С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819
|
Добавлено: 28/12/07 в 20:40 |
Все это, конечно, гут, но гуглю на самом деле пох. на правильность использования существительных - он не на столько умен (слава богу). Например, у меня на сплогах с более-менее старыми доменами, пользующих "обычный" синонимайзер набирается по 1.5K..2K уников в день. Это говорит о том, что особо извращаться на тему "чистоты языка" пока особого смысла нет - оно и так прекрасно работает Так что, IMHO цена "несколько" высоковата.
Ну и еще один момент. Вы на системах с большим объемом данных (это когда огромное количество сайтов одновременно синонимайзят такое же огромное количество текста, например, фидов)? Я это спрашиваю к тому, что алгоритм у вас, на мой взгляд, должен быть довольно ресурсоемким + MySQL, который имеет привычку грузить сервер так, что мама не горюй...
И кстати, почему тексты с html тэгами не поддерживаются? Как адалтные фиды тогда обрабатывать, если там картинки, ссылки, стриминг видео + еще куча всякой байды вроде таблиц, которыми так любят увлекаться некоторые партнерки?
|
|
|
|
С нами с 27.09.05
Сообщения: 56
Рейтинг: 1
|
Добавлено: 28/12/07 в 21:04 |
del
Последний раз редактировалось: Netmask (07/02/14 в 14:46), всего редактировалось 1 раз
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 28/12/07 в 21:20 |
Так да! Куда пропал-то товарищь...
|
|
|
|
С нами с 20.11.07
Сообщения: 148
Рейтинг: 3
|
Добавлено: 28/12/07 в 22:03 |
Я никуда не пропал. Данный топик был специально создан заранее с той целью, чтобы как можно больше посетителей с ним ознакомилось. Реализация сервиса в интернете идет полным ходом. Сервис (а также примеры в этом топике) будет доступен рано утром примерно в 6-7 часов по Москве, о чем я немедленно отпишусь здесь.
2 cyberxxx:
Я не спорю, что гуглу и другим поисковым системам без разницы на правильность использования слов. Однако если Вы делаете сайты не для поисковых систем, а для людей, то правильность синонимизации очень важна. Что касается HTML, то здесь потребуется специальный алгоритм, который будет выбирать из HTML кода чистое предложение, затем синонимизировать и уже после этого обратно вставлять в HTML.
Сам алгоритм отточен и максимально оптимизирован. Как показывает практика - даже VPS'а для этого достаточно.
|
|
|
|
осинизатор
С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819
|
Добавлено: 28/12/07 в 22:39 |
SEOcar писал: | Что касается HTML, то здесь потребуется специальный алгоритм, который будет выбирать из HTML кода чистое предложение, затем синонимизировать и уже после этого обратно вставлять в HTML. |
Ну я, типа, в курсе preg_replace() в помощь
SEOcar писал: | Сам алгоритм отточен и максимально оптимизирован. Как показывает практика - даже VPS'а для этого достаточно. |
При какой нагрузке?
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 28/12/07 в 22:55 |
cyberxxx напал на потенциального конкурента
Кстати вопрос к тебе, раз уже ты тут - плагин твой только по однословным работает или словосочетания тоже можно заменять?
|
|
|
|
С нами с 23.03.03
Сообщения: 390
Рейтинг: 254
|
Добавлено: 28/12/07 в 23:01 |
ТС, тоже кстати вопрос. мож пропустил,зачитался.
твой синонимизатор однословники только заменяет или фразы тоже?
и еще
сколько по времени будет происходить синонимизация 1мб текста?
вообще интересно, если все устроит - прикупил бы.
|
|
|
|
осинизатор
С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819
|
Добавлено: 29/12/07 в 00:40 |
Man писал: | cyberxxx напал на потенциального конкурента
Кстати вопрос к тебе, раз уже ты тут - плагин твой только по однословным работает или словосочетания тоже можно заменять?
|
Неа, не конкурент уже - я CyberSEO не продаю больше (обрати внимание на сигнатуру), ибо жаба душит В данный момент, продаю только TheSponsorFeeds, который предназначен исключительно для владельцев партнерок и не может быть использован независимыми блоггерами.
Ну а по поводу твоего вопроса. Во-первых, не напал, а реально интересуюсь, ибо даже мой "бесхитростный" плагин умудряется довольно неплохо загружать сервер при более-менее серьезных нагрузках. А ведь там нет ни проверки правильности использования синонимов, ни, тем более, обращений к мускулю.
Во-вторых, разумеется можно заменять и словосочетания (с сохранением регистра, корректной обработкой текста содержащего HTML тэги и т.д.)
w84me писал: | сколько по времени будет происходить синонимизация 1мб текста? |
Вот это очень правильный вопрос IMHO.
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 29/12/07 в 00:54 |
cyberxxx писал: | Неа, не конкурент уже - я CyberSEO не продаю больше (обрати внимание на сигнатуру), ибо жаба душит В данный момент, продаю только TheSponsorFeeds, который предназначен исключительно для владельцев партнерок и не может быть использован независимыми блоггерами. |
хех.... только я купить собрался
Цитата: | Ну а по поводу твоего вопроса. Во-первых, не напал, а реально интересуюсь, ибо даже мой "бесхитростный" плагин умудряется довольно неплохо загружать сервер при более-менее серьезных нагрузках. А ведь там нет ни проверки правильности использования синонимов, ни, тем более, обращений к мускулю. |
Да я в курсе что операции ресурсоемкие, но при заявленой цене думаю покупателю не впадлу будет отдельный сервачок выделить под это дело, если конечно система стоящая.
|
|
|
|
Деньги из воздуха...
С нами с 26.09.04
Сообщения: 3797
Рейтинг: 2283
|
Добавлено: 29/12/07 в 07:18 |
+1 к вопросу о замене устойчивых словосочетаний. Есть такое или тоже однословные тока?
Man: Да не в мощностях дело. Оно получается, что в реальном времени даже мощных серверах при некотором отличном от 0 количестве запросов на синонимизацию нагрузка такая что мама не горюй. А впрок синонимизировать очень лениво все.
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 29/12/07 в 11:13 |
ritor писал: | Man: Да не в мощностях дело. Оно получается, что в реальном времени даже мощных серверах при некотором отличном от 0 количестве запросов на синонимизацию нагрузка такая что мама не горюй. А впрок синонимизировать очень лениво все. |
Да я в курсе Но это зло неизбежное, чудес-то не бывает. Если уж на то пошло то даже пресловутый Марков на более-менее больших текстах грузит тоже не слабо.
кстати 7 утра уже прошло насколько я понимаю, чуствую мы тут еще долго облизываться будем
|
|
|
|
♥♥♥
С нами с 28.08.04
Сообщения: 7098
Рейтинг: 5671
|
Добавлено: 29/12/07 в 13:05 |
Ждемс))
|
|
|
|
С нами с 25.01.06
Сообщения: 72
Рейтинг: 38
|
Добавлено: 30/12/07 в 03:18 |
ТС, а может ли твой супер скрипт синонимизировать предложения и абзацы?
Также интересует возможность суммаризации.
|
|
|
|
c++,php кодинг
С нами с 22.10.05
Сообщения: 1098
Рейтинг: 558
|
Добавлено: 30/12/07 в 08:50 |
и я, и я
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 30/12/07 в 15:26 |
Умерло не родившись....
|
|
|
|
С нами с 11.08.06
Сообщения: 400
Рейтинг: 208
|
Добавлено: 30/12/07 в 15:29 |
Не, наверное там уже новый год
|
|
|
|
pNote
С нами с 27.02.07
Сообщения: 1129
Рейтинг: 669
|
Добавлено: 30/12/07 в 18:59 |
ну и нах было спамиться, не подготовив скрипты и проект в целом на серваке? фуня какая-то.
|
|
Адалт умер, да здравствует адалт!
|
0
|
|
|
Деньги из воздуха...
С нами с 26.09.04
Сообщения: 3797
Рейтинг: 2283
|
Добавлено: 30/12/07 в 19:20 |
Ну да а потом выяснится, что еще не совсем алгоритм синонимизации готов итд.
ТС ничего личного ждем с нетерпением появления, но спамятся обычно с примерами и готовым сервисом.
|
|
|
|
С нами с 30.12.07
Сообщения: 128
Рейтинг: 25
|
Добавлено: 30/12/07 в 20:47 |
Оффтопик: SEOcar, не пали тему, ненаадо в паблик
|
|
Русский порно блог |
Продам сигу, недорого.
|
0
|
|
|
осинизатор
С нами с 10.03.03
Сообщения: 8491
Рейтинг: 819
|
Добавлено: 30/12/07 в 21:35 |
HappyUser писал: | Оффтопик: SEOcar, не пали тему, ненаадо в паблик
|
С добрым утром! Эту тему еще в 2005-м году "запалили". Сегодня только ленивый синонимайзером не пользуется - гугль в помощь!
|
|
|
|
Old Oil Barrel
С нами с 09.09.04
Сообщения: 58531
Рейтинг: 14265
|
Добавлено: 31/12/07 в 10:04 |
на 1000 баксов я закажу уникальных текстов мне на год для блогов хватит...
даже больше...
имхо цена завышена в несколько раз
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 31/12/07 в 14:43 |
Sergeyka писал: |
имхо цена завышена в несколько раз |
Особенно с учетом того что системы похоже что и нет
И не влом было ТС писать такой пост и спамится по форумам чтобы так смачно облажаться
А жаль, с интересом бы посмотрел...
|
|
|
|
С нами с 01.12.04
Сообщения: 90
Рейтинг: 48
|
Добавлено: 06/01/08 в 04:00 |
|
|
|
|
Самый добрый бегемот
С нами с 24.06.03
Сообщения: 954
Рейтинг: 574
|
Добавлено: 06/01/08 в 11:45 |
Что-то я не разобрался как его получить =(
|
|
|
|