db ++++
С нами с 12.01.05
Сообщения: 1446
Рейтинг: 733
|
Добавлено: 27/01/08 в 23:51 |
SEOcar писал: | Процесс определения смысла слов и поиска сходных по смыслу синонимов - это мое "ноухау". |
Твое ноухау мой программер написал недели 2 назад
ровно тогда все это довольно детально обсуждалось на Армаде )
Скажу одно.. прогер нейронку обучил под это дело, если у ТС аналогичный случай, продукт должен быть хорошим!
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 28/01/08 в 01:42 |
SEOcar писал: | Концепция и политика распространения
Данный синонимайзер я создавал преимущественно для собственных нужд. Однако принял решение о продаже нескольких его копий.
Поскольку количество синонимов на каждое слово ограничено, то при росте количества синонимизированных вариантов одного и того же текста начинает расти и вероятность появления дублей. Причем вероятность роста дублей будет одинакова для всех владельцев синонимизатора. В связи с этим будет применяться "сдерживающая" политика распространения: чем больше копий будет продано, тем выше будет цена. |
Я занимал еще в 2007 году
Только пока нет еше ничего, ни продукта, ни цены- ждемс...
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 28/01/08 в 01:58 |
alexf2000 писал: | Интересно каким образом определяется, что смысл именно этот, а не какой-то другой из 9 возможных? |
Честно говоря кроме чисто статистических методов ничего в голову не приходит. Если ТС умудрился решить эту задачку другим путем - респект...
|
|
|
|
С нами с 25.12.03
Сообщения: 1003
Рейтинг: 462
|
Добавлено: 28/01/08 в 04:13 |
вот удивительно .. мы, дорвейщики, .. пишем программы для распознавания изображений при помощи нейросетей, создаём интеллектуальные системы написания текстов, оптимизируем так, чтобы всё летало, ввиду отсутствия средств на мощные сервера...
это вам не какие-то там "сайты" клепать ядрёна мать!
|
|
|
|
С нами с 10.04.04
Сообщения: 2526
Рейтинг: 1447
|
Добавлено: 28/01/08 в 06:48 |
Замена слов на синонимы это нет то, вот если бы был софт переписывающий полностью предложение - это другое...
|
|
Это не я должен предлагать тебе деньги, а ты должен убедить меня заплатить тебе.
|
0
|
|
|
С нами с 20.11.07
Сообщения: 148
Рейтинг: 3
|
Добавлено: 28/01/08 в 12:59 |
Вообщем-то все готово. Если есть желающие ознакомиться и приобрести - велкам в асю (660272).
До 12:00 1 февраля(пятница) цена - $400. Далее $500.
В стоимость входит установка, настройка и последующие апдейты.
Сам скрипт зазенден. База данных зашифрована.
Требования:
- MySQL
- PHP (с зендом)
- VPS или дедик (на виртуале сие дело будет крутиться мучительно долго)
Оплата пока только в Вебманях (к сожалению, не вижу пока других нормальных платежных систем).
|
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 28/01/08 в 15:05 |
Потестил, отписываю.
Из несомненных плюсов то что SEOcar действительно хорошо разобрался с проблематикой реврайтинга текстов посредством синонимизации, явно много копал, много читал и предложил свои методы решения возникающих проблем.
В общем есть понимание и есть желание "копать" в этом направлении.
По самому синонимайзеру.
Решение многозначности по частям речи - работает хорошо на общих текстах, несколько хуже на специальных и содержащих сленг.
Правильно определяются словоформы и замена производится с учетом использованных в образце окончаний (fucks-bangs,girls-misses и т.д.).
Решение смысловой многозначности вцелом работает, но есть определенный % ошибок, который также явно будет меняться в большую сторону при усилении "специализации" текстов. Вообще тут достаточно сложно оценить качество на небольшом объеме текстов, но мне представляется возможным уменьшить число ошибок, поработав со спец. текстами и словарями (трудоемко). Главное есть некая методика.
Из минусов.
Большинство минусов вытекают непосредственно из используемых словарных баз. Тот-же ворднет, на мой взгляд, довольно сильно "формализован", т.е. синонимы указываются только точно совпадающие по смыслу, недостаточно устойчивых словосочетааний, неважная база спец.терминов и сленга и т.д.
Обсудили с SEOcar эту проблему, у него появились идеи как можно расширить гибкость алгоритма - подождем реализации...
Резюме: интересно, обещающе, в случае проведения некоторой шлифовки и развития - будет весьма хорошим продуктом.
|
|
|
|
С нами с 26.08.03
Сообщения: 125
Рейтинг: 106
|
Добавлено: 29/01/08 в 10:52 |
Хотелось бы уточнить смысловой аспект.
Как, допустим, синонимайзер поступит с фразой
Her first time fucking
По идее first time надо рассматривать как устойчивое словосочетание
и если искать синоним, то именно для него.
Потому как, first date, в данном контексте не катит.
Или first time надо будет помечать как "поэтическое"
и синонимизироваться оно не будет?
|
|
IdolBucks только для ревшары: ребиллы годами.
|
0
|
|
|
С нами с 20.11.07
Сообщения: 148
Рейтинг: 3
|
Добавлено: 29/01/08 в 12:43 |
В базе есть устойчивое словосочетание "first time". Но синонимов в ворднете к нему нет. Поэтому слово будет оставлено как есть. В синонимайзер добавлена возможность использования пользовательского словаря вида "СЛОВО|синоним1,синоним2 и тд". Поэтому если в пользовательском словаре будет найдено это устойчивое словосочетание, то оно будет заменено на случайный синоним.
|
|
|
|
С нами с 23.03.03
Сообщения: 390
Рейтинг: 254
|
Добавлено: 29/01/08 в 23:22 |
сколько времени будет синонимизироваться 1 мб текста. или 1000 предложений по 5+ слов?
на среднестатистическом дедике
|
|
|
|
С нами с 16.01.06
Сообщения: 268
Рейтинг: 460
|
Добавлено: 29/01/08 в 23:32 |
что б не обсуждать сферического коня в вакууме, пусть или разработчик или кто то из тестеров приведет примеры работы синонимайзера - несколько текстов адалтовой тематики порядка 1кБ.
А то у всех разные критерии для оценки
"работает хорошо на общих текстах, несколько хуже на специальных и содержащих сленг"
|
|
I am the master of my fate
I am the captain of my soul
|
0
|
|
|
С нами с 13.01.03
Сообщения: 6109
Рейтинг: 1962
|
Добавлено: 29/01/08 в 23:51 |
johnson писал: | А то у всех разные критерии для оценки
"работает хорошо на общих текстах, несколько хуже на специальных и содержащих сленг" |
Я специально не стал приводить результаты своих тестов, потому как по-моему достаточно очевидно что адалт тексты содержат много специфической лексики которой просто нет в паблик базах.
И потому написал что если вводить ВРУЧНУЮ подготовленные словари спец. лексики, то будет весьма неплохо синонимизировать.
С этим конечно придется поебаться, и цена таким словарям в разы выше чем любого скрипта имхо. Те кто ждут очередную "кнопку бабло" будут разочарованы
Но сами алгоритмы вполне рабочие, это основное имхо что должно быть заложено в подобном скрипте
|
|
|
|
С нами с 20.11.07
Сообщения: 148
Рейтинг: 3
|
Добавлено: 30/01/08 в 00:34 |
w84me писал: | сколько времени будет синонимизироваться 1 мб текста. или 1000 предложений по 5+ слов?
на среднестатистическом дедике |
Касательно скорости синонимизации. Поскольку каждое слово рассматривается неразрывно от остальных слов в предложении, то чем больше слов в предложении, тем больше времени занимает синонимизация каждого слова. Тоесть синонимизация 1000 предложений по 5 слов (5000 слов) будет идти быстрее, чем синонимизация 500 предложений по 10 слов (тоже 5000 слов). Однако чем больше слов в предложении, тем точнее определяется смысл каждого слова и качественнее происходит синонимизация.
Основной и самый важный критерий производительности скрипта - это скорость процессора. Размер готовой базы с индексами составляет чуть менее 150 мб. Поэтому достаточно 1гб оперативной памяти и соответствующих настроей MySQL для того, чтобы MySQL закэшировал всю базу в память. Если заморочится с настройками дедика, то будет достаточно и 512 мб ОЗУ. Конечно скрипт может работать и на менее производительных системах, однако скорость его будет заметно снижена.
При работе скрипта примерно 95% процессорного времени съедается мускулем, а остальное - самим скриптом. Поэтому для увеличения скорости работы скрипта имеет смысл настроить MySQL сервер на самую оптимальную производительность. В самой базе созданы все необходимые индексы для быстрой работы. Поскольку работа с базой идет только на чтение, то имеет смысл включить многопоточность мускуля на системах с несколькими ядрами/процессорами.
Сами бенчмарки скрипта я еще не делал, поэтому озвучить точную цифру я не смогу. Но смею предположить, что синонимизация 1мб текста статей сейчас производится примерно за 4-5 часов на 1-процессорном P4 2.4 GHz с 1гб памяти (Был взят кусок текста размером в 1 кб и засечено время его синонимизации. Далее количество затраченного времени было умножено на 1024). Согласен, что время это не маленькое, однако здесь в расчет не учтен кэш MySQL, который должен заметно сократить это время. Я уже обсуждал проблему производительности с Man'ом, поэтому одно из моих направлений сейчас - это уменьшение размера базы и оптимизация работы с ней с целью увеличения производительности.
|
|
|
|
С нами с 20.11.07
Сообщения: 148
Рейтинг: 3
|
Добавлено: 30/01/08 в 00:43 |
johnson писал: | что б не обсуждать сферического коня в вакууме, пусть или разработчик или кто то из тестеров приведет примеры работы синонимайзера - несколько текстов адалтовой тематики порядка 1кБ. |
Ок. Тогда я сделаю так:
Набью небольшой пользовательский словарик синонимов для адалта, затем выложу здесь результаты синонимизации десков и описания платников без оного и с ним. Мне потребуется некоторое время на это. Надеюсь, что это будет готово завтра с утра.
|
|
|
|
С нами с 14.06.06
Сообщения: 3000
Рейтинг: 1475
|
Добавлено: 30/01/08 в 05:12 |
...
Последний раз редактировалось: example (19/06/15 в 20:27), всего редактировалось 1 раз
|
|
|
|
db ++++
С нами с 12.01.05
Сообщения: 1446
Рейтинг: 733
|
Добавлено: 30/01/08 в 05:41 |
salvador писал: | Оффтопик: Это не то, о чем писал Вацлав? |
не равняй .... то что есть у Вацлава - совсем не синонимайзер, а генерация текста... а если ты про топик, где он описывал как построить грамматически правельный текст, то возможно на этом алгоритме и основано.
|
|
|
|