С нами с 02.04.09
Сообщения: 5
|
Добавлено: 04/04/09 в 16:08 |
Вот сделали такую штуку, тексты составляет (язык русский) - http://bredogen.ru/
Уникальность могучая, много лямов цепочек - только от мусора чистили месяц. В итоге сейчас в базе 2 гига с гаком. Текст получается нейтрально-эротический.
Какие мысли, вопросы будут? Качество текста на выходе нормальное?
Ну и вообще, смысл в таком бредогенераторе имеется?
|
|
|
|
С нами с 08.07.08
Сообщения: 9
|
Добавлено: 05/04/09 в 11:45 |
А чё картинкой текст генерируется? Даже не проверить никак...
|
|
|
|
С нами с 02.04.09
Сообщения: 5
|
Добавлено: 06/04/09 в 00:08 |
Какой такой картинкой? Там просто защита от тырринга стоит. Чтоб нахаляву парсилок не натравили и не уронили все нахрен.
|
|
|
|
С нами с 25.10.04
Сообщения: 3306
Рейтинг: 2538
|
Добавлено: 06/04/09 в 09:21 |
как он работает не поняла чёт
|
|
Сдам подпись (в личку, please)
|
0
|
|
|
С нами с 08.07.08
Сообщения: 9
|
Добавлено: 07/04/09 в 10:47 |
BredoGen, кому надо в лёгкую текст извлекёт
По DCfinder уник
|
|
|
|
С нами с 23.09.08
Сообщения: 8
|
Добавлено: 10/04/09 в 15:39 |
Хуета какаето.
|
|
|
|
SEOшник
С нами с 20.10.02
Сообщения: 5375
Рейтинг: 1798
|
Добавлено: 10/04/09 в 16:11 |
Прикольно, но надо тестить.
Если дать дорвейщикам, то уникальность должна быть супер, представте тысячи доров по 10к страниц. Массовость может убить любую тему.
Сильно не всматривался, но алгоритм можно улучшить, за чет добавления простых фишек.
|
|
|
|
С нами с 02.04.09
Сообщения: 5
|
Добавлено: 12/04/09 в 13:31 |
SanchezBoy писал: | BredoGen, кому надо в лёгкую текст извлекёт |
Упарится. Легко не будет.
Zmey Горыныч писал: | Сильно не всматривался, но алгоритм можно улучшить, за чет добавления простых фишек. |
Каких? Вот думаю куда копать.
Zmey Горыныч писал: | представте тысячи доров по 10к страниц. Массовость может убить любую тему. |
Это да, но тут цепей около 70 000 000 Комбинаций до безобразия много.
|
|
|
|
+ + +
С нами с 25.11.05
Сообщения: 43
Рейтинг: 38
|
Добавлено: 12/04/09 в 14:52 |
BredoGen: сами пробовали доры на базе сабжа делать?
|
|
|
|
С нами с 08.07.08
Сообщения: 9
|
Добавлено: 19/04/09 в 10:58 |
Цитата: | Упарится. smail101.gif Легко не будет. |
Упс, а я уже 50к напарсил и сделал дор на этом контенте
|
|
|
|
С нами с 25.03.08
Сообщения: 462
Рейтинг: 75
|
Добавлено: 26/04/09 в 03:51 |
на цепи маркова смахивает, ниче там пиздатого нет
|
|
|
|
С нами с 02.04.09
Сообщения: 5
|
Добавлено: 26/04/09 в 13:08 |
CTAKAH писал: |
на цепи маркова смахивает, ниче там пиздатого нет
|
Они и есть, пиздатого там большая база + очень хорошо очищено от мусора и грязи.
SanchezBoy писал: |
Упс, а я уже 50к напарсил и сделал дор на этом контенте
|
Молодец.
|
|
|
|
С нами с 02.04.09
Сообщения: 5
|
Добавлено: 05/05/09 в 12:06 |
В общем испытания боем для такого текста завершены. Яша скушал экспериментальный дор с этим бредо-текстом на 100%
Из выдачи выпадений не наблюдалось, наоборот - с каждым апом количество страниц росло. В первый ап морда, во второй ап показал весь второй уровень - в третий ап добавил немного страниц третьего уровня. Сейчас, даже очень дальние страницы находятся в индексе - всего 8к страниц.
Короче показатели нормальные - полет проходит в штатном режиме.
Готов продать базу цепочек и сам генератор. Работа над этим изделием была проведена огромная.
База данных это около 70 миллионов звеньев цепочки собраны в 697 909 записях базы MySQL - размер 2.4 GB
Исходником для составления являлись несколько сайтов с эро-порно-рассказами. Пара женских и мужских сайтов с статьями. И нехилая пачка электронных книжек. Объем изначального текста был более 1.5 GB
Все слова в базе тщательно отфильтрованы:
от мусора (опечатки, переносы слов, разрывы слов, несуществующих слов)
от всяких плохих слов (зоо, детей, некро, зоофилии и подобного запретного)
убраны слова которые встречались в текстах малое количество раз
После чистки база похудела примерно на 40%
По всем вопросам стучать в аську ЗЗ7-7O4-428 Цена вопроса 300$
|
|
|
|