С нами с 02.04.12
Сообщения: 19
|
Добавлено: 02/05/13 в 12:43 |
Тубы предлагают разные инструменты для работы с ембеддами. У многих есть админка с разными фильтрами, есть рссы, есть те, которые выкладывают целые дампы. Например xvideos, насколько я понял выкладывают только дампы. Файл этот размером в несколького гигов на компе даже открывать страшно. Вопрос: что с ним делать, какие есть инструменты для фильтра и обработки по нужным критериям?
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 03/05/13 в 19:38 |
ricardo писал: | насколько я понял выкладывают только дампы. Файл этот размером в несколького гигов |
дамп в несколько гигов???
ricardo писал: | Вопрос: что с ним делать, какие есть инструменты для фильтра и обработки по нужным критериям? |
режь файл и фильтруй как позволяет возможность
Вы ребят уже и думать не хотите
|
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 03/05/13 в 20:06 |
Lexikon писал: | дамп в несколько гигов???
|
Ну да, xvideos в распечатанном виде больше гига, что тоже ни мало.
Lexikon писал: |
режь файл и фильтруй как позволяет возможность
Вы ребят уже и думать не хотите |
Разрезать то дело не хитрое, но разве это по уму?
Даже чтобы отфильтровать строчки по заданным критериям, все-равно мало-мальски нужен какой-то инструментарий для этого. Интересно, народ то чем пользуется, военная тайна что ли? Может чего за деньги есть, ну так можно рассмотреть варианты.
|
|
|
|
www.phpdevs.com
С нами с 24.10.02
Сообщения: 16633
Рейтинг: 16105
|
Добавлено: 03/05/13 в 20:13 |
Вы упускаете, что дамп мало импортировать, его еще и обновлять надо. Обновление - это не только добавить новое видео. Это еще и второй рсс канал, где публикуется удаленное видео из тюба. Т.е. синхронизация как на добавление, так и удаление.
2 гига дапм - вроде около 300к записей. Загоняется локально в базу, а дальше как душа пожелает
|
|
Пишу на php/mysql/django за вменяемые деньги.
Обращаться в личку.
|
3
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 03/05/13 в 20:20 |
Эх, нашелся бы еще добрый человек, который объяснил, как все это сделать!
upd: Вернее так, в базу то я разберусь как импортировать, а вот что что с ней дальше делать? Что юзать в качестве надстройки?
|
|
|
|
С нами с 27.09.03
Сообщения: 5454
Рейтинг: 2506
|
Добавлено: 03/05/13 в 20:53 |
ricardo писал: | а вот что что с ней дальше делать? |
|
|
|
|
Бывший предводитель
С нами с 14.05.11
Сообщения: 6525
Рейтинг: 135
|
Добавлено: 03/05/13 в 20:57 |
Последний раз редактировалось: CyberSEO (20/06/19 в 12:23), всего редактировалось 3 раз(а)
|
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 03/05/13 в 21:11 |
CyberSEO писал: | Импортируй RSS фид. Он сам обновляется, а ты отдыхаешь. В чем, собственно, проблема? |
Фид это я понимаю для обновлений. А если мне надо из большой базы отфильтровать список с нужной нишей, с нужными словами или еще какими параметрами.
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 03/05/13 в 21:13 |
Stek писал: | 2 гига дапм - вроде около 300к записей. Загоняется локально в базу, а дальше как душа пожелает |
что то я не допру, я видел дамп от xvideos он был в текстовом формате.
1 символ в это 1 байт.
одна строка если не изменяет память это 1024байт. Т.е. это 1кб.
а там дамповая строка не длинее 1024 символов,
для примере
1 гигабайт = 1*1024*1024 = 1 048 576 килобайт.
Т.е. в дампе должно быть грубо 2 100 000 строк.
Или я что то упускаю или не до понимаю.
Там наверно в *.csv ?
Последний раз редактировалось: Lexikon (03/05/13 в 21:25), всего редактировалось 1 раз
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 03/05/13 в 21:17 |
ricardo писал: | Фид это я понимаю для обновлений. А если мне надо из большой базы отфильтровать список с нужной нишей, с нужными словами или еще какими параметрами. |
Не помню точно, но вроде "Total Commander" может выдернуть (разделить файл тоже) ну или Эксель там просто фильтронуть.
Другой вариант написать код для отбора и поиска того что тебе нужно.
Ну можно и ручками
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 03/05/13 в 21:22 |
Lexikon писал: | Не помню точно, но вроде "Total Commander" может выдернуть (разделить файл тоже) ну или Эксель там просто фильтронуть.
Другой вариант написать код для отбора и поиска того что тебе нужно.
Ну можно и ручками |
ЗЫ:
ricardo писал: | Разрезать то дело не хитрое, но разве это по уму? |
если ты задаешь вопросы как достать то что тебе нужно, то это как раз по уму ибо если бы знал не создавал бы топик с этими вопросами.
сейчас глянул дамп который есть он у меня 1.2 гига в *.cvs все там по ячейкам разбросано фильтруешь по нише (кею) и все.
|
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 04/05/13 в 13:51 |
Lexikon писал: |
сейчас глянул дамп который есть он у меня 1.2 гига в *.cvs все там по ячейкам разбросано фильтруешь по нише (кею) и все. |
Не такая уж плохая идея, спасибо за совет! С базой xvideos такой номер для меня вполне приемлем.
Но я тут на другую проблему обратил внимание:
дамп xvideos содержит всего одну ссылку на тумбу (чаще первую) размером 180px x 135px.
Пример: http://img100.xvideos.com/videos/thumbs/e7/9e/ea/e79eea3f8b46d5d95a
732f.3.jpg
Методом изменения циферок в конце файла, выясняем, что тумб на самом деле нарезано аж 30 штук.
Изменить размер тумбы до пристойного можно добавлением lll (от одного до трех символов) в конце thumbs.
Пример: http://img100.xvideos.com/videos/thumbslll/e7/9e/ea/e79eea3f8b46d5d95a0801df2fd7732f/e79eea3f8b46d5d95a0801df2fd7732f.3.jpg
В рсс-ах тоже идет одна тумба. Базы в которой больше одной тумбы, насколько я понял не существует (или для публичного пользования не выложена). Отсюда головоломка: как сделать такую базу?
|
|
|
|
www.phpdevs.com
С нами с 24.10.02
Сообщения: 16633
Рейтинг: 16105
|
Добавлено: 04/05/13 в 13:59 |
ricardo писал: | Отсюда головоломка: как сделать такую базу? |
Как понимаю никак , только самому подбирать, изменяя номер тумбы. Как понимаю в дампе идет первая тумба по номеру и минимальный размер.
Так что парсить регуляркой и далее вытаскивать.
Сейчас выкачал дамп, самая первая картинка
И ее модернизация работает
|
|
Пишу на php/mysql/django за вменяемые деньги.
Обращаться в личку.
|
0
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 04/05/13 в 14:06 |
Stek писал: | Как понимаю никак , только самому подбирать, изменяя номер тумбы. |
Ага, ручками!
|
|
|
|
Бывший предводитель
С нами с 14.05.11
Сообщения: 6525
Рейтинг: 135
|
Добавлено: 04/05/13 в 14:11 |
removed by moderator
Последний раз редактировалось: CyberSEO (20/06/19 в 12:10), всего редактировалось 3 раз(а)
|
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 04/05/13 в 18:26 |
Парсер хорош для сбора информации. Например, для других тубов, которые не выкладывают полную базу и админку не дают. А зачем парсить то, что и так уже есть в готовом виде? Тут не парсер нужен, а скрипт, который в строке будет находить урл тумбы и заменять ее на несколько в диапазоне от 1 до 30.
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 04/05/13 в 20:22 |
если я правильно понял то в дампе есть ссылка на одну тумбу
и эта ссылка отличается от других только "lll" - это отвечает за размер, и последнее *.число.jpg - это кадр.
Не думаю что есть проблема сделать замену или перегенерить / нагенерить из исходного остальные ссылки.
в зависимости от требований меняем скриптом /thumbs/ на /thumbslll/ затем регуляркой и циклом генерим ссылки
************.1.jpg
************.2.jpg
************.3.jpg
************.4.jpg
************.5.jpg
как то не кажется огромной проблемой
|
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 04/05/13 в 21:04 |
Про /thumbs/ на /thumbslll/ я вообще молчу - это чепуха.
Lexikon писал: |
как то не кажется огромной проблемой |
Поскольку тебе это проблемой не кажется - у тебя ее и нет.
|
|
|
|
Бывший предводитель
С нами с 14.05.11
Сообщения: 6525
Рейтинг: 135
|
Добавлено: 04/05/13 в 21:12 |
Последний раз редактировалось: CyberSEO (20/06/19 в 12:19), всего редактировалось 3 раз(а)
|
|
|
|
Люблю то, что делаю!
С нами с 22.10.06
Сообщения: 5053
Рейтинг: 4418
|
Добавлено: 04/05/13 в 21:28 |
ricardo писал: | Про /thumbs/ на /thumbslll/ я вообще молчу - это чепуха.
Поскольку тебе это проблемой не кажется - у тебя ее и нет. |
Так, а кто мешает разобраться с проблемой? Закажи код или сделай сам делов то, напиши ТЗ и я думаю знающие люди ответят и за небольшую сумму выполнят твое ТЗ.
Я в свое время вообще нихера не знал как и с какой стороны подходить к ПХП, на данный момент те крохи знаний которые есть здоровецко помогают.
Если уж решили чем то заняться то будьте готовы на расстраты и т.п. Это биз! А не занятия в подготовительном классе.
|
|
|
|
С нами с 02.04.12
Сообщения: 19
|
Добавлено: 04/05/13 в 21:32 |
Lexikon писал: | напиши ТЗ и я думаю знающие люди ответят и за небольшую сумму выполнят твое ТЗ. |
Именно так я и планирую поступить в ближайшее время.
Просто изначально топик с другой, более неопределенной проблемы начинался.
|
|
|
|
Добрых Дел Мастер
С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227
|
Добавлено: 05/05/13 в 00:28 |
да. лексикон правильно написал. куда вы нахуй лезете без одной извилины. строить дома без строительного образования. строить ракеты без ракетного образования. строить сайты без сайтового образования.
иди кодинг учи. твоя проблема на уровне 2 класса. какой еще нахуй инструментарий. тебе нужны только знания SQL
|
|
пришел к победе коммунистического труда
|
3
|
|
|
С нами с 14.08.04
Сообщения: 1688
Рейтинг: 505
|
Добавлено: 08/05/13 в 10:57 |
"опоздал на 20 лет" "с"
"никогда не поздно выучить пхп" "с"
"будь мужиком выучи регексп" "с"
|
|
|
|