Реклама на сайте Advertise with us

Быстрый поиск дублей в большом количестве картинок

Расширенный поиск по форуму
 
Новая тема Новая тема   
Автор
Поиск в теме:



С нами с 08.12.09
Сообщения: 57
Рейтинг: 91

Ссылка на сообщениеДобавлено: 24/04/13 в 14:55       Ответить с цитатойцитата 

День добрый, форумчане.
Поделитесь, может быть кто-то уже решал похожую задачу.
Мне нужно при грабе, дабы не забирать лишних дублей сравнивать каждую новую картинку с тем что уже есть. Простое сравнение по md5 уже есть, но конечно работает не всегда. Я нашел консольные проги под linux, но как их пристроить в связку с php, пока не придумал. Хорошо бы выделять какое-то свойство у картинок, которое будет храниться отдельно и новая картинка будет сверяться с ним, чтобы не перебирать каждый раз проверку с сотней другой тысяч картинок.
Заранее спасибо.

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 24/04/13 в 16:09       Ответить с цитатойцитата 

ImageMagick в помощь smail54.gif

0
 

programmer

С нами с 08.12.02
Сообщения: 7614
Рейтинг: 5760

Ссылка на сообщениеДобавлено: 24/04/13 в 16:11       Ответить с цитатойцитата 

Код:

$hash = md5(join('.',getimagesize($path)).'.'.filesize($path));

или считывать кусок файла, возвращая md5 его

крипта на ByBit

0
 



С нами с 08.12.09
Сообщения: 57
Рейтинг: 91

Ссылка на сообщениеДобавлено: 24/04/13 в 18:04       Ответить с цитатойцитата 

MD5 уже в работе.
А вот вариант с imagemagic хорош, но получается мне надо в итоге сравнивать каждую новую картинку с 200к-300к уже существующих. Вот этот момент может можно убыстрить. Например хранить куски ужатых картинок, для проверки, а не всех их.
Смысл именно в том что картинок очень много.

0
 

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 24/04/13 в 19:26       Ответить с цитатойцитата 

ну пиши в базу $hash да сравнивай. секундное дело

пришел к победе коммунистического труда

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 24/04/13 в 19:50       Ответить с цитатойцитата 

FXIX писал:
ну пиши в базу $hash да сравнивай. секундное дело


ну а если одна пикча 94% jpeg, а вторая 95% jpeg, визуальной разницы между ними нет, а вот $hash будет отличаться, также две идентичные картинки, одна из которых обрезанная на 1px, тоже не будут равны $hash, как быть в этом случае? trollface.png
но действительно для 300к ImageMagick compare утилиты это создает нагрузку

0
 

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 24/04/13 в 20:15       Ответить с цитатойцитата 

ibiz писал:
ну а если одна пикча 94% jpeg, а вторая 95% jpeg, визуальной разницы между ними нет, а вот $hash будет отличаться, также две идентичные картинки, одна из которых обрезанная на 1px, тоже не будут равны $hash, как быть в этом случае? trollface.png
но действительно для 300к ImageMagick compare утилиты это создает нагрузку


ну так смотря для чего. сначала отсеять основной вал, а потом написать быстро быстрый интерфейс где можно мышой...мотать мотать мотать и кликом удалять удалять нахуй.

а "94% jpeg, а вторая 95% jpeg" тебе и гугл не отличит. попробуй поиск гугл картинки по файлу. хуйню же ищет откровенную.

пришел к победе коммунистического труда

0
 



С нами с 24.10.04
Сообщения: 18881
Рейтинг: 9010


Передовик Master-X (16.03.2006) Передовик Master-X (01.04.2006) Передовик Master-X (16.04.2006) Передовик Master-X (01.05.2006) Передовик Master-X (01.11.2006) Ветеран трепа Master-X ()
Ссылка на сообщениеДобавлено: 24/04/13 в 20:23       Ответить с цитатойцитата 

FXIX писал:
ну так смотря для чего. сначала отсеять основной вал, а потом написать быстро быстрый интерфейс где можно мышой...мотать мотать мотать и кликом удалять удалять нахуй.

а "94% jpeg, а вторая 95% jpeg" тебе и гугл не отличит. попробуй поиск гугл картинки по файлу. хуйню же ищет откровенную.


а вот ImageMagick отличает, даже с водными знаками режет, главное фильтры точности и шумов, или как там, настроить trollface.png

0
 

Добрых Дел Мастер

С нами с 03.05.08
Сообщения: 3143
Рейтинг: 1227

Ссылка на сообщениеДобавлено: 24/04/13 в 21:05       Ответить с цитатойцитата 

кстати можно гугл то заюзать smail101.gif.

где там у нас продвинутые сортировки есть. пикаса? флирк? инстаграмм? яндекс-картинки? в пикасе точно что-то такое есть. типа "показать одинаковые". залить нахуй туда, непаблик-альбом естественно. и отсортировать.

trollface.png

пришел к победе коммунистического труда

0
 



С нами с 08.12.09
Сообщения: 57
Рейтинг: 91

Ссылка на сообщениеДобавлено: 25/04/13 в 05:10       Ответить с цитатойцитата 

Мне желательно проверку автоматизировать. Поиск прогами с GUI я уже наладил.
Вот что подкинули на зарубежном форуме http://www.pureftpd.org/project/libpuzzle/php
Сижу курю, может кому тоже пригодится.
Так же просто для инфы, может кому пригодится http://www.imgseek.net/isk-daemon

0
 



С нами с 03.02.09
Сообщения: 139
Рейтинг: 235

Ссылка на сообщениеДобавлено: 26/04/13 в 17:30       Ответить с цитатойцитата 

Алгоритмов подобных достаточно, вот один из самых простых
http://www.hackerfactor.com/blog/?/archives/432-Looks-Like-It.html
Я реализовывал поиск похожих картинок на нем + Histogram Distance.
После того как вычилишь все хэши для коллекции картинок потом найти там похожие довольно просто, степень похожести можно регулировать используя различную разрядность хэшей. Например 4-ех байтный хеш найдет издалека похожие, а 16-байтный очень похожие. А при вычислении расстояния гистограмм, получишь представление о том на сколько цветовые гаммы изображений похожи.

0
 
Новая тема Новая тема   

Текстовая реклама в форме ответа
Заголовок и до четырех строчек текста
Длина текста до 350 символов
Купить рекламу в этом месте!


Перейти:  



Спонсор раздела Стань спонсором этого раздела!

Реклама на сайте Advertise with us

Опросы

Рецепт новогоднего блюда 2022



Обсудите на форуме обсудить (11)
все опросы »