С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 14:17 |
Столкнулся с тем. что Гуглю известно намного больше страниц на сайте, чем их должно быть на самом деле. Пример:
Код: | "site map" site:porninspector.com/reviews/ |
запрос даёт свыше 16.700 результатов, хотя я знаю, что в этом разделе не может быть больше 2500 страниц (примерно 2000 обзоров и еще примерно 500 вспомогательных страниц)
1) Анализ логов GoogleBot ничего не выявил: Запрашиваются только существующие страницы.
2) Сделана довольно жесткая валидация вызываемого урл-а. Если он хоть немного отличается от корректного - выдаётся 404 ошибка.
Вопрос: Как найти эти самые не существующие страницы?
PS. Я уже спрашивал этот вопрос на форумt у Маузера:
http://www.seochase.com/viewtopic.php?t=3576&highlight=
но получил скорее рекомендации типа "где-то у тебя не так", а не точные ответы.
Последний раз редактировалось: kit (08/12/05 в 02:25), всего редактировалось 1 раз
|
|
|
|
traficante de drogas
С нами с 23.11.05
Сообщения: 4786
Рейтинг: 618
|
Добавлено: 30/11/05 в 14:31 |
я вроде нечто подбное уже наблюдал и там тоже фигурировала цифра 16.700-16.800
урл сайта уже не помню....
учитывая, что гугл больше 1000 резалтов не отдаст, то задачку довольно таки трудно решить..
возможно, это баг самого гугла
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 14:34 |
Да, совсем забыл сказать:
Есть идея, использовать оператор "daterange:" Google, чтобы двигаться по индексу фрагментами, и детально изучить каждый кусок. Но почему-то не работает.
Вот инфа по нему:
http://www.google.com/search?num=100&hl=en&lr=&safe=off
tnG=Search
Делаю запрос:
Код: | daterange:2453654-2453704 "site map" site:porninspector.com/reviews |
но он показывает всё то-же общее количество страниц.
|
|
|
|
С нами с 07.09.03
Сообщения: 4115
Рейтинг: 2060
|
Добавлено: 30/11/05 в 14:49 |
простите несведущего, а что значит вот это самое "site map"?
|
|
|
|
traficante de drogas
С нами с 23.11.05
Сообщения: 4786
Рейтинг: 618
|
Добавлено: 30/11/05 в 14:56 |
по всему запросу кита гугл выводит все проиндексированные страницы на домене в папке reviews с упоминанием слов "site map"
|
|
|
|
С нами с 17.02.03
Сообщения: 355
Рейтинг: 316
|
Добавлено: 30/11/05 в 16:21 |
kit писал: | ...но он показывает всё то-же общее количество страниц. |
И пишет: Оператор Ограничение по дате был исключен из Вашего запроса, так как он не поддерживается для данного типа поиска.
|
|
|
|
С нами с 19.09.03
Сообщения: 1988
Рейтинг: 1247
|
Добавлено: 30/11/05 в 17:10 |
Гугл просто любит хвастаться, часто замечаю такое на своих доменах - пишет, что проиндексированно гораздо больше, чем реально существует, причем со временем постепенно уменьшается это количество..
Может дело в том что у гугла большая база и существуют сложности синхронизации между ДЦ и в связи с этим завышение количества страниц происходит..
|
|
|
|
С нами с 13.07.02
Сообщения: 3113
Рейтинг: 1817
|
Добавлено: 30/11/05 в 17:43 |
а если с другими запросами поиграть?, например
Код: |
"conclusion" site:porninspector.com/reviews/
|
выдает то 858 то 859 результатов, но зато
Код: |
"intro promises" site:porninspector.com/reviews/
|
14500 результатов...
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 19:58 |
Student писал: | И пишет: Оператор Ограничение по дате был исключен из Вашего запроса, так как он не поддерживается для данного типа поиска. |
Странно, у меня такого не показывает.
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 19:59 |
Core писал: | простите несведущего, а что значит вот это самое "site map"? |
"site map" взят как характерный текстовый паттерн, встречающийся на каждой странице сайта.
|
|
|
|
С нами с 10.01.03
Сообщения: 2655
Рейтинг: 552
|
Добавлено: 30/11/05 в 20:59 |
zJ, ну так и что удивляет? Стало быть "conclusion" встречается внутри porninspector.com/reviews/ не везде. Например тут http://www.porninspector.com/reviews/review/straight-goes-gay/ его нет. Именно потому "site map" взяли что он, по идее, везде есть.
вообще это метод искать пропавшие и ниоткуда возникшие разделы. В сами цифры, в точные значения, упираться не стоит.
Вот такого рода вещи где-то прячутся.
|
|
|
|
С нами с 13.07.02
Сообщения: 3113
Рейтинг: 1817
|
Добавлено: 30/11/05 в 21:20 |
Да я в целом явлению удивлен.
А поискать
"site map" site:porninspector.com/reviews/все_существующие_подкаталоги
если?
я имею в виду /site/, /go/ и т.д..
чтобы сузить круг подозреваемых так сказать.
|
|
|
|
С нами с 10.01.03
Сообщения: 2655
Рейтинг: 552
|
Добавлено: 30/11/05 в 21:43 |
zJ, да нет тут удивительного ничего. Тут кто-то в сапплементал затырился. Смотри: вот и вот. По второй ссылке всего 260 результатов, просмотри их глазами. Той что в первой - нету. Вот так где-то, видимо, затырилась целая куча добра. Неправильный модрерайт создал лишние директори... черт его знает. Тут смотреть надо тому кто свой сайт знает и искать откуда оно лезет.
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 21:44 |
Код: | "site map" site:porninspector.com/reviews/review/ |
14500
Код: | "site map" site:porninspector.com/reviews/site/ |
0
Код: | -"site map" site:porninspector.com/reviews/site/ |
264
Код: | -"site map" site:porninspector.com/reviews/go/ |
317
По любому не сходится.
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 30/11/05 в 21:47 |
А как удалить саплементал резалтс так , чтобы не удалять весь сайт из индекса? Я кстати не уверен, что они тогда уйдут.
|
|
|
|
С нами с 10.01.03
Сообщения: 2655
Рейтинг: 552
|
Добавлено: 30/11/05 в 22:04 |
Удалять. найдя корень зла закрыть его и через ремувурл на гугле.
Смотри kit как в саплементал прячутся. Ты ищешь "site map" site:porninspector.com/reviews/site/ и видишь там 0 результатов. Но это ты сделал ПРЕДПОЛОЖЕНИЕ что "site map" там именно обязательно сидит. Но так как у тебя что-то идет наперекосяк, то, к примеру, к сайту приклеился кто-то через редиректы. На них то "site map" и нету. А они есть. Вот они sex site:www.porninspector.com/reviews/site/. Тут надо копаться. Видишь расхождения в числах - пробуй разные формулировки.
я там на воркфлоу тебе скинул пример что как-то странно для меня пенисбот там светится. это уже внутренняя кухня, снаружи не сказать ничего.
|
|
|
|
С нами с 21.04.01
Сообщения: 666
Рейтинг: 436
|
Добавлено: 01/12/05 в 08:09 |
с разницей на количество проиндексированных страниц я давно сталкнулся,
на нескольких доменах с дорами у меня тоже самое.
у гугла наверняка существует много баз для одновременной выдачи, при выдаче которых она не сверяет на дубликаты.
одной из баз я как думаю является база с линками, вот эту базу
она без снипетов выдает, остальные со снипетами.
отсюда и разница такая.
|
|
|
|
С нами с 13.07.02
Сообщения: 3113
Рейтинг: 1817
|
Добавлено: 01/12/05 в 08:43 |
Получается что искать надо тут:
porninspector.com/reviews/review/
причем все 14500 страниц являются ревью, а не чем-то еще, исходя из
Код: |
"intro promises" site:porninspector.com/reviews/review/ - 14500
|
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 01/12/05 в 13:08 |
Дык в том-то и дело, что не может быть 14.500 обзоров у нас. Пока их примерно 2000.
По поводу ссылок типа:
Код: | www.porninspector.com/reviews/site/penisbot/gape-sex/ |
1) Если гугль сохраняет в индексе 301 редиректы, то смысла вычищать индекс нету, так как всё равно у нас очень много редиректоры входящи через 301 делается.
2) И ещё непонятно, на 10% ли можно вычистить supplemental results , даже если сайт запретить к индексации и подать запрос на "index removal".
3) И вообще не понятно, это supplemental results влияет на расчёт рейтинга сайта?
Вообще я сделал такое наблюдение:
а) Эта самая "скрытая масса" выросла за время, что я веду наблюдения примерно пропорционально размеру "рубелой части". (Mauser, ты в курсе моих наблюдений)
б) Некорректные урлы роботом гугла не запрашиваются, я вёл наблюдение в течении полутора месяцев.
|
|
|
|
С нами с 16.10.02
Сообщения: 455
Рейтинг: 194
|
Добавлено: 02/12/05 в 02:55 |
2кит
Смотрел ревю по запросу который ты привел… вот что удалось вытащить http://e-master.org/pi.txt
2,2к результатов.
У меня был в индексе очень большая база (для меня) доров на одном домене 22000
Чем больше Линков шло на доры тем гугла больше врала
Перед банном гугл видел 300к
Так что не переживай мусора у тя не так уж много ;)
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 02/12/05 в 15:15 |
xzac? спасибо за список, но вот какая штука:
урлы типа
раньше были 302 редиректом, но уже месяца четыре как это 301 редирект, тоесть должне исчезнуть из базы Гугля.
то-же самое с урлами типа
то-же самое с урлами типа
ссылки типа
уже месяцев 10 обрабатываются как 404
и даже при таких раскладах, не понятно, откуда он увидел столько страниц. Даже такиессылки могут увеличить "массу" раздела в 3-4 раза, не более того, и то, если это сделать по всем сайтам.
|
|
|
|
С нами с 16.10.02
Сообщения: 455
Рейтинг: 194
|
Добавлено: 03/12/05 в 04:00 |
Насчет тех страниц что я привел… сори неправильно выборку делал…
Site:porninspector.com inurl:”/reviews/” вот он и вытащил эти паги с динамикой.
А то что он типа видит страницы я высказал свои наблюдения… это все сделано для украшения общей базы, но делает он это только на высококатируемых сайтах.
Мне странно, что тебя это так беспокоит ;) главное, что он активно кушает страницы… и видимо скоро начнешь вылазить по вкусным запросам. ;)
|
|
|
|
С нами с 18.11.99
Сообщения: 14226
|
Добавлено: 03/12/05 в 05:13 |
Я так понимаю, что авторитетность сайта, нормируется на количество его страниц, и далее мы получаем усреднённую авторитетность отлельно взятой страницы и кроме того, вообще решаем проблему что есть хорошаяпопулярити , а что есть плохая, для разноколиберных сайтов. Судя по всем Гугль примерно так расчитывает кое-какие показатели.
В итоге, получается так:
2) Сайт с 2000 линкбеками, имеющий 200 страниц - это отлично.
2) Сайт с 2000 линкбеками, имеющий 2.000 страниц - это хорошо.
3) Сайт с 2000 линкбеками, имеющий 20.000 страниц - это хуже, чем второй вариант.
4) Сайт с 2000 линкбеками, имеющий 200.000 страниц - это совсем плохо, можно считать его авторитетность слабой.
И это помимо проблем с дубликатами контента, которые возможно он мне насчитал из-за альтернативных вызовов одних и тех-же данных.
Это мысль не моя, а моего персонального SE-гуру, мнение которого я очень уважаю. :-)
Так что о размере индекса по отдельно взхятомусайту ИМХО стоит беспокоиться. В идеале его размер должен совпадать с реальным количеством страниц на сайте.
|
|
|
|
С нами с 16.10.02
Сообщения: 455
Рейтинг: 194
|
Добавлено: 03/12/05 в 05:51 |
Цели у нас немного разные мне вот лишбы бабки лились а чистота выдочи и совпадения с реальными результатами уже полтора года у гугля нев лучшем виде и меня это уже перестало удивлять.
ПС Удачи те с порнинспектором если получится его поднять на уровень пенисбота реально будишь папой !
|
|
|
|
С нами с 12.06.04
Сообщения: 267
Рейтинг: 246
|
Добавлено: 06/12/05 в 03:04 |
у меня тоже самое.
реально на сайте 61к страниц, по site:domain.com гугл показывает 155к
сайт свежий.
точный результат я вижу, только если на сайте действительно меньше 1к страниц.
|
|
|
|