Может ли поисковая система проиндексировать мои PDF-файлы?
Ветка на
Search Engine Watch Forums была начата вебмастером, который не понимает, почему Google не проиндексировал его PDF- файлы. Если вкратце, то Google все-таки проиндексировал его PDF-файлы. Но я думаю, что будет полезно объяснить подробнее, какие виды PDF-документов могут быть проиндексированы поисковыми системами.
Поисковые системы обожают текст, неважно в каком типе документа он расположен (HTML, PDF, Word и т.д.). Поэтому создайте ваш документ в виде чистого текста в Word, и затем сконвертируйте его в PDF-файл. Некоторые PDF-конверторы переведут текст документа в текстовый формат PDF-документа. Некоторые PDF-конверторы осуществляют конвертацию в виде изображения, и помещают это в PDF-документ.
И хотя изображения могут выглядеть очень даже ничего, но сделать с текстом в подобном PDF-документе уже ничего нельзя.
Если поисковая система не может прочитать текст, поскольку он представлен графически, то она не сможет и проиндексировать документ должным образом.
Думаю, в конце концов поисковые системы будут пользоваться OCR-технологией и читать PDF-файлы, в которых много текста, представленного в графическом формате.
И как узнать, подружатся ли ваши PDF с поисковыми системами? Попробуйте копи-пастом перенести текст из PDF-файла в текстовый редактор. Если сработает, то скорее всего Google, Yahoo!, MSN (Live.com) и Ask.com проиндексируют ваши документы.
Обсуждение на
Search Engine Watch Forums
Ниже следуют две темы из блога Матта Катса, ведущего инженера Google
Развенчивая мифы: виртуальные хосты против выделенных IP-адресов
Недавно мне рассказали о дискуссии в электронной рассылке NANOG (North American Network Operators Group) – виртуальный хостинг против выделенных IP-адресов. В комментариях обсуждалось распространенное заблуждение – если хостить несколько сайтов на одном IP-адресе, то это якобы может повлиять на PR этих сайтов. С точки зрения PageRank никакой разницы между двумя этими случаями нет (виртуальный хостинг или выделенный IP-адрес). Кто-то из участников дискуссии выдернул из анналов Интернета
интервью 2003 г. с Грегом Сильверштейном (Craig Silverstein), директором по технологиям в Google. 5 вопрос звучал так:
Почему в наше время и эпоху Google продолжает наказывать сайты за виртуальный хостинг? Получить IP-адреса становится все сложнее, так почему же Google занижает релевантность ссылок, которые следуют не с уникальных IP-адресов? Пожалуйста, не стоит просто отрицать это. Думаю, Интернет-сообщество заслуживает детального объяснения.
Грег ответил следующее:
Я не могу просто отрицать это? И что мне тогда остается делать? На самом деле, Google относится к виртуально хостящимся доменам и их ссылкам точно так же, как и к доменам на уникальных IP-адресах. Если ваш провайдер Интернет-услуг все делает правильно, вы никогда не заметите разницы между двумя этими случаями. Каждый месяц мы наблюдаем небольшой процент ISP, которые неправильно конфигурируют свой виртуальный хостинг, что может каким-то образом создавать такое расхожее мнение. Так что спасибо за то, что дали мне возможность развеять этот миф!
Я с радостью подтверждаю, что это заявление остается верным и поныне. Ссылки на виртуально хостящиеся домены обрабатываются таким же образом, как и ссылки на домены на выделенных IP-адресах.
Развенчивая мифы: задержка при загрузке страницы.
Кто-то задал этот вопрос, поэтому по-быстрому отвечаю. Довольно интересно размещать ваш сайт на собственном домашнем сервере, с DSL-подключением (если, конечно, сервер настроен верно). Собственно, это продолжение темы «виртуальный хостинг против выделенного IP-адреса». Если Google может загрузить ваши веб-страницы, практически не имеет значения, загружается ли ваша страница за полсекунды или за 5 секунд.