Чего не могут видеть поисковые движки

Целесообразно также сделать обзор тех типов контента, которые поисковые движки не могут видеть.

Например, несмотря на то, что поисковые движки могут обнаружить, что вы показываете изображение, но они не могут определить, изображение чего именно вы показываете (если не учитывать ту информацию, которую вы им даете в атрибуте alt). Однако они способны определить цвет пиксела и (во многих случаях) установить порнографический характер изображения по количеству телесного цвета в изображении JPEG. Поэтому поисковый движок не может сказать, что показано на изображении— Барт Симпсон, лодка, дом или торнадо. Кроме того, поисковые движки не распознают содержащийся в изображении текст. Поисковые движки экспериментируют с технологиями оптического распознавания символов (optical character recognition, OCR), чтобы извлекать текст из изображений, но эти технологии еще не имеют широкого применения при поиске.

Кроме того, обычный здравый смысл оптимизации всегда подсказывал, что поисковые движки не умеют читать Flash-файлы, но это несколько преувеличено. Поисковые движки уже начинают извлекать информацию из Flash-фэйлов, как это показано в объявлении компании Google по адресу http://goog!ewebmastercentral.


blogspot.com/2008/06/improved-flash-indexing.html. Однако поисковому движку нелегко определить, что именно содержится во Flash. Одна из самых больших проблем состоит в том, что когда поисковые движки смотрят внутрь Flash, то они по-прежнему ищут текстовый контент, но Flash — это изобразительное средство и у дизайнера нет никаких причин (кроме поисковых движков), чтобы встраивать внутрь него текст. Здесь нет также никаких семантических подсказок, которые присутствуют в HTML-тексте (таких, как теги заголовков страниц, жирный текст ит. д.) даже тогда, когда HTML используется совместно с Flash.

Третий тип контента, который поисковые движки видеть не могут, — это изобразительные элементы всего того, что содержится во Flash, поэтому этот аспект Flash ведет себя точно так же, как изображения. Например, когда текст преобразуется в векторную форму (визуализируется графически), то текстовая информация (которую могут читать поисковые движки) теряется.

Аудио- и видеофайлы поисковым движкам тоже читать непросто. Как и в случае изображений, эти данные анализировать нелегко. Есть несколько исключений, когда поисковые движки могут извлечь некоторое ограниченное количество данных (таких, как теги ID3 из файлов МРЗ или текстовые примечания, изображения и маркеры глав из расширенных подкастов формата ААС).


Однако в конечном итоге отличить видеоизображение игры в футбол от лесного пожара невозможно.

Поисковые движки не могут также прочитать никакого контента внутри программы. Поисковому движку нужно найти в исходном коде web-страницы текст, который удобочитаем для человеческого глаза (как мы уже говорили ранее). То, что вы можете видеть его после загрузки страницы в браузер, не помогает— он должен быть видим и читаться в исходном коде этой страницы.

Пример технологии, которая предоставляет значительное количество читаемого человеком (но не видимого поисковыми движками) контента, — это AJAX. AJAX (основанный на JavaScript метод динамического отображения контента на web-странице после извлечения данных из базы данных (без необходимости обновления всей страницы целиком)). Этот метод часто используется в инструментальных средствах, когда посетитель сайта может сделать ввод данных, а инструмент AJAX затем извлекает и отображает правильный контент.

Проблема возникает потому, что контент извлекается скриптом, работающем на клиентском компьютере (машине пользователя), после ввода информации пользователем. Это может привести к получению множества вариантов вывода.


Кроме того, до этого ввода данных контент в коде HTML данной страницы отсутствует, так что поисковый движок его видеть не может.

Аналогичные проблемы возникают и с другими формами JavaScript, которые до выполнения действия пользователем не визуализируют контент в HTML.

В пятой версии HTML была создана конструкция, известная как тег embed, чтобы дать возможность встраивать в HTML-страницы дополнительные модули (программы, находящиеся на компьютере пользователя, а не на web-cepвepe вашего web-сайта). Этот тег часто используется для встраивания видео- и аудиофайлов в web-страницы. Тег embed говорит дополнительному модулю, где он должен искать используемый файл с данными. Встраиваемый при помощи дополнительных модулей контент совершенно невидим для поисковых движков.

Фреймы и плавающие рамки — это метод встраивания содержимого другой web-страницы в вашу web-страницу. Плавающие рамки используются чаще (чем обычные фреймы) для встраивания контента с другого web-сайта. Вы можете очень просто сделать плавающую рамку при помощи примерно такого кода:



Фреймы обычно используются для подразделения контента web-сайта, но их можно использовать и для встраивания контента с других web-сайтов.

Это пример хорошей работы по втягиванию контента (при условии, что у вас есть разрешение на это) с другого сайта и размещению его на вашем сайте. Однако поисковые движки распознают фрейм для втягивания контента другого сайта и соответственно игнорируют контент внутри фрейма (поскольку это контент другого издателя). Иначе говоря, они не считают втянутый с другого сайта контент частью уникального контента вашей web-страницы.

Оцените статью: (0 голосов)
0 5 0

Статьи из раздела Продвижение сайтов на эту тему:
Celebrity xRank
Анализируем факторы ранжирования
Более продвинутые методики поисковых операторов
Использование продвинутых методов поиска
Как понять компоновку страниц результатов поиска