Информационные технологии для пользователей библиотеки

Характеристика поисковых WWW-серверов


В данном разделе мы хотим привести характеристику некоторых, наиболее популярных поисковых серверов с тем, чтобы показать их многообразие, достоинства и недостатки одних серверов перед другими, кроме того, мы хотим показать, как производится поиск с помощью этих ИПС, что ещё раз подтверждает мысль о необходимости использования нескольких ИПС для полноценного поиска.

AltaVista (http://www.altavista.digital.com) открыт для массового пользования корпорацией Digital в декабре 1995г. Считается образцовой и одной из самых мощных поисковых систем. Обладает полнотекстовой базой данных, идеальной для поиска специфических тем, и выдаёт наибольшее количество ссылок.

Интерфейс AltaVista лёгок в использовании, а раскрывающиеся меню помогают определить предмет поиска. Опция Advanced Search позволяет настраивать запросы определением логических операторов, с учётом регистров символов, использованием масок и т.д. В AltaVista возможны простой и расширенный поиск на Web- страницах и в группах новостей. Расширенный логический поиск с использованием AND, OR, NOT, поиск по шаблону плюс специальный оператор Near, который даёт истинное значение, если слова находятся в тексте один от другого не далее, чем за 10 слов.

Используются префиксы «+» и «-» для подтверждения наличия или отсутствия ключевого слова во фразе. Результаты поиска сортируются по признакам наибольшего соответствия критерию поиска, датам происхожде­ния и индексирования документов.

Каждый результат поиска выдается в виде заголовка документа и краткого описания страницы, которое берется или из поля META html-документа, или из первых строк документа. Ниже указывается URL документа, дата его создания, размер в килобайтах, язык документа. Основные проблемы с AltaVista в том, что выдаётся огромное количество документов: часто просмотр предоставляемой информации приводит к большой трате времени; и нет указателя для просматриваемых тем. Просеивая результаты, полученные AltaVista, можно потратить больше времени, чем при использовании других ИПС, но для исчерпывающих поисков AltaVista просто незаменима.
Кроме того, на этом сервере можно проводить поиск на русском языке.

eXcite (http://www.excite.com) появился в сентябре 1993 г. в Стэнфордском университете в США. Это быстрый и богатый информацией поисковый сервер с обзорами узлов и путеводителями. Ориентирован на поиск информации в более ограниченном круге источников, чем AltaVista. Обладает простым и универсальным интерфейсом, позволяет эффективно проводить поиск и просматривать полученные данные, обладает стандартным набором логических операторов в режиме Advanced Search. Отличается от других систем тем, что осуществляет поиск по ключевым словам и фразам. Кроме этого, Excite поддерживает логический поиск (AND,OR,NOT) и осуществляет поиск всех слов (при использовании +) или исключает слова из поиска (при использовании -).

Возможны два режима поиска – по ключевым словам и по концепции, однако как показывают испытания, результаты поиска в двух режимах не различаются. Высока степень актуальности ссылок, особенно для популярных тем.

Кроме ведения поиска в Сети, можно просмотреть более 60 тысяч документов в NET-Directory, выбрать информацию из потока новостей, использовать Personal excite,чтобы установить привычную страницу поиска при помощи закладки, поработать с системой поиска электронных адресов.

HotBot (http://www.hotbot.com) запущена в мае 1996г., обладает мощным, многофункциональным интерфейсом поиска, предоставляющим большой выбор для тщательного поиска с использованием удобных меню: по всем словам, по любому из слов, по фразе, по URL-адресу и т.д.. Hotbot не располагает такими традиционными приемами поиска, как использование близких по смыслу слов или шаблонов, однако, способен на настраиваемый поиск, например, по доменам (.edu or .com), гоферам или сайтам новостей, а также поиск по ключевым словам, типам файлов (напр., JAVA файлы), поиск по географической локализации. Hotbot предлагает простой и расширенный поиск, может модифицировать первично заданную поисковую программу. Наряду с AltaVista является одним из самых скоростных поисковиков в Web.



Кнопка Expert позволяет использовать булевы операторы, искать внутри какой-нибудь области, ограничивать поиск специфическими данными и т.д.. Результаты поиска выводятся в виде заголовка документа, первых строк документа, URL-адреса.



Полученные ссылки располагаются в зависимости от уровня соответствия и с коротким текстовым резюме. По богатству возможностей и удобству для пользователей она, пожалуй, опережает другие системы.

InfoSeek Ultra (http://www.infoseek.com)

Система InfoSeek Guide появилась в 1994г. В ноябре 1996г. интегрирована с новой версией – InfoSeek Ultra. Тогда как другие ИПС вынуждают пользоваться непривычными логическими булевыми операторами, InfoSeek предлагает понятный дружественный интерфейс, позволяя не задумываться о правильности формулировки запроса. InfoSeek предлагает лучшие подкатегории поиска, давая возможность просматривать узел Web, адреса e-mail, каталоги компаний др. Предмет гордости InfoSeek – каталоги для прочтения и удобные «горячие» ссылки. Кроме этого система обладает весьма высокой скоростью поиска, а по его качеству она - одна из лучших. Каждый результат поиска выдается в виде заголовка документа и краткой характерисики его содержания. Кроме того указывается степень релевантности, дата создания документа, его размер в килобайтах и URL-адрес.

Magellan (http://www.mckinley.com) - каталог и поисковый сервер с ориентацией на семейные интересы. Существует с 1995 года.

Хотя Magellan предлагает оригинальное отредактированное содержимое и архив, открытый для поиска Web-страниц, самая важная черта- каталоги просмотренных и оцененных документов. Просмотренные ссылки классифицируются с точки зрения их распространённости, лёгкости в использовании и общей «сетевой привлекательности» и оцениваются четырёхзвёздочным рейтингом. Материалы, которые считаются «безопасными» для всех категорий пользователей, отмечаются зелёным кружком. Magellan хорош для лёгкого тематического просмотра, ровно как и для поисков во всём Internet, которые можно проводить только по проверенным узлам или по всей неклассифицированной базе данных.


Поиск по ключевым словам особыми заслугами не отличается, а малая база данных означает, что поиск специфических тем даёт плохие результаты.

Имеются французская и немецкая версии.

Недостатки этого сервера – медлительность и ограниченные возможности построения расширенных запросов.

Lycos (http://www.lycos.com) обладает стандартным и удобным интерфейсом с ниспадающим меню. . Предлагает логический поиск, шаблонный и поиск по близким по смыслу словам. Lycos высвечивает ключевые слова в результате поиска, что позволяет пользователю быстро анализировать содержание сайта. Инструментальные средства Lycos ограничены в возможностях, она мало пригодна для улучшения качества запросов, не предусмотрена работа с естественным языком или с комбинацией ключевых слов и фраз. Зато Lycos обладает неплохими дополнительными возможностями типа поиска персоналий и компаний или работы с автодорожными картами (только американскими). Позже там был запущен новый сервис Point (http://www.pointcom.com). Там нет сложных поисковых форм и запросов. В конце страницы с результатами поиска есть возможность переадресовать запрос на поисковую систему Hot Bot.

OpenText (http://www.opentext.com) разработана одноимённой канадской компанией и располагается в Торонто. OpenText предлагает четыре различных типа поиска. Простой поиск - это базовый поиск по ключевым словам и фразам. Расширенный поиск осуществляется в гибком интерфейсе, допускающем логический поиск и поиск по близким по смыслу словам. Информация от Newsgroup может быть получена с помощью специального режима поиска - Newsgroup Search. Имеются системы поиска на нескольких языках - японском, испанском и португальском. В режиме Power Search OpenText может использовать до 5 ключевых слов, выбранных из сводки, названия, заголовка, URL-адреса и т.д. и соединенных различными логическими операторами, которые выбираются из ниспадающего меню, что значительно облегчает поиск. Опция Search Tips может показать на примерах, как сформулировать запрос. Система очень удобна для пользователей, но обладает не самой большой базой, охватывающей только WWW, и ограничена в построении запросов.



WebCrawler (http://www.webcrawler.com) одна из первых универсальных поисковых машин для WWW, разработанная как курсовой проект в 1994г. в университете Сиэтла. В дальнейшем её перекупил один из крупнейших американских провайдеров – America-On-Line. Лёгкий в использовании интерфейс, удобный для перемещения ссылок в популярные узлы, способный оперировать с большинством булевых операторов и имеющий базу подсказок, чтобы показать, как они работают. Хороший каталог просматриваемых адресов. Однако поиск проводится по той части WWW, которая отслеживается в базах самой America-On-Line, да и качество поиска уступает мощнейшим системам. Подобно excite, Magellan, WebCrawler позволяет совершать путешествия к просмотренным и ранжированным документам в своём списке Select, размещённым в таких категориях, как Life&Culture, Education, Daily News.

Yahoo! (http://www.yahoo.com) система поддерживается одноимённой компанией, являющейся большей частью собственностью холдинга Softbank. Yahoo перешла на поисковую технологию AltaVista, и теперь обладает одной из крупнейших баз данных. Введены дополнительные информационные базы для детей и подростков, а также персонализированная поисковая система My Yahoo! База данных Yahoo! пополняется вручную отобранными ссылками на web-сайты. Каждая ссылка состоит из заголовка html-документа и краткой аннотации. Сохраняет лидерство среди других каталогов сети Интернет и по посещаемости, и по информационной насыщенности. Поиск в каталоге Yahoo! Можно осуществлять как по разделам, рубриками и подрубрикам, так и с помощью ключевых слов.

Позволяет использовать булевы операторы, но не имеет поддержки для сложных запросов. Также эта ИПС не принимает запросы на естественном языке. Позволяет искать адреса электронной почты. Когда Yahoo! Не может найти данные в своей базе данных, она уступает полнотекстовой базе AltaVista. Результаты поисков Yahoo! не ранжируются, а расписываются по названиям категорий. Это делает просмотр мгновенным, но мешает общему поиску.


Тем не менее простой интерфейс и обширная индексная система Yahoo! создали ей репутацию ИПС, дающей результаты высокого качества. Кроме того, она обладает обширным тематическим каталогом и хорошо отсортированным каталогом WWW-ресурсов.

Яndex (http://yandex.ru) – это полнотекстовая ИПС с учётом морфологии русского языка. Официальное открытие поисковой системы Яndex состоялось 23 сентября 1997 года. Словарный сервер Яndex выполняет индексацию (предварительную обработку текста с составлением некоторого индекса, по которому затем проходит поиск) и поиск, причём оба процесса могут происходить одновременно. Работая, как поисковая система Web, он постоянно индексирует русскоязычные HTML-документы в кодировках Windows и KOI-8, которые распознаются автоматически. Периодически индексация прекращается, и происходит обновление поискового индекса, устаревшая информация удаляется. По запросу клиента происходит поиск документа по индексу. На странице простого поиска имеется строка для ввода ключевых слов, а также дополнительные опции, позволяющие уже на начальном этапе уточнить область поиска с помощью селекторных кнопок. Ниспадающее меню справа позволяет производить поиск как во всем российском Интернете, так и в его регионах и государствах ближнего зарубежья.

Результаты поиска представлены в виде заголовка документа, первого предложения из текста, URL-адреса документа и его размера в килобайтах. По умолчанию результаты поиска выводятся в сгруппированном по сайтам виде и в порядке убывания степени релевантности. Ссылки «по дате»

и «по страницам» позволяют перегруппировать результаты поиска. Найденные документы могут иметь пометки «совпадение фразы», «строгое соответствие» или «нестрогое соответствие» (по мере убывания релевантности).

Weblist (http://weblist.ru) – очень хороший каталог русскоязычных ресурсов Интернет. В нём появляется до 20 новых ссылок в неделю, все они проверяются персоналом на корректность и работоспособность, после чего заносятся в базу. Для каждого ресурса есть краткое описание, из которого можно выяснить содержание сервера, поддерживаемые языки и кодировки.


Поисковая система позволяет искать по словам, встречающимся в названиях серверов, в описаниях серверов, по городам, где они находятся и т.п., а результаты сортировать. Однако скорость доступа к этому серверу невысока.

Rambler (http://www.rambler.ru) была создана специально для выявления материалов на серверах в пределах бывшего СССР и начала работать с ноября 1996 года. Система Rambler, поддерживающая все кодировки кириллицы, обеспечивает полнотекстовый поиск с более чем 15000 сайтов.

Система имеет дружественный интерфейс, позволяющий легко составить поисковое предписание. Пользователям предлагается простая или углубленная форма запроса. При этом поиск осуществляется в одном и том же информационном массиве, однако при простом запросе результат ограничен максимум 30 ссылками.

Одним из главных достоинств Rambler является близкий к образцовому вывод результатов поиска, превосходящий многие зарубежные аналоги. Даже в нормальной форме (а есть ещё детальная) ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа и ещё внушительных размеров резюме о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Вначале списка представлены ссылки на источники, в максимальной степени соответствующие запросу.

Эта система работает достаточно быстро и надёжно. Однако она не всегда своевременно убирает ссылки на Web-страницы, снятые с серверов по каким-либо причинам.

Кроме того, в состав Rambler входят следующие компоненты:

Ø     Информационный и развлекательный подпроект «Кулички на Рэмблере» – масса полезного и интересного материала. Над сайтом трудятся около 100 человек, сервер содержит более 20000 страниц.

Ø     Бизнес раздел: курсы валют, оперативные экономические новости, котировки акций и пр. Информация в разделе обновляется несколько раз в день.

В целом Rambler является единственной профессиональной системой и безусловным лидером среди отечественных поисковых средств, закономерно оставаясь одним из самых посещаемых узлов российского Интернета.



Русская машина поиска (http://search.interrussia.com) является зарубежной разработкой, ориентированной исключительно на русскоязычные ресурсы по всему Интернет. В её арсенале сведения о выборочных страницах более чем с 1500 русскоязычных узлов. Её преимуществом является широкий арсенал средств формирования запроса, среди которых основные булевы операторы AND и OR, поиск по отдельной фразе и ограничение поиска определёнными элементами Web-страниц – название, ключевые слова, автор и т.п. Помимо этого, меню запроса «Машины» предлагает пользователю самому устанавливать или отменять чувствительность к написанию заглавных и строчных букв, а также указывать количество возможных ошибок в искомом слове, если нет уверенности в его написании. Последнее качество весьма полезно при многовариантности запроса типа «компьютер, или компьютеры, или компьютера» поскольку усекать термины «Машина» принципиально не позволяет.

«Русская машина поиска» обладает довольно непривычной формой выдачи результатов. Перед пользователем предстают нагромождения из английских и русских слов и символов. На самом деле один длинный URL разбит на несколько составных частей, «title» назван «Description», а каждое вхождение искомого термина обозначено отдельной строкой. Единственная положительная сторона такой детализации – можно сразу увидеть , в какой части Web-страницы содержится искомый термин, а иногда даже, и в каком контексте употреблён. Впрочем, такой вывод результатов может быть отменён через меню, в этом случае информация сократится до электронного адреса найденного объекта. Недостатком данной системы является то, что она не ранжирует результаты поиска.

Апорт (http://www.aport.ru)

Главная отличительная черта этой системы – забота об удобстве потребителя. Ей обследуется небольшое количество российских серверов, однако уровень предлагаемого сервиса заставляет отнести это поисковое средство к числу чрезвычайно перспективных.

«Апорт» понимает все кириллические кодировки и предоставляет самые широкие возможности составления запроса.


Помимо традиционных операторов «И» и «ИЛИ», усечения окончаний и поиска по целой фразе, система обладает способностью вычленять сочетания терминов только в том случае, если они расположены в тексте рядом друг с другом. Это расположение определяется пользователем. Одним из существенных преимуществ Апорта является англо-русский и русско-английский on-line перевод запросов и поисков результата, автоматическая проверка орфогра­фических ошибок запроса, более информативный вывод результатов поиска для найденных сайтов (не только первое предложение!), возможность поиска в любой грамматической форме (что особенно важно для русского языка), поддержка пяти основных кодовых страниц (разных операционных систем) для русского языка.

Результаты поиска ранжированы в зависимости от частоты употребления на странице искомых терминов (документы с наибольшей частототой – впереди). При этом ключевое слово выводится в окружающем контексте, что позволяет сразу определить, насколько найденная ссылка соответствует запросу. Кроме этого, представлены сведения о времени обновления, раз­мере и оригинальной кодировке файла, а также электронный адрес.

К сожалению, при выводе результатов «Апорт» выдаёт ссылки на один и тот же документ во всех имеющихся кодировках, считая их разными, и исходя из этого, подсчитывает результат поиска. Это серьёзный недостаток, поскольку пользователи получают искажённые сведения. К тому же «Апорт» работает не всегда стабильно. Временами система становится просто недоступной. Возможно, это объясняется ограниченным числом одновременно обрабатываемых запросов. К дополнительным возможностям поиска относятся ссылки «Поискать в», которые переадресовывают запрос к наиболее известным зарубежным поисковым системам.

Tela-поиск отражает более 100 тысяч страниц в полнотекстовом режиме с более, чем 400 серверов России и ближнего зарубежья.

Меню системы предлагает поиск с использованием условия «все слова» или «любое слово». По первому варианту выдаются ссылки на документы, обязательно содержащие все введённые термины, А во втором – документы, содержащие любое из искомых понятий.


Термины можно усекать. Помимо этого, Tela, хорошо знакомая с морфологией русского языка, допускает поиск различных словоформ, в том числе и неправильных. Результаты выводятся в зависимости от степени соответствия запросу, впереди ссылки на самые информативные источники. Сами ссылки включают, помимо традиционного названия страницы, её адреса и резюме, данные о степени соответствия запросу, размере документа и дате его создания или последнего обновления.

Russia on the Net (http://www.ru) появился одним из первых в России (был создан в сентябре 1995г.). Имеет простой и запоминающийся адрес. Очень часто на него попадают иностранцы в поисках любой информации о России. По некоторым данным входит в десятку мировых каталогов, наиболее популярных среди россиян, и в пятёрку российских.

@RUS основана в 1996г. Есть поддержка английского языка. Основным элементом @Rus является каталог - всеобъемлющая база данных, содержащая аннотации с гиперссылками. Каталог состоит из более 30000 сайтов, которые разделены в 4 лиги:

Ø    Элитная лига - наиболее популярные и известные сайты крупных корпораций и правительственных организаций.

Ø    Высшая лига - наиболее информативные и полезные сайты.

Ø    Профессиональная лига - корпоративные и профессиональные сайты.

Ø    Любительская лига - частные и непрофессионально выполненные сайты.

Google (http://www.google.com)

Google автоматически вставляет между ключевыми словами оператор «AND», поэтому в списке найденных документов присутствуют только те, которые содержат все заданные слова. В начале списка находятся документы, в которых ключевые слова расположены рядом.

Поддерживается поиск по фразе (фраза заключается в кавычки). Google ищет документы с точными соответствиями заданных слов, не поддерживает поиск по части ключевого слова.

Google не делает различия между строчными

и прописными буквами.

Чтобы исключить документы, содержащие какое-то слово, нужно в запросе поставить перед этим словом знак «-» (без пробела).


Возможна постановка знака также и перед фразой.

Google не поддерживает логический оператор «OR». Нельзя задать поиск документов, в которых содержалось бы или первое, или второе слово. Вместо этого предлагается сделать несколько запросов, варьируя ключевые слова.

Помимо кавычек Google учитывает следующие знаки препинания, служащие для связи слов: дефисы (mother-in-law), косые черты, знаки равенства, апострофы (Bill's birthday). При поиске слова, связанные этими знаками, воспринимаются как фраза.

SawySearch (http://www.cs.colostate.edu/~dreiling/smartform.html) является метапоисковой машиной. Необходимо ввести запрос и настроить поиск, например, сколько найденных страниц должен выдавать каждый из серверов и в каком виде представлять результаты. Также можно выбрать нужный язык.

Получив запрос, Sawysearch отправляет его на 3 сервера, имеющих информацию того типа, который был задан программе, а потом собирает все результаты на одной странице.

Внизу страницы находится панель инструментов, позволяющая быстро и удобно отправлять тот же запрос разным наборам поисковых серверов.

Недостатком является то, что работа SawySearch часто замедляется из-за загруженности сети. Другой недостаток – число ссылок от каждого сервера ограничено (не более 50).

All-in-One (http://www.albany.net/allinone) - обширное собрание поисковых и справочных инструментов. Хорошее средство поиска. Недостатки: большая длина страницы, затрудняющая работу с ней; невозможность обрабатывать несколько запросов одновременно.

Eye on the Web (http://www.eyeontheweb.com) - каталог Web. Его достоинствами являются возможность настройки на пользователя, привлекательная графика, недостатками – плохое отражение небольших узлов.

MetaCrawler (http://www.metacrawler.cs.washington.edu:8080/) посылает запрос одновременно на 9 поисковых машин: на Open Text, Lycos, WebCrawler, InfoSeek, Excite, Inktomi, Alta Vista, Yahoo, and Galaxy. Обычно поиск в MetaCrawler по одному или нескольким ключевым словам. Очень быстрый ответ на запрос можно получить в режиме скоростного поиска.Детальный поиск займет больше времени, а также даст большее количество результатов. В режиме расширенного поиска можно использовать слова AND и NOT.


Содержание раздела