Поиск информации в интернете 2



Введение

Основная цель пользователя при работе с сетью Internet – это получение информации, так как в первую очередь Internet является гигантским информационным ресурсом.

Задача поиска информации в условиях стремительного развития и постоянного изменения сети и ее информационного наполнения является нетривиальной!

Случайно найти нужный адрес в сети можно разными способами: просто путешествуя по узлам (surfing on the web), узнать у знакомых, увидеть в рекламе и т.д.

Целенаправленный поиск явно или неявно требует формулировки цели поиска, понимания того, что является объектом поиска, обоснованного выбора средства поиска и эффективной методики.

1.Цель, объект и средства поиска

Цель определяет характеристики объектов поиска, объем и сроки выполнения работы, перечень средств поиска и способы их применения. Например, при подготовке к экзамену требуется методическая литература, учебные курсы, конспекты лекций, для реферата – аналитические обзоры, для доклада – графические материалы, для презентации – файлы мультимедиа, для научного исследования – программное обеспечение, и т.д.

В качестве объекта поиска может рассматриваться любая информация, если имеется возможность представления ее в Internet. Это могут быть телефоны и адреса, информация о товарах и услугах, радио и теле трансляции и многое другое. Наиболее распространенными объектами поиска является:

Адрес информационного ресурса, в том числе:

- адрес WWW-сервера (http://www.company.ru);

- адрес Web-страницы (http://www.company.ru/index.html);

- адрес файла (http://www.company.ru/images/picture.jpg);

- адрес электронной почты (mailto:[email protected]);

- адрес FTP-сервера (ftp://ftp.company.ru)

- адрес Gopher-сервера (gopher://gopher.mysite.com)

- статья UseNet (news:relcom.newusers)

- сеанс Telnet (telnet://mysite.ru)

- Web-страница и включенные в нее элементы: текст, мультимедиа данные, гиперссылки, программы (апплеты) и т.д.

- программы в том числе: демонстрационные и тестовые программы, средства улучшения (upgrade), обновления (update) и исправления ошибок (patch) в программах;

- сообщения в телеконференциях;

- информация из интерактивных баз данных, справочников, каталогов, репозиториев.

Средствами поиска являются Web-индексы, Web-каталоги, гибридные системы поиска, метапоисковые системы, средства локального поиска и утилиты автономного поиска.

1.1 Web-индексы

Данный сервер пытается просмотреть все Web-страницы, представленные в Internet и учесть их содержимое в базе данных. Просмотр выполняется в автоматическом режиме программами, которые называются сетевыми роботами, пауками или червями (net robot, spider, worm). Каждая найденная страница исследуется специальной программой индексирования, которая анализирует заголовок, тему, ключевые слова, текст и состав Web-страницы. Полученная информация заносится в базу данных и является основой для выполнения поиска по запросу пользователя.

Наиболее известные Web-индексы:

- AltaVista (http://www.altavista.com).

- HotBot (http://www.hotbot.com)

1.2 Web-каталоги

В Web-каталоге ссылки на ресурсы Internet объединены тематически и организованы в виде иерархии категорий. На верхнем уровне иерархии обычно находятся категории “бизнес”, “наука”, “искусство” и т.д. Каталоги составляются вручную аналитиками Web-каталога. Поэтому для каталогов характерно высокое качество отбора информации и ее сортировки, но по охвату информации и оперативности они уступают Web-индексам.

Самые известные Web-каталоги - это Yahoo! (http://www.yahoo.com) и Magellan (http://www.magellan.com).

1.3 Гибридные поисковые системы

Гибридные поисковые системы имеют и индексную базу данных, и структурированный тематический каталог. Примерами таких систем являются:

- Lycos (http://www.lycos.com);

- Excite (http://www.excite.com);

- Infoseek (http://www.infoseek.com);

- WebCrawler (http://www.webcrawler.com).

1.4 Метапоисковые системы

Метапоисковые системы обеспечивают для каждого запроса одновременный поиск с помощью нескольких поисковых серверов. Такие системы позволяют задавать только простые запросы на поиск. Это сокращает время, но получаемые результаты, как правило, хуже, чем при независимом поиске не каждом поисковом сервере с использованием расширенных возможностей.

Наиболее удобные метапоисковые системы это:

- Accufind (http://www.accufind.com);

- Metafind (http://www.metafind.com);

- Metasearch (http://www.metasearch.com).

1.5 Порталы

Следует отметить тенденцию к превращению многих известных поисковых серверов в порталы Internet (от латинского porta - вход, ворота). Каждый пользователь портала имеет возможность настроить вид и содержание узла-портала по своему усмотрению. При использовании портала можно ограничить состав тематических каталогов и баз данных только интересующей пользователя информацией, хранить поисковые запросы и создавать закладки для поиска.

1.6 Средства локального поиска

В последнее время во многие крупные Web-узлы включаются средства локального поиска информации, представленной на узле. Это могут быть справочники, интерактивные базы данных, архивы публикаций, репозитории. Применение подобных средств актуально при поиске узко специализированной информации. Например, информацию о продукции фирмы Sony удобно искать непосредственно на узле данной фирмы (http://www.sony.com).

1.7 Автономные утилиты

Утилиты автономного поиска устанавливаются на компьютере пользователя. Они обеспечивают накопление поисковых запросов, выполняют метапоиск, отслеживают изменения заданных Web-страниц. К подобным программам можно отнести WebCompass (http://www.quarterdeck.com) и Copernic (http://www.copernic.com).

Полезными при поиске могут оказаться, так называемые автономные браузеры (off-line browsers), обеспечивающие загрузку заданных Web-узлов без участия пользователя. В таких программах можно задавать “глубину” поиска ссылок внутри узла, тип и предельный размер копируемых файлов, расписание загрузки. Наиболее популярны WebWhacker (http://www.ftg.com ) и Teleport Pro (http://www.tenmax.com)

Ускорить ручной поиск можно с помощью средств анализа структуры Web-узла. Они изображают в удобной форме навигационную карту узла, на которой показаны элементы Web-страниц с аннотациями и их связи. Для этой цели можно применять WebTurbo (http://www.webturbo.com) или PersonalCrawler (http://www.vci.co.il).

2.Методика поиска

Методика поиска включает правила формирования запроса на поиск, методы сужения области поиска, управление процессом поиска, выбор формы представления результатов.

Так как процесс поиска существенно зависит от используемой поисковой системы, поэтому далее приводятся только общие рекомендации.

Запрос на поиск описывает условия, которым должны удовлетворять результаты поиска. В запросе задаются слова или фразы, которые будут искаться, они называются ключевыми.

Правила формирования запроса:

1. Имя собственное (должно начинаться с прописной буквы): Слово.

2. Поиск слова без учета регистра: слово.

3. Ключевое слово с любым окончанием: слово*.

4. Ключевое слово с любым окончанием, состоящим из 1 буквы: слово?.

5. Неделимая ключевая фраза: “слово1 слово2 ...”.

6. Ключевое слово обязательно: +слово.

7. Ключевое слово должно отсутствовать: -слово.

В запросе можно задавать произвольные логические выражения над ключевыми словами, они применяются обычно при расширенном поиске (Advanced search). Логические выражения строятся из ключевых слов круглых скобок и логических операций AND, OR, NOT (эти же операции могут обозначаться иначе - &, | , !)

Некоторые поисковые системы поддерживают при формировании сложного запроса метакоманды, полный список которых можно получить с помощью справочной информации. В системе AltaVista метакоманды применяются для следующих видов поиска:

- поиск Web-страниц с указанным заголовком: title:заголовок;

- поиск в тексте страниц: text:слово;

- поиск слова среди ссылок на Web-странице: anchor:слово;

- поиск страниц, имеющих ссылки на определенный адрес: link:адрес;

- поиск графического файла на Web-странице: image:имя.jpg;

- поиск страницы с апплетом: applet:имяапплета;

2.1 Рекомендации по составлению запросов

В качестве ключевых слов в запросе следует использовать как можно более точное слово или словосочетание, наиболее полно характеризующее объект поиска. Когда результатов поиска мало запрос следует наоборот - обобщить.

Не нужно использовать часто встречающиеся слова типа “Internet”, “web”, “program”, иначе количество результатов поиска будет огромным.

Предлоги и слова-связки типа “in”, “the”, “that” могут отбрасываться даже при использовании их во фразах или запросах на естественном языке.

Для областей знаний, где терминология еще не устоялась (например, в области компьютерных технологий) целесообразно использовать слова-синонимы, соединяя их логической операцией OR.

При недостаточном числе результатов поиска имеет смысл варьировать ключевые слова “run”, “runs”, “running” или использовать символы-джокеры “run*”. Особенно полезным этот прием может оказаться при поиске по русским ключевым словам,

2.2 Область поиска

От области поиска естественным образом зависит количество результатов поиска. Для сокращения области можно комбинировать возможности уточнения области и метакоманды.

Большинство поисковых систем (Yahoo, AltaVista и др.) позволяют перед выполнением запроса уточнить область по тематическому каталогу категорий. Для этого следует вначале выбрать одну или несколько категорий, а затем выполнить запрос. Также существуют возможности для выбора языка, места поиска (Internet, UseNet, и т.д.), страны или домена. Можно задать и временные границы для даты последнего обновления информации об искомых объектах.

Из метакоманд сервера AltaVista, ограничивающих область поиска, полезны ограничение поиска заданным доменом domain:edu и узлом host:company.ru.

2.3 Управление процессом поиска

Обычно процесс поиска является циклической процедурой, состоящей из последовательно уточняемых запросов на поиск и просмотра найденной информации. Если найдена ссылка, максимально удовлетворяющая цели поиска, целесообразно выполнить поиск похожих документов, например, с помощью экранной кнопки More like this.

Стратегия поиска индивидуальна, но полезно учитывать определенные практические рекомендации.

Начинать поиск лучше с определения адресов поисковых серверов, специализирующихся на нужных темах. Первым объектом поиска могут быть обзоры ссылок, которые регулярно составляют многие пользователи Internet. Имеет смысл искать в первую очередь и документы с ответами на часто задаваемые вопросы FAQ (Frequently Asked Questions) по какой-либо теме. В этих случаях первый запрос на поиск должен включать фразы типа “Поиск ...”, “Обзор ...” или “FAQ ...”.

Если использование поисковых серверов не приводит к нужному результату, целесообразно найти и использовать сервера организаций (университетов, издательств, фирм), работающих в данной области. С помощью контактов с такими организациями, в том числе и по электронной почте, можно найти и получить даже информацию не представленную в Internet (рекламные материалы, копии публикаций, бесплатные CD).

2.4 Результаты поиска

Поисковый сервер в результате выполнения запроса выводит общее число найденных объектов и список их аннотаций. Каждый объект в аннотации описывается заголовком или именем объекта, адресом ресурса, где расположен объект, кратким описанием и характеристиками.

Характеристиками обычно являются размер, дата обнаружения объекта в сети и степень соответствия запросу, выраженная в процентах (!?) или в количестве использованных ключевых слов.

Можно управлять, объемом информации в аннотации, порядком аннотаций в списке и числом аннотаций на странице. Если список большой, то наиболее важным параметром является порядок. Возможны следующие варианты условий сортировки результатов поиска:

- частота использования заданных ключевых слов в документе;

- ключевые слова в заголовке Web-страницы;

- ключевые слова в списке ключевых слов Web-страницы (тег );

- длина или дата документа.

Документ с результатами поиска не существует в сети - он стоится динамически в момент выполнения запроса. Поэтому повторное обращение с тем же запросом к одному и тому же серверу не гарантирует совпадение результатов. Следовательно, найденные ссылки и списки аннотаций целесообразно сохранять на локальном компьютере пользователя.

Иногда применение всех средств и возможностей поиска не дает результатов, даже когда информация заведомо есть в Internet. Для того чтобы Web-страницы были своевременно включены в каталог или индекс владельцу следует информировать о них поисковые сервера. Эту операцию можно выполнять самостоятельно или с помощью специальных Web-серверов.


Нравится материал? Поддержи автора!

Ещё документы из категории информатика:

X Код для использования на сайте:
Ширина блока px

Скопируйте этот код и вставьте себе на сайт

X

Чтобы скачать документ, порекомендуйте, пожалуйста, его своим друзьям в любой соц. сети.

После чего кнопка «СКАЧАТЬ» станет доступной!

Кнопочки находятся чуть ниже. Спасибо!

Кнопки:

Скачать документ