Основы построения распределенной поисковой системы

Эффективность экономики, основанной на знаниях, всецело зависит от эффективности производства и использования знаний. Для экономики знаний важны и необходимы как процесс порождения знаний, так и процесс их распространения.

Стремительное развитие глобальных информационных и вычислительных сетей ведет к поддержке и развитию распределенных информационно-вычислительных ресурсов.

При формировании единого информационного пространства были приняты следующие основные принципы [1]:
иерархичность информационных систем и ресурсов;
разнородность ресурсов и программно-технологических сред, объединяемых в едином пространстве.

На настоящий момент в основу единого информационного пространства положен принцип самоорганизации, где участники организуются в группы на добровольной основе. Схема реализации механизмов поиска в едином информационном пространстве может быть реализована на основе использования метаданных и по содержанию информационных ресурсов. Поиск по единому информационному пространству основан на том, что через единую точку доступа необходимо реализовать параллельный поиск по всем информационным ресурсам. Информационные ресурсы каждого участника единого информационного пространства должен быть снабжен стандартными метаданными и стандартным индексом представления содержания информационных ресурсов. Эти стандартные компоненты являются образами информационных ресурсов для выполнения поиска.

Следует отметить, что использование коммуникационной среды Internet и WEB-технологий позволяют обеспечить процессы распределения и глобализации информационных ресурсов. Однако, имеющиеся информационно поисковые системы (ИПС) общего назначения не позволяют осуществить эффективный поиск требуемой информации в распределенных системах, поскольку большинство из них не в состоянии проиндексировать все WEB-пространство. Для обеспечения эффективной автоматической обработки информационных ресурсов предлагается использовать не сами ресурсы, а некоторые их описания – метаданные. В основу манипулирования метаданными, определяющими функциональные связи между документами, предлагается использовать схему RDF (Resource Description Framework, RDF-Schema).

При создании единой системы доступа к ресурсам должны быть решены следующие принципиальные задачи:
обеспечение релевантности информации;
диспетчеризация, включая идентификацию доступных ресурсов, статистика использования и загрузки ресурсов и пр.;
система безопасности и контроля доступа, гибкое регулирование объема прав и привилегий пользователей;
обращение к наборам данных в удаленных архивах (включая протоколы, которые необходимо использовать для работы с гетерогенными источниками данных, и библиотеки программных комплексов).

Таким образом, организация данных в ИПС для распределенных сетей и GRID-сетей основана на взаимодействии следующих подсистем:
публикации данных, поддержка их аутентичности и качества;
поиска и представления информации;
анализа распределенных данных.

Эти подсистемы составят основу системы превращения информации в систему библиотек, оперирующих с документами. Следует отметить, что реализация подобной распределенной информационной системы позволит перейти к построению интеллектуальной системы обработки запросов, основанной на распознавании образов документов.
Механизм работы ИПС следующий. Полученный от приложения запрос направляется в систему обработки, которая посредством системы поиска информации разыскивает необходимые данные и после выполнения удаленных процедур. Система обмена метаданными основывается на сервере метаданных, который поддерживает следующий набор служб:
публикация/регистрация новых наборов данных;
база метаданных для поиска данных по атрибутам;
доступ к гетерогенным ресурсам посредством брокера ресурсов;
контроль аутентификации и доступа;
мониторинг информационных ресурсов и ресурсов ввода/вывода;
распределенное исполнение служб.

Таким образом, реализация ИПС для распределенных систем базируется на метамодели, которая описывает документ, как набор присущих ему атрибутов и методов, характеризующих связи с другими документами. Информация о документах системы, их атрибутах и методах поддерживается сервером метаданных. Сервер метаданных является отдельной частью системы, содержащей описание информационной модели предметной области, параметров настройки стандартных функций системы. Реализация метамодели возможна на основе использования стандартов платформы XML. Для этих целей могут использоваться как средства самого языка XML (описание типов документов DTD), так и языковые средства стандартов XML Schema и RDF.

Таким образом, средства поиска для распределенных систем должны поддерживать интерфейсы с широким диапазоном гетерогенных источников, быть совместимыми с соответствующими протоколами поиска и извлечения ресурсов, быть способными обрабатывать широкий диапазон типов ресурсов и форматов (например, XML, RDF), обеспечивать однородное представление результатов поиска, сортировку и ранжирование, исключение дубликатов. Средства запроса ресурсов должны использовать ясные методы запроса ресурсов из различных источников, используя требуемые протоколы, поддерживать управление правами доступа. Средства доставки ресурсов должны поддерживать совокупность методов доставки ресурсов, например, доставку текстов, мультимедийных данных по протоколам HTTP, SMTP.

Литература:
1. Шокин Ю. И. Информационная система Сибирского Отделения РАН / Ю. И. Шокин, А. М. Федотов // «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Сб. докл., Второй Всеросс. научн. конф., Протвино, 26–28 сентября 2000 г.: Протвино, ГНЦ.

Опубликовать в twitter.com

Обсуждения закрыты для данной страницы