ИПС
1. Абстрактная и конкретная ИПС
Абстрактной ИПС была названа совокупность ИПЯ (retrieval language – RL), правил индексирования (IND) и критерия выдачи или критерия смыслового соответствия.
Конкретной ИПС названа практически реализованная система, включающая массив документов, в котором производится информационный поиск, технические средства реализации ИПС, а также взаимодействующих с ней людей.
То есть абстрактные системы – это системы, которые имеют в качестве операционных объектов преимущественно идеализированные знания, теории, гипотезы.
Абстрактное представление ИПС ограничивается рассмотрением информационно-поискового языка, правил индексирования и критериев выдачи. Каждое конкретное представление ИПС включает в это понятие также информационные массивы, их носители (магнитные, оптические диски и т.п.), программные и технические средства.
2. Вербальные информационно-поисковые системы (поисковые машины)
Вербальные поисковые системы – это тип систем посткоординатного типа, который "противостоит" предкоординируемым ИПС – классификационным (тематическим каталогам). Архитектура вербальных поисковых систем:
- Веб-сайты – это все информационные ресурсы Интернет, точнее, те, просмотр которых обеспечивается программой-роботом.
- Робот – система, обеспечивающая просмотр (сканирование) Интернет и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии информационных ресурсов сети.
- Поисковая база данных – так называемый индекс – специальным образом организованная база (англ. index database), включающая прежде всего инвертированный файл, который состоит из лексических единиц проиндексированных веб-документов и содержит другую разнообразную информацию о лексемах (в частности, их позиция в документах), документах и сайтах в целом.
- Клиент – это программа просмотра информационных ресурсов в веб-сервисе, по-другому, веб-клиент. (Наиболее популярны сегодня мультипротокольные программы Internet Explorer и Netscape Navigator). Эта же программа обеспечивает просмотр документов различных сервисов и общение с поисковой системой.
- Пользователь – 1) поисковые предписания, которые вводятся через пользовательский поисковый интерфейс; в некоторых системах сохраняются в личной базе данных пользователя внутри поисковой системы; 2) результаты поиска.
- Пользовательские (поисковые) интерфейсы – экранные формы общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.
- Поисковая система – подсистема поиска, обеспечивающая обработку поискового предписания пользователя, поиск в поисковой базе данных и выдачу результатов поиска пользователю.
Поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов. Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты.
3. Глобальные и региональные ИПС в сети Интернет. Примеры
Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете.
Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport).
4. Индексирование документов и запросов. Автоматизация индексирования
Индексирование – процесс выражения содержания документа и (или) запроса на информационно-поисковом языке (ИПЯ) с помощью терминов индексирования – классификационных индексов, предметных рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами, индексирование – процесс перевода содержания документов и запросов с естественного языка на ИПЯ, в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ).
Таким образом, происходит «свертывание» информации, содержащейся в документе, и изложение ее на ИПЯ в виде индекса, предметной рубрики или дескриптора, ключевого слова.
При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.
5. Интеллектуальные информационные системы
Интеллектуальная информационная система (ИИС) - это ИС, которая основана на концепции использования базы знаний для генерации алгоритмов решения экономических задач различных классов в зависимости от конкретных информационных потребностей пользователей.
Интеллектуальная информационная система (ИИС) основана на концепции использования базы знаний для генерации алгоритмов решения прикладных задач различных классов в зависимости от конкретных информационных потребностей пользователей. Для ИИС характерны следующие признаки:
- развитые коммуникативные способности;
- умение решать сложные плохо формализуемые задачи;
- способность к самообучению;
- адаптивность.
Каждому из перечисленных признаков условно соответствует свой класс ИИС. Различные системы могут обладать одним или несколькими признаками интеллектуальности с различной степенью проявления.
ИИС могут размещаться на каком-либо сайте, где пользователь задает системе вопросы на естественном языке (если это вопросно-ответная система) или, отвечая на вопросы системы, находит необходимую информацию (если это экспертная система). Но, как правило, ЭС в интернете выполняют рекламно-информационные функции (интерактивные баннеры), а серьёзные системы (такие, как, например, ЭС диагностики оборудования) используются локально, так как выполняют конкретные специфические задачи.
Интеллектуальные поисковики отличаются от виртуальных собеседников тем, что они достаточно безлики и в ответ на вопрос выдают некоторую выжимку из источников знаний (иногда достаточно большого объема), а собеседники обладают «характером», особой манерой общения (могут использовать сленг, ненормативную лексику), и их ответы должны быть предельно лаконичными (иногда даже просто в форме смайликов, если это соответствует контексту).
6. Интернет как глобальная информационная среда. Информационные ресурсы сети. Проблемы поиска в сети Интернет
Интернет — особенная, глобальная автоматизированная информационная сеть, которая представляет собой инфраструктуру цифрового обмена и включает в себя трансграничные информационные сети (средства коммуникации) и распределенные в них информационные ресурсы (резервы знаний). Интернет как глобальная АИС представляет собой информационную инфраструктуру информационного общества, состоящую из трансграничных информационно-телекоммуникационных сетей и распределенных в них информационных ресурсов как запасов знаний, в совокупности представляющей интегральный источник знаний и средство коммуникации субъектов информационного общества. В этой инфраструктуре реализуется одно из требований информационного общества - массовое применение персональных компьютеров, подключенных к трансграничным информационно-телекоммуникационным сетям.
Информационные ресурсы Интернет (SITELINK)— это вся совокупность информационных технологий и баз данных, доступных при помощи этих технологий и существующих в режиме постоянного обновления. К их числу относятся, например:
- электронная почта;
- система телеконференций Usenet;
- система файловых архивов FTR;
- базы данных WWW; базы данных Gopher;
- базы данных WAIS;
- информационные ресурсы LISTSERV;
- справочная служба WHOIS; информационные ресурсы TRICKLE;
- поисковые машины Open Text Index, Alta Vista, Yahoo, Lycos и др.
Информационные ресурсы могут быть разделены по языковому признаку. В сети Интернет представлены практически все основные языки, однако главным языком в силу исторически сложившихся традиций является английский. Ряд сайтов представляет информацию на нескольких языках.
В сети имеет место классификация и по территориальному признаку. Ряд сайтов предоставляет свою информацию для потребителей определенного региона, хотя доступ к сайту возможен и из любой точки сети.
Наиболее важным аспектом классификации информационных ресурсов сети Интернет является содержание информации. Деловая информация, необходимая в предпринимательской деятельности, по этому критерию может быть разделена на следующие группы.
1. Сведения о фирмах, организациях. Эта группа сведений существенно различается по своему наполнению для различных организаций. Различия определяются степенью освоения организацией возможностей Интернета по продвижению продукции или услуг. Различают три типа серверов данной группы (категории):
• серверы присутствия в Интернете. Эти серверы могут быть разделены на рекламные и информирующие серверы. Рекламный сервер обычно содержит одну или несколько страниц. Информирующий сервер содержит более подробную информацию о фирме и производимой ею продукции или оказываемых услугах;
• информационные серверы. Целью этих серверов является предоставление различного рода информации потребителям. Серверы данной группы ведут информационно-аналитические агентства и другие структуры, в том числе государственные, чья деятельность связана с предоставлением различного рода информации потребителям;
• интерактивные магазины. Серверы этой группы обеспечивают продажи товаров посредством Интернета. При этом могут быть реализованы в электронном виде следующие функции:
— предоставление клиенту необходимой информации о товаре или услуге;
— оформление заказа;
— оплата заказа (при использовании онлайновых платежных систем);
— отправка полученного товара, если товаром является информация.
2. Сведения о состоянии мировой экономики и экономики отдельных стран. Данная информация представлена достаточно широко в профессиональных базах крупнейших информационно-аналитических агентств мира. Серверы этих агентств входят в состав информационных ресурсов сети Интернет. Однако сама информация, как правило, платная. Информация о состоянии национальной экономики обычно размещается на серверах государственных структур, отвечающих за государственную поддержку экономики, государственных статистических органов, различных экономических институтов.
3. Сведения о состоянии отраслевых рынков. Анализ отраслевых рынков осуществляют специализированные маркетинговые и консалтинговые агентства, а также маркетинговые службы фирм или организаций. Результаты этих исследований, используя Интернет, можно получить:
• из профессиональных баз крупнейших мировых информационных агентств, найдя сведения о технологиях доступа к этим базам на сайтах Интернета;
• в самих консалтинговых или маркетинговых агентствах, чьи сайты также представлены в Интернете;
• в многопрофильных и отраслевых журналах регулярно публикующих обзоры рынков. Одни издания, например многопрофильный журнал «Эксперт», представляют на сайтах оглавления номеров журналов. Другие, как, например, журнал «Профиль», размещают в открытом доступе публикуемые материалы.
4. Деловые новости. Подавляющее большинство мировых информационных агентств предоставляют потребителям доступ к профессиональным базам, содержащим деловые новости. Из зарубежных агентств крупнейшими поставщиками деловых новостей являются LEXIS-NEXIS, Dialog, Reuters. Среди отечественных агентств следует выделить:
• «Интегрум-Техно», предоставляющий доступ к материалам 250 центральных и крупнейших региональных газет, а также к зарубежным новостям;
• РИА «Новости» — государственное информационно-аналитическое агентство РФ;
• «ИТАР-ТАСС» — государственное информационное телеграфное агентство РФ;
• агентство «Интерфакс», входящее в состав международной информационной группы Interfax Information Services.
Интернет предоставляет бесплатный доступ к ежедневной электронной интернет-газете «Gazeta.ru». Ряд крупнейших газет имеют в Интернете электронные версии.
5. Справочная информация представлена в сети Интернет весьма широко. Это и списки web-сайтов компаний, отобранных по определенному принципу, и телефонно-адресный справочник «Желтые страницы» с возможностью поиска информации по названию фирмы и виду деятельности, и телефонные справочники городов Российской Федерации, стран СНГ и Балтии. Также в Интернете имеется информация о расписании движения поездов, авиарейсов, о погоде и многое другое.
Проблема поиска, отбора и первичной интерпретации информации в сети Интернет базируются на существовании множества мошеннических сайтов, требующих неправомерную платную регистрацию, или сайтов, полагающих навредить программному обеспечению компьютера. Проблему поиска также затрудняет существование массы web-страниц, которые имеют своей целью распространение рекламы, в качестве «наживки» используя научную литературу или ложно представляя себя научным источником. Также существует масса сайтов, информационную ценность которых можно позиционировать как спорную по разным причинам: приуроченность к зависимому исследованию, расположенность вне научного дискурса.
Проявляется не 100%-ная эффективность алгоритмов ранжирования найденных документов. Конечно, такая ситуация также возникает потому, что поисковые запросы пользователей в среднем состоят всего из трех-пяти слов. Т. е. такая исходная информация для поисковых систем слишком скудная для эффективного ранжирования выдачи.
Ещё одна проблема заключается в том, как большое количество информации переработать (= «переварить», «рассмотреть», «выделить главное», «отсеять ненужное и бесполезное») для конкретного пользователя, с учетом его потребностей, смысла и темы запроса, его предыдущей истории поиска, географического положения, его мнения о результатах поиска и т.д. Конечно, поисковые системы в этом направлении активно развиваются, но, очевидно, что поисковой машине далеко до совершенства. Потому что, на сегодняшний день только человек может оценить семантическую полезность, качество, специфику найденной информации и т.д.
7. Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов
Информационно-поисковая система (ИПС) — это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска — релевантность.
Релевантность — это соответствие результатов поиска сформулированному запросу. Типы ИПС:
Каталог — поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник. Адреса популярных каталогов:
- Yahoo
- Magellan
- @Rus
- Weblist
- Улитка.
Поисковая машина — поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой Поисковая машина является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов). Зарубежные поисковые машины:
- Google смм
- Altavista
- Excite
Российские поисковые машины: Яndex, Рэмблер.
Метапоисковая система. Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) — системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками. Адреса известных метапоисковых систем:
- MetaCrawler
- SavvySearch.
8. Информационно-поисковые языки: классификация, типология
Информационно-поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.
Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:
- фонетического;
- лексического;
- синтаксического;
- текстового.
Элементы каждого уровня объединяются в синтагмы и парадигмы. Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.
Лексический уровень или словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.
В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф.Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К.Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.
1) По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ — языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ — языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.
2) По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ — языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ — языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ — языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.
3) С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию — систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс — совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток — невозможность организации внеиерархических связей (иерархическая модель данных — невозможность перекрестных запросов).
Языки фасетной структуры представляют собой фасетную классификацию — совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия. Пример фасетной классификации:
1 Документы по знаковой форме представления информации
1.1 Идеографические
1.2 Иконические
1.3 Текстовые
2 Документы по способу распространения
2.1 Неопубликованные
2.2 Опубликованные
3 Документы по периодичности изданий
3.1 Непериодические
3.2 Периодические
3.3 Продолжающиеся
Языки неиерархической структуры являются продуктом эмпирического подхода к построению ИПЯ. Такой подход предполагает создание языка на основе индексирования реальных текстов. Из содержания документа выбираются ключевые слова, которые преобразуются в лексические единицы ИПЯ (ТАСТ, алфавитно-предметная классификация).
К специальным неиерархическим ИПЯ с учетом сильных и слабых прардигматических отношений относится дескрипторный язык.
9. История развития автоматизированных документальных ИПС, этапы развития
История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет - это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.
Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и программные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.
Первый этап развития ИПС условно можно отнести к 1955-1965 гг. В это время особенно активно заговорили о проблеме информационного взрыва. Эта проблема вместе с развитием средств вычислительной техники пробудила интерес к новым методам обработки, хранения и поиска информации. Первые автоматизированные ИПС появились уже к началу 60-х годов. Внедрение компьютеров в сферу информационного поиска сулило большие перспективы. Однако этот начальный период «бури и натиска» был недолгим, эйфория сменилась отрезвлением и даже разочарованием. Быстро получить полностью автоматизированные интеллектуальные поисковые системы оказалось невозможным. Началась практическая работа по созданию ограниченных, но полезных поисковых систем. Тогда же было осознано, что документальный поиск представляет собой отдельную, особую задачу, имеющую свой предмет и свои методы.
Второй период с известной долей условности можно поместить между серединой 60-х и серединой 70-х гг. XX в. В эти же годы начинается внедрение компьютеров и в работу библиотек. Это внедрение началось с автоматизации простых рутинных операций, однако в недрах библиотечного сообщества появляются и такие крупные амбициозные проекты, как система MEDLARS и формат MARC12. Для данного периода характерен повышенный интерес к информационно-поисковым языкам (ИПЯ) и методам индексирования. Индексирование повсеместно Осуществлялось вручную. Типичная ИПС тех лет - это человеко-машинная система, где анализ содержания документов и индексирование выполняются вручную, а поиски проводятся машиной. Эти поиски заключались в автоматическом сравнении поисковых образов документов и поисковых образов запросов, составленных на основе дескрипторных словарей или тезаурусов.
Третий период развития документальных ИПС условно можно отнести на 1975-1995 гг. В эти годы, после научных дискуссий и под влиянием внешних технологических факторов, массовое распространение получили системы, названные «бестезаурусными», или системами поиска по свободному тексту (free-text searching systems). Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, а с другой — широкое использование контекста и синтагматических связей.
Четвертый этап развития документальных ИПС начался с середины 1990-х годов. Кардинальные изменения в информационной сфере произошли в связи с развитием сети Интернет и резким, лавинообразным ростом объемов документальной информации в электронном виде. Для данного этапа характерны:
- гипертекстовые сетевые технологии как основа единого информационного пространства;
- появление на этой базе глобальных ИПС;
- специальные языки представления электронных документов;
- видовое, тематическое и языковое разнообразие информационных массивов;
- ориентация на полнотекстовый поиск;
- использование лингвистического обеспечения предыдущего периода.
10. Критерий смыслового соответствия. Модели поиска
Критерий смыслового соответствия - формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими. Существуют следующие виды КСС:
• КСС "на полное вхождение", или "на вхождение".
• КСС "на частичное вхождение".
• КСС с учетом текстуальных и базисных отношений.
• КСС с учетом весовых коэффициентов информативных слов или дескрипторов.
• КСС с учетом синтаксических отношений.
Вводятся правила грамматики и сопоставляются синтагмы, формируемые из дескрипторов (или ключевых слов) с помощью введенных правил.
Критерии в совокупности с методами их реализации называют моделями поиска. Здесь под моделью будем понимать логическую или математическую модель, в рамках и терминах которой и формулируется КСС. Принятая модель поиска определяет многие компоненты ИПС и их взаимодействие, в первую очередь, индексирование документов и запросов и тем самым структуру ПОД и ПОЗ, собственно критерий и тем самым результаты поиска. Поисковые образы являются результатом применения некоторой модели информационного массива документов, ориентированной на поиск, к реальному массиву. Алгоритмы сравнения ПОД и ПОЗ реализуют правила вычисления релевантности документа и запроса в соответствии с выбранной моделью. В идеале модели поиска должны включать в себя также и модель пользователя: формализованное описание и обработку при поиске пользователя, типа запроса, целей поиска и т.д.
Модели поиска информации можно охарактеризовать четырьмя параметрами:
- представлением документов и запросов;
- методами сопоставления, применяемыми для оценки релевантности документа запросу пользователя;
- методами ранжирования результатов запроса;
- механизмами обратной связи, обеспечивающими оценку релевантности пользователя.
11. Методы создания поисковых баз данных в глобальных системах (индексирование, регистрация)
Индекс - структура данных, которая помогает СУБД быстрее обнаружить отдельные записи в файле и сократить время выполнения запросов пользователей.
Индекс в базе данных аналогичен предметному указателю в книге. Это — вспомогательная структура, связанная с файлом и предназначенная для поиска информации по тому же принципу, что и в книге с предметным указателем. Индекс позволяет избежать проведения последовательного или пошагового просмотра файла в поисках нужных данных. При использовании индексов в базе данных искомым объектом может быть одна или несколько записей файла. Как и предметный указатель книги, индекс базы данных упорядочен, и каждый элемент индекса содержит название искомого объекта, а также один или несколько указателей (идентификаторов записей) на место его расположения.
Хотя индексы, строго говоря, не являются обязательным компонентом СУБД, они могут существенным образом повысить ее производительность. Как и в случае с предметным указателем книги, читатель может найти определение интересующего его понятия, просмотрев всю книгу, но это потребует слишком много времени. А предметный указатель, ключевые слова в котором расположены в алфавитном порядке, позволяют сразу же перейти на нужную страницу.
Структура индекса связана с определенным ключом поиска и содержит записи, состоящие из ключевого значения и адреса логической записи в файле, содержащей это ключевое значение. Файл, содержащий логические записи, называется файлом данных, а файл, содержащий индексные записи, — индексным файлом. Значения в индексном файле упорядочены по полю индексирования, которое обычно строится на базе одного атрибута.
Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми — индексаторами и модераторами данной системы. И поэтому объем базы данных систем классификационного типа сравнительно невелик по сравнению с информационной емкостью всего Интернета.
12. Обеспечивающие подсистемы
Обеспечивающие подсистемы являются общими для всей ИС независимо от конкретных функциональных подсистем, в которых применяются те или иные виды обеспечения. Состав обеспечивающих подсистем не зависит от выбранной предметной области и имеет: функциональную структуру, информационное, математическое (алгоритмическое и программное), техническое, организационное, кадровое, а на стадии разработки ИС дополнительно — правовое, лингвистическое, технологическое и методологическое обеспечения, а также интерфейсы с внешними ИС.
13. Организация поисковых массивов в ИПС
Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован различными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами - номерами документов в поисковом массиве. Поиск осуществляется по второй части ИПМ.
В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содержащих информацию о тексте документа (индексах).
В ИПС используют две принципиальные схемы информационного массива - прямую и инверсную.
При прямой организации каждому документу соответствует перечень слов, составляющих текст или поисковый образ документа. При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл.
Недостатком прямой организации поиска является необходимость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.
Инверсный способ организации поискового массива предусматривает создание инвертированной матрицы, в которой и происходит поиск (ее называют инвертированным матричным индексом).
14. Основные технические характеристики документальных ИПС (полнота, точность)
Основными показателями эффективности функционирования документальных ИПС являются полнота и точность информационного поиска.
Полнота информационного поиска R определяется отношением числа найденных пертинентных документов А к общему числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов: .
Точность информационного поиска Р определяется отношением числа найденных пертинентных документов А к общему числу документов L, выданных на запрос пользователя: .
Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума k, соответственно, определяется отношением числа нерелевантных документов (L–A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя: .
В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%.
15. Сущность документального информационного поиска. Понятие релевантности
Документальный информационный поиск – это процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя. Есть два вида документального поиска:
- Библиотечный, направленный на нахождение первичных документов.
- Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Релева́нтность (англ. relevant) — применительно к результатам работы поисковой системы и экспертной системы — степень соответствия запроса и найденного, то есть уместность результата. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
16. Семантические языки
Поисковая (манипуляционная) составляющая ИПЯ реализуется дескрипторными и семантическими языками запросов.
Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на две большие группы:
• предикатные языки;
• реляционные языки.
В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, который представляет собой многоместное отношение некоторой совокупности грамматических элементов. Многоместность отношения означает, что каждый элемент предиката играет определенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания в естественном языке выступает предложение, констатирующее определенный факт или описывающее определенное событие.
В реляционных языках лексические единицы высказываний могут вступать только в бинарные (друг с другом), но не в совместные, т. е. не многоместные отношения.
В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшими из которых являются:
• понятия-классы (общее определение совокупности однородных элементов реального мира, обладающих некоторым характерным набором свойств, позволяющих одни понятия-классы отделять от других);
• понятия-действия (лексический элемент, выражающий динамику реального мира, содержит универсальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т. д.);
• понятия-состояния (лексические элементы, фиксирующие состояния объектов);
• имена (лексические элементы, идентифицирующие понятия-классы);
• отношения (лексические элементы, служащие для установления связей на множестве понятий и имен);
• квантификаторы (всеобщности, существования и т. д.).
Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых - razgovorodele.ru) ИПС, описывая своими средствами собственно сами каталоги, тезаурусы, семантические сети и выражая смысловое содержание документов и запросов.
17. Технология и режимы функционирования ИПС
Функционирование современных ИПС основано на двух предположениях:
1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;
2) пользователь способен указать этот признак.
Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.
По режиму функционирования ИПС делятся на системы, работающие в режиме избирательного распространения информации и в режиме ретроспективного поиска информации.
Избирательным распределением информации (ИРИ) называется такой режим работы ИПС, при котором информационный поиск проводится по постоянным запросам определенного контингента абонентов в массиве текущих поступлений документов через установленные промежутки времени (обычно 1 раз в неделю, 1 раз в 2 недели). Для оптимизации работы ИПС между абонентами и системой устанавливается и постоянно поддерживается обратная связь. При этом ПОД сравнивается с хранящимися в ЗУ системы, постоянными запросами абонентов (постоянным является массив запросов).
Ретроспективным поиском (РП) информации называется такой режим работы ИПС, при котором по разовым запросам специалистов осуществляется поиск сведений о документах (или копий документов). Фактов, сведений, данных в накопленном за определенный период в информационном массиве. Такой поиск - режим «запрос-ответ» (постоянный массив документов).
18. Типология поисковых систем в Интернет
Существуют два основных типа поисковых систем: индексные - Google, AltaVista, Rambler, HotBot, Яндекс и др.; классификационные (каталоговые) - Rambler, Yahoo! и др.
Rambler одновременно являляется и индексной, и классификационной. Индексная поисковая система запускает специальную программу, которая просматривает содержимое веб-серверов, индексируя информацию: она заносит в свою базу данных ключевые слова той или иной веб-страницы, некоторую информацию из веб-страницы.
Классификационные поисковые системы работают совсем по-другому. Не зря мы в самом начале говорили о некоторой абстрактной структуре Интернета. Это как раз и есть прообраз каталоговой поисковой системы. Поисковая система - это огромный каталог, в котором есть некоторые первичные элементы (темы) каталога, например, "Компьютеры", "Автомобили", "Медицина" и т.д. Если вам нужно найти информацию об операционной системе Windows, вы заходите в каталог Компьютеры, затем - в каталог Операционные системы, а после - в каталог Windows. Можно сразу ввести ключевое слово, и поисковая система "пройдет" по всему каталогу или только по его определенной части (можно, например, искать по всему каталогу, по каталогу Компьютеры или по каталогу Компьютеры/Операционные системы/Windows). Как правило, такие поисковые системы не автоматические - информация в их базы данных вносится вручную - администратором поисковой системы или самими пользователями. На сайте каталоговой поисковой системы есть форма, используя которую вы можете добавить в каталог информацию о своем сайте.
Есть поисковые системы "смешанного" типа (например, такой поисковой системой был Rambler и некоторые другие поисковые системы). То есть, на самом деле система является индексной, но она содержит также и каталоговую структуру.
19. Фактографические ИПС
Фактографические ИПС реализуют поиск и выдачу фактов, текстов, документов, содержащих сведения, которые могут удовлетворить поступивший запрос пользователя. В этом случае осуществляется поиск не какого-то конкретного документа, а всей совокупности сведений по данному запросу, хранящихся в информационном фонде ИПС или ИСС. Отметим, что основным отличием фактографических информационно-поисковых систем от документальных является то, что эти системы выдают пользователю. не какой-либо ранее введенный документ, а уже в той или иной степени обработанную информацию.
20. Функционально-структурная схема ИПС. Функциональные подсистемы
В состав типичной ДИПС входят, как правило, четыре основные подсистемы:
- Подсистема ввода и регистрации.
- Подсистема обработки.
- Подсистема хранения.
- Подсистема поиска.
Функциональные подсистемы ИС (ФП ИС) – комплекс экономических задач с высокой степенью информационных обменов (связей) между задачами (некоторый процесс обработки информации с четко определенным множеством входной и выходной информации. Например, начисление сдельной заработной платы, учет прихода материалов, оформление заказа на закупку и т. д.
ФП ИС информационно обслуживают определенные виды деятельности экономической системы (предприятия), характерные для его структурных подразделений и (или) функций управления. Интеграция функциональных подсистем в единую систему достигается за счет создания и функционирования обеспечивающих подсистем, таких как:
· информационная;
· техническая;
· программная;
· математическая;
· лингвистическая.