?

Log in

No account? Create an account

Previous Entry | Next Entry

Мы продолжаем знакомить всех желающих с методикой и особенностями информационного поиска. Сегодня мы вывешиваем в ЖЖ первую лекцию из многих, доступных нашим читателям непосредственно в здании самой библиотеки. Лекции, посвящённые подписным ресурсам ГПИБ и открытым научным базам данных, читает сотрудница справочно-библиографического отдела Ольга Евгеньевна Прохорова. Вводная лекция рассказывает об основах информационного поиска.

Информационный поиск – это действия, методы и процедуры, позволяющие осуществлять отбор определенной информации из массива данных (по ГОСТУ 7.73.96 « Поиск и распространение информации. Термины и определения»), т.е. классический информационный поиск – поиск документов удовлетворяющих запросу в некоторой коллекции документов.
С точки зрения использования компьютерной техники под «информационным поиском» подразумевается совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя. К информационному поиску относятся и такие задачи, как навигация пользователя по коллекции документов и фильтрация документов, а также дальнейшая обработка найденных документов.
В 1945 году американский учёный и инженер В. Буш в статье «Возможный механизм нашего мышления» впервые широко поставил вопрос о необходимости механизации информационного поиска.
А сам термин «информационный поиск» (англ. «informationretrieval») ввёл американский математик К. Муэрс в 1948 г. в своей диссертации. Именно К. Муэрс стал основоположником научного подхода к информационному поиску, введя термины «информационный поиск», «информационно-поисковая система», «информационно-поисковый язык».
В 1951 году в MIT (Массачусетском технологическом институте) был проведен первый опыт компьютерного документального поиска.
В середине 1960-х — начале 1970-х годов вместо механических устройств стали достаточно широко применять электронно-вычислительные машины третьего, а затем и четвертого поколений, на базе которых создавались автоматизированные системы сбора, анализа, классификации, хранения, передачи на расстояние, поиска и выдачи информации.
В частности, исследовательская группа под руководством профессора Гарвардского университета Дж. Сэлтона разработала ИПС «SMART» (Salton's Magic Automatic Retriever of Text «волшебный автоматический текстовый поисковик Сэлтона»), в которой были впервые реализованы многие базовые принципы современных поисковых систем.
В 1990 году появилась ИПС «Арчи»— «первая поисковая машина» («The first search engine»). «Арчи» называют «дедушкой всех поисковых машин». Он впервые позволил пользователям находить файлы по названиям в сети Интернет.
Автоматизированная информационно-поисковая система (ИПС) – программа, предназначенная для поиска информации, обычно текстовых документов.
Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.
Язык, на котором сформулированы запросы к поисковым машинам, называется информационно-поисковым, или языком поисковых запросов. Информационно-поисковый язык - формализованный искусственный язык. Он обычно состоит из словаря (тезауруса) и грамматики различной сложности, а также логических операторов, морфологии языка, регистра слов, возможности учета расстояния между словами и расширенного поиска.
Создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующей в нем синонимии и омонимии.
ИП осуществляется по определенным правилам, определяющих стратегию поиска или способы достижения оптимального результата.

Этапы информационного поиска:
1. Уточнение информационной потребности и формулировка запроса.
2. Выбор источников информации, соответствующих запросу пользователя.
3. Извлечение информации из информационных массивов
4. Оценка результатов поиска.

Уточнение информационной потребности.
Информационная потребность – это тема, о которой пользователь хочет знать больше. Ее следует отличать от запроса, т.е. оттого, что пользователь вводить в строку поиска. Информационная потребность должна быть выражена средствами, которые "понимает" ИПС.
Нередко человек, осуществляющий поиск, имеет самое приблизительное представление об интересующей его тематике, либо он ищет документ, который сам собирается написать. Пользователю обычно требуется найти не какой-то конкретный, заранее известный документ, а некие сведения (факты), знание которых необходимо для решения поставленной задачи.
Формулировка запроса по теме должна быть оформлена в виде ключевых слов или словосочетаний. Ключевые слова – это набор слов или словосочетаний, отражающих основную тему документа и описывающих информационную потребность.
Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Современные системы еще не обладают искусственным
интеллектом и не могут задать вам уточняющие вопросы, поэтому удовлетворяющий вашу информационную потребность ответ может быть получен только на очень точно сформулированный запрос, но далеко не всегда пользователь может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к искомому результату. Основные проблемы связаны с неудачным выбором ключевых слов и просмотром ненужных документов, полученных в списке результатов запроса.
И поэтому, поиск по возможности лучше вести по нескольким словам, их сочетаниям, а иногда и по конкретным фразам. Все служебные слова (предлоги, союзы, частицы и т.п.) следует считать не ключевыми, термины, частота встречаемости которых мала не следует включать в поиск, часто встречающиеся (Москва) – надо употреблять в сочетании с другими словами сужающими их значение.

Выбор источников информации, соответствующих запросу пользователя включает определение, какой тип информационного источника в каждой конкретной ситуации будет соответствовать ИП: источник на традиционных носителях или доступ к информации в режиме онлайн, в т.ч. и подписные БД.

Извлечение информации из информационных массивов.
После четкого определения границ запроса и выбора источника информации следующим этапом справочного процесса является выбор модели поиска для извлечения информации.
Исторически первой моделью информационного поиска является булева модель.
Основным достоинством ее является простота, способность работать с большими объемами информации и высокая скорость выполнения поисковых запросов. По этой причине на основе булевой модели было построено большое количество поисковых систем.
В булевой модели запросы пользователей представляют собой логические выражения, в которых слова связаны операторами AND (и), OR (или), NOT (нет), которые могут быть сгруппированы при помощи скобок. Скобки позволяют объединить два термина в один. Современные булевы модели информационного поиска включают также операторы близости элементов запроса. Пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе. При этом под расстоянием понимается или количество слов между двумя выделенными словами, или задается указание структурной единицы документа (предложение, абзац), в которой должны упоминаться элементы запроса. Булева логика определяет связь: термин – документ, на основании чего осуществляется поиск, т.е. она позволяет лишь определить наличие или отсутствие термина в документе.
Наряду с достоинствами, булева логика запроса имеет и ряд недостатков:
Например, иногда употребление оператора OR может привести к неоправданно широкому запросу и на заданный запрос поисковая машина может вернуть очень много документов (или даже все документы коллекции). В этом случае пользователь вынужден последовательно добавлять условия в запрос, чтобы уменьшить результирующую выборку.
При употреблении логического оператора AND, может быть отрицательный результат, в том случае, если несовместимы факты или отсутствие в эл.ресурсе элементов, содержащих оба поисковых признака одновременно.
Т.е. поиск производится методом проб и ошибок. В результате также часто возникает ситуация, когда условия булева запроса оказываются противоречивы, и пользователь не получает ни одного документа;
Осторожности в использовании требует оператор НЕ, употреблять который можно лишь в случае полного отрицания понятий.
Как правило, полезную выборку обозримого размера можно получить, задав сложную логическую формулу, например («московские князья» и «во второй» /0половине /0 XV)
При этом от пользователя требуется не только знание правил построения формул, но и достаточно хорошее знакомство с «языком» предметной области.
Существенным недостатком классической булевой модели является то, что она не позволяет сортировать документы по степени их соответствия запросу, т.е. ранжировать результат поиска. Из-за указанных недостатков современные ИПС перестали строиться на основе булевой модели. Они чаще всего используют различные варианты векторной модели.
Векторная модель, в отличие от булевых, сразу создавалась для ранжированного поиска в условиях свободно сформулированных запросов. В векторной модели пользователи в основном применяют свободные текстовые запросы т.е. набирают одно или несколько слов, а не используют строгие языковые конструкции с операторами; система же сама решает, какие документы лучше других удовлетворяют этим запросам, но при работе с большими коллекциями документов итоговое количество документов, соответствующих запросу, может быть таким большим, что человек просто не в состоянии просмотреть их все.

Оценка результатов поиска.
Два основных понятия, в которых дается оценка эффективности поиска, определены в ГОСТ 7.73-96.
Релевантными (< англ. relevant существенный, относящийся к делу, уместный) называются документы, содержание которых соответствует информационному запросу, а пертинентными (англ. pertinent, фр. pertinent < надлежащий, подходящий < лат. pertinēre быть важным) — содержание, которых соответствует информационной потребности.
В автоматизированных системах поиск основан на формальной релевантности. Если поисковый запрос сформулирован точно, подробно, то релевантный ответ, скорее всего будет пертинентным. Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, и ничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчание ИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишних документов).
Качество поиска в информационно-поисковых системах обычно характеризуется двумя критериями – полнотой и точностью. Полнота поиска определяется общим количеством найденных документов, а точность – соотношением между найденными релевантными и не релевантными документами.
Важно иметь ввиду, что информация, содержащаяся в научных документах, объективно подчиняется законам рассеяния.
Данные характеристики зависят друг от друга, при увеличении полноты, как правило, снижается точность и наоборот.
В реальных системах коэффициент полноты достигает 70%, а коэффициент точности поиска колеблется в очень широких пределах, иногда снижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: как внутренних свойств собственно поисковой системы (объема и характеристик информационного массива, информационно-поискового языка, критерия выдачи), так и от многих "внешних" условий: степени специфичности информационных запросов, способности пользователя правильно сформулировать свои информационные потребности на естественном языке, правильности построения конкретного запроса, а также от субъективного представления пользователя о том, что такое нужная ему информация. Из-за ошибок и неточностей, возникающих на каждом из этапов работы, как пользователя, так и системы, результаты могут сильно отличаться от того, что хотел получить пользователь, обращаясь к ИПС.