Электронная библиотека Веда
Цели библиотеки
Скачать бесплатно
Доставка литературы
Доставка диссертаций
Размещение литературы
Контактные данные
Я ищу:
Библиотечный каталог российских и украинских диссертаций

Вы находитесь:
Диссертационные работы России
Технические науки
Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Диссертационная работа:

Григорьев Александр Сергеевич. Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова : Дис. ... канд. техн. наук : 05.13.11 Москва, 2006 160 с. РГБ ОД, 61:06-5/3072

смотреть содержание
смотреть введение
Содержание к работе:

Стр.
Введение 4

1. Аналитический обзор методов и стратегий поиска текстовой информации.
Системы обработки текста документов 13

  1. Задача поиска по текстам документов 13

  2. Классификация методов полнотекстового поиска 16

Методы классического поиска (без использования контекстной

информации) 17

Использование контекстной информации 24

2. Метод поиска 45

  1. Описание метода обработки статистической сочетаемости слов 45

  2. Статистическое выявление устойчивых сочетаний слов 49

  3. Объединение схожих по написанию форм слов 58

  4. Обработка данных о статистической сочетаемости слов 61

  5. Группирование текстов по спискам устойчивых сочетаний слов ....65

  6. Выполнение естественно-языкового поискового запроса 68

Краткие выводы 70

3. Алгоритмы обработки текста документов и запросов, реализующие метод
поиска 71

  1. Подготовка документов к обработке и их хранение 71

  2. Заполнение словаря 73

  3. Статистическое выявление устойчивых сочетаний слов 78

  4. Обработка данных о статистической сочетаемости слов 83

  5. Группирование текстов по спискам связности слов 86

  6. Определение соответствия текста поисковому запросу 89

4. Программная реализация поискового метода и ее испытания 91

  1. Описание программной реализации 91

  2. Описание тестового набора текстов 98

Стр.

4.3. Определение эмпирических пороговых значений и коэффициентов
99

  1. Экспериментальные оценки требуемых ресурсов при реализации разработанного метода 109

  2. Оценка качественных и количественных показателей разработанного метода поиска 118

  3. Сравнительная оценка ресурсоемкости разработанной поисковой

системы 134

Краткие выводы 145

Основные выводы 147

Список литературы 149

Введение к работе:

Социально-экономические преобразования в нашей стране и во всем мире во многом связаны с процессами информатизации общества [1]. Формируемое при этом информационное общество рассматривает информацию и знания как главные продукты производства и основные ценности. В процессах хранения и предоставления информации фундаментальную роль играют библиотеки [107]. В связи с ростом объемов обрабатываемой библиотеками информации возникают проблемы их радикальной перестройки для использования возможностей, предоставляемых современной вычислительной техникой. Удобство пользования библиотекой определяется ее поисковыми возможностями. Поэтому актуальность изучения существующих методов поиска, их совершенствования и создания нового поискового механизма определяет цель данной работы.

В настоящее время поиск и предоставление документов читателям, чаще всего, ограничены заложенными в систему библиографическими описаниями документов. Использование полей библиографических описаний (заглавие, авторы и др.), хранящихся в библиотечном каталоге, не всегда позволяет читателю найти интересующий его источник. Название издания, как правило, не может достаточно полно и достоверно отразить все содержание документа. Слова, составляющие заданный пользователем поисковый запрос, могут отсутствовать в заглавии документа при том, что сам документ частично или полностью удовлетворяет запросу.

Для устранения данной проблемы документ, помещенный в фонды системы, снабжается текстовым описанием - рефератом [44] или списком ключевых слов. Текст реферата, конечно, полнее заглавия отражает содержание документа, но для использования этого текста при поиске требуются специальные средства для выделения той части слов и словосочетаний, которая отражает тематику документа. Традиционно задачу

получения набора слов, характеризующих документ, «вручную» выполняют редакторы в издательствах или сотрудники библиотеки. Это вносит элемент субъективности в данную процедуру. Списки таких слов, полученные для однотипных документов в разных учреждениях, могут сильно различаться. Чтобы избежать этой проблемы требуются автоматические поисковые средства, самостоятельно анализирующие текст реферата.

Второй традиционный путь поиска документов в библиотеках основан на использовании различных классификаторов (иерархических

тематических рубрикаторов ББК', ГАСНТИ% УДК'[43]), позволяющих распределять документы по информационным группам. Так при помощи широко распространенного классификатора УДК [42] документы классифицируют путем индексирования по заданным рубрикам. Однако, использование дерева рубрик УДК для поиска и размещения информации в нужный раздел «вручную» малоэффективно в связи со сложностью визуального восприятия сильно разветвленного дерева описаний индексов УДК [43]. Автоматизированный поиск в пространстве классифицированных документов сводится к сопоставлению текста запроса с описанием рубрик классификатора и последующим представлением пользователю всех документов выбранной рубрики [73], что мало отличается от поиска по названию издания или по тексту реферата.

Концептуальная схема [71], описывающая механизм доступа пользователей библиотеки к документам через их описания или с использованием классификаторов или других поисковых интерфейсов, изображена на рис. В.1.

Библиографический Библиотечный Классификатор Государственная Автоматизированная Система Научно-Технической Информации 3 Универсальный Десятичный Классификатор

^—Хранилище документов-

Документы

Фонд

документов

Поисковые средства-

Оператор

Текстовые

образы документов

Поисковое

описание

документов

Поисковый интерфейс

Чит а і сми

Запрос^ -_

.:_-/;

Запрос

Поисковый сервер

Рис. В.1. Схема доступа пользователей библиотеки к её фондам

По мере увеличения информационных мощностей вычислительных систем стало возможным помещать в хранилище информационной системы библиотеки вместе с библиографическим описанием и сам документ. Документы, хранящиеся в электронных хранилищах вместе со своими описаниями, называются Электронными Документами (ЭД). ЭД - это неизменяемый во времени объект, сохраненный на машиночитаемом носителе и снабженный описанием [72]. Таким документом может быть как текстовый файл (набор текстовых файлов), так и любой другой вид информации (графическая, аудио), хранимой в виде файлов. Библиотека, организующая хранение ЭД вместе с их описаниями получила название Электронной Библиотеки (ЭБ). В такой библиотеке при поиске используется не только библиографическое описание документа, но и его текстовый образ. Для текстового документа при этом используется его текст. Для построения текстового образа произвольного документа, хранящего графическую или аудио информацию, создается текстовое описание

содержимого этого документа. При этом в ЭБ поиск выполняется по всему тексту текстового образа документа и поэтому называется полнотекстовым поиском.

Темпы роста объема информационных хранилищ документов постоянно увеличиваются. Поэтому классическое решение задачи поиска, заключающееся в отыскании документов, содержащих слова запроса, уже не может удовлетворить пользователя. Количество найденных документов часто превышает объем, который пользователь способен проанализировать. Например, поиск по запросу «цены на персональные компьютеры» в пространстве описаний документов поисковой системы Япсіех [25] дает более 60 миллионов наименований. Очевидно, лишь малая часть из них представляет интерес для автора запроса. Для повышения степени релевантности найденных документов поисковому запросу могут быть использованы формализованные поисковые интерфейсы и сложные классификаторы [42]. За счет этого обеспечивается высокое быстродействие и более точное соответствие результатов запросу. Несмотря на это, большинство пользователей не использует при поиске формализованный интерфейс. Использование формализованного интерфейса требует специального обучения пользователя и наличия у него навыков формальных преобразований запроса с естественного языка на язык, понятный поисковой системе. Поэтому более чем в 90% случаев пользователи предпочитают формулировать запрос в виде набора терминов или некоторой фразы [2].

По названным причинам в настоящее время существует потребность в создании поисковой системы ЭБ, позволяющей пользователю на естественном языке формулировать поисковые запросы, по которым система предоставит документы с высокой степенью релевантности. Для преобразования запроса с естественного языка, на котором пользователь привык мыслить, на формализованный язык интерфейса в настоящей

диссертации предложен метод статистической оценки контекста слова и реализующая его поисковая система.

Определение. Естественный Язык (ЕЯ) - множество терминов и оборотов разговорного, профессионального или литературного языка, используемых пользователем при общении с другими людьми в конкретной среде или области деятельности. В общем случае, ЕЯ могут произвольно пересекаться.

Поиск документов с использованием ЕЯ запросов сводится к задаче обработки текстов. Над решением поставленной задачи работали С. Брин, Л. Пейдж, И. Сегалович, разработавшие методы полнотекстового поиска по инвертированному списку (булев поиск), реализованный в поисковых системах Интернет Google [25], Япсіех [5] и др. При создании Реферативного Журнала ВИНИТИ [44] и в работах Г.П. Луна выполняется более глубокий анализ текста с целью выделения наборов ключевых слов из документов.

Значительный вклад в разработку, исследование и применение методов определения связей слов в предложениях внесли авторы формально-грамматических методов. В.А. Крищенко разработал метод, использующий структурную схему предложения, и реализовал его в «Информационной Метапоисковой Системе» [19]. В разработанном А.В. Бриком вероятностно-грамматическом методе [16], реализованном в программных продуктах «ODB-Text» и «Минерва», формально-грамматическая модель успешно дополнена использованием функции вероятностной оценки связности слов. Метод различительных сил, основанный на статистическом подходе и реализованный В.И. Шабановым в программном комплексе «Классификатор» [54], использует ассоциативные связи между терминами для снижения привязки к конкретному языку.

При обработке ЕЯ текстов используются также алгоритмы искусственного интеллекта. Имитационный подход реализован в диалоговых системах Ф.С. Файном [3]. Адаптивное распознавание образов

используется в поисковой системе Retrieval Ware компании Convera [45]. Программный комплекс 4Thought компании Cognos [8] использует нейронные сети.

Особое место среди методов обработки текстов занимает лингвистический подход. В связи со сложностью применяемого в нем описания языка разработанные модели, как правило, не доводятся до практической реализации, как, например, уникальная модель «Смысл-Текст» И.А. Мельчука [104].

Общими недостатками приведенных методов являются либо игнорирование связей между словами, либо необходимость проведения ручного обучения правилам обработки текстов. В данной работе поставлена задача создания метода обработки ЕЯ текстов, который позволяет автоматически строить структуры, описывающие предложения запроса и документов для их сопоставления при поиске. Обучение обработчика текста особенностям языка, основанное на получении статистических закономерностей при анализе частот появления слов и их статистической сочетаемости между собой в текстах, минимизирует участие человека в обучении. При этом часто встречающиеся объекты образуют устойчивые группы, а редко встречающиеся - исключаются из рассмотрения, так как не служат источником информации о сочетаниях слов.

Автоматическое обучение языку разработанным в диссертации методом производится без подготовки формальных правил, описывающих язык. Для выявления закономерностей статистической сочетаемости слов анализируются все предложения текстов, хранящихся в системе. Это позволило решить задачу выделения частей предложения и выявления их зависимостей между собой, основываясь на статистических данных, полученных из анализа частот повторения сочетаний слов.

Наряду с проблемами обучения систем и выполнения поиска в работе решаются проблемы хранения поискового индекса документов - специально

организованной служебной информации, ускоряющей поиск и расширяющей поисковые возможности используемого метода. Информация, создаваемая при подготовке неструктурированного текстового источника для осуществления поиска, может иметь объем, превышающий объем самого документа. В данной работе решается, какая информация должна быть сохранена для описания документа, а какая исключается из рассмотрения для снижения объема обрабатываемых при поиске данных.

Объект исследования в данной работе - произвольные тексты на естественных языках и их сочетаниях.

Целью диссертационной работы является создание метода, направленного на повышение качества полнотекстового поиска путем выделения повторяющихся сочетаний слов как в анализируемых текстах, так и в поисковых запросах, сформулированных на естественном языке.

Для достижения поставленной цели в диссертации решены следующие задачи:

систематизированы известные методы и стратегии поиска, выделены основные этапы обработки текстов на естественном языке;

разработаны и оптимизированы структуры для хранения служебной информации, создаваемой в процессе статистического анализа текстов;

разработан метод поиска по произвольным документам на естественном языке, использующий устойчивые сочетания слов, автоматически выделяемые как в анализируемых текстах, так и в запросах;

использовано группирование документов по спискам устойчивых сочетаний слов с целью ускорения поиска;

разработан метод автоматического обучения анализатора текста языку по динамически пополняемому библиотечному информационному фонду документов за счет выявления закономерностей при статистическом анализе ассоциативных связей между словами текстов документов;

создан программный комплекс, реализующий разработанный метод поиска. Диссертация состоит из введения, четырех глав, выводов, заключения, списка литературы и приложения. Диссертация изложена на 158 страницах текста, содержит 39 рисунков и 30 таблиц. Библиография содержит 113 наименований. В первой главе выполнена математическая постановка задачи, описаны ключевые понятия и даны определения используемой в работе терминологии. Дан обзор стратегий текстового поиска, детально рассмотрены методы обработки текстов. По результатам проведенного анализа построена классификация методов текстового поиска. Сделаны выводы о достоинствах и недостатках каждого из методов и сформулированы цели и направления данного исследования. Во второй главе описан подход к полнотекстовому поиску с использованием неформализованных запросов. Описан метод статистической обработки текстов для оценки морфологической, синтаксической и семантической сочетаемости слов. В третьей главе разработана алгоритмическая структура, соответствующая описанному методу, а также решены задачи ограничения объемов создаваемой служебной информации. Выбраны параметры функций оценки подобия объектов при выделении значимых слов, формировании групп текстов и сравнении структур предложений запроса и текста. В четвертой главе экспериментальные данные использованы для обоснования принятых зависимостей и ограничений. Разработанный поисковый метод оценен с точки зрения точности и полноты поиска. Произведена его сравнительная оценка с методикой, использованной в поисковой машине Япсіех.

В работе даны теоретические оценки временных затрат на выполнение поиска разработанным методом, подтвержденные экспериментально. Проведено сравнение результатов поиска разработанным программным комплексом с результатами, полученными экспертами. При этом оценены

точность и полнота поиска путем вычисления степени релевантности по выведенной формуле. Полученные результаты позволяют говорить о повышении качества поиска предлагаемым методом обработки статистической сочетаемости слов по сравнению с классическим методом поиска. Практическим результатом работы является реализация метода в виде конечного программного продукта, позволяющего выполнять полнотекстовый поиск по запросам на ЕЯ. Программное обеспечение внедрено и используется в рамках единой Автоматизированной Библиотечной Информационной Системы МГТУ им. Н.Э. Баумана, что подтверждается соответствующим актом. В подтверждение положения о независимости разработанного подхода от используемого в текстах языка созданные методы, алгоритмы и модели успешно опробованы при создании системы обработки текстов византийских документов на древнегреческом языке для описания использованных в них терминов.

Результаты проведенного исследования опубликованы в 6 печатных работах.

Подобные работы
Цветников Вадим Александрович
Разработка и исследование методов создания компьютерной системы интеллектуальной поддержки решения задач физической химии в объеме университетского курса
Айман Мохамед Мофтах Кхамес Йоунес Бериша
Исследование и разработка методов извлечения знаний для создания интеллектуальных систем поддержки принятия решений
Лебедев Кирилл Сергеевич
Разработка метода и инструментальных средств создания приложений для системы управления содержанием веб-сайтов
Рештаненко Наталья Валентиновна
Разработка и исследование методов создания специализированного компьютерного банка знаний для органической химии
Лопатникова Вера Борисовна
Совершенствование гибридных абдуктивных методов для создания интеллектуальных систем поддержки принятия решений
Ополченов Алексей Викторович
Методы и программные средства создания экспертных систем принятия решений
Новак Леонид Григорьевич
Методы создания гетерогенного представления локальных данных в системах виртуальной интеграции на платформе XML
Иванов Андрей Игоревич
Методы и средства создания эффективного параллельно-конвейерного программного обеспечения вычислительных систем, построенных на основе плис-технологии
Чигирева, Ирина Валерьевна
Методы и средства создания человеко-машинного интерфейса мультимедийных автоматизированных обучающих систем
Варшавский Павел Романович
Методы и программные средства поиска решения на основе аналогий в интеллектуальных системах поддержки принятия решений

© Научная электронная библиотека «Веда», 2003-2013.
info@lib.ua-ru.net