Модуль n-грамм информационно-аналитической системы “Манускрипт”:

руководство пользователя

Вер. 0.2

В. А. Баранов

Р. М. Гнутиков

Содержание

1. Назначение модуля n-грамм

2. Формирование подкорпуса

3. Формирование запроса

3.1. Базовые параметры

3.1.1. Количество компонентов. Параметр “Компонент”

3.1.2. Маска компонента. Поле параметра “Компонент”

3.2. Количественные и статистические параметры

3.2.1. Количество и меры ассоциации. Параметр “Мера”

3.3. Расширенные параметры

3.3.1. Ввод маски. Параметр “Набор символов”

3.3.2. Применение маски к типу единицы. Параметр “Интерпретация маски”

3.3.3. Соответствие маски и текстового прецедента. Параметр “Точность”

3.3.4. Расстояние между компонентами. Параметр “Расстояние”

3.3.5. Контактные и удаленные компоненты. Параметр “Контакт”

3.3.6. Учет порядка следования компонентов. Параметр “Закрепленность”

3.3.7. Слияние n-грамм с идентичными компонентами. Параметр “Следование”

3.3.8. Сочетаемость компонентов n-грамм. Параметр “Симметрия”

3.4. Лингвистические параметры

3.4.1. Лингвистическая единица n-грамм. Параметр “Тип компонентов”

3.4.2. Учет грамматических значений. Параметр “Грамматические признаки”

3.4.3. Учет границ синтаксических конструкций. Параметр “Границы конструкций”

3.4.4. Исключение служебных слов. Параметр “Исключить”

3.4.5. Снятая и неснятая омонимия. Параметры “Словарь” и “Снимать омонимию”

3.5. Параметры вывода

3.5.1. Частотность n-грамм. Параметр “Количество n-грамм”

3.5.2. Форма вывода адресов. Параметр “Объединить адреса”

3.5.3. Алфавит вывода лингвистических единиц. Параметр “Алфавит”

3.6. Комбинированные запросы

4. Контекстные подсказки

1. Назначение модуля n-грамм

Модуль предназначен для построения n-грамм (сочетаний, состоящих из двух, трех и более компонентов) с помощью настраиваемых параметров запроса.

Перечни n-грамм строятся на основе подкорпуса рукописей, текстов или их фрагментов.

Запросная форма содержит количественные, статистические, лингвистические и некоторые другие параметры поиска, упорядочения и демонстрации n-грамм.

2. Формирование подкорпуса

В строке “Запрос” введите слово, часть слова или знак процента для поиска рукописей (томов) и текстов, например: %Житие%

В чекбоксах рукописей или текстов отметьте необходимые, например: Житие Феклы и Житие Кондрата.

Примечание. Используйте чекбокс рукописи или тома, для того чтобы отметить все тексты рукописи или тома.

Используйте гиперссылку “Мои выборки” для использования подготовленной и сохраненной выборки.

3. Формирование запроса

3.1. Базовые параметры

3.1.1. Количество компонентов. Параметр “Компонент”

Для построения перечня биграмм в полях “Компонент 1” и “Компонент 2” введите знак процента %.

Нажмите “Выполнить”.

Для построения перечней три- и более грамм с помощью кнопки “+” слева от поля “Компонент 2” добавьте нужное количество полей и введите в каждом знак процента %.

3.1.2. Маска компонента. Поле параметра “Компонент”

Для поиска сочетаний, содержащих конкретные словоформы, с помощью виртуальной клавиатуры введите в поля “Компонент 1” и/или “Компонент 2” буквенную маску компонента или его части, например, въ или въ%.

Примечание. Используйте знак % для любого количества любых символов, знак подчеркивания _ для одного любого символа.

3.2. Количественные и статистические параметры

3.2.1. Количество и меры ассоциации. Параметр “Мера”

Для получения сведений об абсолютном или относительном количестве n-грамм или о степени ассоциации компонентов n-граммы выберите необходимое значение, например, “Относительное количество” или T-score.

3.3. Расширенные параметры

3.3.1. Ввод маски. Параметр “Набор символов”

По умолчанию в поле “Компонент” маска вводится с помощью клавиатуры компьютера или виртуальной клавиатуры с символами старославянского алфавита. Для использования иных символов в параметре “Набор символов” выберите необходимые.

3.3.2. Применение маски к типу единицы. Параметр “Интерпретация маски”

Для применения маски компонента к леммам выберите значение “Начальная форма”.

Для применения маски компонента к словоформам выберите значение “Точная маска”.

Для применения маски компонента ко всем формам парадигмы, в которую входит словоформа, соответствующая маске, выберите значение “Все словоформы”.

При использовании регулярных выражений для маски компонента выберите значение “Регулярное выражение”.

3.3.3. Соответствие маски и текстового прецедента. Параметр “Точность”

Для построения n-грамм, включающих компоненты на основе образца поиска, выберите требуемую степень совпадения образца поиска и словоформы текстов.

Примечание. Параметр рекомендуется использовать только в отношении словоформ.

3.3.4. Расстояние между компонентами. Параметр “Расстояние”

Для формирования n-грамм, состоящих из компонентов, которые не находятся в контакте, “Расстояние” укажите количество словоформ между компонентами.

3.3.5. Контактные и удаленные компоненты. Параметр “Контакт”

Для вывода n-грамм, компоненты которых находятся в подкорпусе только рядом, выберите значение “Неразрывные”.

Примечание. Значение “Неразрывные” может быть применено только при расстоянии между компонентами от 0 до n.

Для вывода n-грамм, компоненты которых находятся в подкорпусе только на расстоянии, выберите значение “Разрывные”.

Примечание. Значение “Разрывные” может быть применено только при расстоянии между компонентами от 1 до n.

Для игнорирования параметра “Контакт” выберите значение “Все”.

3.3.6. Учет порядка следования компонентов. Параметр “Закрепленность”

Для вывода n-грамм, компоненты которых в подкорпусе могут следовать в любом порядке по отношению друг к другу, выберите значение “Нефиксированные”.

Для вывода n-грамм, компоненты которых в подкорпусе располагаются только в определенной последовательности, выберите значение “Фиксированные”.

Для игнорирования параметра “Фиксированность” выберите значение “Все”.

3.3.7. Слияние n-грамм с идентичными компонентами. Параметр “Следование”

Для игнорирования следования компонентов n-грамм, состоящих из идентичных форм, снимите флажок.

Для учета следования компонентов n-грамм поставьте флажок.

Примечание. Две n-граммы, состоящие из идентичных форм, но с разным следованием относительно друг друга, считаются одной и той же n-граммой, встретившейся два раза, и будут выведены как одна n-грамма с количеством встречаемости 2.

3.3.8. Сочетаемость компонентов n-грамм. Параметр “Симметрия”

Для вывода n-грамм, компоненты которых в подкорпусе встречаются только вместе и не встречаются с другими компонентами, выберите значение “Симметричные”.

Для вывода n-грамм, компоненты которых в подкорпусе встречаются также и с другими компонентами, выберите значение “Несимметричные”.

Для игнорирования параметра “Симметрия” выберите значение “Все”.

3.4. Лингвистические параметры

3.4.1. Лингвистическая единица n-грамм. Параметр “Тип компонентов”

Для построения n-грамм на основе начальных форм выберите значение “Начальная форма”.

Для построения n-грамм на основе текстовых форм выберите значение “Словоформа”.

3.4.2. Учет грамматических значений. Параметр “Грамматические признаки”

Для построения n-грамм на основе компонентов, имеющих грамматическое значение, с помощью выпадающего меню выберите свойство, с помощью плюса справа откройте значения свойства и выберите значение, например, для “Компонента 1” “Часть речи” - “Существительное” и для “Компонента 2” “Часть речи” - “Прилагательное”

Примечания.

Параметр работает только в случае лемматизации текста.

В выборку попадают только словоформы, которые были лемматизированы.

При использовании этого параметра время выполнения запроса возрастает.

3.4.3. Учет границ синтаксических конструкций. Параметр “Границы конструкций”

Для исключения выборки сочетаний, компоненты которых разделены пунктуационными знаками, снимите флажок.

3.4.4. Исключение служебных слов. Параметр “Исключить”

Для построения n-грамм без учета предлогов, союзов, частиц, словоформ, состоящих из небуквенных символов, поставьте флажок в соответствующих чекбоксах.

3.4.5. Снятая и неснятая омонимия. Параметры “Словарь” и “Снимать омонимию”

Для построения n-грамм на основе лемм со снятой омонимией выберите словарь и поставьте флажок в чекбоксе “Снимать омонимию”.

Примечания.

Параметры работают только в случае лемматизации текста.

В качестве словаря рекомендуется выбирать грамматический словарь древнерусского языка - ГСДЯ.

При выборе “Снимать омонимию” используются результаты автоматического устранения омонимии.

В выборку попадают только леммы словоформ, которые были лемматизированы.

3.5. Параметры вывода

3.5.1. Частотность n-грамм. Параметр “Количество n-грамм”

Для вывода на экран n-грамм, встречающихся в подкорпусе определенное количество раз, в поля параметра “Количество сочетаний” введите числовые значения, например, 5 - 20.

Для вывода всех n-грамм оставьте поля пустыми.

3.5.2. Форма вывода адресов. Параметр “Объединить адреса”

Для вывода адресов нескольких текстов в нескольких столбцах снимите флажок.

Для вывода адресов нескольких текстов в одной ячейке установите флажок в этом параметре.

3.5.3. Алфавит вывода лингвистических единиц. Параметр “Алфавит”

Выберите алфавит для отображения результатов запроса.

3.6. Комбинированные запросы

Запрос может быть сформирован с помощью различных сочетаний параметров.

Используемые в запросе параметры и их значения определяются пользователем и зависят от решаемой задачи.

Примечание. Некоторые параметры замедляют скорость выполнения запроса.

4. Контекстные подсказки

Параметры запросной формы имеют контекстные подсказки.