Модуль n-грамм информационно-аналитической системы “Манускрипт”:

руководство пользователя

Вер. 0.1

В. А. Баранов

Р. М. Гнутиков

Содержание

Оглавление

1. Назначение модуля n-грамм. 1

2. Формирование подкорпуса. 1

3. Формирование запроса. 1

3.1. Базовые параметры. 1

3.1.1. Количество компонентов. Параметр “Компонент” 1

3.1.2. Маска компонента. Поле параметра “Компонент” 1

3.2. Количественные и статистические параметры. 1

3.2.1. Количество и меры ассоциации. Параметр “Мера” 1

3.3. Расширенные параметры. 2

3.3.1. Применение маски к типу единицы. Параметр “Интерпретация маски” 2

3.3.2. Соответствие маски и текстового прецедента. Параметр “Точность” 2

3.3.3. Расстояние между компонентами. Параметр “Расстояние” 2

3.3.4. Контактные и удаленные компоненты. Параметр “Контакт” 2

3.3.5. Учет порядка следования компонентов. Параметр “Фиксированность” 2

3.3.6. Слияние n-грамм с идентичными компонентами. Параметр “Следование” 2

3.3.7. Сочетаемость компонентов n-грамм. Параметр “Симметрия” 2

3.4. Лингвистические параметры. 3

3.4.1. Лингвистическая единица n-грамм. Параметр “Тип компонентов” 3

3.4.2. Учет грамматических значений. Параметр “Грамматические признаки” 3

3.4.3. Учет границ синтаксических конструкций. Параметр “Границы конструкций” 3

3.4.4. Исключение служебных слов. Параметр “Исключить” 3

3.4.5. Снятая и неснятая омонимия. Параметр “Омонимия” 3

3.5. Параметры вывода. 3

3.5.1. Частотность n-грамм. Параметр “Встречаемость” 3

3.5.2. Форма вывода адресов. Параметр “Суммировать” 3

3.6. Комбинированные запросы. 4

4. Контекстные подсказки. 4

 

 

1. Назначение модуля n-грамм

Модуль предназначен для построения n-грамм (сочетаний, состоящих из двух, трех и более компонентов) с помощью настраиваемых параметров запроса.

Перечни n-грамм строятся на основе подкорпуса рукописей (текстов).

Запросная форма содержит количественные, статистические, лингвистические и некоторые другие параметры поиска, упорядочения и демонстрации n-грамм.

2. Формирование подкорпуса

В строке “Запрос” введите слово, часть слова или знак процента для поиска рукописей (томов) и текстов, например: %Житие%

В чек-боксах текстов отметьте необходимые, например: Житие Феклы и Житие Кондрата.

Примечание. Используйте чек-бокс рукописи или тома, для того чтобы отметить все тексты рукописи или тома.

3. Формирование запроса

3.1. Базовые параметры

3.1.1. Количество компонентов. Параметр “Компонент”

Для построения перечня биграмм в полях “Компонент 1” и “Компонент 2” введите знак процента %.

Нажмите “Выполнить”.

Для построения перечней три- и более грамм с помощью кнопки “+” справа от поля “Компонент 2” добавьте нужное количество полей и введите в каждом знак процента %.

3.1.2. Маска компонента. Поле параметра “Компонент”

Для поиска сочетаний, содержащих конкретные словоформы, с помощью виртуальной клавиатуры введите в поля “Компонент 1” и/или “Компонент 2” буквенную маску компонента или его части, например, въ или въ%.

Примечание. Используйте знак % для любого количества любых символов, знак подчеркивания _ для одного любого символа.

3.2. Количественные и статистические параметры

3.2.1. Количество и меры ассоциации. Параметр “Мера”

Для получения сведений об абсолютном или относительном количестве n-грамм или о степени ассоциации компонентов n-граммы выберите необходимое значение, например, “Относительное количество” или T-score.

3.3. Расширенные параметры

3.3.1. Применение маски к типу единицы. Параметр “Интерпретация маски”

Для применения маски компонента к леммам выберите значение “Начальная форма”.

Для применения маски компонента к словоформам выберите значение “Точная маска”.

Для применения маски компонента ко всем формам парадигмы, в которую входит словоформа, соответствующая маске, выберите значение “Все словоформы”.

При использовании регулярных выражений для маски компонента выберите значение “Регулярное выражение”.

3.3.2. Соответствие маски и текстового прецедента. Параметр “Точность”

Для построения n-грамм, включающих компоненты на основе образца поиска, выберите требуемую степень совпадения образца поиска и словоформы текстов.

Примечание. Параметр рекомендуется использовать только в отношении словоформ.

3.3.3. Расстояние между компонентами. Параметр “Расстояние”

Для формирования n-грамм, состоящих из компонентов, которые не находятся в контакте, “Расстояние” укажите количество словоформ между компонентами.

3.3.4. Контактные и удаленные компоненты. Параметр “Контакт”

Для вывода n-грамм, компоненты которых находятся в подкорпусе только рядом, выберите значение “Неразрывные”.

Примечание. Значение “Неразрывные” может быть применено только при расстоянии между компонентами от 0 до n.

Для вывода n-грамм, компоненты которых находятся в подкорпусе только на расстоянии, выберите значение “Разрывные”.

Примечание. Значение “Разрывные” может быть применено только при расстоянии между компонентами от 1 до n.

Для игнорирования параметра “Контакт” выберите значение “Все”.

3.3.5. Учет порядка следования компонентов. Параметр “Фиксированность”

Для вывода n-грамм, компоненты которых в подкорпусе могут следовать в любом порядке по отношению друг к другу, выберите значение “Нефиксированные”.

Для вывода n-грамм, компоненты которых в подкорпусе располагаются только в определенной последовательности, выберите значение “Фиксированные”.

Для игнорирования параметра “Фиксированность” выберите значение “Все”.

3.3.6. Слияние n-грамм с идентичными компонентами. Параметр “Следование”

Для игнорирования следования компонентов n-грамм, состоящих из идентичных форм, снимите флажок.

Для учета следования компонентов n-грамм поставьте флажок.

Примечание. Две n-граммы, состоящие из идентичных форм, но с разным следованием относительно друг друга, считаются одной и той же n-граммой, встретившейся два раза, и будут выведены как одна n-грамма с количеством встречаемости 2.

3.3.7. Сочетаемость компонентов n-грамм. Параметр “Симметрия”

Для вывода n-грамм, компоненты которых в подкорпусе встречаются только вместе и не встречаются с другими компонентами, выберите значение “Симметричные”.

Для вывода n-грамм, компоненты которых в подкорпусе встречаются также и с другими компонентами, выберите значение “Несимметричные”.

Для игнорирования параметра “Симметрия” выберите значение “Все”.

3.4. Лингвистические параметры

3.4.1. Лингвистическая единица n-грамм. Параметр “Тип компонентов”

Для построения n-грамм на основе начальных форм выберите значение “Начальная форма”.

Для построения n-грамм на основе текстовых форм выберите значение “Словоформа”.

3.4.2. Учет грамматических значений. Параметр “Грамматические признаки”

Для построения n-грамм на основе компонентов, имеющих грамматическое значение, с помощью выпадающего меню выберите свойство, с помощью плюса справа откройте значения свойства и выберите значение, например, для “Компонента 1” “Часть речи” - “Существительное” и для “Компонента 2” “Часть речи” - “Прилагательное”

Примечания.

Параметр работает только в случае лемматизации текста.

В выборку попадают только словоформы, которые были лемматизированы.

При использовании этого параметра время выполнения запроса возрастает.

3.4.3. Учет границ синтаксических конструкций. Параметр “Границы конструкций”

Для исключения выборки сочетаний, компоненты которых разделены пунктуационными знаками, снимите флажок.

3.4.4. Исключение служебных слов. Параметр “Исключить”

Для построения n-грамм без учета предлогов, союзов, частиц, словоформ, состоящих из небуквенных символов, поставьте флажок в соответствующих чек-боксах.

3.4.5. Снятая и неснятая омонимия. Параметр “Омонимия”

Для построения n-грамм на основе лемматизированных текстовых форм, леммы и грамматические значения которых проверены, поставьте флажок в чек-боксе “со снятой омонимией”.

Для построения n-грамм на основе текстовых форм, лемматизированных только в автоматическом режиме, поставьте флажок в чек-боксе “с неснятой омонимией”.

Для включения в выборку всех словоформ подкорпуса снимите флажки в этих чек-боксах.

Примечания.

Параметры работают только в случае лемматизации текста.

В выборку попадают только словоформы, которые были лемматизированы.

3.5. Параметры вывода

3.5.1. Частотность n-грамм. Параметр “Встречаемость”

Для вывода на экран n-грамм, встречающихся в подкорпусе определенное количество раз, в поля параметра “Количество сочетаний” введите числовые значения, например, 5 - 20.

Для вывода всех n-грамм оставьте поля пустыми.

3.5.2. Форма вывода адресов. Параметр “Суммировать”

Для вывода адресов нескольких текстов в нескольких столбцах снимите флажок.

Для вывода адресов нескольких текстов в одной ячейке установите флажок в этом параметре.

3.6. Комбинированные запросы

Запрос может быть сформирован с помощью различных сочетаний параметров.

Используемые в запросе параметры и их значения определяются пользователем и зависят от решаемой задачи.

Примечание. Некоторые параметры замедляют скорость выполнения запроса.

4. Контекстные подсказки

Параметры запросной формы имеют контекстные подсказки.