Модуль n-грамм информационно-аналитической системы “Манускрипт”:
руководство пользователя
Вер. 0.2
В. А. Баранов
Р. М. Гнутиков
Содержание
3.1.1. Количество компонентов. Параметр “Компонент”
3.1.2. Маска компонента. Поле параметра “Компонент”
3.2. Количественные и статистические параметры
3.2.1. Количество и меры ассоциации. Параметр “Мера”
3.3.1. Ввод маски. Параметр “Набор символов”
3.3.2. Применение маски к типу единицы. Параметр “Интерпретация маски”
3.3.3. Соответствие маски и текстового прецедента. Параметр “Точность”
3.3.4. Расстояние между компонентами. Параметр “Расстояние”
3.3.5. Контактные и удаленные компоненты. Параметр “Контакт”
3.3.6. Учет порядка следования компонентов. Параметр “Закрепленность”
3.3.7. Слияние n-грамм с идентичными компонентами. Параметр “Следование”
3.3.8. Сочетаемость компонентов n-грамм. Параметр “Симметрия”
3.4. Лингвистические параметры
3.4.1. Лингвистическая единица n-грамм. Параметр “Тип компонентов”
3.4.2. Учет грамматических значений. Параметр “Грамматические признаки”
3.4.3. Учет границ синтаксических конструкций. Параметр “Границы конструкций”
3.4.4. Исключение служебных слов. Параметр “Исключить”
3.4.5. Снятая и неснятая омонимия. Параметры “Словарь” и “Снимать омонимию”
3.5.1. Частотность n-грамм. Параметр “Количество n-грамм”
3.5.2. Форма вывода адресов. Параметр “Объединить адреса”
3.5.3. Алфавит вывода лингвистических единиц. Параметр “Алфавит”
Модуль предназначен для построения n-грамм (сочетаний, состоящих из двух, трех и более компонентов) с помощью настраиваемых параметров запроса.
Перечни n-грамм строятся на основе подкорпуса рукописей, текстов или их фрагментов.
Запросная форма содержит количественные, статистические, лингвистические и некоторые другие параметры поиска, упорядочения и демонстрации n-грамм.
В строке “Запрос” введите слово, часть слова или знак процента для поиска рукописей (томов) и текстов, например: %Житие%
В чекбоксах рукописей или текстов отметьте необходимые, например: Житие Феклы и Житие Кондрата.
Примечание. Используйте чекбокс рукописи или тома, для того чтобы отметить все тексты рукописи или тома.
Используйте гиперссылку “Мои выборки” для использования подготовленной и сохраненной выборки.
Для построения перечня биграмм в полях “Компонент 1” и “Компонент 2” введите знак процента %.
Нажмите “Выполнить”.
Для построения перечней три- и более грамм с помощью кнопки “+” слева от поля “Компонент 2” добавьте нужное количество полей и введите в каждом знак процента %.
Для поиска сочетаний, содержащих конкретные словоформы, с помощью виртуальной клавиатуры введите в поля “Компонент 1” и/или “Компонент 2” буквенную маску компонента или его части, например, въ или въ%.
Примечание. Используйте знак % для любого количества любых символов, знак подчеркивания _ для одного любого символа.
Для получения сведений об абсолютном или относительном количестве n-грамм или о степени ассоциации компонентов n-граммы выберите необходимое значение, например, “Относительное количество” или T-score.
По умолчанию в поле “Компонент” маска вводится с помощью клавиатуры компьютера или виртуальной клавиатуры с символами старославянского алфавита. Для использования иных символов в параметре “Набор символов” выберите необходимые.
Для применения маски компонента к леммам выберите значение “Начальная форма”.
Для применения маски компонента к словоформам выберите значение “Точная маска”.
Для применения маски компонента ко всем формам парадигмы, в которую входит словоформа, соответствующая маске, выберите значение “Все словоформы”.
При использовании регулярных выражений для маски компонента выберите значение “Регулярное выражение”.
Для построения n-грамм, включающих компоненты на основе образца поиска, выберите требуемую степень совпадения образца поиска и словоформы текстов.
Примечание. Параметр рекомендуется использовать только в отношении словоформ.
Для формирования n-грамм, состоящих из компонентов, которые не находятся в контакте, “Расстояние” укажите количество словоформ между компонентами.
Для вывода n-грамм, компоненты которых находятся в подкорпусе только рядом, выберите значение “Неразрывные”.
Примечание. Значение “Неразрывные” может быть применено только при расстоянии между компонентами от 0 до n.
Для вывода n-грамм, компоненты которых находятся в подкорпусе только на расстоянии, выберите значение “Разрывные”.
Примечание. Значение “Разрывные” может быть применено только при расстоянии между компонентами от 1 до n.
Для игнорирования параметра “Контакт” выберите значение “Все”.
Для вывода n-грамм, компоненты которых в подкорпусе могут следовать в любом порядке по отношению друг к другу, выберите значение “Нефиксированные”.
Для вывода n-грамм, компоненты которых в подкорпусе располагаются только в определенной последовательности, выберите значение “Фиксированные”.
Для игнорирования параметра “Фиксированность” выберите значение “Все”.
Для игнорирования следования компонентов n-грамм, состоящих из идентичных форм, снимите флажок.
Для учета следования компонентов n-грамм поставьте флажок.
Примечание. Две n-граммы, состоящие из идентичных форм, но с разным следованием относительно друг друга, считаются одной и той же n-граммой, встретившейся два раза, и будут выведены как одна n-грамма с количеством встречаемости 2.
Для вывода n-грамм, компоненты которых в подкорпусе встречаются только вместе и не встречаются с другими компонентами, выберите значение “Симметричные”.
Для вывода n-грамм, компоненты которых в подкорпусе встречаются также и с другими компонентами, выберите значение “Несимметричные”.
Для игнорирования параметра “Симметрия” выберите значение “Все”.
Для построения n-грамм на основе начальных форм выберите значение “Начальная форма”.
Для построения n-грамм на основе текстовых форм выберите значение “Словоформа”.
Для построения n-грамм на основе компонентов, имеющих грамматическое значение, с помощью выпадающего меню выберите свойство, с помощью плюса справа откройте значения свойства и выберите значение, например, для “Компонента 1” “Часть речи” - “Существительное” и для “Компонента 2” “Часть речи” - “Прилагательное”
Примечания.
Параметр работает только в случае лемматизации текста.
В выборку попадают только словоформы, которые были лемматизированы.
При использовании этого параметра время выполнения запроса возрастает.
Для исключения выборки сочетаний, компоненты которых разделены пунктуационными знаками, снимите флажок.
Для построения n-грамм без учета предлогов, союзов, частиц, словоформ, состоящих из небуквенных символов, поставьте флажок в соответствующих чекбоксах.
Для построения n-грамм на основе лемм со снятой омонимией выберите словарь и поставьте флажок в чекбоксе “Снимать омонимию”.
Примечания.
Параметры работают только в случае лемматизации текста.
В качестве словаря рекомендуется выбирать грамматический словарь древнерусского языка - ГСДЯ.
При выборе “Снимать омонимию” используются результаты автоматического устранения омонимии.
В выборку попадают только леммы словоформ, которые были лемматизированы.
Для вывода на экран n-грамм, встречающихся в подкорпусе определенное количество раз, в поля параметра “Количество сочетаний” введите числовые значения, например, 5 - 20.
Для вывода всех n-грамм оставьте поля пустыми.
Для вывода адресов нескольких текстов в нескольких столбцах снимите флажок.
Для вывода адресов нескольких текстов в одной ячейке установите флажок в этом параметре.
Выберите алфавит для отображения результатов запроса.
Запрос может быть сформирован с помощью различных сочетаний параметров.
Используемые в запросе параметры и их значения определяются пользователем и зависят от решаемой задачи.
Примечание. Некоторые параметры замедляют скорость выполнения запроса.
Параметры запросной формы имеют контекстные подсказки.