Модуль статистики информационно-аналитической системы “Манускрипт”:

руководство пользователя

Вер. 1.1

В. А. Баранов

Р. М. Гнутиков

Содержание

1. Назначение модуля статистики

2. Режимы работы и примеры запросов

2.1. Количественная оценка распределения лингвистических единиц в рукописи(ях)

2.1.1. Распределение единиц в рукописи(ях)

2.1.2. Распределение единиц во фрагментах текстов

2.2. Количественная оценка лингвистических единиц во фрагментах, текстах, рукописях

2.2.1. Количественная оценка лингвистических единиц в текстах или рукописях

2.2.2. Количественная оценка лингвистических единиц во фрагментах

2.3. Статистическая оценка лингвистических единиц в подкорпусе(ах)

3. Подготовка подкорпуса и операции с ним

3.1. Поиск рукописей, текстов, фрагментов

3.2. Сохранение подкорпуса

3.3. Использование готового подкорпуса

3.4. Удаление подкорпуса из запросной формы

3.5. Удаление подкорпуса из списка готовых подкорпусов

4. Параметры запросной формы

4.1. Базовые параметры

4.1.1. Единица анализа. Параметр “Тип единицы”

4.1.2. Единица подкорпуса. Параметр “Тип шага”

4.1.3. Группировка единиц подкорпуса. Параметры “Тип шага / Свойство для группировки”

4.1.4. Длина шага. Параметр “Шаг”

4.1.5. Способ демонстрации. Параметр “Объединить”

4.2. Количественные и статистические параметры

4.3. Параметры лингвистической единицы

4.3.1. Маска лингвистической единицы. Параметр “Единица”

4.3.2. Виртуальная клавиатура. Параметр “Набор символов”

4.3.3. Количество лингвистических единиц и расстояние между ними. Параметр “Расстояние”

4.3.4. Объединение результатов выборки. Параметр “Объединить”

4.3.5. Применение маски к типу единицы. Параметр “Интерпретация маски”

4.3.6. Соответствие маски и текстового прецедента. Параметр “Точность”

4.3.7. Учет грамматических значений. Параметр “Грамматические признаки”

4.4. Дополнительные возможности

4.4.1. Сортировка выборки

4.4.2. Поиск в выборке. Поле “Искать”

4.4.3. Уточнение выборки. Поле “Фильтр”

4.5. Комбинирование параметров

5. Контекстные подсказки

1. Назначение модуля статистики

Модуль предназначен для получения сведений о количественных и статистических характеристиках лингвистических единиц в подкорпусах, сформированных из рукописей, текстов, фрагментов исторического корпуса “Манускрипт”.

Сведения о количестве или статистических значениях лингвистических единиц могут быть получены как для одного подкорпуса, так и для нескольких.

Запросная форма позволяет сформировать подкорпус, выбрать анализируемую лингвистическую единицу и части (фрагменты), в пределах которых она анализируется, указать количественный или статистический параметр оценки, ввести маску лингвистической единицы, выбрать табличное или графическое представление результата и др.

2. Режимы работы и примеры запросов

Предусмотрено несколько режимов работы модуля:

2.1. Количественная оценка распределения лингвистических единиц в рукописи(ях)

2.1.1. Распределение единиц в рукописи(ях)

Для нахождения распределения символа, словоформы, леммы на страницах (листах) рукописи или нескольких рукописей:

Примечания.

При вводе маски лингвистической единицы, используйте % - для любого количества любых символов, _ - для одного любой символа.

Параметры “Грамматические признаки”, “Точность” используются при необходимости.

Пример: найти распределение союза “а” на листах трех списков поучений Ефрема Сирина.

Результат:

2.1.2. Распределение единиц во фрагментах текстов

Для нахождения распределения символа, словоформы, леммы в текстах с учетом фрагментов:

Примечания.

При вводе маски лингвистической единицы, используйте % - для любого количества любых символов, _ - для одного любой символа.

Параметры “Грамматические признаки”, “Точность” используются при необходимости.

Пример: найти распределение формы “рече” во фрагментах нескольких списков Евангелий.

Результат:

2.2. Количественная оценка лингвистических единиц во фрагментах, текстах, рукописях

2.2.1. Количественная оценка лингвистических единиц в текстах или рукописях

Для нахождения количественных данных о символах, словоформах, леммах в текстах:

Примечания.

При вводе маски лингвистической единицы, используйте % - для любого количества любых символов, _ - для одного любой символа.

Параметры “Грамматические признаки” и "Точность" используются при необходимости.

Параметр “Шаг” в этом режиме неактивен.

Пример: найти абсолютное и относительное количество предлога “въ” в Ассеманиевом и Остромировом Евангелиях.

Результат:

2.2.2. Количественная оценка лингвистических единиц во фрагментах

Для нахождения количественных данных о символах, словоформах, леммах во фрагментах рукописей или текстов:

Примечания.

При вводе маски лингвистической единицы, используйте % - для любого количества любых символов, _ - для одного любой символа.

Параметры “Грамматические признаки” и "Точность" используются при необходимости.

При выборе значения “выборка” параметра “Тип шага” параметры “Тип фрагмента” и “Свойство для группировки” недоступны.

Параметр “Шаг” в этом режиме неактивен.

Пример: найти относительное и абсолютное количество всех словоформ в тропарях и стихирах всех списков служебной минеи на май.

Результат:

2.3. Статистическая оценка лингвистических единиц в подкорпусе(ах)

Для нахождения статистических значений символов, словоформ, лемм во фрагментах, рукописях или текстах:

Примечания.

При вводе маски лингвистической единицы, используйте % - для любого количества любых символов, _ - для одного любой символа.

Параметры “Грамматические признаки”, “учитывать написание” используйте при необходимости.

Параметр “Шаг” в этом режиме неактивен.

Пример: найти статистические значения всех словоформ Остромирова Евангелия.

Результат:

3. Подготовка подкорпуса и операции с ним

3.1. Поиск рукописей, текстов, фрагментов

В строке “Запрос” введите слово, часть слова или знак процента для поиска рукописей (томов), текстов или фрагментов, например: %Еванг% или Еванг

В чек-боксах рукописей, текстов или фрагментов отметьте необходимые, например: Остромирово Евангелие и Архангельское Евангелие.

Примечания.

1. Используйте “Создать выборку” для формирования и сохранения запроса.

2. Используйте “Исключить фрагменты” для поиска только на основе метаданных рукописей и текстов.

3. Используйте “Искать в найденном” для поиска в полученной выборке.

4. Используйте общий чек-бокс рукописей (томов), текстов или фрагментов, для того чтобы отметить все единицы выборки одного типа.

3.2. Сохранение подкорпуса

Для сохранения подкорпуса введите его название.

3.3. Использование готового подкорпуса

Для использования сохраненных подкорпусов зайдите в “Мои выборки”, выберите нужные и вернитесь в модуль с помощью “Назад в модуль статистики”.

3.4. Удаление подкорпуса из запросной формы

Для удаления нескольких загруженных подкорпусов из запросной формы выберите “убрать”.

Для удаления из запросной формы одного подкорпуса загрузите второй или несколько других и удалите ненужный.

3.5. Удаление подкорпуса из списка готовых подкорпусов

Для удаления сохраненных подкорпусов войдите в “Мои выборки”, выберите нужные и нажмите “Удалить выбранные”..

4. Параметры запросной формы

4.1. Базовые параметры

4.1.1. Единица анализа. Параметр “Тип единицы”

Единицами подсчета (анализа) могут быть символы, словоформы, леммы.

Для анализа отдельных символов, текстовых форм, начальных форм выберите соответствующее значение параметра и введите в поле “Единица” маску единицы.

4.1.2. Единица подкорпуса. Параметр “Тип шага”

Подсчет единиц анализа может быть осуществлен как во всем подкорпусе, так и в его частях. Части подкорпуса, в которых осуществляется подсчет анализируемых единиц, называются шагами.

При анализе одной выборки выберите значения - знак, словоформа, страница, лист, фрагмент.

При анализе нескольких выборок выберите значения - фрагмент, текст, выборка.

Примечание. Для всех значений, кроме “выборка”, должно быть указано значение свойства “Группировка”.

4.1.3. Группировка единиц подкорпуса. Параметры “Тип шага / Свойство для группировки”

Группировка единиц подкорпуса устанавливается с помощью выбора одной из их характеристик. Так, тексты могут быть сгруппированы по жанру, по автору, по теме, рукописи - по дате создания, по количеству листов, фрагменты - по типу, листы - по порядку следования и т. п.

По умолчанию группировка единиц следующая:

При необходимости иной группировки укажите иное значение единицы.

Выбор текста, рукописи, фрагмента в качестве единицы шага требует обязательного выбора группировки.

4.1.4. Длина шага. Параметр “Шаг”

Подсчет анализируемых единиц может осуществляться как в каждой отдельной части подкорпуса, так и в группах (шагах) из нескольких частей. Количество частей, входящих в группу, называется длиной шага.

По умолчанию длина шага равна одной части.

При необходимости укажите иную длину шага.

        Примечание. Для фрагментов, текстов и выборок длина шага не устанавливается.

4.1.5. Способ демонстрации. Параметр “Объединить”

Объединение позволяет суммировать количество лингвистических единиц в частях подкорпуса, а в случае использования неточной маски - суммировать данные о разных лингвистических единицах, соответствующих маске поиска.

4.2. Количественные и статистические параметры

Для получения сведений об абсолютном или относительном количестве анализируемых лингвистических единиц или о статистических значениях выберите необходимое значение, например, “Относительное количество” или Weirdness.

Примечание. Статистические параметры используются только в режиме сопоставления анализируемого подкорпуса с контрастным подкорпусом.

4.3. Параметры лингвистической единицы

4.3.1. Маска лингвистической единицы. Параметр “Единица”

Для анализа всех символов, словоформ, лемм подкорпуса(ов) в поле “Единица” введите символ процента - %.

Для поиска конкретных единиц с помощью виртуальной клавиатуры введите в поле “Единица” ее буквенную маску или ее части, например, въ или въ%.

Примечания.

Используйте знак % для любого количества любых символов, знак подчеркивания _ для одного любого символа.

Единицами анализа могут быть также небуквенные символы. Для их ввода используйте параметр “Набор символов”.

4.3.2. Виртуальная клавиатура. Параметр “Набор символов”

Для использования расширенного набора буквенных символов, а также небуквенных знаков для ввода маски выберите нужный диапазон.

Примечание. По умолчанию виртуальная клавиатура содержит основные буквенные символы старославянского алфавита.

4.3.3. Количество лингвистических единиц и расстояние между ними. Параметр “Расстояние”

Для анализа сочетаний лингвистических или иных единиц откройте два или более полей “Единица”, используя символ “+” слева от поля.

С помощью параметра “Расстояние” задайте контактное или дистантное расположение единицы. При значении “от 0 до 0” будут найдены сочетания с контактным расположением компонентов, при “от 1 до 1” - с одной словоформой между компонентами, при “от 0 до 1” - все сочетания с контактным расположением компонентов или с одной словоформой между компонентами.

4.3.4. Объединение результатов выборки. Параметр “Объединить”

Если в поле “Единица” маска имеет символы % или _, то результатом поиска является перечень из нескольких единиц. Для получения суммированного результата используйте параметр “Объединить”.

4.3.5. Применение маски к типу единицы. Параметр “Интерпретация маски”

Маска может быть использована для поиска различных лингвистических единиц:

Маска может быть задана с использованием регулярных выражений. В таком случае выберите значение “Регулярное выражение”.

4.3.6. Соответствие маски и текстового прецедента. Параметр “Точность”

Используйте параметр “Точность” для точного или неточного поиска. С помощью значений параметра указывается степень совпадения маски с текстовыми формами.

Значения 0 и 0.1 соответствуют максимально точному совпадению.

Примечания.

Рекомендуется использовать значение 1.1, при котором устраняется графико-орфографическая вариативность.

Параметр рекомендуется использовать только в отношении словоформ.

При выводе результатов запроса на основе неточного поиска используется один из вариантов.

4.3.7. Учет грамматических значений. Параметр “Грамматические признаки”

Для поиска и демонстрации лингвистических единиц с определенными грамматическими значениями с помощью выпадающего меню выберите свойство, с помощью плюса справа откройте значения свойства и выберите значение, например для “Часть речи” - “Существительное”.

Примечания.

Параметр работает только в случае лемматизации текста.

В выборку попадают только те словоформы, которые были лемматизированы.

При использовании этого параметра время выполнения запроса возрастает.

4.4. Дополнительные возможности

После выполнения запроса становятся доступны несколько дополнительных возможностей - сортировка и уточнение выборки, а также поиск в выборке.

4.4.1. Сортировка выборки

Для изменения сортировки выборки нажмите стрелки △ ▽ в правой части заголовка нужного столбца.

4.4.2. Поиск в выборке. Поле “Искать”

Для поиска единицы выборки в правом верхнем углу таблицы с результатами введите маску.

4.4.3. Уточнение выборки. Поле “Фильтр”

Данные выборки могут быть уточнены с помощью поля Фильтр”, которое позволяет выбрать один или несколько единиц (рукописей, текстов, фрагментов), включенных в подкорпус.

Для получения сведений о лингвистических единицах некоторой части анализируемого подкорпуса выберите одну или несколько единиц.

Примечание.

Используйте клавишу Ctrl для выбора нескольких единиц.

4.5. Комбинирование параметров

При формировании запроса могут быть использованы различные сочетания параметров.

Используемые в запросе параметры и их значения определяются пользователем и зависят от решаемой задачи.

Примечания.

Неактуальные для запроса параметры деактивируются.

Использование некоторых параметров замедляет скорость выполнения запроса.

5. Контекстные подсказки

Параметры запросной формы имеют контекстные подсказки.