Радбиль Т.Б., Маркина М.В. Вероятностно-статистическая методика установления гендерной принадлежности текстов на русском языке в судебном автороведении
https://doi.org/10.15688/jvolsu2.2021.5.4
Тимур Беньюминович Радбиль
доктор филологических наук, профессор, заведующий кафедрой теоретической и прикладной лингвистики, Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского
просп. Гагарина, 23, 603950 г. Нижний Новгород, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
ResearcherID: AAO-6983-2020
ScopusID: 57210390493
https://orcid.org/0000-0002-7516-6705
Марина Викторовна Маркина
кандидат физико-математических наук, доцент кафедры теоретической, компьютерной и экспериментальной механики, Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского
просп. Гагарина, 23, 603950 г. Нижний Новгород, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0002-1042-8006
Аннотация. В статье представлены промежуточные результаты разработки и усовершенствования компьютеризованной модели авторизации текстов на русском языке на основе вероятностно-статистической методики. Целью исследования является интерпретация экспериментального исследования расширенных возможностей компьютерной программы авторизации текста «КАТ» (компьютерная авторизация текста) при применении ее в диагностических автороведческих экспертизах по установлению гендерной принадлежности предполагаемого автора текста. Описаны результаты апробации усовершенствованной версии «КАТ», которая была адаптирована для определения и сопоставления стабильных относительных частот коэффициентов корреляции в текстах, авторами которых являются мужчины и женщины. Материалом исследования послужили созданные авторами и непрерывно пополняемые первичные базы художественных текстов XIX и XXI веков. Установлено, что в текстах, написанных мужчинами и женщинами, имеются значимые расхождения в таких коэффициентах корреляции, как средняя длина слов, средняя длина предложения, коэффициент предметности, коэффициент качественности, коэффициент активности, коэффициент динамизма, коэффициент связности. Проверка полученных результатов показала, что точность определения гендерной принадлежности на данном этапе исследования составляет приблизительно 65 %. Этот показатель может быть существенно превышен при увеличении объема и качественной спецификации баз данных с учетом типа дискурса и/или при использовании других моделей исчисления коэффициентов корреляции.
Ключевые слова: авторизация текста, компьютерная авторизация текста, гендер, судебное автороведение, автоматическая обработка текста, вероятностно-статистическая методика, прикладная лингвистика.
Цитирование. Радбиль Т. Б., Маркина М. В. Вероятностно-статистическая методика установления гендерной принадлежности текстов на русском языке в судебном автороведении // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2021. – Т. 20, № 5. – С. 43–55. – DOI: https://doi.org/10.15688/jvolsu2.2021.5.4
Произведение «Вероятностно-статистическая методика установления гендерной принадлежности текстов на русском языке в судебном автороведении» созданное автором по имени Радбиль Т.Б., Маркина М.В., публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.