Куприянов Р.В., Солнышкина М.И., Лехницкая П.А. Параметрическая таксономия учебных текстов
DOI: https://doi.org/10.15688/jvolsu2.2023.6.6
Роман Владимирович Куприянов
кандидат психологических наук, старший научный сотрудник НИЛ «Текстовая аналитика», Казанский (Приволжский) федеральный университет
ул. Кремлевская, 18, 420008 г. Казань, Россия
доцент кафедры социальной работы, педагогики и психологии, Казанский национальный исследовательский технологический университет
ул. Карла Маркса, 68, 420015 г. Казань, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0001-9794-9607
Марина Ивановна Солнышкина
доктор филологических наук, руководитель и главный научный сотрудник НИЛ «Текстовая аналитика», профессор кафедры теории и практики преподавания иностранных языков, Казанский (Приволжский) федеральный университет
ул. Кремлевская, 18, 420008 г. Казань, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0003-1885-3039
Полина Александровна Лехницкая
лаборант-исследователь НИЛ «Нейрокогнитивные исследования», Казанский (Приволжский) федеральный университет
ул. Кремлевская, 18, 420008 г. Казань, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0002-3689-3213
Аннотация. Представленное исследование нацелено на решение проблемы типологизации текста как единицы дискурса и выполнено в рамках корпусного подхода с применением методов лингвистической статистики. Исследовательский корпус, общий объем которого превышает 90 тыс. словоформ, включает тексты на русском языке из 13 учебников для 2-го класса российских школ. В результате многофакторного дискриминантного анализа выявлены типологические характеристики текстов учебных дискурсов трех предметных областей – филологии, математики, естествознания. Рассчитаны формулы для классификации текстов по предметным областям. На основе этих формул разработана и валидирована параметрическая модель. В нее входят шесть параметров: среднее количество слов в предложении, среднее количество существительных, среднее количество глаголов и среднее количество прилагательных на предложение, локальный повтор существительного, глобальный повтор аргумента. Расчеты значений лингвистических параметров произведены при помощи автоматического анализатора текстов на русском языке RuLingva. Высокая степень классификационной точности параметрической модели – 80 % – обеспечивает ее достаточную надежность и позволяет применять полученные данные в лингвистической экспертизе, а также для автоматизации лингвистического профилирования текстов. Перспектива исследования связана с инсталляцией модели в RuLingva и разработкой аналогичных моделей для текстов учебного дискурса других предметных областей. Вклад авторов: Р.В. Куприянов – проведение дискриминантного анализа, описание результатов статистической обработки данных, анализ результатов и формулировка выводов; М.И. Солнышкина – разработка концептуального подхода исследования, анализ результатов и формулировка выводов; П.А. Лехницкая – подготовка материала исследования, обработка корпуса текстов в автоматическом анализаторе текстов, описание первичных результатов.
Ключевые слова: дискурс, предметная область, лексические параметры, синтаксические параметры, математическая модель, дискриминантный анализ.
Цитирование. Куприянов Р. В., Солнышкина М. И., Лехницкая П. А. Параметрическая таксономия учебных текстов // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2023. – Т. 22, № 6. – С. 80–94. – DOI: https://doi.org/10.15688/jvolsu2.2023.6.6
Параметрическая таксономия учебных текстов by Куприянов Р.В., Солнышкина М.И., Лехницкая П.А. is licensed under CC BY 4.0