Клячин В.А., Хижнякова Е.В. Атрибуция медийных текстов на основе обученной модели естественного языка и лингвистическая оценка качества идентификации
DOI: https://doi.org/10.15688/jvolsu2.2024.5.3
Владимир Александрович Клячин
доктор физико-математических наук, профессор, заведующий кафедрой компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0003-1922-7849
Екатерина Владимировна Хижнякова
старший преподаватель кафедры компьютерных наук и экспериментальной математики, младший научный сотрудник кафедры теории и практики перевода и лингвистики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0002-7914-9988
Аннотация. Разработка эффективных систем фильтрации медийных текстов обусловлена необходимостью развития систем искусственного интеллекта, представляющего собой большую модель языка, которая должна создаваться на основе «правильных» текстовых образцов, не содержащих признаков дезинформации, инфодемии и недостоверности. В статье изложены результаты автоматической идентификации качественных медийных текстов и текстовых экземпляров, содержащих инфодемические и недостоверные признаки. Она проведена с применением модели естественного языка, построенной методами машинного обучения на основе размеченного вручную корпуса. Цели работы заключались в создании модели языка медийных сообщений, оценке ее качества и выявлении ошибок идентификации, обусловленных лингвистическими характеристиками текстов. Создание модели языка медийных сообщений выступает условием повышения эффективности и качества систем искусственного интеллекта. Установлено, что тестовое использование обученной модели естественного языка позволяет с высокой точностью провести фильтрацию медийных текстов. Наибольшую эффективность в рамках модели продемонстрировал метод опорных векторов: доля ошибочно распознанных информативных текстов, отвечающих признакам достоверности и новизны, невысока и составляет 6,2 %, количество неправильно распознанных неинформативных текстов составляет примерно 10,2 %. Установленные ошибки в идентификации информативных текстов связаны с употреблением в заголовках имен собственных (антропонимов, топонимов) и числительных. К лингвистическим признакам неправильно распознанных текстов, содержащих признаки дезинформации, относятся текстовые образцы, содержащие высказывания с глаголами в форме будущего времени, а также глаголами речи, часто встречающимися в достоверных текстах.
Ключевые слова: медийный текст, нейронная сеть, модель языка, метод машинного обучения, корпус, автоматическая идентификация.
Цитирование. Клячин В. А., Хижнякова Е. В. Атрибуция медийных текстов на основе обученной модели естественного языка и лингвистическая оценка качества идентификации // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2024. – Т. 23, № 5. – С. 31–46. – DOI: https://doi.org/ 10.15688/jvolsu2.2024.5.3
Атрибуция медийных текстов на основе обученной модели естественного языка и лингвистическая оценка качества идентификации by Клячин В.А., Хижнякова Е.В. is licensed under CC BY 4.0