Попов В.В., Штельмах Т.В. Естественный текст: математические методы атрибуции
DOI: https://doi.org/10.15688/jvolsu2.2019.2.13
Владимир Валентинович Попов
кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0003-0419-2874
Татьяна Владимировна Штельмах
старший преподаватель кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Россия
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0002-5320-7406
Аннотация. В статье предложено два алгоритма фильтрации некачественных текстов. Первый алгоритм основан на том, что частота появления n-грамм в качественном тексте подчиняется закону Зипфа, а в случай но генерированных текстах данный закон перестает действовать. Сравнение частотных характеристик двух типов текстов позволяет делать выводы относительно качества исходного текста. Второй алгоритм основан на сравнении скорости появления новых слов в текстах. В качественном тексте эта скорость, как правило, неравномерна, а в случайных текстах неравномерности нивелируются, что дает возможность обнаруживать некачественные тексты. Основные методы решения задачи фильтрации некачественных текстов – статистические. Они базируются на вычислении различных частотных характеристик текста. В отличие от модели «мешка слов», не учитывающей порядок следования слов в тексте, графовая модель текста (в ней вершинами являются слова или словоформы, а ребрами – пары слов), а также модели со структурами более высокого порядка, в которых используются частотные характеристики n-грамм при n > 2, позволяют учитывать взаимное расположение пар и троек слов в какой-либо общей части текста: в одном предложении или одной n-грамме.
Ключевые слова: естественный текст, псевдотекст, фильтрация текстов, закон Зипфа, n-граммы, скорость появления новых слов, «мешок слов», графовая модель текста.
Цитирование. Попов В. В., Штельмах Т. В. Естественный текст: математические методы атрибуции // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2019. – Т. 18, № 2. – С. 147–158. – DOI: https://doi.org/10.15688/jvolsu2.2019.2.13
Произведение «Естественный текст: математические методы атрибуции» созданное автором по имени Попов В.В., Штельмах Т.В., публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.