Григорьева Е.Г., Клячин В.А., Помельников Ю.В., Попов В.В. Об одном алгоритме выделения ключевых слов на основе графовой модели лингвистического корпуса
DOI: https://doi.org/10.15688/jvolsu2.2017.2.6
Елена Геннадьевна Григорьева
Кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. , Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
http://orcid.org/0000-0001-8303-262X
Владимир Александрович Клячин
Доктор физико-математических наук, доцент, заведующий кафедрой компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
http://orcid.org/0000-0003-1922-7847
Юрий Вячеславович Помельников
Кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
http://orcid.org/0000-0001-7311-2941
Владимир Валентинович Попов
Кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет
просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. , Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
http://orcid.org/0000-0003-0419-2874
Аннотация. Одной из задач компьютерной корпусной лингвистики является задача автоматического определения ключевых слов текста. Основные методы решения данной задачи, будучи статистическими, базируются на вычислении различных частотных характеристик текста. При этом чаще других используется модель «мешка слов», которая не учитывает порядок следования слов в тексте. В статье предлагается графовая модель текста, позволяющая вычислять частотные характеристики слов текста не только в рамках модели «мешка слов», но и с учетом расположения пар слов в какой-либо общей части текста, например в одном предложении. Для работы с такой моделью построена программная модель в виде схемы базы данных, предназначенной для хранения различной статистической информации текста. С учетом такой модели данных в статье предложен алгоритм определения ключевых слов текста, реализация которого выполнена на языке программирования Python. При анализе текста из него сначала выделяется приблизительно 40 слов с наибольшей мерой tf-idf, а из них – 20 слов, которые чаще других употребляются в данном тексте. Эти слова рассматриваются как вершины некоторого графа G, причем кратность ребра, соединяющего вершины t и t', равна числу предложений в тексте d, содержащих оба этих слова. Далее выбираются приблизительно 10 вершин графа наибольшей степени. Слова, соответствующие этим вершинам, и принимаются за ключевые слова данного текста.
Ключевые слова: граф, текст, слово, разбиение текста, статистическая мера tf-idf, ключевое слово, базовая форма слова.
Цитирование. Григорьева Е. Г., Клячин В. А., Помельников Ю. В., Попов В. В. Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2017. – Т. 16, № 2. – С. 58–67. – DOI: https://doi.org/10.15688/jvolsu2.2017.2.6.
Произведение «Об одном алгоритме выделения ключевых слов на основе графовой модели лингвистического корпуса» созданное автором по имени Григорьева Е.Г., Клячин В.А., Помельников Ю.В., Попов В.В., публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.