Григорьева Е.Г., Клячин В.А., Помельников Ю.В., Попов В.В. Об одном алгоритме выделения ключевых слов на основе графовой модели лингвистического корпуса

DOI: https://doi.org/10.15688/jvolsu2.2017.2.6

Елена Геннадьевна Григорьева

Кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет

просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация

Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. , Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

http://orcid.org/0000-0001-8303-262X

 

Владимир Александрович Клячин

Доктор физико-математических наук, доцент, заведующий кафедрой компьютерных наук и экспериментальной математики, Волгоградский государственный университет

просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация

Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

http://orcid.org/0000-0003-1922-7847

 

Юрий Вячеславович Помельников

Кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет

просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация

Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

http://orcid.org/0000-0001-7311-2941

 

Владимир Валентинович Попов

Кандидат физико-математических наук, доцент кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет

просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация

Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. , Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

http://orcid.org/0000-0003-0419-2874


Аннотация. Одной из задач компьютерной корпусной лингвистики является задача автоматического определения ключевых слов текста. Основные методы решения данной задачи, будучи статистическими, базируются на вычислении различных частотных характеристик текста. При этом чаще других используется модель «мешка слов», которая не учитывает порядок следования слов в тексте. В статье предлагается графовая модель текста, позволяющая вычислять частотные характеристики слов текста не только в рамках модели «мешка слов», но и с учетом расположения пар слов в какой-либо общей части текста, например в одном предложении. Для работы с такой моделью построена программная модель в виде схемы базы данных, предназначенной для хранения различной статистической информации текста. С учетом такой модели данных в статье предложен алгоритм определения ключевых слов текста, реализация которого выполнена на языке программирования Python. При анализе текста из него сначала выделяется приблизительно 40 слов с наибольшей мерой tf-idf, а из них – 20 слов, которые чаще других употребляются в данном тексте. Эти слова рассматриваются как вершины некоторого графа G, причем кратность ребра, соединяющего вершины t и t', равна числу предложений в тексте d, содержащих оба этих слова. Далее выбираются приблизительно 10 вершин графа наибольшей степени. Слова, соответствующие этим вершинам, и принимаются за ключевые слова данного текста.

Ключевые слова: граф, текст, слово, разбиение текста, статистическая мера tf-idf, ключевое слово, базовая форма слова.

Цитирование. Григорьева Е. Г., Клячин В. А., Помельников Ю. В., Попов В. В. Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2017. – Т. 16, № 2. – С. 58–67. – DOI: https://doi.org/10.15688/jvolsu2.2017.2.6.

 

Лицензия Creative Commons
Произведение «Об одном алгоритме выделения ключевых слов на основе графовой модели лингвистического корпуса» созданное автором по имени Григорьева Е.Г., Клячин В.А., Помельников Ю.В., Попов В.В., публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Вложения:
Скачать этот файл (6_Grigorjeva_etc.pmd.pdf) 6_Grigorjeva_etc.pmd.pdf
URL: https://l.jvolsu.com/index.php/ru/component/attachments/download/1574
578 Скачивания