Визначення змістовної подібності текстових документів методом двоетапного аналізу

В.С. Рогоза, д-р техн. наук, Є.А. Борисенко
Національний технічний університет України
«Київський політехнічний інститут ім. Ігоря Сікорського»
Україна, 03056, Київ, пр-т Берестейський, 37
тел. +380674676553, e-mail: Ця електронна адреса захищена від спам-ботів. Вам необхідно увімкнути JavaScript, щоб побачити її.,
тел. +380669186516, e-mail: Ця електронна адреса захищена від спам-ботів. Вам необхідно увімкнути JavaScript, щоб побачити її.

Èlektron. model. 2025, 47(5):23-39

https://doi.org/10.15407/emodel.47.05.023

АНОТАЦІЯ

Розглянуто задачу виявлення подібних за змістом пар текстових документів у великих масивах документів, з якими здебільшого мають справу користувачі пошукових систем. Визначено слабкі сторони традиційних підходів розв’язання зазначеної задачі, такі, як суттєві витрати ресурсів комп’ютерів (пам’яті та часу обчислень), які стають особливо вразливими для масових комп’ютерів з обмеженими ресурсами в ситуаціях, коли кіль­кість пар документів, що аналізуються з точки зору їх семантичної ідентичності, сягають мільярдів. Відзначено, що в таких випадках порівняння документів за змістом, які ви­магають здійснення попарних викликів документів з дискової пам’яті до оперативної пам’яті, може займати десятки годин машинного часу, що може бути неприйнятним для дослідника.

Запропоновано новий підхід до розв’язання задачі визначення змістовної подібності документів, який складається з двох етапів: 1) приблизного визначення семантичної близькості документів за спрощеними методами та 2) наближеного оцінювання лексичної подібності документів з використанням методу мінхеш сигнатур. Завдяки двоетапному розв’язанню поставленої задачі, досягнуто певного компромісу між точністю аналізу та ресурсними витратами. Теоретичне обґрунтування запропонованого підходу та наведені експериментальні дані підтверджують ефективність запропонованого підходу, і дають підстави вважати, що він може служити основою для розвитку багатоетапних методів ідентифікації семантично подібних текстових документів.

КЛЮЧОВІ СЛОВА:

інформаційний пошук, неструктуровані дані, семантична та лек­сична подібності документів.

СПИСОК ЛІТЕРАТУРИ

  1. Рогоза В.С., Іщенко Г.В. Прямі та зворотні задачі інформаційного пошуку текстових документів. Електронне моделювання. 2024. Том 46, № 6. С. 8—28.
  2. Zhang Z., Gentile A.L., Ciravegna F. Recent advances in methods of lexical semantic relatedness — a survey. Natural language engineering. 2013. Vol. 19, no. 4. P. 411—479.
  3. Goczyła K. Ontologie w systemach informatycznych. Warszawa : Akademicka Oficyna Wydawnicza EXIT, 2011. 310 p.
  4. The description logic handbook / ed. by F. Baader et al. Cambridge : Cambridge University Press, 2003. 574 p.
  5. List of datasets for machine-learning research. URL: https://en.wikipedia.org/wiki/List_of_datasets.
  6. Curiskis S.A. et al. An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit. Information processing & management. 2020. Vol. 57, no. 2. P. 1—50.
  7. Word2vec. URL: https://en.wikipedia.org/wiki/Word2vec.
  8. Sculley D. Web-scale k-means clustering. Proceedings of the 19th international confe­rence on World wide web : Матеріали Міжнародної Наукоіої Конференції, North Carolina, 26 April 2010. P. 1177—1178.
  9. K-means clustering. URL: https://en.wikipedia.org/wiki/K-means_clustering.
  10. Qurashi A.W., Holmes V., Johnson A.P. Document processing: methods for semantic text similarity analysis. Methods for semantic text similarity analysis : Матеріали Міжнарод­ної Наукової Конференції, Novi Sad, 24 August 2020. P. 1—6.
  11. Jang B., Kim I., Kim J.W. Word2vec convolutional neural networks for classification of news articles and tweets. PLoS one. 2019. Vol. 14, no. 8. P. 1—20.
  12. Amorim R.C., Hennig C. Recovering the number of clusters in data sets with noise featu­res using feature rescaling factors. Information sciences. 2015. Vol. 324, no. 2. P. 126—145.

РОГОЗА Валерій Станіславович, д-р техн. наук, професор, професор Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сі­корського». В 1971 р. закінчив Київський політехнічний інститут. Область наукових досліджень — інформаційний пошук неструктурованих даних, мультиагентні системи, аналітичні методи обробки надвеликих масивів даних.

БОРИСЕНКО Єлизавета Андріївна, бакалавр Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського», котрий закінчила в 2024 р. Область наукових досліджень — методи інформаційного пошуку даних в роз­поділених інформаційних системах.

Повний текст: PDF