МЕТОДИ ТА ЗАСОБИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ДОКУМЕНТІВ
Journal: Bulletin of Cherkasy State Technological University (Vol.1, No. 18)Publication Date: 2022-06-27
Authors : Дмитро Олегович Якименко; Євгенія Юріївна Катаєва;
Page : 43-52
Keywords : ключові слова; аналіз тексту; пошук; текстові документи; класифікація;
Abstract
В роботі проведено огляд методів аналізу та обробки електронних документів. Проаналізовано методи аналізу текстових документів для вирішення задачі визначення тематичної спорідненості текстів. Виконано огляд існуючих підходів до вирішення задачі класифікації. Описано основні підходи, що використовуються в задачі класифікації текстів; визначено етапи процесу класифікації та розглянуто найпоширеніші методи класифікації текстових документів. Розглянуто основні підходи до попередньої обробки тексту: Нижній регістр, Коренева корекція, Стемінг, Лематизація, Видалення стоп-слова, Нормалізація. Розглянуто переваги та недоліки кожного підходу. Розглянуто процедуру зменшення розмірності набору ознак із поділом на підпроцеси: обирання ознак та виділяння ознак. Розглянуто, в яких випадках кожен із підпроцесів є недоцільним для використання, та описано, які пошукові та фільтрові підходи і метрики є альтернативними або спорідненими для них. Зроблено висновок щодо необхідності подальшого розроблення алгоритмів класифікації на базі зазначених методів, що були б простими в реалізації, ефективними, мали низькі обчис-лювальні витрати під час навчання та високу якість класифікації в реальних завданнях. Визначено підхід до оцінки тематичної близькості документів з використанням редукції простору ознак і розглянуто алгоритм формування інформаційно-пошукових атрибутів доку-ментів для виконання автоматичної кластеризації документів. Розглянуто доцільність застосування для цього методів інтелектуального аналізу тексту. Проаналізовано відкрите програмне забезпечення з використанням розглянутих методів.
Other Latest Articles
- СУЧАСНІ ТЕХНОЛОГІЇ ОЦІНЮВАННЯ ЕФЕКТИВНОСТІ ДІДЖИТАЛІЗАЦІЇ
- АЛГОРИТМ МОНІТОРИНГУ ПОТУЖНОСТЕЙ КРИТЕРІЇВ ТЕСТУВАННЯ ЕКСПОНЕНЦІАЛЬНОСТІ ЩІЛЬНОСТІ ПОТОКУ НЕЙТРОНІВ В «ОБ’ЄКТІ УКРИТТЯ»
- МЕТОД КЛАСТЕРИЗАЦІЇ КВАЗІПЕРІОДИЧНОГО СИГНАЛУ НА ОСНОВІ АЛГОРИТМУ КЛОНАЛЬНОГО ВІДБОРУ
- РОЗРОБКА ГРАФОАНАЛІТИЧНОЇ МОДЕЛІ СИТУАЦЙНОГО УПРАВЛІННЯ ПРОЕКТОМ В УМОВАХ SCRUM У СФЕРІ ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ
- Screening, characterization and molecular insights of rhamnolipid biosurfactant produced by Pseudomonas aeruginosa BS1
Last modified: 2023-04-15 22:05:24