ResearchBib Share Your Research, Maximize Your Social Impacts
Sign for Notice Everyday Sign up >> Login

АДАПТИВНЫЙ МЕТОД РЕДУКЦИИ РАЗМЕЧЕННЫХ ВЫБОРОК ДАННЫХ ДЛЯ ПОСТРОЕНИЯ ДИАГНОСТИЧЕСКИХ МОДЕЛЕЙ

Journal: Automation of technological and business processes (Vol.10, No. 3)

Publication Date:

Authors : ;

Page : 10-18

Keywords : выборка; диагностирование; классификация; класс; кластер; метрика; экземпляр.;

Source : Downloadexternal Find it from : Google Scholarexternal

Abstract

Решена актуальная задача редукции размеченных выборок данных большого размера путем извлечения подвыборок меньшего размера для построения диагностических и распознающих моделей по прецедентам. Предложен детерминированный метод редукции размеченных выборок, который использует информацию о классах для извлечения репрезентативных выборок небольшого размера. Предложенный метод последовательно разбивает исходную выборку на гиперсферы, радиусы которых определяются расстояниями до ближайших экземпляров противоположного класса. Из центров полученных гиперсфер формируется подвыборка меньшего размера. Благодаря адаптивности радиуса каждой гиперсферы к расстоянию до ближайшего экземпляра противоположного класса в редуцированной выборке сохраняется большинство наиболее важных экземпляров, которые находятся вблизи границ классов. Это позволяет извлекать репрезентативные выборки с хорошо определенными межклассовыми границами. Метод базируется на гипотезе о компактности классов, поэтому объем сокращенной выборки сильно зависит от степени разделимости классов. Например, если классы компактны, объем редуцированной выборки может быть слишком малым с плохо определенными границами классов. Для решения данной проблемы, предлагается регулировать объем извлекаемой выборки, изменяя радиусы гиперсфер с помощью долевого коэффициента. Таким образом, можно более точно определять границы классов, повышая репрезентативность редуцированных выборок. Для обработки очень больших исходных выборок, когда объем данных не позволяет загрузить их полностью в память ЭВМ, либо данные поступают динамически, предложенный метод позволяет обрабатывать исходную выборку пакетами заданного объема. Разработано программное обеспечение, реализующее предложенный метод, которое позволяет проводить вычислительные эксперименты по исследованию его свойств, при решении задач редукции размеченных выборок данных большого размера.

Last modified: 2018-12-03 23:23:27