Непараметрические робастные алгоритмы обработки данных
Вашлаев Дмитрий Иванович, магистрант
Сибирский федеральный университет
Ключевые слова: робастная статистика, непараметрическая статистика, регрессионный анализ, обра- ботка данных
В
современном мире все большую роль в промышленности приобретают автоматизированные системы. Для каче- ственного управления технологическим процессом необходимо предварительное построение математической мо-
дели или идентификация и глубокое исследование процесса. Модели позволяют проводить качественный и количе- ственный анализ объекта, а также прогнозировать его дальнейшее поведение.
Огромное влияние на адекватность будущей модели оказывают исходные данные, поэтому предварительная обра- ботка данных приобретает особую значимость. Основная задача данного этапа — обработка аномальных измерений, выбросов (промахов), в исходной выборке. Причины появления аномальных наблюдений на практике очень разноо- бразны:
сбой измерительной аппаратуры;
искажение данных при их регистрации, передаче и хранении.
Присутствие нескольких выбросов может негативно отразиться на вычислении оценок параметров распределений и различных статистических характеристик.
Проблема обработки данных, содержащих резко выделяющиеся значения, давно известна. Даже одно такое неза- меченное значение может значительно снизить точность анализа данных, а иногда и совсем его обесценить. Представ- ление о том, какие значения считать резко выделяющимися, в большинстве случаев носят субъективный характер, так как оно основано на личном опыте исследователя. Исключение «плохих» данных по существу представляет «чистку» первичных данных перед обработкой и в ряде случаев является вполне допустимым. Однако, такая процедура тщатель- ного просмотра данных возможна только для небольших выборок. Если объем данных велик, то их просмотр потре- бует столько времени и усилий, что вряд ли окажется реальным. Вместе с тем, практика обработки данных показывает, что появление резко выделяющихся значений в результатах наблюдений является скорее правилом, чем исключением. Таким образом, особое значение принимает возможность автоматизированной обработки резко выделяющихся наблю- дений для больших объемов выборок.
Борьба с выбросами актуальна не только в идентификации, но и в любых вопросах, связанных со статистической обработкой данных. Проблемами определения выбросов и получения методов, устойчивых к выбросам, занимается раздел статистики называемый робастной статистикой. В статистике под робастностью понимают нечувствительность к малым отклонениям от предположений [1]. При обработке аномальных измерений были выработаны два подхода:
исключение промахов из выборки;
использование робастных методов обработки.
Термин «робастный» введен Джорджем Боксом в 1953 году для обозначения методов, устойчивых к малым отклоне- ниям от предположений. Основы математической теории робастных оценок заложены Питером Хьюбером.
Выбросы (резко выделяющиеся наблюдения) — наблюдения, сильно отличающиеся от основной массы элементов выборки. Они обычно трактуются как грубые ошибки, возникающие в результате случайного просчета или неправиль- ного чтения показаний измерительного прибора.
Робастная оценка — статистическая оценка, нечувствительная к малым изменениям исходной статистической мо- дели. Также термин робастный переводится, как устойчивый, стабильный, помехоустойчивый.
Статистическая модель является приближением реальных процессов, если модель успешно описывает исследуемый объект, то говорят, что она адекватна, в противном случае неадекватна.
Непараметрическая статистика в самой исходной модели предполагает, что функциональный вид распределений, участвующих в задаче не известен. Приведем основные определения данного раздела статистики.
Непараметрическая задача — статистическая задача, в которой указываются только различия между классами рас- пределений. По крайней мере, один из этих классов состоит из подчиняющихся некоторым довольно общим ограни- чениям, а в остальном неизвестных распределений. Такой класс распределений называется непараметрической гипо- тезой [3].
Непараметрическая статистика — ветвь математической статистики, занимающаяся рассмотрением непараметри- ческих задач и связанных с ними теоретических проблем.
Непараметрические процедуры — алгоритмы решения непараметрических задач.
В непараметрическом случае оценка «параметров» возможна, если параметр есть известный функционал от неиз- вестного распределения. Оценка этого функционала, полученная без предположения о типе распределения, называ- ется непараметрической.
Непараметрический факт — свойство выборки (или ее преобразований), которое не зависит от функционального вида распределения генеральной совокупности.
Методы непараметрической регрессии интенсивно развиваются в последние десятилетия. Повышенный интерес к сглаживанию обусловлен двумя причинами: статистики осознали, что параметрический подход не обладает необхо- димой гибкостью при оценивании, развитие вычислительной техники породило потребность в создании теории вычис- лительных методов непараметрического оценивания.
Регрессия описывает усредненную количественную связь между выходом и входом объекта. Методы непараметри- ческой обработки информации работают при минимуме априорной информации, таким образом, иногда методы непара- метрической регрессии применяют на начальной стадии анализа объекта для угадывания параметрического семейства
зависимостей. Однако, универсальность методов компенсируется сложностью обработки исходной выборки, которую приходится хранить на протяжении всех вычислений. Вид функции регрессии может показать, для каких значений ар- гумента следует ожидать наибольшие значения наблюдений, также большой интерес представляют монотонность или унимодальность функции. Более того, иногда необходимо получить не функцию регрессии, а ее производные или другие функционалы.
При наличии наблюдений {(xi , yi ), i 1, n} регрессионное соотношение может задаваться следующим образом:
Do'stlaringiz bilan baham: |