Часть полного текста документа:Искусственный интеллект на страже Олег Зайцев Применение самоорганизующихся карт для анализа инцидентов ИБ Самоорганизующиеся карты Самоорганизующиеся карты, или SOM (Self-Organizing Maps), являются разновидностью искусственных нейронных сетей, но обладают одним существенным отличием, связанным с методикой обучения. Обычные нейронные сети обучаются по методу "обучение с учителем", т.е. для их обучения требуется подготовка массива вида "вектор входных параметров" - "вектор выходных параметров". Для обучения самоорганизующихся карт применяется метод "обучение без учителя", т. е. результат обучения всецело зависит только от входных данных. Наибольшую известность получили самоорганизующиеся карты Кохонена, работающие по алгоритмам, предложенным в 80-годах финским ученым Тейво Кохоненом. У самоорганизующихся карт есть ряд областей применения, наиболее важная с практической точки зрения - анализ данных с целью поиска закономерностей и проведения кластеризации данных. Анализ данных с помощью самоорганизующихся карт основан на том, что они позволяют представить множество объектов, заданных многомерным пространством (т.е. с количеством признаков более двух) в виде двумерных карт, причем близко расположенным в многомерном пространстве объектам соответствуют близко расположенные точки на плоской карте. Соответственно если имеется множество из сотен или тысяч объектов, каждый из которых описывается как минимум несколькими свойствами, то проанализировать это множество на наличие закономерностей и аномалий весьма сложно. Поэтому можно провести обучение самоорганизующейся карты и получить на выходе достаточно наглядные двумерные карты, которые несложно проанализировать визуально. Рассмотрим показательный практический пример, для чего вернемся к рассмотренной в прошлой статье задаче анализа трафика пользователей. Возьмем трафик пользователей за один день и охарактеризуем его следующими показателями: 1. Количество запросов за рабочий день; 2. Суммарный объем загруженной информации; 3. Суммарный объем видеоданных; 4. Суммарный объем аудиоданных; 5. Суммарный объем загруженных изображений. Полученную выборку оперативно проанализировать нелегко, хотя можно, конечно, найти максимальные, минимальные и средние значения для каждого из показателей. Попробуем применить уже известную нам программу Deductor Lite (www.basearoup.ru). Она обладает способностью обучать и отображать самоорганизующиеся карты Кохонена. Для построения карт Кохонена в пакете Deductor Lite необходимо импортировать данные, после чего вызвать мастер обработки данных и выбрать в нем позицию "Карта Кохонена". Вызванный мастер будет пошагово руководить процессом создания карты. По окончании процесса обучения следует отметить в мастере параметры, для которых необходимо построить и отобразить карты. После этого мастер завершит работу и можно будет приступить к анализу. При рассмотрении карты для параметра QUERY_COUNT (количество запросов) выявляется четко видимая закономерность-у большинства пользователей (визуально порядка 70-80%) количество запросов невелико-порядка 500-1500 за рабочий день. Далее имеются сравнительно небольшая группа пользователей, делающих 2-5 тыс. ............ |