Интеллектуальный анализ данных

Интеллектуальный анализ данных (Шаблон:Lang-en) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин Интеллектуальный анализ данных.

ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи решаемые Data Mining:[]

Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
Кластеризация – разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
Регрессия – установление зависимости непрерывными входным и выходным векторами.
Ассоциация – поиск повторяющихся паттернов. Например, поиск устойчивых связей в корзине покупателя (market basket analysis) – вместе с пивом покупают орешки.
Последовательные шаблоны – аналогично задаче ассоциации, но с учетом временной составляющей. Например, поиск причинно-следственных связей.
Прогнозирование – аналогично задаче регрессии, но с учетом временной составляющей. Например, прогноз трендов финансовых показателей.
Анализ отклонений – выявление наиболее нехарактерных паттернов. Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые четыре. Остальные задачи сводятся к ним тем или иным способом.

Алгоритмы обучения[]

Для задач классификации и регрессии характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Этапы обучения[]

Можно выделить типичный ряд этапов решения задач методами Data Mining:

Формирование гипотезы.
Сбор данных.
Подготовка данных (фильтрация).
Выбор модели.
Подбор параметров модели и алгоритма обучения.
Обучение модели (атоматический поиск остальных параметров модели).
Анализ качества обучения, если неудовлетворительный переход на п.5 или п.4
Анализ выявленных закономерностей, если неудовлетворительный переход на п.1,4 или 5.

См. также[]

Литература[]

Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.

Журавлев Ю.И., Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения", к книге прилагается компакт-диск с демо-версией программной системы «РАСПОЗНАВАНИЕ». — М.: Изд. «Фазис», 2006. — 176 с. ISBN 5-7036-0106-8

Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. ISBN 5-95-560064-7

Айвазян С.А., Бухштабер В.М., Енюков Е.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 608 с.

Ссылки[]

Шаблон:Statistics-stub Шаблон:Ai-stub

ar:تنقيب في البيانات cs:Data mining eu:Datu-meatzaritza fa:کاوش‌های ماشینی در داده‌ها he:כריית מידע hu:Adatbányászat id:Penggalian data lt:Duomenų išgavimas nl:Data mining no:Data mining pl:Eksploracja danych simple:Data mining sl:Podatkovno rudarjenje su:Data mining sv:Data mining th:การทำเหมืองข้อมูล vi:Khai phá dữ liệu