Интеллектуальный анализ данных (Шаблон:Lang-en) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.
Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин Интеллектуальный анализ данных.
ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.
Задачи решаемые Data Mining:[]
- Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
- Кластеризация – разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
- Регрессия – установление зависимости непрерывными входным и выходным векторами.
- Ассоциация – поиск повторяющихся паттернов. Например, поиск устойчивых связей в корзине покупателя (market basket analysis) – вместе с пивом покупают орешки.
- Последовательные шаблоны – аналогично задаче ассоциации, но с учетом временной составляющей. Например, поиск причинно-следственных связей.
- Прогнозирование – аналогично задаче регрессии, но с учетом временной составляющей. Например, прогноз трендов финансовых показателей.
- Анализ отклонений – выявление наиболее нехарактерных паттернов. Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые четыре. Остальные задачи сводятся к ним тем или иным способом.
Алгоритмы обучения[]
Для задач классификации и регрессии характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Этапы обучения[]
Можно выделить типичный ряд этапов решения задач методами Data Mining:
- Формирование гипотезы.
- Сбор данных.
- Подготовка данных (фильтрация).
- Выбор модели.
- Подбор параметров модели и алгоритма обучения.
- Обучение модели (атоматический поиск остальных параметров модели).
- Анализ качества обучения, если неудовлетворительный переход на п.5 или п.4
- Анализ выявленных закономерностей, если неудовлетворительный переход на п.1,4 или 5.
См. также[]
- Машинное обучение
- Прикладная статистика
- Метод опорных векторов
Литература[]
- Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.
- Журавлев Ю.И., Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения", к книге прилагается компакт-диск с демо-версией программной системы «РАСПОЗНАВАНИЕ». — М.: Изд. «Фазис», 2006. — 176 с. ISBN 5-7036-0106-8
- Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. ISBN 5-95-560064-7
- Айвазян С.А., Бухштабер В.М., Енюков Е.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 608 с.
Ссылки[]
- Solutions-Center
- BaseGroup
- Ridel
- Statsoft
- Businessdataanalytics
- Forecsys
- University of Central Florida
- KXEN
- ИБХФ им.Н.М.Эмануэля
Шаблон:Statistics-stub Шаблон:Ai-stub
ar:تنقيب في البيانات cs:Data mining eu:Datu-meatzaritza fa:کاوشهای ماشینی در دادهها he:כריית מידע hu:Adatbányászat id:Penggalian data lt:Duomenų išgavimas nl:Data mining no:Data mining pl:Eksploracja danych simple:Data mining sl:Podatkovno rudarjenje su:Data mining sv:Data mining th:การทำเหมืองข้อมูล vi:Khai phá dữ liệu