Викия

Математика

Интеллектуальный анализ данных

1457статей на
этой вики
Добавить новую страницу
Обсуждение0 Share

Обнаружено использование расширения AdBlock.


Викия — это свободный ресурс, который существует и развивается за счёт рекламы. Для блокирующих рекламу пользователей мы предоставляем модифицированную версию сайта.

Викия не будет доступна для последующих модификаций. Если вы желаете продолжать работать со страницей, то, пожалуйста, отключите расширение для блокировки рекламы.

Интеллектуальный анализ данных (Шаблон:Lang-en) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин Интеллектуальный анализ данных.

ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи решаемые Data Mining: Править

  1. Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация – разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Регрессия – установление зависимости непрерывными входным и выходным векторами.
  4. Ассоциация – поиск повторяющихся паттернов. Например, поиск устойчивых связей в корзине покупателя (market basket analysis) – вместе с пивом покупают орешки.
  5. Последовательные шаблоны – аналогично задаче ассоциации, но с учетом временной составляющей. Например, поиск причинно-следственных связей.
  6. Прогнозирование – аналогично задаче регрессии, но с учетом временной составляющей. Например, прогноз трендов финансовых показателей.
  7. Анализ отклонений – выявление наиболее нехарактерных паттернов. Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые четыре. Остальные задачи сводятся к ним тем или иным способом.

Алгоритмы обучения Править

Для задач классификации и регрессии характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Этапы обучения Править

Можно выделить типичный ряд этапов решения задач методами Data Mining:

  1. Формирование гипотезы.
  2. Сбор данных.
  3. Подготовка данных (фильтрация).
  4. Выбор модели.
  5. Подбор параметров модели и алгоритма обучения.
  6. Обучение модели (атоматический поиск остальных параметров модели).
  7. Анализ качества обучения, если неудовлетворительный переход на п.5 или п.4
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п.1,4 или 5.

См. также Править

Литература Править

  • Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.

Ссылки Править

Шаблон:Statistics-stub Шаблон:Ai-stubar:تنقيب في البيانات cs:Data miningeu:Datu-meatzaritza fa:کاوش‌های ماشینی در داده‌هاhe:כריית מידע hu:Adatbányászat id:Penggalian datalt:Duomenų išgavimas nl:Data mining no:Data mining pl:Eksploracja danychsimple:Data mining sl:Podatkovno rudarjenje su:Data mining sv:Data mining th:การทำเหมืองข้อมูล vi:Khai phá dữ liệu

Викия-сеть

Случайная вики