Викия

Математика

Теорема Байеса

1457статей на
этой вики
Добавить новую страницу
Обсуждение0 Share

Обнаружено использование расширения AdBlock.


Викия — это свободный ресурс, который существует и развивается за счёт рекламы. Для блокирующих рекламу пользователей мы предоставляем модифицированную версию сайта.

Викия не будет доступна для последующих модификаций. Если вы желаете продолжать работать со страницей, то, пожалуйста, отключите расширение для блокировки рекламы.

Теорема Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. Иначе, по формуле Байеса можно более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений.

Математическая формулировка Править

\Pr(A|B) = \frac{\Pr(B | A) \Pr(A)}{\Pr(B)},

где

\Pr(A) — априорная вероятность гипотезы A;
\Pr(A|B) — вероятность гипотезы A при наступлении события B (апостериорная вероятность);
\Pr(B|A) — вероятность наступления события B при истинности гипотезы A;
\Pr(B) — вероятность наступления события B.
\Pr(B)=\sum_{i=1}^N Pr(A_i )*Pr(B|A_i) — математическая формула априорной вероятности наступления события B , где суммирование идет по всем гипотезам A_i, которые предполагаются попарно непересекающимися и, в объединении, покрывающими всё пространство возможных исходов опыта;vdsvsdvdsfv

Применение Править

Борьба со спамом Править

Для непосредственного определения вероятности отнесения того или иного сообщения к спаму используются созданные в процессе «обучения» фильтра словари. Шаблон:S берется полный архив старых, выделенных вроплплпучную сообщений и передается на вход программе обучения для дальнейшего анализа. Программа определяет частотные словари для каждого типа сообщений — сколько раз каждое слово появлялось в письмах из данной папки. Когда словари окончательно созданы, вероятность принадлежности нового письма к спаму вычисляется по Байесу для каждого слова из письма. Нормализацией и суммированием вероятностей слов получают общую вероятность принадлежности к спаму для всего письма.

Применение теоремы Байеса позволяет обходиться без формирования «черных списков» почтовых адресов, байесовские фильтры могут самостоятельно опознать «плохое» письмо по его контексту, ненамного уступая в этом умении человеку. Метод очень хорошо работает при сортировке сообщений, в которых рекламная информация представлена в виде простого текста или HTML. После обучения на достаточно большой выборке, удаётся отсечь до 95—97 % спама.

Однако спамеры нашли способ для обхода таких фильтров. Для этого в письмо помещается произвольный текст и реклама в виде присоединённого к письму изображения. Наличие случайного текста обманывает фильтр и не даёт возможности его обучить. Хотя существует возможность воспользоваться программами распознавания текста, чтобы извлечь рекламное сообщение из изображения и обработать его байесовским фильтром, существующие сейчас фильтры этого, как правило, не делают. К тому же, такое решение потребует дополнительных довольно значительных вычислительных мощностей.


Ссылки Править

Литература Править



Эта статья содержит материал из статьи Теорема Байеса русской Википедии.

Викия-сеть

Случайная вики