3.1. Зачем нужна вероятность?
Во многих разделах информатики имеют дело в основном с детерминированными
сущностями. Обычно программист может предполагать, что процессор выполня-
ет машинные команды без ошибок. Аппаратные ошибки бывают, но они настолько
редки, что в большинстве программ учитывать такую возможность необязательно.
Однако если большинство теоретиков и инженеров-программистов работант в срав-
нительно стерильных и определенных условиях, то почему же в машинном обучении
так часто используется теория вероятностей?
62
Теория вероятностей и теория информации
Машинное обучение по необходимости имеет дело с недостоверными, а иногда
и стохастическими (недетерминированными) величинами. Недостоверность и неде-
терминированность проистекают из многих источников. Теоретические аргументы
в пользу количественной оценки недостоверности с помощью теории вероятностей
приводились уже в 1980-х годах. Многие перечисленные ниже аргументы взяты из
работы Pearl (1988) или навеяны ей.
Почти во всех отраслях знания требуется возможность рассуждать в присутствии
неопределенности. На самом деле, если не считать математических утверждений, кото-
рые истинны по определению, трудно привести пример какого-нибудь высказывания,
которое было бы абсолютно верным, или события, которое произойдет гарантированно.
Существуют три источника неопределенности:
1) стохастичность, присущая моделируемой системе. Например, в большинстве
интерпретаций квантовой механики динамика субатомных частиц описывает-
ся в вероятностных терминах. Можно также сконструировать теоретические
сценарии с постулированной случайной динамикой, например гипотетическая
карточная игра в предположении, что карты перетасованы случайно;
2) неполнота наблюдаемых данных. Даже детерминированная система может казать-
ся стохастической, если мы не в состоянии наблюдать все переменные, описываю-
щие ее поведение. Например, в парадоксе Монти Холла участник игрового шоу
выбирает одну из трех дверей и получает скрытый за ней приз. За двумя дверьми
находятся козы, за третьей – автомобиль. Исход при любом выборе участника де-
терминирован, но, с точки зрения самого участника, исход неопределенный;
3) неполнота модели. Если используется модель, которая отбрасывает часть
наблю даемой информации, то отброшенная информация приводит к недосто-
верности полученных от модели предсказаний. Допустим, к примеру, что мы
конструируем робота, который способен точно фиксировать положения всех
находящихся поблизости от него объектов. Если робот дискретизирует прост-
ранство, стремясь спрогнозировать положения объектов в будущем, то сам акт
дискретизации уже делает информацию о положении объектов недостоверной:
каждый объект может находиться в дискретной области, окружающей занимае-
мое им место в пространстве.
Во многих случаях практичнее использовать простое неопределенное правило,
чем сложное определенное, даже если истинное правило детерминировано, и систе-
ма моделирования позволяет его адекватно представить. Например, простое правило
«Большинство птиц умеет летать» легко формулируется и в общем случае полезно,
тогда как правило «Птицы умеют летать, за исключением очень молодых птенцов,
которые еще не научились летать, больных и травмированных птиц, которые утрати-
ли способность летать, нелетающих птиц, включая казуара, страуса и киви…» трудно
сформулировать, сопровождать и передавать другим людям, и даже после всех уси-
лий оно оказывается хрупким и уязвимым к неточностям.
Хотя понятно, что необходимы средства для представления недостоверности и рас-
суждений в условиях неопределенности, не сразу очевидно, что теория вероятностей
располагает всеми инструментами, которые нужны в приложениях искусственного
интеллекта. Первоначально теория вероятностей разрабатывалась для анализа час-
тоты событий. Легко видеть, как применить ее для изучения таких событий, как сдача
карт в покере. Подобные события зачастую повторяемы. Говоря, что вероятность не-
которого исхода равна
p
, мы имеем в виду, что если повторить эксперимент (напри-
Распределения вероятности
63
мер, сдачу карт) бесконечное число раз, то доля таких исходов составит
p
. Не понят-
но, как такое рассуждение может быть применимо к неповторяемым событиям. Когда
врач осматривает пациента и говорит, что у него грипп с вероятностью 40 процентов,
то это означает что-то совсем другое – мы не можем создать бесконечно много копий
пациента и не имеем никаких оснований утверждать, что у разных копий будут такие
же симптомы, но различные заболевания. В случае медицинской диагностики веро-
ятность описывает
Do'stlaringiz bilan baham: |