ЛИНИЯ
ТОЧКА
о сути это та же задача, что и задача классификации апельсинов и грейпфрутов. В общем случае алгоритмы OCR основаны на выделении линий, точек и кривых.
Затем при получении нового символа из него можно извлечь те же признаки.
Извлечение признаков в OCR происходит намного сложнее, чем в примере с фруктами. Однако важно понимать, что даже сложные технологии строятся на основе простых идей (таких, как алгоритм k ближайших соседей).
Те же принципы могут использоваться для распознавания речи или распознавания лиц. Когда вы отправляете фотографию на Facebook, иногда сайту хватает сообразительности для автоматической пометки людей на фото. Да это машинное обучение в действии!
Первый шаг OCR, в ходе которого перебираются изображения цифр и происходит извлечение признаков, называется тренировкой. В большинстве алгоритмов машинного обучения присутствует фаза тренировки: прежде чем компьютер сможет решить свою задачу, его необходимо натренировать. В следующем примере рассматривается создание спам-фильтров, и в нем тоже есть шаг тренировки.
Построение спам-фильтра
Спам-фильтры используют другой простой алгоритм, называемый наивным классификатором Байеса. Сначала наивный классификатор Байеса тренируется на данных.
Т
СПАМ?
НЕ СПАМ СПАМ СПАМ СПАМ НЕ СПАМ
ЕМА
«ИЗМЕНИТЕ ПАРОЛЬ»
«ЬЫ ВЫИГРАЛИ МИЛЛИОН»
«СООБЩИТЕ СБОЙ ПАРОЛЬ»
«НИГЕРИЙСКИЙ ПРИНЦ ГОТОВ ПЕРЕВЕСТИ ВАМ МИЛЛИОН» «С ДНЕМ РОЖДЕНИЯ!»
Предположим, вы получили сообщение с темой «Получите свой миллион прямо сейчас!» Это спам? Предложение можно разбить на слова, а затем для каждого слова проверить вероятность присутствия этого слова в спамо- вом сообщении. Например, в нашей очень простой модели слово «миллион» встречается только в спаме. Наивный классификатор Байеса вычисляет вероятность того, что сообщение с большой вероятностью является спамом. На практике он применяется примерно для тех же целей, что и алгоритм k ближайших соседей.
Например, наивный классификатор Байеса может использоваться для классификации фруктов: есть большой и красный фрукт. Какова вероятность того, что он окажется грейпфрутом? Это простой, но весьма эффективный алгоритм — из тех, что нам нравятся больше всего!
Прогнозы на биржевых торгах
Есть одна задача, в которой трудно добиться успеха машинным обучением: точно спрогнозировать курсы акций на бирже. Как выбрать хорошие признаки? Предположим, вы говорите, что если курс акций рос вчера, то он будет расти и сегодня. Хороший это признак или нет? Или, предположим, вы утверждаете, что курс всегда снижается в мае. Сработает или нет? Не существует гарантированного способа прогнозировать будущее на основании прошлых данных. Прогнозирование будущего — сложное дело, а при таком количестве переменных оно становится почти невозможным.
Do'stlaringiz bilan baham: |