Глава 1. Углубленная работа имеет ценность
плодотворной работе со сложными технологиями . Если
мы пристальнее вглядимся в применяемые им методы, то
обнаружим, что прогнозировать результаты выборов на
основе баз данных — далеко не то же самое, что впечатать
в поисковое окно запрос «Кто наберет больше голосов?» .
Чтобы получить желаемый результат, ему пришлось со-
брать большую базу данных по результатам опросов изби-
рателей (тысячи опросов более чем от 250 проводивших
опросы), а затем обработать их с помощью программы
Stata
— популярного программного продукта для стати-
стического анализа данных, производимого компанией
StataCorp
. Профессионально работать с такими инстру-
ментами не так уж просто . Для примера приведем одну
из команд, без понимания которых невозможно работать
с современными базами данных наподобие тех, что ис-
пользует Силвер:
CREATE VIEW cities AS SELECT name, population, altitude
FROM capitals UNION SELECT name, population, altitude
FROM non_capitals;
Базы данных такого типа создаются на языке, называемом
SQL . Чтобы получить доступ к информации, вы посы-
лаете им команды наподобие показанной выше . Работа
с базами данных требует непростых умений . Так, напри-
мер, приведенная выше команда создает «представление»
(view) — виртуальную БД-таблицу, в которую собирают-
ся данные из множества существующих таблиц и к кото-
рой затем можно обращаться с помощью SQL-команд как
к стандартной таблице . Сложность в том, чтобы опреде-
42
Часть I. Идея
лить момент, когда именно следует создавать представ-
ления и как это делать с наилучшим результатом; и это
лишь один из множества трудных пунктов, в которые
необходимо глубоко вникнуть, чтобы извлекать из баз
реальных данных полезную информацию .
Продолжая рассматривать пример Нейта Силвера, взгля-
нем на технологический продукт, который он использу-
ет, — программу
Stata
. Это мощный профессиональный
инструмент, с которым едва ли можно научиться работать
интуитивно, немного в нем покопавшись . Вот, например,
как звучит описание новых компонентов, представленных
в последней версии программы: «В
Stata
13 добавлены
многие новые компоненты: эффекты условий обработки
данных, многоуровневая библиотека GLM, инструменты
величины мощности и объема выборки, генерализован-
ное кодирование данных SEM, прогноз, размер эффекта,
“Менеджер проектов”, длинная строка, массивы данных
BLOB и многое другое» . Силвер использует сложные
электронные инструменты — все эти генерализованные
SEM’ы и BLOB’ы — для построения многоуровневых
моделей со взаимопересекающимися частями, множе-
ственных регрессий, опирающихся на заданные параме-
тры, которые затем соотносятся с заданными весовыми
функциями, используемыми в вероятностных выраже-
ниях, и так далее .
Мы приводим все эти подробности, чтобы подчеркнуть,
насколько сложно устроены умные машины и как трудно
научиться ими управлять
1
. Для того чтобы войти в число
1
Реальные технологические трудности, которые компаниям
приходится преодолевать, чтобы решать поставленные задачи,
лишь еще больше подчеркивают абсурдность распространен-
43
Do'stlaringiz bilan baham: |