Глава 6. Работа с данными
281
z
z
Систематическая ошибка, безопасность и защита персональной информации
—
разумеется, добросовестная разработка систем машинного обучения включает
в себя намного больше, чем можно описать в одной главе книги. Если вы раз
рабатываете решения на основе машинного обучения, не пожалейте времени на
знакомство хотя бы с основами рекомендуемых практик, касающихся системати
ческой ошибки, безопасности и защиты персональной информации. Для начала
можете заглянуть на посвященную добросовестным практикам ИИ страницу
https://ai.google/education/responsible-ai-practices
. Ответственному специалисту очень
важно следовать этим практикам. Кроме того, даже из чисто корыстных сооб
ражений не помешает учитывать указанные нюансы, ведь даже небольшая си
стематическая ошибка или проблемы с безопасностью и защитой персональной
информации порой приводят к досадным системным сбоям, после которых за
казчики начинают искать другие, более надежные решения.
Как правило, лучше потратить немного времени, но убедиться, что данные соот
ветствуют ожидаемому. Для упрощения этой задачи существует множество утилит,
от блокнотов Observable, Jupyter, Kaggle Kernel и Colab до утилит с графическим
интерфейсом наподобие Facets. На рис. 6.6 приведен еще один способ исследования
данных в Facets. В данном случае для просмотра точек из набора данных универси
тетов штата НьюЙорк (State Universities of New York, SUNY) мы воспользовались
средством построения графиков Facets — Facets Dive. С помощью Facets Dive поль
зователи могут выбирать столбцы данных и отображать их визуально, настраивая
отображение под свои потребности. В данном случае мы воспользовались выпада
ющими меню, где поле
Longitude1
служит для
x
координаты точки, поле
Latitude1
—
для
y
координаты точки, строковое поле
City
— для названия точки и
Undergraduate
Enrollment
— для ее цвета. Можно ожидать, что график широты и долготы на двумер
ной плоскости будет соответствовать карте штата НьюЙорк, и так оно и получается.
Правильность этой карты можно проверить, сравнив ее с вебстраницей SUNY по
адресу
http://www.suny.edu/attend/visit-us/campus-map/
.
6.5. Дополнение данных
Итак, мы собрали данные, подключили их к объекту
tf.data.Dataset
для упрощения
операций над ними, а также тщательно их проверили и очистили от всех возможных
проблем. Что еще необходимо сделать для успешной работы модели?
Иногда данных оказывается недостаточно и приходится расширять набор про
граммным образом, создавая новые примеры данных путем небольших изменений
уже существующих данных. Например, вспомним задачу классификации рукопис
ных цифр MNIST из главы 4. Набор данных MNIST содержит 60 000 обучающих
изображений десяти рукописных цифр, по 6000 на цифру. Достаточно ли этого для
усвоения всех видов написания, которые должен распознавать наш классификатор?
Что, если ктото напишет слишком большую или маленькую цифру? Или слегка
наклоненную? Или перекошенную? Или ручкой с более тонким/толстым пером?
Сможет ли наша модель распознать ее?
Do'stlaringiz bilan baham: |