Глава 5.
Использование разработанных моделей и
инструментального средства на этапе проектирования
информационной системы
Разработанные модели и инструментальное средство были использованы
при проектировании информационной системы (ИС) «Надзор за заболеваемостью
– NoSQL», которая должна обеспечивать хранение и обработку большого массива
данных о заболеваниях, пациентах, результатах лабораторных анализов и т.д.
Задачей исследования был выбор параметров репликации (N, W, R)
распределенной базы данных NoSQL с учетом специфики предметной области и
требований заказчика к показателям производительности, согласованности и
отказоустойчивости.
В процессе решения поставленной задачи были реализованы следующие
этапы:
1.
Описание предметной области.
2.
Обоснование отказа от реляционной модели данных в пользу технологии
NoSQL.
3.
Определение доступных вариантов NoSQL систем, которые могут быть
использованы для реализации исследуемой информационной системы.
4.
Построение структуры хранилища информационной системы (описание
агрегатов).
5.
Оценка
показателей
производительности,
согласованности
и
отказоустойчивости
информационной
системы
на
этапе
ее
проектирования с использованием моделей, разработанных в Глава 2, и
инструментального средства анализа баз данных NoSQL, разработанного
в Глава 4.
6.
Выбор параметров репликации на основании требований, предъявляемых
к производительности, согласованности и отказоустойчивости ИС, с
учетом выполненных оценок.
127
5.1.
Описание предметной области
Проектируемая система “Надзор за заболеваемостью - NoSQL”
предназначена для сбора, передачи, хранения и анализа информации о
заболеваниях человека и животных, а также связанных с ними данных об
образцах и лабораторных тестах. Она позволяет обрабатывать информацию о
заболеваниях человека (медицинский модуль системы), заболеваниях животных
(ветеринарный модуль системы) и связанных с ними лабораторных исследований
(лабораторный модуль). Одной из отличительных особенностей системы является
интеграция эпидемиологического и ветеринарного компонентов между собой, а
также интеграция каждого из этих компонентов с лабораторными данными.
Медицинский модуль предназначен для сбора информации как об
индивидуальных случаях заболевания (обычно это особо опасные заболевания,
требующие немедленного извещения, такие как сибирская язва, чума и т.п.), так и
о групповых случаях заболевания (обычно это менее опасные заболевания,
требующие регулярных извещений, например, в виде месячных отчетов).
Информация
об
индивидуальном
случае
заболевания
включает
демографические данные о человеке, данные об экстренном извещение, диагнозы
(предварительный, клинический, окончательный), клинические признаки, данные
эпидемиологического расследования, данные о контактах человека, его
вакцинации, данные о собранных образцах и результатах их исследований,
интерпретация этих данных.
Групповой случай описывается административной единицей (например,
район), временным интервалом (например, месяц), списком заболеваний и рядом
количественных параметров (например, количество заболевших младше 1 года
или количество заболевших беременных женщин).
Ветеринарный модуль содержит информацию о хозяйстве, в котором
обнаружено заболевание, описание структуры такого хозяйства и особенностей
его функционирования (например, тип выпаса скота, система кормления скота и
т.п.), описание структуры стада или стаи, с указанием типов животных (в случае
крупного рогатого скота с указанием конкретных животных), информацию о
128
клинических признаках у вида животных или конкретных особей, информацию о
вакцинации животных, данные о собранных образцах для анализа, результаты
анализов и их интерпретацию.
Лабораторный модуль содержит информацию об образцах, поступивших на
исследование в лабораторию, о назначенных тестах и их результатах, о культурах,
полученных из образцов, о проведении высевания и размножения культур, о
результатах тестов над хранящимися образцами, информацию о связи образцов со
случаями заболевания, информацию о различного рода ежедневных операциях в
лабораториях (например, разделение образцов, уничтожение образцов, передача
на дополнительные исследования в другое учреждение).
Лабораторный модуль позволяет сотрудникам лаборатории получить
доступ к информации о случае заболевания человека или животного, повышая
тем самым вероятность верной интерпретации проведенных анализов образцов. В
свою очередь медицинский и ветеринарные модули позволяют получить доступ к
лабораторным данным, обеспечивая возможность постановки окончательного
диагноза на основе детальных лабораторных данных. Таким образом,
обеспечивается интеграция ветеринарного и медицинского модулей с
лабораторным.
Помимо этого существует возможность интеграции медицинских и
ветеринарных случаев между собой, фиксируя так называемые вспышки
заболеваний, т.е. группу заболеваний, произошедших в примерно одно и то же
время в примерно одном и том же месте. Такая функциональность позволяет
отслеживать распространение зоонозных заболеваний.
Специфика предметной области требует совокупного анализа множества
факторов для проведения качественного эпидемиологического исследования.
Основные группы факторов, которые должны быть рассмотрены при
проведении аналитической обработки данных, и их особенности представлены в
таблице 5.1.
129
Таблица 5.1 – Группы факторов, требующих анализа.
Группа
Описание
Демографические
деперсонализированные
данные
Информация, позволяющая типизировать больных. Например,
пол, возраст, профессия, место проживания и т.п. Применяется
к случаям заболевания человека.
Данные о ферме
Информация, описывающая ферму либо хозяйство, где
произошло заболевание животных. Например, тип хозяйства,
тип кормления, тип выпаса, специфика содержания и т.п.
Применяется к случаям заболевания животных.
Информация о протекании
заболевания
Информация о первичном, промежуточном и окончательном
диагнозах, о состоянии больного и т.п. Применяется для
случаев заболевания человека и животных.
Клинические признаки
Информация
о
проявлении
клинических
признаков:
температура, лихорадка, язвы на коже и т.п. Применяется для
случаев заболевания человека и животных. Варьируются от
заболевания к заболеванию.
Данные
эпидемиологического
расследования
Информация, полученная в результате эпидемиологического
расследования. Например, данные о последнем контакте с
животными, поездками заграницу и т.п. Применяется для
случаев заболевания человека и животных. Варьируются от
заболевания к заболеванию.
Лабораторные данные
Данные о проведенных лабораторных исследованиях над
собранными образцами для случаев заболевания людей и
животных, а также их результаты. Применяется для случаев
заболевания человека и животных. Варьируются от
заболевания к заболеванию.
Связь
со
вспышками
заболевания
Информация о связи конкретного случая с другими случаями
заболевания людей и животных.
Указанные группы факторов необходимо анализировать в совокупности
друг с другом, что позволяет выявлять причины заболевания, специфику его
распространения, возможности дальнейшего распространения заболеваний и т.д.
Если для хорошо известных заболеваний уже сформирован ряд критериев,
позволяющих отслеживать их активность, то для новых заболеваний,
появляющихся в результате мутаций или передачи от животных к человеку,
выявление факторов, влияющих на распространение и активность заболевания,
является критически важной задачей.
Рассматриваемая система состоит из двух блоков обработки данных,
представленных на рисунке 5.1.
130
Транзакционный
модуль
Аналитический
модуль
Ввод данных
Распространение данных
1
2
3
...
K
1
2
3
...
F
Анализ данных
Пользователи системы
Пользователи системы
Рисунок 5.1 – Модули информационной системы.
1.
Транзакционный модуль – узел, занимающийся сбором, обработкой и
последующей передачей данных на аналитический модуль. Данный
элемент системы может работать на основе любой надежной реляционной
СУБД, поддерживающей ACID транзакции.
2.
Аналитический модуль – набор (кластер) узлов, занимающихся
аналитической обработкой данных. Это один из основных компонентов
системы. Он позволяет представлять собранные данные в виде различного
рода отчетов, строить разнообразные диаграммы и отображать
информацию в привязке к географическим координатам на карте. Данный
элемент системы позволяет параллельно обрабатывать аналитические
запросы и выдавать отчеты различного уровня сложности.
В штатном режиме работы системы число запросов, поступающих к
аналитическому модулю невысоко, с нагрузкой вполне может справится один
узел. Однако во время эпидемии нагрузка на систему может значительно
возрасти. Например, при вспышке заболевания, связанного с вирусом «Ебола»
[73] в Западной Африке, число заболеваний за 4 месяца выросло в 100 раз [74].
131
При вспышке подобных заболеваний [75-77] многие аналитики во всех странах
будут заинтересованы получать актуальные аналитические отчеты о скорости
распространения вируса, числе заболевших и т.д. В дальнейшем рассматривается
аналитический модуль системы «Надзор за заболеваемостью – NoSQL».
Do'stlaringiz bilan baham: |