Preview

Сибирский журнал клинической и экспериментальной медицины

Расширенный поиск

Объем выборки для оценки диагностической точности программного обеспечения на основе технологий искусственного интеллекта в лучевой диагностике

https://doi.org/10.29001/2073-8552-2024-39-3-188-198

Аннотация

Введение. Проблема обоснования объема выборки является актуальной для различных научных и практических задач. Однако при всем многообразии существующих на сегодня методов вопрос определения минимального количества исследований для валидации программного обеспечения (ПО) на основе технологий искусственного интеллекта (ТИИ) остается открытым.

Цель: определить минимальное количество исследований, необходимых для проведения валидации ПО на основе ТИИ, для решения задач лучевой диагностики с учетом баланса классов «норма» / «патология».

Материал и методы. Анализировались результаты работы ПО на основе ТИИ на наборе данных из 123 301 уникального анонимизированного маммографического исследования. Оценивались выставленные значения по шкале BiRADS: 0 – в случае диагностирования врачом 1-го или 2-го класса Bi-RADS («норма») и 1 – в случае классов Bi-RADS 3, 4, 5 («патология»). Изначально баланс классов в исследовании составлял 89,3% («норма») / 10,7% («патология»). Из общего набора данных случайным образом формировалась выборка заданного объема и баланса классов «норма» / «патология», рассчитывалась площадь под кривой операционной характеристики приемника (AUC ROC). Для статистического обоснования описанные действия повторялись 10 000 раз для всех исследуемых объемов и балансов классов. В результате применения данного алгоритма были получены зависимости средних значений AUC ROC от количества исследований для пяти балансов классов (доля «патологии»: 10, 20, 30, 40 и 50%). Далее был проведен анализ законов распределения и поведения AUC ROC в зависимости от количества исследований.

Результаты. Максимальное значение коэффициента вариации значений AUC ROC для 10% доли «патологии» достигается при количестве исследований, равном 190; для 20% – 80 исследований; для 30% – 120 исследований, для 40% – 110 исследований, а для 50% – 70 исследований.

Заключение. При тестировании ПО на основе ТИИ, а также систем поддержки принятия врачебных решений необходимо учитывать, что количество исследований, отражающих наибольшую неоднородность значений AUC ROC (наибольшее отклонение от среднего значения), различно для разных балансов классов. Баланс классов задается, исходя из возможностей исследователя, а минимальный объем – 190 при доле «патологии» 10%, 80 – при 20%, 120 – при 30%, 110 – при 40%, 70 – при 50%.

Об авторах

Т. М. Бобровская
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ)
Россия

Бобровская Татьяна Михайловна, младший научный сотрудник, отдел инновационных технологий

127051, Москва, ул. Петровка, 24, стр. 1

 



Ю. А. Васильев
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ); Национальный медико-хирургический Центр имени Н.И. Пирогова Министерства здравоохранения Российской Федерации (НМХЦ им. Н.И. Пирогова Минздрава России)
Россия

Васильев Юрий Александрович, канд. мед. наук, директор НПКЦ ДиТ ДЗМ; заведующий кафедрой лучевой диагностики с курсом клинической радиологии, доцент кафедры, НМХЦ им. Н.И. Пирогова Минздрава России

127051, Москва, ул. Петровка, 24, стр. 1,

105203, Москва, ул. Нижняя Первомайская, 70



Н. Ю. Никитин
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ)
Россия

Никитин Никита Юрьевич, канд. физ.-мат. наук, старший научный сотрудник, отдел медицинской информатики, радиомики и радиогеномики

127051, Москва, ул. Петровка, 24, стр. 1



А. В. Владзимирский
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ); Первый Московский государственный медицинский университет имени И.М. Сеченова Министерства здравоохранения Российской Федерации (Сеченовский Университет) (Первый МГМУ им. И.М. Сеченова Минздрава России)
Россия

Владзимирский Антон Вячеславович, д-р мед. наук, заместитель директора по научной работе, НПКЦ ДиТ ДЗМ; профессор, кафедра ин- формационных и интернет-технологий, Первый МГМУ им. И.М. Сеченова Минздрава России (Сеченовский Университет)

127051, Москва, ул. Петровка, 24, стр. 1,

119991, Москва, ул. Трубецкая, 8, стр. 2



О. В. Омелянская
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ)
Россия

Омелянская Ольга Васильевна, руководитель по управлению подразделениями Дирекции наука

127051, Москва, ул. Петровка, 24, стр. 1



С. Ф. Четвериков
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ)
Россия

Четвериков Сергей Федорович, канд. техн. наук, руководитель сектора, отдел медицинской информатики, радиомики и радиогеномики

127051, Москва, ул. Петровка, 24, стр. 1



К. М. Арзамасов
Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы (НПКЦ ДиТ ДЗМ); МИРЭА – Российский технологический университет (РТУ МИРЭА)
Россия

Арзамасов Кирилл Михайлович, канд. мед. наук, руководитель отдела медицинской информатики, радиомики и радиогеномики, НПКЦ ДиТ ДЗМ; доцент, кафедра технологий искусственного интеллекта, РТУ МИРЭА

127051, Москва, ул. Петровка, 24, стр. 1,

119454, Москва, проспект Вернадского, 78

 



Список литературы

1. Chervyakov N.I., Lyakhov P.A., Deryabin M.A., Nagornov N.N., Valueva M.V., Valuev G.V. Residue number system-based solution for reducing the hardware cost of a convolutional neural network. Neurocomputing. 2020;407:439–453. DOI: 10.1016/j.neucom.2020.04.018.

2. Aggarwal R., Sounderajah V., Martin G., Ting D.S.W., Karthikesalingam A., King D. et al. Diagnostic accuracy of deep learning in medical imaging: a systematic review and meta-analysis. npj Digit. Med. 2021;4:65. DOI: 10.1038/s41746-021-00438-z.

3. Тыров И.А., Васильев Ю.А., Арзамасов К.М., Владзимирский А.В., Шулькин И.М., Омелянская О.В. и др. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методология и ее применение на материалах московского эксперимента по компьютерному зрению в лучевой диагностике. Врач и информационные технологии. 2022;4:76–92. DOI: 10.25881/18110193_2022_4_76.

4. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 27–30 June, 2016. IEEE Computer Society; 2015;2016:770–778. DOI: 10.1109/CVPR.2016.90.

5. Гусев А.В., Морозов С.П., Кутичев В.А., Новицкий Р.Э. Нормативно-правовое регулирование программного обеспечения для здравоохранения, созданного с применением технологий искусственного интеллекта, в Российской Федерации. Медицинские технологии. Оценка и выбор. 2021;(1):36–45. DOI: 10.17116/medtech20214301136.

6. Васильев Ю.А., Владзимирский А.В. (ред.) Компьютерное зрение в лучевой диагностике: первый этап Московского эксперимента: Монография; 2-е изд., перераб. и дополн. М.: Издательские решения, 2023;376.

7. Ramspek C.L., Jager K.J., Dekker F.W., Zoccali C., van Diepen M. External validation of prognostic models: what, why, how, when and where? Clin. Kidney J. 2021;14(1). DOI: 10.1093/ckj/sfaa188.

8. Четвериков С.Ф., Арзамасов К.М., Андрейченко А.Е., Новик В.П., Бобровская Т.М., Владзимирский А.В. Подходы к формированию выборки для контроля качества работы систем искусственного интеллекта в медико-биологических исследованиях. Современные технологии в медицине. 2023;15(2):19–25. DOI: 10.17691/stm2023.15.2.02.

9. Васильев Ю.А., Бобровская Т.М., Арзамасов К.М., Четвериков С.Ф., Владзимирский А.В., Омелянская О.В. и др. Основополагающие принципы стандартизации и систематизации информации о наборах данных для машинного обучения в медицинской диагностике. Менеджер здравоохранения. 2023;(4):28–41. DOI: 10.21045/1811-0185-2023-4-28-41.

10. Васильев Ю.А., Арзамасов К.М., Владзимирский А.В., Омелянская О.В., Бобровская Т.М., Шарова Д.Е. и др. Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта: учеб. пособие. М.: Издательские решения; 2024:140. ISBN: 978-5-0062-1244-2. ISBN: 978-5-0062-1244-2.

11. Collins G.S., Ogundimu E.O., Altman D.G. Sample size considerations for the external validation of a multivariable prognostic model: a resampling study. Stat. Med. 2016;35(2):214–226. DOI: 10.1002/sim.6787.

12. Harrell F.E., Lee K.L., Mark D.B. Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Stat. Med. 1996;15(4):361–387. DOI: 10.1002/(SICI)1097-0258(19960229)15:43.0.CO;2-4.

13. Vergouwe Y., Steyerberg E.W., Eijkemans M.J.C., Habbema J.D.F. Substantial effective sample sizes were required for external validation studies of predictive logistic regression models. J. Clin. Epidemiol. 2005;58(5):475–483. DOI: 10.1016/j.jclinepi.2004.06.017.

14. Riley R.D., Debray T.P.A., Collins G.S., Archer L., Ensor J., van Smeden M. et al. Minimum sample size for external validation of a clinical prediction model with a binary outcome. Stat. Med. 2021;40(19):4230–4251. DOI: 10.1002/sim.9025.

15. Breast Imaging Reporting & Data System. American College of Radiology [Internet]. [cited 2024 Jan 23]. URL: https://www.acr.org/Clinical-Resources/Reporting-and-Data-Systems/Bi-Rads (16.04.2024).

16. Павлович П.И., Бронов О.Ю., Капнинский А.А., Абович Ю.А., Рычагова Н.И. Сравнительное исследование результатов анализа данных цифровой маммографии системы на основе искусственного интеллекта «Цельс» и врачей-рентгенологов. Digital Diagnostics. 2021;2(2S):22–23. DOI: 10.17816/DD83184.

17. Kashyap R.L. (ed.) Dynamic stochastic models from empirical data: eBook, Vol. 122. Elsiever B.V.; USA: Academic Press, 1976. ISBN: 978-0-12-400550-1.

18. Васильев Ю.А., Владзимирский А.В., Омелянская О.В., Шулькин И.М. Арзамасов К.М., Никитин Н.Ю. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методические рекомендации. Вып. 123. М.: Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы;. 2023:28.


Целесообразно определить минимальное количество исследований для валидации программного обеспечения на основе технологий искусственного интеллекта для решения задач лучевой диагностики. Для выборок заданного объема и баланса классов «норма» / «патология» рассчитана площадь под ROC-кривой. Неоднородность значений AUC ROC зависит от баланса классов. Минимальный объем исследований составляет 190 при доле «патологии» 10%, 80 – при 20%, 120 – при 30%, 110 – при 40%, 70 – при 50%.

Рецензия

Для цитирования:


Бобровская Т.М., Васильев Ю.А., Никитин Н.Ю., Владзимирский А.В., Омелянская О.В., Четвериков С.Ф., Арзамасов К.М. Объем выборки для оценки диагностической точности программного обеспечения на основе технологий искусственного интеллекта в лучевой диагностике. Сибирский журнал клинической и экспериментальной медицины. 2024;39(3):188-198. https://doi.org/10.29001/2073-8552-2024-39-3-188-198

For citation:


Bobrovskaya T.M., Vasilev Yu.A., Nikitin N.Yu., Vladzimirskyy A.V., Omelyanskaya O.V., Chetverikov S.F., Arzamasov K.M. Sample size for assessing a diagnostic accuracy of AI-based software in radiology. Siberian Journal of Clinical and Experimental Medicine. 2024;39(3):188-198. (In Russ.) https://doi.org/10.29001/2073-8552-2024-39-3-188-198

Просмотров: 293


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2713-2927 (Print)
ISSN 2713-265X (Online)