Сравнительное исследование моделей распознавания жестов в медицинском контексте с MediaPipe

Авторы

Аннотация

Ожидается, что к 2050 году около 2,5 миллиарда человек будут иметь ту или иную степень потери слуха, при этом не менее 700 миллионов из них будут нуждаться в реабилитации слуха. Увеличение числа таких пациентов подчеркивает актуальность решения проблем коммуникации, с которыми сталкиваются глухие и слабослышащие люди, особенно в таких критически важных сферах, как здравоохранение.

В Казахстане пациенты с нарушениями слуха испытывают трудности при общении с медицинским персоналом из-за ограниченности или отсутствия эффективных инструментов перевода казахского языка жестов (KSL). Настоящее исследование направлено на устранение этой проблемы путем сравнения различных моделей распознавания динамических жестов с применением технологии MediaPipe для предварительной обработки данных. Основным вкладом работы стало создание нового набора данных KMSG11, содержащего термины, связанные со здоровьем и медициной на казахском языке жестов. Разработанная модель, основанная на архитектуре долговременной кратковременной памяти (LSTM), была сопоставлена с моделями из других научных работ. Все модели были обучены и протестированы на двух наборах данных – KMSG11 и аргентинском наборе данных языка жестов (LSA20) – с использованием одинаковой методики предварительной обработки через MediaPipe, что обеспечило объективность сравнения. Процесс включал подготовку видеоданных, обучение моделей и оценку их эффективности. Полученные результаты демонстрируют потенциал предложенного подхода для улучшения коммуникации, диагностики и лечения, а также повышения доступности качественной медицинской помощи для глухих пациентов в Казахстане.

Ключевые слова:

казахский язык жестов, распознавание жестов, люди с нарушениями слуха, коммуникация врача и пациента, нейронные сети, долговременная кратковременная память (LSTM), MediaPipe, извлечение ключевых точек

Биография автора

М. Полат, Казахско-Британский технический университет, Алматы, Казахстан

Polat Moldir Bakhytzhankyzy, master student. Kazakh-British Technical University, Almaty, Kazakhstan

Е-mail: m_polat@kbtu.kz, ORCID ID: 0009-0003-6227-4891

Библиографические ссылки

1 Amangeldy N., Milosz M., Kudubayeva S., Kassymova A., Kalakova G., Zhetkenbay L. “A real-time dynamic gesture variability recognition method based on convolutional neural networks,” Applied Sciences (Switzerland), vol. 13, Oct. 2023.

2 Amangeldy N., Ukenova A., Bekmanova G., Razakhova B., Milosz M., and Kudubayeva S. “Continuous sign language recognition and its translation into intonation-colored speech,” Sensors, vol. 23, Jul. 2023.

3 Arooj S., Altaf S., Ahmad S., Mahmoud H., and Mohamed A. S. N. “Enhancing sign language recognition using CNN and SIFT: A case study on Pakistan sign language,” Journal of King Saud University – Computer and Information Sciences, vol. 36, Feb. 2024.

4 Chao H., Fenhua W., and Ran Z. “Sign language recognition based on CBAM-ResNet,” Association for Computing Machinery, Oct. 2019.

5 Faisal M., Alsulaiman M., Mekhtiche M., Abdelkader B. M., Algabri M., Alrayes T. B. S., Muhammad G., Mathkour H., Abdul W., Alohali Y., Al-Hammadi M., Altaheri H., and Alfakih T. “Enabling two-way communication of deaf using Saudi sign language,” IEEE Access, vol. 11, pp. 135423–135434, 2023.

6 Google Developers, “MediaPipe Pose Landmarker,” 2024. Available: https://ai.google.dev/edge/mediapipe/solutions/vision/pose_landmarker?hl=en

7 Goyal K. and Velmathi G., “Indian sign language recognition using MediaPipe Holistic,” 2023.

8 Hu H., Zhou W., Pu J., and Li H. “Global-local enhancement network for NMF-aware sign language recognition,” ACM Transactions on Multimedia Computing, Communications and Applications, vol. 17, Aug. 2021.

9 Imashev A. “Sign Language Static Gestures Recognition Tool Prototype,” 2017 IEEE 11th International Conference on Application of Information and Communication Technologies (AICT), Moscow, Russia, 2017, pp. 1-4. doi: 10.1109/ICAICT.2017.8687032.

10 Kothadiya D. R., Bhatt C. M., Saba T., Rehman A., and Bahaj S. A. “Signformer: Deep vision transformer for sign language recognition,” IEEE Access, vol. 11, pp. 4730-4739, 2023.

11 Luqman H. “An efficient two-stream network for isolated sign language recognition using accumulative video motion,” IEEE Access, vol. 10, pp. 93785-93798, 2022.

12 Mirikar M., Singh K., and Dhole S. “Continuous sign language recognition using LSTM and MediaPipe Holistic,” International Journal of Scientific Research and Engineering Development, vol. 6. Available: www.ijsred.com

13 Mohandes M., Deriche M., and Liu J. “Image-based and sensor-based approaches to Arabic sign language recognition,” IEEE Transactions on Human-Machine Systems, vol. 44, pp. 551-557, 2014.

14 Pei X., Guo D., and Zhao Y. “Continuous sign language recognition based on pseudo-supervised learning,” Association for Computing Machinery, Inc., Oct. 2019, pp. 33-39.

15 Reshna S. and Jayaraju M. “Spotting and recognition of hand gesture for Indian sign language recognition system with skin segmentation and SVM,” 2017 International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET), 2017, pp. 386-390.

16 Ronchetti F., Quiroga F., Estrebou C., Lanzarini L., and Rosete A. “LSA64: A dataset of Argentinian sign language,” XXII Congreso Argentino de Ciencias de la Computación (CACIC), 2016.

17 Sosa-Jimenez C. O., Rios-Figueroa H. V., and Solis-Gonzalez-Cosio A. L. “A prototype for Mexican sign language recognition and synthesis in support of a primary care physician,” IEEE Access, vol. 10, pp. 127620–127635, 2022.

18 Surdo.kz, “Kazakh sign language dictionary,” 2024. Available: http://www.surdo.kz/kaz/category/1

19 Wikipedia contributors, “F-score,”2024. Accessed February 24, 2024. Available: https://en.wikipedia.org/wiki/F-score

20 World Health Organization. “Deafness and hearing loss,” 2023. Available: https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss

Загрузки

Опубликован

30.06.2025

Как цитировать

Полат, М., & Темирбекова, Ж. (2025). Сравнительное исследование моделей распознавания жестов в медицинском контексте с MediaPipe. Научный журнал «Наука интеллектуальных систем» Национальной академии наук Республики Казахстан при Президенте Республики Казахстан, (1), 38–50. извлечено от https://kazscience.kz/index.php/SIS/article/view/10

Выпуск

Раздел

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ