ОБ ОДНОЙ ЗАДАЧЕ СОРТИРОВКИ ФАЙЛОВ С ПРИМЕНЕНИЕМ МАШИННОГО ОБУЧЕНИЯ
Аннотация
Сортировка файлов играет важную роль в широком спектре областей управления данными, включая цифровую криминалистику. В некоторых случаях специалисты по цифровой криминалистике сталкиваются с ситуациями, когда расширения файлов отсутствуют или намеренно изменены для каких-либо целей. Тем не менее, такие файлы могут содержать ценную информацию для проводимого расследования. В данной статье представлена попытка разработки системы глубокого обучения для сортировки файлов по категориям с использованием битового представления их содержимого, в отличие от традиционных решений, основанных на расширении файлов, заголовках или метаданных. Обучающие, валидационные и тестовые наборы данных включали 100 файлов различных форматов документов, медиа- и аудиофайлов. В целом система демонстрирует точность, превышающую 95%, с наибольшей погрешностью при классификации файлов со схожим содержимым (например, разных типов видеофайлов и т. д.). Тем не менее, решение служит убедительным подтверждением концепции и основой для будущих разработок в этом направлении.
Ключевые слова:
машинное обучение, глубокое обучение, сортировка файлов.Библиографические ссылки
1. Johnson, L.,Williams, R. Automation in Data Processing. Journal of Information Systems, 2019.
2. Smith, J. Big Data Management: Strategies and Technologies. International Journal of Data Analysis, 2020.
3. Google. Magika: Detect File Content Types with Deep Learning. GitHub repository, 2021. URL: https://github.com/google/magika
4. Mittal, G., Korus, P., Memon, N. FiFTy: Large-Scale File Fragment Type Identification Using Convolutional Neural Networks. IEEE Transactions on Information Forensics and Security, 2021, vol. 16, pp. 28-41, DOI: 10.1109/TIFS.2020.3026581.
5. Cayli, M. File Fragment Classification with Machine Learning. GitHub repository, 2017. URL: https://github.com/mervecayli/File_Fragment_Classification
6. Anil, S. Binary Classification of CSV Files using Machine Learning and Deep Learning Models. GitHub repository, 2019. URL: https://github.com/Smitha-anil/Binary_classification
7. Krasov, A.V., Shterenberg, S. I., Fakhrutdinov, R. M., Ryzhakov, D. V., Pestov, I. E. Analysis of the information security of an enterprise based on the collection of user data from open resources and monitoring of information resources using machine learning. T-Comm-Telecommunications and Transport, 2018, 12(10), pp. 36-40. DOI: 10.24411/2072-8735-2018-10154.
8. Matveev, A. O., Bystrov, A.V., Babaev, V. I., Povarov, N. I. Development of software tools to improve the operation of the code auto-completion mechanism using machine learning algorithms in an integrated development environment for the Python language. Bulletin of Novosibirsk State University. Series: Information Technology, 2020, 18(2), pp. 62-75. DOI: 10.25205/1818-7900-2020-18-2-62-75.
9. Selezneva, Ya. M., & Zenkin, A.M. Мodels and methods for ensuring cybersecurity of digital economy systems based on machine learning. In The Almanac of scientific papers of young scientists of ITMO University, 2022, pp. 371-374. URL: https://www.elibrary.ru/item.asp?id=49550578. Accessed: 15.01.2025.
10. Zhang, H., Liang, H., Ni, T., Huang, L., Yang, J. (2021). Research on multi-object sorting system based on deep learning. Sensors, 2021, 21(18), 6238. https://doi.org/10.3390/s21186238









