Audio and video editing system design based on OpenCV

Юэханг   Сонг; Борун  Чен; Сяобинь Лю; Ху  Вэйцзюнь; Се  Сяньюй; Янь  Юци

doi:10.47813/2782-5280-2022-1-2-0101-0120

pdf (English)

Опубликован

2022-10-28

Выпуск

Том 1 № 2 (2022)

Раздел

Информатика, вычислительная техника

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Журнал «Информатика. Экономика. Управление» / «Informatics. Economics. Management» публикует материалы на условиях лицензии CreativeCommons Attribution 4.0 International (CC BY 4.0), размещенной на официальном сайте некоммерческой корпорации Creative Commons:
This work is licensed under a Creative Commons Attribution 4.0 International License.

Это означает, что пользователи могут копировать и распространять материалы на любом носителе и в любом формате, адаптировать и преобразовывать тексты, использовать контент для любых целей, в том числе коммерческих. При этом должны соблюдаться условия использования — указание автора оригинального произведения и источника: следует указывать выходные данные статей, предоставлять ссылку на источник, а также указывать, какие изменения были внесены.

Как цитировать

Сонг, Ю. . ., Чен, Б. ., Лю, С., Вэйцзюнь, Х. ., Сяньюй, С. ., & Юци, Я. . (2022). Проектирование системы редактирования аудио и видео на основе OpenCV. Информатика. Экономика. Управление - Informatics. Economics. Management, 1(2), 0101–0120. https://doi.org/10.47813/2782-5280-2022-1-2-0101-0120

Проектирование системы редактирования аудио и видео на основе OpenCV

Юэханг Сонг

Guangdong Ocean University, Zhanjiang, China

Борун Чен

Шэньчжэньский университет, Шэньчжэнь, Китай

Сяобинь Лю

Университет Трайн, Ангола, округ Стубен, штат Индиана, США

Ху Вэйцзюнь

Saint Petersburg State University, Saint Petersburg, Russia

Се Сяньюй

Хуачжунский университет науки и технологии, Ухань, Китай

Янь Юци

Наньчанский университет Хангконга, Наньчан, Китай

DOI: https://doi.org/10.47813/2782-5280-2022-1-2-0101-0120

Ключевые слова: компьютерное зрение, OpenCV, фронт-энд технология, аудио- и видеомонтаж

Аннотация

С быстрым развитием Интернета такой новый носитель для восприятия мира и общения людей друг с другом, как аудио и видео, постепенно становится все более популярным среди населения планеты. Развитие мультимедийных технологий и технологий искусственного интеллекта стало вехой на пути к зрелости аудио- и видеотехнологий. В частности, короткие видеоплатформы постепенно становятся новой сетевой позицией для различных медиа-продвижений. Особенно в момент эпидемии все больше ценится канал понимания мира через аудио и видео. Общественность выдвигает повышенные требования к содержанию и подаче аудио- и видеоматериалов. Поэтому особенно важно производить качественное аудио-видео, отвечающее требованиям времени, чего невозможно достичь без эффективной системы аудио-видео монтажа. Кроме того, после предыдущих исследований и практики, применение технологии искусственного интеллекта в области визуализации также стало более зрелым, включая некоторые приложения в направлении развлечений. Применение технологии искусственного интеллекта в процессе редактирования видео может повысить эффективность редактирования, увеличить интерес к видеоконтенту и позволит создателям видео сосредоточиться на разработке контента, не тратя слишком много времени и энергии на операции редактирования видео, тем самым создавая видео более высокого качества. Предлагаемая разработка использует основную технологию OpenCV и стек front-end технологий, таких как JavaScript, React и Electron, для реализации базового видеомонтажа, видеофильтров в дополнение к разработке дружественного интерактивного интерфейса. Реализация базового модуля редактирования видео и модуля видеофильтров основана на реализации OpenCV. В данном проекте базовое редактирование видео реализует операции панорамирования, масштабирования и поворота видео, а модуль видеофильтра реализуется путем изменения значений каналов RGB изображения. Операции над видео можно разбить на операции над каждым кадром видео, и OpenCV предоставляет способ реализации этих операций. В конце статьи приведены выявленные недостатки и недочеты разработки, а также дается прогноз на следующие шаги исследования и перспективные направления.

Данная разработка использует основную технологию OpenCV и стек front-end технологий, таких как JavaScript, React и Electron, для реализации базового видеомонтажа, видеофильтров, в дополнение к разработке дружественного интерактивного интерфейса. Реализация базового модуля редактирования видео и модуля видеофильтров основана на реализации OpenCV. В данном проекте базовое редактирование видео реализует операции панорамирования, масштабирования и поворота видео, а модуль видеофильтра реализуется путем изменения значений каналов RGB изображения. Операции над видео можно разбить на операции над каждым кадром видео, и OpenCV предоставляет способ реализации этих операций.

В конце статьи приведены недостатки и недочеты разработки, а также дается прогноз на следующие шаги и перспективные направления.

Биографии авторов

Юэханг Сонг, Guangdong Ocean University, Zhanjiang, China

Yuehang Song, student of Guangdong Ocean University, Zhanjiang, China

Борун Чен, Шэньчжэньский университет, Шэньчжэнь, Китай

Borun Chen, student of Shenzhen University, Shenzhen, China

Сяобинь Лю, Университет Трайн, Ангола, округ Стубен, штат Индиана, США

Xiaobin Liu, student of Trine University, Angola, Stuben County, Indiana, USA

Ху Вэйцзюнь, Saint Petersburg State University, Saint Petersburg, Russia

Hu Weijun (Corresponding Author), student of Saint Petersburg State University, Saint Petersburg, Russia, e-mail: huweijun@mail.ru

Се Сяньюй, Хуачжунский университет науки и технологии, Ухань, Китай

Xie Xiangyu, student of Huazhong University of Science and Technology, Wuhan, China

Янь Юци, Наньчанский университет Хангконга, Наньчан, Китай

Yan Yuqi, student of Nanchang Hangkong University, Nanchang, China

Библиографические ссылки

Wang Xiaohong, Bao Yuanyuan, Lv Qiang. Development Status and Trend Observation of Mobile Short Video. China Editor. 2015; 03:7-12.

J. Wu, P. P. C. Lee, Q. Li, L. Pan and J. Zhang, CellPAD: Detecting Performance Anomalies in Cellular Networks via Regression Analysis. 2018 IFIP Networking Conference (IFIP Networking) and Workshops. 2018; 1-9. DOI: https://doi.org/10.23919/IFIPNetworking.2018.8697027

Zeng Runxi, Mo Minli. A Study on the Differences and Influencing Factors of Short Video Multi-Platform Communication Effects. Journal of Guangxi Normal University (Philosophy and Social Sciences Edition). 2022; 58(01):133-144. DOI: 10.16088/j.issn.1001-6597.2022.01.012

C. Yuan, X. Liu and Z. Zhang, The Current Status and progress of Adversarial Examples Attacks. 2021 International Conference on Communications, Information System and Computer Engineering (CISCE). 2021; 707-711. DOI: https://doi.org/10.1109/CISCE52179.2021.9445917

Zhou Feiyan, Jin Linpeng, Dong Jun. A Review of Convolutional Neural Networks. Chinese Journal of Computers. 2017; 40(06): 1229-1251.

Xiaobin Liu, Weijia Liu, Siyuan Yi, and Jinyang Li. Research on Software Development Automation Based on Microservice Architecture. In Proceedings of the 2020 International Conference on Aviation Safety and Information Technology (ICASIT 2020). Association for Computing Machinery. New York. NY. USA. 2020; 670-677.

Lu Hongtao, Zhang Qinchuan. A review of the application of deep convolutional neural networks in computer vision. Data acquisition and processing. 2016; 31(01): 1-17. DOI:10.16337/j.1004-9037.2016.01.001

Hu, W., Liu, X., & Xie, Z. (). Ore image segmentation application based on deep learning and game theory. World science: problems and innovations. 2022; 71-76.

Chen Shiwei, Xia Hai, Yang Xiaogang, Li Xiaofeng. SAR and Optical Image Registration Algorithm Based on Style Transfer Invariant Features. Systems Engineering and Electronic Technology. 2022; 44(05): 1536-1542.

Xie, Z., Hu, W., Fan, Y., & Wang, Y. Research on multi-target recognition of flowers in landscape garden based on ghostnet and game theory. Development of science, technology, education in the 21st century: topical issues, achievements and innovations. 2022: 46-56.

Le Cun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE. 1998; 86(11): 2278-2324. DOI: https://doi.org/10.1109/5.726791

Zhouyi, X., Weijun, H., & Yanrong, H. Intelligent acquisition method of herbaceous flowers image based on theme crawler, deep learning and game theory: Kronos. 2022; 7(4 (66)): 44-52. DOI: https://doi.org/10.52013/2658-7556-66-4-12

Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012: 25.

Liu, X., Xie, X., Hu, W., & Zhou, H. The application and influencing factors of computer vision: focus on human face recognition in medical field. Science, education, innovations: topical issues and modern aspects. 2022: 32-37.

Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv preprint arXiv:1409.1556,2014.

Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Advances in neural information processing systems. 2014: 27.

Radford A, Metz L, Chintala S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. Computer Science. 2015.

Arjovsky M, Chintala S, Bottou L. Wasserstein GAN. 2017.

Mirza M, Osindero S. Conditional Generative Adversarial Nets. Computer Science. 2014: 2672-2680.

Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks. IEEE. 2016. DOI: https://doi.org/10.1109/CVPR.2017.632

Jiang W, Liu S, Gao C, et al. PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. 2020. DOI: https://doi.org/10.1109/CVPR42600.2020.00524

Karras T, Laine S, Aila T. A Style-Based Generator Architecture for Generative Adversarial Networks. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019. DOI: https://doi.org/10.1109/CVPR.2019.00453

Karras T, Laine S, Aittala M, et al. Analyzing and Improving the Image Quality of StyleGAN. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020. DOI: https://doi.org/10.1109/CVPR42600.2020.00813

Shen, G., Liu, X., Yan, Y., et al. Research on financial risk behavior prediction based on deep learning. In XLVII International scientific and practical conference on advances in science and technology. 2022: 171-177.

Lu Xiaomin, Song Yuehang, Chen Borun, Liu Xiaobin, & Hu Weijun. A novel deep learning based multi-feature fusion method for drowsy driving detection. Industry and agriculture. 2022: 34-49.

Hu, W., Zheng, T., Chen, B., Jin, J., & Song, Y. Research on product recommendation system based on deep learning. Basic and applied scientific research: current issues, achievements and innovations. 2022: 116-124.

Информатика. Экономика. Управление - Informatics. Economics. Management