Grand modèle IA – remodeler l’art de l’image

Avez-vous suivi le lancement de la série Redmi K70 en Chine ? Si vous souhaitez la voir, elle est disponible sur notre chaine YouTube (https://youtube.com/live/aYv5ssnMVfc). Redmi a levé le voile sur l’AI Image Expansion & Magic Elimination Pro ! Cette fonction a été saluée par la salle et par le porte-parole Wang Yibo…

01 – L’agrandissement d’image par l’IA

Qu’est-ce que l’agrandissement d’image par l’IA ? L’IA peut comprendre les détails et la structure de l’image, prédire et générer les parties manquantes sur la base de ces informations et remplir intelligemment les zones vides de l’image, de sorte que l’image entière présente une plage d’image plus large et un champ de vision plus large. Le photographe peut ainsi obtenir une photo artistiquement traitée et améliorée par l’IA.

01.01 – Algorithme de composition esthétique de l’IA

L’équipe visuelle du Xiaomi AI Lab a observé que la méthode de composition traditionnelle repose souvent sur le recadrage d’une grande image pour former une composition, ce qui présente de fortes limites. Si nous avions la capacité « d’élargir l’image », nous pourrions composer l’image vers l’extérieur à partir de l’originale et obtenir une toute nouvelle composition esthétique. Par conséquent, sur la base de sa propre technologie de recadrage et de composition d’images, l’équipe a en outre lancé une nouvelle méthode de composition d’IA : l’algorithme de composition esthétique d’IA.

L’algorithme de composition esthétique d’IA peut composer vers l’extérieur quelle que soit la taille de l’image, comprendre les détails et la structure de l’image, et prédire et générer les parties manquantes sur la base de ces informations. Laissez le photographe obtenir une image créative augmentée par l’IA.

L’algorithme d’expansion et de remplissage de l’image se combine avec l’algorithme de composition esthétique de l’IA pour obtenir une expansion d’image directionnelle esthétique. Même si la technologie photographique est un peu « inintelligible », elle peut être enregistrée à l’aide de l’expansion d’image de l’IA. Il apporte plus de possibilités de gameplay et d’idées créatives aux utilisateurs dans le processus de création artistique et de traitement d’images !

01.02 – Algorithme de remplissage d’expansion d’image AI

L’équipe visuelle a également lancé simultanément l’algorithme d’expansion et de remplissage de l’IA en tant que partenaire de l’algorithme de composition esthétique de l’IA. Sa fonction est de remplir intelligemment un grand nombre de zones vierges inconnues à la périphérie de l’image, de sorte que l’image entière présente une plus grande plage d’image et un champ de vision plus large.

Étant donné que ces « zones remplies » sont remplies en fonction des informations périphériques de l’image, la quantité d’informations de l’image originale qui peut être utilisée comme référence est inférieure à celle du « remplissage vers l’intérieur ». Tout d’abord, l’algorithme de remplissage d’expansion d’image AI pré-remplit la partie à remplir dans l’espace latent (c’est-à-dire compresse les caractéristiques de l’image de grande dimension dans un espace de faible dimension) pour améliorer la précision de la reconnaissance de scène ultérieure, puis utilise un grand modèle génératif pour le remplissage formel, combiné avec les modules de super-résolution IA et de fusion IA développés par l’équipe, il atténue considérablement les problèmes tels que les coutures et la différence de couleur entre l’image originale et la zone agrandie, les rendant ainsi intégrés.

02 – Élimination magique Pro, nouveau noyau de grand modèle

Le noyau de la première génération de technologie Magic Elimination utilise le réseaux antagonistes génératifs (GAN) d’élimination ordinaire. Depuis le lancement officiel du grand modèle d’édition d’images Xiaomi, la technologie d’élimination magique a également été mise à niveau de manière itérative, remplaçant le réseaux antagonistes génératifs (GAN) d’origine par le grand modèle d’édition d’images Xiaomi. Il peut obtenir une reconnaissance de scène, une imitation de texture, des capacités de génération d’objets plus puissantes et reconstruire des images très naturelles. Même si vous rencontrez une grande zone de remplissage ou un arrière-plan complexe, il n’y aura pas de « maculage » comme le retrait traditionnel du remplissage.

Le Magic Elimination Pro peut être basé sur le contenu, le remplissage et l’expansion de l’arrière-plan de l’IA, l’image sera naturelle, et elle peut même « briser le pont et le reconnecter », de manière à « simuler la réalité ».

Dans le même temps, vous n’avez pas à craindre de divulguer votre vie privée lorsque vous souhaitez télécharger de belles photos pour profiter des dernières fonctionnalités de l’IA. Parce qu’une fois le modèle déployé côté client, les informations n’ont pas besoin d’être téléchargées sur le cloud.Tous les calculs sont effectués localement, ce qui peut fondamentalement garantir que la confidentialité des utilisateurs ne soit pas divulguée. Même dans un cadre de service combinant appareils et cloud, les informations privées seront stockées côté appareil et les calculs les impliquant seront effectués autant que possible côté appareil. Même si vous avez occasionnellement besoin d’utiliser la fonction d’audit de conformité du cloud, les informations seront traitées et cryptées afin que chacun puisse les consulter en toute confiance.

Entrer dans l’expérience fonctionnelle : après être entré dans l’interface d’élimination magique, cliquez sur le bouton Pro dans le coin supérieur droit pour découvrir la puissance de calcul du grand modèle génératif. La méthode d’utilisation est la même que celle de la génération précédente. Utilisez la segmentation intelligente ou la peinture manuelle pour sélectionner avec précision la zone à éliminer, puis cliquez sur le bouton « Démarrer l’élimination » comme ci-dessous.

03 – Défis techniques liés à la mise en œuvre de modèles d’édition d’images à grande échelle

En 2022, un modèle d’IA appelé Stable Diffusion est né. En tant que grand modèle génératif visuel basé sur le modèle de diffusion, il peut principalement réaliser des tâches telles que des images générées par du texte (txt2img) et des images générées par des images (img2img). C’est l’un des modèles emblématiques qui reflète la transition de l’industrie de l’IA de l’ère traditionnelle du deep learning à l’ère AIGC (AI-Generated Content). Depuis lors, les grands modèles génératifs ont eu un succès instantané, devenant rapidement le cœur de nombreux logiciels et fonctions d’édition d’images.

Xiaomi a également utilisé de grands modèles génératifs pour renforcer les fonctions traditionnelles et créer de nouvelles fonctions, et a rapidement lancé la recherche et le développement sur le déploiement final et l’optimisation des effets de modèle, devenant ainsi le premier et le seul fabricant de téléphones à lancer des produits de génération d’images sur le côté final. Sur la base de cette technologie, Xiaomi a créé une fonction « AI Expansion » pour les produits d’édition d’albums photo qui peut étendre les limites des images, et mis à niveau la fonction « Magic Elimination » existante vers une version Pro avec un meilleur effet de suppression de remplissage, comme indiqué dans le Figure ci-dessous.

Effet de la fonction d’expansion de l’image AI
Effets de la fonction Magic Elimination Pro

03.01 – Défi 1 : Comment alléger les grands modèles ?

Tout le monde doit avoir entendu parler des grands modèles génératifs, tels que Stable Diffusion et GPT. Leurs paramètres de modèle peuvent atteindre des dizaines, voire des dizaines de milliards, et leur fonctionnement nécessite un matériel serveur extrêmement puissant. Cependant, si vous souhaitez l’exécuter localement sur des téléphones, les exigences de taille et d’utilisation des ressources du modèle deviendront très strictes.

Le grand modèle génératif bout à bout de Xiaomi a été réduit en taille de 3Go à 1,2Go, soit une réduction de plus de 60%, tout en garantissant que la qualité de génération est équivalente. Dans le plan de perte de poids du modèle, Xiaomi se réfère largement à l’expérience de l’industrie et effectuons des opérations précises. Grâce à la distillation des connaissances et à d’autres méthodes, nous extrayons les connaissances du réseau de grands modèles du serveur dans un grand modèle léger personnalisé pour le côté client sans modifier le Modèle.Sur la base de la structure de base, de nombreux modules redondants ont été éliminés.

 De plus, le module Decoder dans le modèle généré est directement lié à la qualité du dessin. En essayant plusieurs fois Decoder avec différentes structures et tailles, une grande quantité de données photographiques a été accumulée pour le débogage des effets jusqu’à obtenir le meilleur équilibre entre performances et L’effet a été obtenu, et enfin le Un grand modèle génératif léger qui peut parfaitement fonctionner du côté du téléphone mobile.

03.02 – Défi 2 : Comment l’effet de génération de la solution côté client se compare-t-il à celui des solutions cloud des concurrents ?

 Comme nous le savons tous, la puissance de calcul des puces des terminaux mobiles est bien inférieure à la puissance de calcul des serveurs cloud d’apprentissage profond. Comment garantir que l’effet film final de notre solution côté appareil ne soit pas à la traîne par rapport aux produits concurrents utilisant des solutions cloud est une défi majeur auquel nous sommes confrontés.

 En réponse à ce défi, nous avons spécialement optimisé la « scène Xiaomi » à la fois pour le modèle de base et le processus de dessin. Le premier est l’optimisation du réseau génératif : compression du modèle du grand modèle génératif, optimisation du nombre d’étapes d’itération du réseau Unet et ajout de données photographiques de haute qualité pour le recyclage. Un autre objectif est l’optimisation du processus de génération d’images : l’équipe a construit un nouveau pipeline de génération d’images basé sur les algorithmes de fusion d’images et de super-résolution auto-développés accumulés au fil des ans, ainsi que sur l’algorithme de composition esthétique d’IA récemment proposé. Il s’agit de la première solution cloud du secteur mise en œuvre côté client et aussi efficace que les produits concurrents.

 La technologie d’expansion d’image AI et la technologie Magic Elimination Pro sont le fruit d’un travail sincère de coopération approfondie entre le département des caméras Xiaomi et AI Lab pour explorer l’application du grand modèle dans l’édition d’images.

 À l’avenir, nous continuerons à lancer de manière itérative de grands modèles d’édition d’images légers, rapides, efficaces et plus interactifs. Dans le même temps, nous explorerons pleinement les besoins des utilisateurs et les implémenterons dans des applications spécifiques pour offrir aux utilisateurs une expérience plus naturelle. et une expérience d’édition d’image efficace. Laissez tout le monde profiter de la vie merveilleuse apportée par les grands modèles.

Ce contenu est réservé aux membres du site. Si vous êtes un utilisateur existant, veuillez vous connecter. Les nouveaux utilisateurs peuvent s'inscrire ci-dessous.

Connexion pour les utilisateurs enregistrés

   

Articles similaires

Translate »