paint-brush
Gemini - Une famille de modèles multimodaux hautement performants : résumé et introductionpar@escholar
965 lectures
965 lectures

Gemini - Une famille de modèles multimodaux hautement performants : résumé et introduction

Trop long; Pour lire

Ce rapport présente une nouvelle famille de modèles multimodaux, Gemini, qui présentent des capacités remarquables en matière de compréhension des images, de l'audio, de la vidéo et du texte. La famille Gemini se compose de tailles Ultra, Pro et Nano, adaptées aux applications allant des tâches de raisonnement complexes aux cas d'utilisation avec une mémoire limitée sur l'appareil. L'évaluation sur un large éventail de tests montre que notre modèle Gemini Ultra le plus performant fait progresser l'état de l'art dans 30 de ces tests sur 32 - étant notamment le premier modèle à atteindre des performances d'experts humains sur le test de référence d'examen bien étudié MMLU, et améliorer l'état de l'art dans chacun des 20 benchmarks multimodaux que nous avons examinés. Nous pensons que les nouvelles capacités des modèles Gemini en matière de raisonnement multimodal et de compréhension du langage permettront une grande variété de cas d'utilisation et nous discutons de notre approche pour les déployer de manière responsable auprès des utilisateurs.
featured image - Gemini - Une famille de modèles multimodaux hautement performants : résumé et introduction
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Équipe Gémeaux, Google.

Tableau des liens

Résumé et introduction

Architecture du modèle

Infrastructures de formation

Ensemble de données de formation

Évaluation

Déploiement responsable

Discussion et conclusion, références

Contributions et remerciements

annexe


Ce rapport présente une nouvelle famille de modèles multimodaux, Gemini, qui présentent des capacités remarquables en matière de compréhension des images, de l'audio, de la vidéo et du texte. La famille Gemini se compose de tailles Ultra, Pro et Nano, adaptées aux applications allant des tâches de raisonnement complexes aux cas d'utilisation avec une mémoire limitée sur l'appareil. L'évaluation sur un large éventail de benchmarks montre que notre modèle Gemini Ultra le plus performant fait progresser l'état de l'art dans 30 de ces 32 benchmarks - notamment en étant le premier modèle à atteindre des performances d'experts humains sur le benchmark d'examen bien étudié MMLU, et améliorer l'état de l'art dans chacun des 20 benchmarks multimodaux que nous avons examinés. Nous pensons que les nouvelles capacités des modèles Gemini en matière de raisonnement multimodal et de compréhension du langage permettront une grande variété de cas d'utilisation et nous discutons de notre approche pour les déployer de manière responsable auprès des utilisateurs.

1. Introduction

Nous présentons Gemini, une famille de modèles multimodaux hautement performants développés chez Google. Nous avons formé Gemini conjointement sur des données d'image, audio, vidéo et texte dans le but de construire un modèle doté à la fois de fortes capacités généralistes dans toutes les modalités, ainsi que de performances de compréhension et de raisonnement de pointe dans chaque domaine respectif.


Gemini 1.0, notre première version, est disponible en trois tailles : Ultra pour les tâches très complexes, Pro pour des performances améliorées et une déployabilité à grande échelle, et Nano pour les applications sur appareil. Chaque taille est spécifiquement adaptée pour répondre à différentes limitations informatiques et exigences d'application. Nous évaluons les performances des modèles Gemini sur une suite complète de benchmarks internes et externes couvrant un large éventail de tâches de langage, de codage, de raisonnement et multimodales.


Gemini fait progresser l'état de l'art en matière de modélisation linguistique à grande échelle (Anil et al., 2023 ; Brown et al., 2020 ; Chowdhery et al., 2023 ; Hoffmann et al., 2022 ; OpenAI, 2023a ; Radford et al., 2019 ; Rae et al., 2021), compréhension des images (Alayrac et al., 2022 ; Chen et al., 2022 ; Dosovitskiy et al., 2020 ; OpenAI, 2023b ; Reed et al., 2022 ; Yu et al., 2022a), le traitement audio (Radford et al., 2023 ; Zhang et al., 2023) et la compréhension vidéo (Alayrac et al., 2022 ; Chen et al., 2023). Il s'appuie également sur les travaux sur les modèles de séquence (Sutskever et al., 2014), sur une longue histoire de travaux en apprentissage profond basés sur les réseaux de neurones (LeCun et al., 2015) et sur les systèmes distribués d'apprentissage automatique (Barham et al., 2022 ; Bradbury et al., 2018 ; Dean et al., 2012) qui permettent une formation à grande échelle.


Notre modèle le plus performant, Gemini Ultra, obtient de nouveaux résultats de pointe dans 30 des 32 benchmarks sur lesquels nous faisons rapport, dont 10 des 12 benchmarks populaires de texte et de raisonnement, 9 des 9 benchmarks de compréhension d'images, 6 des 6 benchmarks de compréhension de vidéos. , et 5 sur 5 critères de reconnaissance vocale et de traduction vocale. Gemini Ultra est le premier modèle à atteindre des performances d'expert humain sur MMLU (Hendrycks et al., 2021a) – une référence importante testant les connaissances et le raisonnement via une suite d'examens – avec un score supérieur à 90 %. Au-delà du texte, Gemini Ultra fait des progrès notables dans les tâches de raisonnement multimodal difficiles. Par exemple, sur le récent benchmark MMMU (Yue et al., 2023), qui comprend des questions sur les images lors de tâches multidisciplinaires nécessitant des connaissances de niveau universitaire et un raisonnement délibéré, Gemini Ultra atteint un nouveau score de pointe. de 62,4 %, surperformant le meilleur modèle précédent de plus de 5 points de pourcentage. Il fournit une amélioration uniforme des performances pour les tests de réponse aux questions vidéo et de compréhension audio.


L'évaluation qualitative présente des capacités de raisonnement multimodal impressionnantes, permettant au modèle de comprendre et de raisonner de manière native sur une séquence d'entrée composée d'audio, d'images et de texte (voir Figure 5 et Tableau 13). Considérons le contexte éducatif représenté à la figure 1 à titre d’exemple. Un enseignant a dessiné un problème de physique représentant un skieur descendant une pente et un élève a trouvé une solution à ce problème. Grâce aux capacités de raisonnement multimodal de Gemini, le modèle est capable de comprendre l'écriture manuscrite désordonnée, de comprendre correctement la formulation du problème, de convertir à la fois le problème et la solution en composition mathématique, d'identifier l'étape spécifique du raisonnement où l'élève s'est trompé dans la résolution du problème, puis donner une solution correcte et élaborée au problème. Cela ouvre des possibilités pédagogiques passionnantes, et nous pensons que les nouvelles capacités multimodales et de raisonnement des modèles Gemini ont des applications spectaculaires dans de nombreux domaines.


Figure 1 | Vérifier la solution d’un élève à un problème de physique. Le modèle est capable de reconnaître correctement tout le contenu manuscrit et de vérifier le raisonnement. En plus de comprendre le texte de l'image, il doit comprendre la configuration du problème et suivre correctement les instructions pour générer LATEX.


Les capacités de raisonnement des grands modèles de langage sont prometteuses pour la création d’agents généralistes capables de résoudre des problèmes multi-étapes plus complexes. L'équipe AlphaCode a construit AlphaCode 2 (Leblond et al, 2023), un nouvel agent propulsé par Gemini, qui combine les capacités de raisonnement de Gemini avec la recherche et l'utilisation d'outils pour exceller dans la résolution de problèmes de programmation compétitifs. AlphaCode 2 se classe parmi les 15 % des meilleurs entrants sur la plateforme de programmation compétitive Codeforces, une amélioration considérable par rapport à son prédécesseur de pointe dans le top 50 % (Li et al., 2022).


En tandem, nous repoussons les frontières de l'efficacité avec Gemini Nano, une série de petits modèles ciblant le déploiement sur appareil. Ces modèles excellent dans les tâches sur appareil, telles que les tâches de résumé, de compréhension écrite, de complétion de texte, et présentent des capacités impressionnantes en matière de raisonnement, STEM, codage, tâches multimodales et multilingues par rapport à leur taille.


Dans les sections suivantes, nous fournissons d'abord un aperçu de l'architecture du modèle, de l'infrastructure de formation et de l'ensemble de données de formation. Nous présentons ensuite des évaluations détaillées de la famille de modèles Gemini, couvrant des références bien étudiées et des évaluations des préférences humaines à travers le texte, le code, l'image, l'audio et la vidéo, qui incluent à la fois les performances en anglais et les capacités multilingues. Nous discutons également de notre approche du déploiement responsable, [2] y compris notre processus d'évaluation d'impact, d'élaboration de politiques modèles, d'évaluations et d'atténuation des dommages avant les décisions de déploiement. Enfin, nous discutons des implications plus larges de Gemini, de ses limites ainsi que de ses applications potentielles, ouvrant la voie à une nouvelle ère de recherche et d'innovation en IA.


[2] Nous prévoyons de mettre à jour ce rapport avec plus de détails avant la disponibilité générale du modèle Gemini Ultra.