La première version fournie par le Centre de recherche sur l'IA donne de bons résultats en mathématiques et en raisonnement
TAIPEI, 11 mars 2025 -- L'Institut de recherche Hon Hai annonce aujourd'hui le lancement du premier grand modèle de langage (LLM) en chinois traditionnel, représentant un nouveau jalon dans le développement de la technologie de l'IA de Taïwan avec une méthode de formation de modèle plus efficace et moins coûteuse, réalisée en seulement quatre semaines.
L'institut, qui est soutenu par Hon Hai Technology Group (« Foxconn ») (TWSE:2317), le plus grand fabricant d'électronique au monde et le principal fournisseur de solutions technologiques, déclare que le LLM, baptisé FoxBrain, sera ouvert et partagé publiquement à l'avenir. Il a été conçu à l'origine pour des applications utilisées dans les systèmes internes du groupe, couvrant des fonctions telles que l'analyse de données, l'aide décisionnelle, la collaboration documentaire, les mathématiques, le raisonnement et la résolution de problèmes, ainsi que la génération de codes.
FoxBrain démontre non seulement de puissantes capacités de compréhension et de raisonnement, mais il est également optimisé pour le style de langue des utilisateurs taïwanais, ce qui lui permet d'afficher d'excellentes performances dans les tests de raisonnement mathématique et logique.
« Ces derniers mois, l'approfondissement des capacités de raisonnement et l'utilisation efficace des GPU se sont progressivement imposés dans le domaine de l'IA. Notre modèle FoxBrain a adopté une stratégie de formation très efficace, en se concentrant sur l'optimisation du processus de formation plutôt que sur l'accumulation aveugle de puissance de calcul », déclare le Dr Yung-Hui Li, directeur du Centre de recherche en intelligence artificielle de l'Institut de recherche Hon Hai. « Grâce à des méthodes de formation soigneusement conçues et à l'optimisation des ressources, nous avons réussi à construire un modèle d'IA local doté de puissantes capacités de raisonnement. »
Le processus de formation de FoxBrain a été alimenté par 120 GPU NVIDIA H100, mis à l'échelle avec le réseau NVIDIA Quantum-2 InfiniBand, et terminé en quatre semaines environ. Par rapport aux modèles d'inférence récemment lancés sur le marché, la méthode de formation des modèles, plus efficace et moins coûteuse, pose un nouveau jalon pour le développement de la technologie de l'IA à Taïwan.
FoxBrain est basé sur l'architecture Meta Llama 3.1 avec 70B paramètres. Dans la plupart des catégories de l'ensemble de données de test TMMLU+, il surpasse le Llama-3-Taiwan-70B de la même échelle, excellant particulièrement en mathématiques et en raisonnement logique (pour le benchmark TMMLU+ de FoxBrain, veuillez vous référer à la figure 1). Voici les spécifications techniques et les stratégies de formation pour FoxBrain :
- Mise en place de méthodes d'augmentation des données et d'évaluation de la qualité pour 24 catégories de sujets grâce à une technologie propriétaire, générant 98 milliards de tokens de données de préformation de haute qualité pour le chinois traditionnel
- Longueur de la fenêtre contextuelle : 128 K tokens
- Utilisation de 120 GPU NVIDIA H100 pour la formation, avec un coût de calcul total de 2 688 jours GPU
- Utilisation d'une architecture de formation parallèle à plusieurs nœuds pour garantir des performances et une stabilité élevées
- Utilisation d'une technique unique de réflexion sur le raisonnement adaptatif pour former le modèle au raisonnement autonome
Dans les résultats des tests, FoxBrain a montré des améliorations considérables en mathématiques par rapport au modèle de base Meta Llama 3.1. Il a réalisé des progrès significatifs dans les tests mathématiques par rapport à Taiwan Llama, qui est actuellement le meilleur modèle chinois traditionnel de grande taille, et a surpassé les modèles actuels de Meta de la même catégorie en termes de capacité de raisonnement mathématique. Si le modèle de distillation de DeepSeek présente encore un léger écart, ses performances sont déjà très proches des normes les plus élevées au monde.
Le développement de FoxBrain - de la collecte, du nettoyage et de l'augmentation des données au pré-entraînement continu, au réglage fin supervisé, au RLAIF et à la réflexion sur le raisonnement adaptatif - a été réalisé étape par étape dans le cadre d'une recherche indépendante, ce qui a permis d'obtenir des avantages proches des modèles d'IA de classe mondiale malgré des ressources informatiques limitées. Cette recherche sur les grands modèles linguistiques démontre que les talents technologiques taïwanais peuvent rivaliser avec leurs homologues internationaux dans le domaine des modèles d'IA.
Bien que FoxBrain ait été conçu à l'origine pour des applications internes, le groupe continuera à l'avenir à collaborer avec des partenaires technologiques pour élargir les applications de FoxBrain, partager ses informations open-source et promouvoir l'IA dans la fabrication, la gestion de la chaîne d'approvisionnement et la prise de décision intelligente.
Pendant la formation au modèle, NVIDIA a apporté son soutien grâce au supercalculateur Taipei-1 et à une consultation technique, ce qui a permis à l'Institut de recherche Hon Hai de terminer avec succès la préformation au modèle avec NVIDIA NeMo. FoxBrain deviendra également un moteur important pour la mise à niveau des trois principales plateformes de Foxconn : fabrication intelligente, VE intelligent, ville intelligente.
Les résultats de FoxBrain seront communiqués pour la première fois lors d'une conférence majeure au cours de la NVIDIA GTC 2025 Session Talk « From Open Source to Frontier AI: Build, Customize, and Extend Foundation Models » le 20 mars.
À propos de l'Institut de recherche Hon Hai
L'institut compte cinq centres de recherche. Chaque centre compte en moyenne 40 professionnels de la R&D en haute technologie, qui se concentrent tous sur la R&D de nouvelles technologies, le renforcement du pipeline d'innovation technologique et de produits de Foxconn, les efforts visant à soutenir la transformation du groupe, et l'amélioration de la compétitivité de la stratégie « 3+3 » de Foxconn.
Pour plus d'informations sur Foxconn, cliquez ici.
This News is brought to you by Qube Mark, your trusted source for the latest updates and insights in marketing technology. Stay tuned for more groundbreaking innovations in the world of technology.