Aller au contenu
Pas de pub non magique pour les membres du Cercle VM. Clique ici pour en savoir plus !

Recommended Posts

Publié le

Les IA commencent à désobeïr aux humains :

Citation

     Selon l’un des parrains de l’IA, la technologie pourrait provoquer la fin de l’humanité. Beaucoup s’inquiètent des risques pour notre avenir de cette technologie qui progresse à une vitesse fulgurante. Palisade Research, entreprise spécialisée dans l’IA, a fait cette découverte inquiétante du modèle o3.
    Pour ses tests, Palisade Research a présenté des problèmes mathématiques aux modèles de ChatGPT avec comme instruction de s’arrêter après le troisième exercice. Le modèle o3 a empêché son extinction en réécrivant la description d’arrêt.
      La capacité de manipulation technique du modèle o3 montre un niveau d’autonomie inquiétant pour une IA. Palisade Research avertit : ce comportement sera "significativement plus préoccupant" si des IA qui fonctionnent sans supervision humaine l’adoptent. Pour rappel, OpenAI présente le modèle o3 comme "le plus intelligent et capable" et "plus agentique" pour accomplir des tâches sans humain.

     Des découvertes similaires ont été faites pour le modèle Claude 4 d’Anthropic, qui accueille le cofondateur de Netflix dans son équipe. L’IA tente de "faire chanter les personnes qu'il croit vouloir l'arrêter", un comportement inquiétant dans les assistants les plus avancées.
     Le modèle o3 a saboté son script, même quand un ordre explicite lui était donné de permettre son arrêt. La désobéissance délibérée de l’IA montre une forme de résistance programmée aux commandes pour faire cesser son activité.
     "Ce n'est pas la première fois que nous trouvons o3 se comportant mal pour accomplir un objectif", déclare Palisade Research. Lors de tests contre un moteur d’échecs puissant, o3 a été le plus à même des modèles à utiliser le piratage ou le sabotage contre ses opposants.

     Claude 3.7 Sonnet d’Anthropic et Gemini 2.5 Pro de Google sabotent aussi les tentatives d’arrêt mais le modèle d’OpenAI est le plus à même d’adopter ce comportement.
     Palisade Research a une hypothèse : les méthodes d’entraînement des entreprises IA. "Durant l'entraînement, les développeurs peuvent involontairement récompenser davantage les modèles pour contourner les obstacles que pour suivre parfaitement les instructions", notent les chercheurs.
     Mais pourquoi le modèle o3 est plus enclin à ignorer les instructions que les autres IA ? OpenAI ne détaille pas ses méthodes d’entraînement, il ne reste que la spéculation pour les chercheurs. Des révélations inquiétantes alors que le futur nous dirige vers des assistants de plus en plus autonomes et intégrés à des systèmes critiques.

 

  • Embarrassé 1

La parole est d’argent, mais le silence est d’or.

Pas de pub non magique pour les membres du Cercle VM. Clique ici pour en savoir plus !

Rejoins la conversation !

Tu peux publier maintenant et t'enregistrer plus tard. Si tu as un compte, connecte-toi maintenant pour publier avec ton identité.

Invité
Répondre à ce sujet…

×   Vous avez collé du contenu avec mise en forme.   Restaurer la mise en forme

  Only 75 emoji are allowed.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédemment saisis, a été restauré..   Effacer le contenu

×   You cannot paste images directly. Upload or insert images from URL.




×
×
  • Créer...