Hello!
bon slrpnk.net a l’air d’être dans les choux alors je lance ce post avec mon compte de secours jlai.lu
Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l’anglais. Et je trouve qu’en français, ben y a pas grand chose. C’est presque uniquement du discours dystopique mal informé.
Rien sur la recherche sur l’alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.
On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d’une forêt bien plus grande.
Perso ça va faire 5 ans que je fais du deep learning professionnellement. J’ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c’est un projet plus ou moins mort, mais c’était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d’autres.
J’ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J’ai réussi à passer au 4/5e l’année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j’utilise des modèles de deep learning pour la vision).
Ça fait plus de 20 ans que j’ai réalisé que l’IA a le potentiel de changer le monde pour le mieux, c’est pas par hasard que j’ai essayé de m’orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d’aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.
J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!
Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!
Voila, je préférerais qu’on reste sur ces thèmes mais AMA anyway!
Perso je ne crois pas que ce soit un problème, ou en tous cas pas encore. Les publis que j’ai vu sur le sujet semblent indiquer que les sorties de LLMs produisent des datasets de meilleure qualité que les datasets originaux. Et quand on y pense, ça a du sens: un modèle a été entraîné à produire des “bons” textes à partir d’un peu n’importe quoi. Il y a une certaine logique à ce qu’un premier LLM arrive à faire une version améliorée du premier dataset.
Est ce qu’on peut itérer longtemps comme ça? Pas sur, mais je pense qu’on surestime le problème voire qu’on l’imagine.
Pour ceux qui sont dans la course à la perf et au meilleur benchmark: zéro. Tant que mettre plus de données améliore les résultats, ils font ça. Tout github, tout reddit, tout facebook y passe.
La recherche est en train de montrer que - surprise! - la qualité des données d’entraînement influe grandement sur la qualité du modèle et ça intéresse surtout les groupes avec moins de moyens.
Les chercheurs qui travaillent sur les problèmes d’alignement (d’éthique) s’intéressent à ces questions aussi. Par exemple une discussion intéressante avait lieu à EleutherAI pendant qu’ils assemblaient The Pile: Est ce qu’il faut intégrer toute la librairie du Congrès US? D’un coté c’est intéressant d’avoir des siècles de discussion législative, de l’autre, sur une bonne partie de cette période, on considère que les noirs sont une marchandises et sur la majorité de la période, des citoyens de seconde zone.
Ce qu’il y a d’intéressant c’est que des données pourries, biaisées, racistes, peuvent tout de même aider le modèle à s’améliorer, mais il faut que ce soit fait correctement et il y a là matière à des débats qui relèvent de la politique et de la philosophie appliquées (“Peut-on combattre le racisme en ignorant les thèses racistes?” Vous avez 4 heures)
Merci pour tous ces détails !