TP Causapscal des Vents
Slides
Sites
- Forum technique à suivre : https://www.alignmentforum.org/
- Liste de papiers en sécurité de l’IA (pas que LLM) : https://nicholas.carlini.com/writing/2019/all-adversarial-example-papers.html
- Excellent cours sur la rétro-ingénierie de LLM : https://arena-chapter1-transformer-interp.streamlit.app/
- Cours général sur la sûreté de l’IA (surtout LLM) : https://aisafetyfundamentals.com/
Papiers
- L’effet “Hydre” : https://arxiv.org/pdf/2307.15771
- Survey de la MI pour la sûreté : https://arxiv.org/pdf/2404.14082
- Papier de fou sur les circuits : https://transformer-circuits.pub/2025/attribution-graphs/biology.html
- Meilleur papier de l’univers, sur l’interprétabilité de l’IA au niveau très fondamental : https://transformer-circuits.pub/2022/toy_model/index.html
- Suite de papiers de fou : https://transformer-circuits.pub/
Quelques idées de challz
- Me demander :)