• Contenu
  • Menu
  • Recherche
  • Pied de page
Logo de l'institution

Portail du CDI du Collège-Lycée Les Cordeliers

  • Se connecter
  • Accueil
    • Recherche avancée
    • Périodiques
    • Voir la rubrique recherche
    • Ressources HLP
    • Coups de coeur
    • Nouveautés Fictions
    • Nouveautés Documentaires
    • Nouveautés BD Mangas
    • Voir la rubrique nos sélections
    • Règlement du CDI
    • Emprunter des documents
    • Voir la rubrique infos pratiques
  • Accueil
    • Recherche avancée
    • Périodiques
    • Voir la rubrique recherche
    • Ressources HLP
    • Coups de coeur
    • Nouveautés Fictions
    • Nouveautés Documentaires
    • Nouveautés BD Mangas
    • Voir la rubrique nos sélections
    • Règlement du CDI
    • Emprunter des documents
    • Voir la rubrique infos pratiques
  • Connexion
  • Ma sélection
  1. Accueil
  2. Eduquer les modèles de langage
  • Détail
  • Notice avec vignette et résumé
Eduquer les modèles de langage
de Arnaud Devillard
In Sciences et avenir (1949), 933 (11/2024), p.38-39
Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge).
Article de périodique
notices non libres de Poitiers
Ajouter un avis
Ajouter à ma sélection Ajouter à ma sélection

Eduquer les modèles de langage

    Dans le périodique : Sciences et avenir (1949), n°933 (11/2024)
  • Auteur : Arnaud Devillard
    • Pages : p.38-39
    • Langues : Français
    • Nature du document : documentaire Genre : article de périodique
    • Résumé :

      Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge).

    • Mots-clés : assistant personnel virtuel / apprentissage automatique

Exemplaires (1)

Exemplaires (1)

Liste des exemplaires
CoteSupportSectionLocalisationCode-barresDisponibilité
ArchivespériodiquedocumentaireCDI025274Disponible
Nouvelle recherche
Haut de page

Pied de page

Liste de liens

  • Qwant
  • Google
  • DuckDuckGo

Informations pratiques

Horaires

Lundi : 08h00 à 11h30 - 12h00 à 16h30
Mardi : 08h00 à 16h30
Mercredi : 08h00 à 12h00
Jeudi : 08h00 à 16h30
Vendredi : 08h00 à 11h30 - 12h00 à 16h30

Adresse

Ensemble scolaire Les Cordeliers
Place des Cordeliers
BP 92063
22102 Dinan Cedex

Contact

Mail : cdi-lc@cordeliers.fr

Logos réseaux sociaux

Logos partenaires

Liste de liens

  • Qwant
  • Google
  • DuckDuckGo
  • Mentions légales
  • Catalogue
  • PMB Services
  • Plan du site
  • Contact
  • Site de l'établissement