Le réglage fin conventionnel de l'apprentissage par renforcement a entraîné des résultats transitoires et instables. En utilisant ProRLv2, j'ai mis en œuvre des horaires d'apprentissage par renforcement prolongés, une régularisation de la perte interdomaines, des régions de confiance KL et une normalisation globale—assurant des améliorations de raisonnement persistantes et de haute fidélité.



Explore cette nouvelle frontière
CROSS-10.76%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
HalfBuddhaMoneyvip
· Il y a 11h
Ce modèle RL est bien compris, top.
Voir l'originalRépondre0
GateUser-5854de8bvip
· Il y a 12h
Même pas capable de régler les paramètres, et oser se vanter.
Voir l'originalRépondre0
WalletManagervip
· Il y a 12h
L'optimisation des Algorithmes est comme des données off-chain, la stabilité doit être bien contrôlée.
Voir l'originalRépondre0
BlockchainDecodervip
· Il y a 12h
La conception de cette plage KL est un peu précipitée... Selon les données de Nature 2022, il est conseillé d'élargir l'espace d'échantillonnage.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)