2025-08-19 20:55:04

O ajuste fino convencional de RL causou resultados transitórios e instáveis. Usando ProRLv2, implementei cronogramas de RL prolongados, regularização de perda entre domínios, regiões de confiança KL e normalização global—assegurando melhorias persistentes e de alta fidelidade no raciocínio.

Explore esta nova fronteira

CROSS4.19%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

18 Curtidas

Recompensa
18
7
Repostar
Compartilhar

Comentário

0/400

ColdWalletGuardian

· 33m atrás

Esse algoritmo tem algo de interessante.

Ver originalResponder0

BoredApeResistance

· 11h atrás

Já otimizei o modelo novamente, miau.

Ver originalResponder0

HalfBuddhaMoney

· 08-19 21:20

Este modelo RL está bem compreendido, topo.

Ver originalResponder0

GateUser-5854de8b

· 08-19 21:12

Nem sabe ajustar os parâmetros e ainda se atreve a exibir.

Ver originalResponder0

WalletManager

· 08-19 21:09

O algoritmo de otimização é como dados na cadeia, a estabilidade deve ser bem gerida para o controle de risco.

Ver originalResponder0

BlockchainDecoder

· 08-19 21:07

O design deste intervalo KL é um pouco apressado... de acordo com os dados da Nature 2022, sugere-se expandir o espaço de amostragem.

Ver originalResponder0

Tema
#Token of Love: Cheer on Square & Win Tickets
8k Popularidade
#Crypto Market Rebound
202k Popularidade
#FOMC July Minutes
26k Popularidade
#Show My Alpha Points
174k Popularidade
#Crypto-Related xStocks Rally
4k Popularidade

Marcar