Sollicitatievraag bij Huawei Technologies

How do you use RL to optimize LLM?