Qual é o fosso $JTVO? Ganhamos em velocidade e preço. Estamos hospedando o modelo de código aberto em um sistema baseado em TPU (Tensor Processing Units), que é mais eficiente para processar LLMs em comparação com GPUs. Nosso modelo GPT-OSS 120B é executado em até 1.000 tokens por segundo. Experimente agora gratuitamente
9,44K