Introducció

Creieu que Grok3 serà el "punt final" dels models preentrenats?

Elon Musk i l'equip xAI van llançar oficialment la darrera versió de Grok, Grok3, durant una transmissió en directe. Abans d'aquest esdeveniment, una quantitat important d'informació relacionada, juntament amb l'enrenou promocional de Musk les 24 hores del dia, els 7 dies de la setmana, va elevar les expectatives globals per a Grok3 a nivells sense precedents. Fa només una setmana, Musk va declarar amb confiança durant una transmissió en directe mentre comentava DeepSeek R1: "xAI està a punt de llançar un model d'IA millor". A partir de les dades presentades en directe, Grok3 ha superat tots els models convencionals actuals en punts de referència per a matemàtiques, ciència i programació, i Musk fins i tot va afirmar que Grok3 s'utilitzarà per a tasques computacionals relacionades amb les missions a Mart de SpaceX, predient "avenços al nivell del Premi Nobel en tres anys". Tanmateix, aquestes són actualment només afirmacions de Musk. Després del llançament, vaig provar la darrera versió beta de Grok3 i vaig plantejar la clàssica pregunta trampa per a models grans: "Quin és més gran, 9,11 o 9,9?" Malauradament, sense cap qualificació ni puntuació, el suposat Grok3 més intel·ligent encara no va poder respondre correctament a aquesta pregunta. Grok3 no va identificar amb precisió el significat de la pregunta.

Aquesta prova va atreure ràpidament una considerable atenció de molts amics i, casualment, diverses proves similars a l'estranger han demostrat que Grok3 té dificultats amb preguntes bàsiques de física/matemàtiques com ara "Quina pilota cau primer de la Torre Inclinada de Pisa?". Per tant, ha estat titllat amb humor de "geni que no vol respondre preguntes senzilles".

El Grok3 és bo, però no és millor que l'R1 o l'o1-Pro.

Grok3 va experimentar "errors" en moltes proves de coneixement comú a la pràctica. Durant l'esdeveniment de llançament de xAI, Musk va demostrar l'ús de Grok3 per analitzar les classes i els efectes dels personatges del joc Path of Exile 2, al qual afirmava jugar sovint, però la majoria de les respostes proporcionades per Grok3 eren incorrectes. Musk durant la transmissió en directe no es va adonar d'aquest problema evident.

Aquest error no només va proporcionar més proves perquè els internautes estrangers es burlessin de Musk per "trobar un substitut" en els jocs, sinó que també va generar preocupacions importants sobre la fiabilitat de Grok3 en aplicacions pràctiques. Per a un "geni" com aquest, independentment de les seves capacitats reals, la seva fiabilitat en escenaris d'aplicacions extremadament complexos, com ara tasques d'exploració de Mart, continua sent dubtosa.

Actualment, molts provadors que van rebre accés a Grok3 fa setmanes, i aquells que van provar les capacitats del model durant unes hores ahir, apunten a una conclusió comuna: "Grok3 és bo, però no és millor que R1 o o1-Pro".

Una perspectiva crítica sobre "la disrupció d'Nvidia"

A la presentació PowerPoint presentada oficialment durant el llançament, es va mostrar que Grok3 anava "molt per davant" a la Chatbot Arena, però això va utilitzar tècniques gràfiques intel·ligents: l'eix vertical de la taula de classificació només enumerava resultats en el rang de puntuació de 1400-1300, fent que la diferència original de l'1% en els resultats de la prova semblés excepcionalment significativa en aquesta presentació.

En els resultats reals de puntuació del model, Grok3 només està un 1-2% per davant de DeepSeek R1 i GPT-4.0, cosa que correspon a les experiències de molts usuaris en proves pràctiques que no van trobar "cap diferència notable". Grok3 només supera els seus successors en un 1%-2%.

Tot i que Grok3 ha obtingut puntuacions més altes que tots els models actualment provats públicament, molts no s'ho prenen seriosament: al cap i a la fi, xAI ja havia estat criticada per "manipulació de puntuacions" a l'era Grok2. A mesura que la taula de classificació penalitzava l'estil de longitud de les respostes, les puntuacions van disminuir considerablement, cosa que va fer que els experts de la indústria sovint critiquessin el fenomen de "puntuació alta però baixa habilitat".

Ja sigui mitjançant la "manipulació" de la taula de classificació o trucs de disseny en il·lustracions, revelen l'obsessió de xIA i Musk amb la idea de "liderar el grup" en capacitats de models. Musk va pagar un preu elevat per aquests marges: durant el llançament, es va vantar d'utilitzar 200.000 GPU H100 (afirmant que en va utilitzar "més de 100.000" durant la transmissió en directe) i d'aconseguir un temps d'entrenament total de 200 milions d'hores. Això va portar alguns a creure que representa un altre avantatge significatiu per a la indústria de les GPU i a considerar l'impacte de DeepSeek en el sector com a "una ximpleria". Cal destacar que alguns creuen que la pura potència computacional serà el futur de l'entrenament de models.

No obstant això, alguns internautes van comparar el consum de 2000 GPU H800 durant dos mesos per produir DeepSeek V3, calculant que el consum d'energia real d'entrenament de Grok3 és 263 vegades superior al de V3. La diferència entre DeepSeek V3, que va obtenir 1402 punts, i Grok3 és de poc menys de 100 punts. Després de la publicació d'aquestes dades, molts es van adonar ràpidament que darrere del títol de Grok3 com a "el més fort del món" hi ha un clar efecte d'utilitat marginal: la lògica dels models més grans que generen un rendiment més fort ha començat a mostrar rendiments decreixents.

Fins i tot amb "puntuació alta però baixa capacitat", Grok2 disposava de grans quantitats de dades pròpies d'alta qualitat de la plataforma X (Twitter) per donar suport a l'ús. Tanmateix, en l'entrenament de Grok3, xAI va trobar naturalment el "sostre" al qual s'enfronta OpenAI actualment: la manca de dades d'entrenament premium exposa ràpidament la utilitat marginal de les capacitats del model.

Els desenvolupadors de Grok3 i Musk són probablement els primers a entendre i identificar aquests fets en profunditat, i és per això que Musk ha esmentat contínuament a les xarxes socials que la versió que els usuaris estan experimentant ara "encara és només la versió beta" i que "la versió completa es publicarà en els propers mesos". Musk ha assumit el paper de gerent de producte de Grok3, suggerint que els usuaris proporcionin comentaris sobre diversos problemes trobats a la secció de comentaris. Podria ser el gerent de producte més seguit del món.

Tot i això, en un dia, el rendiment de Grok3 sens dubte va fer saltar les alarmes per a aquells que esperaven confiar en un "múscul computacional massiu" per entrenar models grans i més forts: segons la informació de Microsoft disponible públicament, el GPT-4 d'OpenAI té una mida de paràmetre d'1,8 bilions de paràmetres, més de deu vegades superior a la del GPT-3. Els rumors suggereixen que la mida del paràmetre del GPT-4.5 podria ser encara més gran.

A mesura que la mida dels paràmetres del model augmenta, els costos d'entrenament també s'estan disparant. Amb la presència de Grok3, els competidors com GPT-4.5 i altres que volen continuar "cremant diners" per aconseguir un millor rendiment del model a través de la mida dels paràmetres han de tenir en compte el sostre que ara està clarament a la vista i contemplar com superar-lo. En aquest moment, Ilya Sutskever, excap de ciències d'OpenAI, havia declarat anteriorment el desembre passat: "L'entrenament previ amb què estem familiaritzats arribarà a la seva fi", cosa que ha tornat a sorgir en les discussions, impulsant esforços per trobar el veritable camí per entrenar models grans.

El punt de vista d'Ilya ha fet saltar les alarmes a la indústria. Va preveure amb precisió l'esgotament imminent de les noves dades accessibles, cosa que portaria a una situació en què el rendiment no es pot continuar millorant mitjançant l'adquisició de dades, comparant-ho amb l'esgotament dels combustibles fòssils. Va indicar que "com el petroli, el contingut generat per humans a Internet és un recurs limitat". Segons les prediccions de Sutskever, la propera generació de models, després de la formació prèvia, posseirà una "veritable autonomia" i capacitats de raonament "similars al cervell humà".

A diferència dels models preentrenats actuals que es basen principalment en la coincidència de contingut (basada en el contingut del model après prèviament), els futurs sistemes d'IA podran aprendre i establir metodologies per resoldre problemes d'una manera similar al "pensament" del cervell humà. Un humà pot assolir un domini fonamental en una matèria amb només literatura professional bàsica, mentre que un model d'IA de grans dimensions requereix milions de punts de dades per aconseguir només l'eficàcia de nivell inicial més bàsica. Fins i tot quan la redacció es canvia lleugerament, és possible que aquestes preguntes fonamentals no s'entenguin correctament, cosa que il·lustra que el model no ha millorat realment en intel·ligència: les preguntes bàsiques però irresolubles esmentades al principi de l'article representen un exemple clar d'aquest fenomen.

Conclusió

Tanmateix, més enllà de la força bruta, si Grok3 aconsegueix revelar a la indústria que "els models preentrenats s'acosten al seu final", això tindria implicacions significatives per al camp.

Potser després que el frenesí que envolta Grok3 disminueixi gradualment, presenciarem més casos com l'exemple de Fei-Fei Li d'"afinar models d'alt rendiment en un conjunt de dades específic per només 50 dòlars", descobrint finalment el veritable camí cap a l'AGI.