per mezzo di modelli linguistici per mezzo di grandi dimensioni: una scorta

I modelli linguistici per mezzo di grandi dimensioni (LLM) poiché GPT-4, Claude e LLaMA sono diventati giorno e notte popolari. Riconoscenza alla esse mezzo per mezzo di mettere al mondo originale meravigliosamente consimile a come fraterno, questi sistemi per mezzo di fittizio vengono poco fa utilizzati per fortuna purchessia essere, dalla creato per mezzo di contenuti ai chatbot del ripartizione clienti.

Difficoltà poiché facciamo a non volerne sapere dal momento che questi modelli sono infatti validi? Per mezzo di il fermo presagio per mezzo di nuovi LLM, tutti affermanti per mezzo di esistenza grandi e migliori, poiché valutiamo e confrontiamo le esse prestazioni?

Per questa scorta completa, esploreremo le principali tecniche per fortuna vagliare modelli linguistici per mezzo di grandi dimensioni. Esamineremo i utile e i per contro per mezzo di ciascun approccio, ogni volta che sono applicati al la scelta migliore e poiché puoi sfruttarli nei tuoi saggio LLM.

Metriche specifiche dell'

Unico dei modi semplici per fortuna vagliare un LLM è testarlo su per mezzo di PNL stabilite utilizzando metriche standardizzate. Durante ammaestramento:

Durante le per mezzo di epilogo, metriche poiché ROSSO (Recall-Oriented Understudy for Gisting Evaluation) sono abitualmente usati. ROUGE confronta il ricapitolazione generato dal maquette nonostante un ricapitolazione per mezzo di “attinenza” composizione esseri umani, contando la sovrapposizione per mezzo di chiacchiere frasi.

Esistono svariati gusti per mezzo di ROUGE, nonostante i propri utile e per contro:

  • ROSSO-N: Confronta la sovrapposizione per mezzo di n grammi (sequenze per mezzo di N chiacchiere). ROUGE-1 utilizza unigrammi (chiacchiere singole), ROUGE-2 usa bigram, ecc. Il giunta è quale presa l'stile delle chiacchiere, eppure può esistenza esageratamente implacabile.
  • ROSSO-L: Basato sulla sottosequenza comunità lunga (LCS). Più tardi nell'stile delle chiacchiere eppure si concentra sui punti principali.
  • ROUGE-W: Pesa le corrispondenze LCS per piedestallo al esse contenuto. Tentativi per mezzo di potenziare ROUGE-L.

Per generico, le metriche ROUGE sono veloci, automatiche e funzionano sostanza per fortuna i riepiloghi dei sistemi per mezzo di graduatoria. Nondimeno, misurano la rigore il contenuto. Un ricapitolazione potrebbe avere un votazione ROUGE eminente ed esistenza appena che esente per mezzo di accezione.

La per fortuna ROUGE-N è:

ROUGE-N=∑∈{Riepiloghi dei riferimenti}∑∑�∈{Riepiloghi dei riferimenti}∑

Se:

  • Count_{}(gram_n) è il calcolo per mezzo di n grammi sia nel epilogo generato quale per come per mezzo di attinenza.
  • Count(gram_n) è il calcolo per mezzo di n-grammi nel epilogo per mezzo di attinenza.

Ad ammaestramento, per fortuna ROUGE-1 (unigrammi):

  • generato: "Il micio si sedette".
  • per mezzo di attinenza: "Il micio si sedette sul tappeto".
  • Unigrammi sovrapposti: “The”, “cat”, “sat”
  • Votazione ROUGE-1 = 3/5 = 0,6

ROSSO-L utilizza la sottosequenza comunità lunga (LCS). È nonostante l'stile delle chiacchiere. La è:

ROUGE-L=���(generato,attinenza)max(estensione(generato), estensione(attinenza))

Se LCS è la estensione della sottosuccessione comunità lunga.

ROUGE-W pondera le partite LCS. Considera il contenuto per mezzo di quantità nella LCS.

Durante le per mezzo di interpretazione automatica, BLU (Bilingual Evaluation Understudy) è una metrica democratico. BLEU capacità la affinità per la interpretazione per mezzo di output del maquette e le traduzioni umane professionali, utilizzando una attenzione per mezzo di n grammi e una sanzione per mezzo di brevità.

Aspetti risoluzione del funzionamento per mezzo di BLEU:

  • Confronta le sovrapposizioni per mezzo di n grammi per fortuna n pure a 4 (unigrammi, bigrammi, trigrammi, 4 grammi).
  • Calcola una geometrica delle attenzione per mezzo di n grammi.
  • Applica una sanzione per mezzo di brevità dal momento che la interpretazione è del attinenza.
  • Normalmente varia 0 a 1, in quale luogo 1 corrisponde al attinenza.

BLEU si correla logicamente sostanza nonostante i giudizi umani sulla stampo della interpretazione. Difficoltà ha di più dei limiti:

  • Battuta derelitto la attenzione obbedienza ai riferimenti, al attrattiva a F1.
  • nonostante traduzioni creative quale utilizzano chiacchiere diverse.
  • Sensibile al “giochi” nonostante trucchi per mezzo di interpretazione.

Altri parametri per mezzo di interpretazione poiché METEOR e TER tentano per mezzo di potenziare i punti deboli per mezzo di BLEU. Difficoltà per generico, le metriche automatiche catturano la stampo della interpretazione.

Altri compiti

Ancora al epilogo e alla interpretazione, è supponibile metriche poiché F1, cura, MSE e altre per fortuna vagliare le prestazioni LLM su poiché:

  • Catalogazione del originale
  • per mezzo di informazioni
  • Sentenza alla
  • Ricerca del senso
  • Rilievo degli errori grammaticali

Il giunta delle metriche specifiche per fortuna è quale la misurazione può esistenza automatizzata utilizzando set per mezzo di dati standardizzati poiché per fortuna il QA e COLLA momento per mezzo di attinenza per fortuna una ordine per mezzo di compiti. I risultati possono esistenza semplicemente monitorati nel di tempo in tempo man forza quale i modelli migliorano.

Nondimeno, questi parametri sono mirati per sistema circoscritto e possono stimare la stampo complessiva della gergo. A lei LLM quale ottengono buoni risultati per termini per mezzo di metriche per fortuna una singola potrebbero rivelarsi a mettere al mondo originale costante, coerente e guadagno per generico.

Benchmark per mezzo di studio

Un sistema democratico per fortuna vagliare a lui LLM è testarli obbedienza a benchmark per mezzo di studio ad spazioso zona quale coprono svariati argomenti e . Questi parametri per mezzo di attinenza consentono per mezzo di provare velocemente i modelli su larga proporzione.

Certi benchmark ben noti includono:

  • Super – Set gravoso per mezzo di 11 compiti linguistici svariati.
  • COLLA – Collana per mezzo di 9 compiti per mezzo di apprendimento delle frasi. Più tardi innocente per mezzo di SuperGLUE.
  • MMLU – 57 svariati compiti STEM, scienze sociali e umanistiche. Controllo la sapere e la mezzo per mezzo di induzione.
  • Duello dello scaletta Winograd – Problemi per mezzo di annullamento dei pronomi quale richiedono un induzione basato sul buon accezione.
  • ARCO – Compiti impegnativi per mezzo di induzione per favella comprensibile.
  • Hellaswag – Discorso basato sul buon accezione sulle situazioni.
  • PIQA – Domande per mezzo di fisica quale richiedono diagrammi.

Valutando benchmark poiché questi, i ricercatori possono provare velocemente i modelli sulla esse mezzo per mezzo di effettuare calcoli, ovvietà, induzione, codifica, buon accezione e futuro di più. La guadagno per mezzo di domande nonostante reazione corretta diventa una metrica per mezzo di attinenza per fortuna accostare i modelli.

Nondimeno, un serio cosa nonostante i benchmark è dei dati per mezzo di istruzione. Parecchi benchmark contengono esempi appunto visti dai modelli all'epoca di la per mezzo di pre-formazione. Ciò consente ai modelli per mezzo di “” rispondono a domande specifiche e ottengono risultati migliori delle esse reali mezzo.

Si tenta per mezzo di “decontaminare" benchmark rimuovendo a lui esempi sovrapposti. Difficoltà è involuto farlo per sistema abito, ogni volta che i modelli potrebbero aver approvazione versioni delle domande parafrasate tradotte.

Tuttavia, nonostante i benchmark possano provare per sistema produttivo un’ampia scala per mezzo di , possono stimare per sistema sicuro le reali mezzo per mezzo di induzione risparmiare l’stagnazione del votazione dovuta alla . Sono necessari metodi per mezzo di misurazione complementari.

Autovalutazione LLM

Un approccio consiste nel far un giorno sì e uno no quale un LLM valuti i risultati per mezzo di un futuro LLM. L’principio è per mezzo di usare il concepimento per mezzo di “ innocente”:

  • Esibire un output per mezzo di alta stampo può esistenza involuto per fortuna un LLM.
  • Difficoltà creare dal momento che un decisivo output è per mezzo di alta stampo può esistenza un intero innocente.

Ad ammaestramento, finché un LLM può avere sullo stomaco stento a mettere al mondo un daccapo e costante, può semplicemente dal momento che un decisivo daccapo ha un accezione coerente e si adatta al intreccio.

Di conseguenza il corso è:

  1. Passa il prompt per mezzo di al dominante LLM per fortuna mettere al mondo output.
  2. Passa il prompt per mezzo di + l'output generato al in relazione a LLM "valutatore".
  3. Chiedi al valutatore LLM una per fortuna vagliare la stampo dell'output. ad ammaestramento "La reazione per mezzo di cui essere sopra pensiero ha un accezione coerente?"

Questo approccio è breve implementare e automatizza la misurazione LLM. Difficoltà ci sono alcune sfide:

  • Le prestazioni dipendono dalla raccolta del valutatore LLM e dalla tempestiva .
  • Obbligato dalla stento del intero vero. Determinare ragionamenti complessi è di più involuto per fortuna i LLM.
  • Può esistenza pepato dal opinione computazionale dal momento che si utilizzano LLM basati su API.

L’autovalutazione è in particolare positivo per fortuna vagliare le informazioni recuperate RAG (stirpe aumentata per mezzo di riutilizzazione) sistemi. Ulteriori query LLM possono esistenza convalidate dal momento che il intreccio recuperato viene utilizzato per sistema .

Nel globalità, l’autovalutazione fiera eppure richiede accortezza nell’adempimento. Ella integra, supplire, la misurazione umana.

umana

Date le limitazioni delle metriche e dei benchmark automatizzati, la misurazione umana è di più il gold normalizzato per fortuna vagliare esattamente la stampo LLM.

A lei esperti possono equipaggiare valutazioni qualitative dettagliate su:

  • Attenzione e dei fatti
  • Ovvietà, induzione e buon accezione
  • , compattezza e comprensibilità
  • Appropriatezza del aria, dello classe e della nome
  • Grammaticalità e fluidità
  • Ingegnosità e sfumature

Durante vagliare un maquette, agli esseri umani viene fornita una ordine per mezzo di prompt per mezzo di e le risposte generate LLM. Valutano la stampo delle risposte, utilizzando scale per mezzo di misurazione e rubriche.

Quello incomodo è quale la misurazione umana trattato è costosa, lenta e involuto inerpicarsi. Richiede egli perfezionamento per mezzo di criteri standardizzati e la dei valutatori per fortuna applicarli per sistema costante.

Certi ricercatori hanno esplorato modi creativi per fortuna sovvenzionare per crowdfunding le valutazioni LLM umane utilizzando sistemi per classe per cui le persone scommettono e giudicano a lui incontri per i modelli. Difficoltà la glassa è di più limitata obbedienza alle valutazioni manuali complete.

Durante i casi per mezzo di aziendale per cui la stampo conta della proporzione grezza, i saggio umani condotti esperti rimangono il gold normalizzato senza occuparsi di i costi. Ciò è in particolare franco per fortuna le applicazioni rischiose degli LLM.

Riepilogo

La misurazione approfondita per mezzo di modelli linguistici per mezzo di grandi dimensioni richiede l’ per mezzo di un totalità diversificato per mezzo di metodi complementari, preferibilmente quale custodia su una singola .

Combinando approcci automatizzati per fortuna la solerzia nonostante un austero sorveglianza fraterno per fortuna l'cura, possiamo spiegare metodologie per mezzo di saggio affidabili per fortuna modelli linguistici per mezzo di grandi dimensioni. Per mezzo di una misurazione solida, possiamo liberalizzare l'stragrande forza degli LLM gestendo i rischi per sistema avallante.

error: Il contenuto è protetto!!