La finestra di contesto, nell'ambito dei modelli di linguaggio, consiste nel numero di parole o token che un modello di linguaggio può "ricordare" o tenere in considerazione mentre genera una risposta.
Named Entity Recognition
La NER consiste nell'identificare e classificare le entità specifiche che compaiono in un testo, come ad esempio nomi di persone, città, paesi, laghi, fiumi e così via.
Il Part-of-Speech Tagging
Il POS Tagging è una tecnica di elaborazione del linguaggio naturale che consiste nell'etichettare le parole con la loro parte del discorso, proprio come avviene quando si fa l'analisi grammaticale di un testo scolastico.
La Lemmatizzazione
La lemmatizzazione è il processo di riduzione di una parola alla sua forma base (lemma).
Lo Stemming
Lo stemming è un processo che implica la rimozione degli affissi (suffissi, prefissi, infissi e circonfissi) da una parola per ottenere la sua forma base o radice, senza però tenere conto del contesto grammaticale di una parola.
La Vettorializzazione
La vettorializzazione consiste nella conversione di dati non numerici, come il testo, in un formato vettoriale numerico che può essere compreso e manipolato da algoritmi di apprendimento automatico.
La Tokenizzazione
Con il termine token, nel contesto dei modelli di AI, si intende un’unità di testo minima che contiene significato.