Concetti Avanzati - Sinteticamente

La Finestra di Contesto

La finestra di contesto, nell'ambito dei modelli di linguaggio, consiste nel numero di parole o token che un modello di linguaggio può "ricordare" o tenere in considerazione mentre genera una risposta.

Named Entity Recognition

La NER consiste nell'identificare e classificare le entità specifiche che compaiono in un testo, come ad esempio nomi di persone, città, paesi, laghi, fiumi e così via.

Il Part-of-Speech Tagging

Il POS Tagging è una tecnica di elaborazione del linguaggio naturale che consiste nell'etichettare le parole con la loro parte del discorso, proprio come avviene quando si fa l'analisi grammaticale di un testo scolastico.

La Lemmatizzazione

La lemmatizzazione è il processo di riduzione di una parola alla sua forma base (lemma).

Lo Stemming

Lo stemming è un processo che implica la rimozione degli affissi (suffissi, prefissi, infissi e circonfissi) da una parola per ottenere la sua forma base o radice, senza però tenere conto del contesto grammaticale di una parola.

La Vettorializzazione

La vettorializzazione consiste nella conversione di dati non numerici, come il testo, in un formato vettoriale numerico che può essere compreso e manipolato da algoritmi di apprendimento automatico.

La Tokenizzazione

Con il termine token, nel contesto dei modelli di AI, si intende un’unità di testo minima che contiene significato.