Modelli supervisionati e non supervisionati per il Data Mining

22 gen 2020 · 3 min. 52 sec.

Descrizione

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati. I modelli “supervisionati”, che sono metodi che vengono applicati nel momento...

mostra di più

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.

I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.

I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo.

Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di Clustering o modelli di Regole di associazione.

La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.

Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.

Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.

I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.

I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.

Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.

L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.

Anche il Clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale.

In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.

Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..

in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.

mostra meno

Commenti

Accedi per lasciare un commento

Informazioni

Autore	Valerio Maria Murgolo
Sito	-
Tag	#alberi di classificazione #basket analysis #brand reputation #classificazione #clustering #datamining #metodo knn #modelli supervisionati #parsing #regole di associazione #regressione #sentiment analysis #support vector machine #text mining #vicino più prossimo