Ordinal data supervised classification with Quantile-based and other classifiers
Mancini, Lorenzo <1989>
Subject
SECS-S/01 Statistica
Description
The aim of this research project is to propose a new method for supervised classification problems where the input features are ordinal. Ordinal data
are preponderant in many research fields. They directly arise when the observations
fall into separate distinct but ordered categories and they are very common in surveys where answers are listed as Likert scales. Typically, they are coded as equally spaced values and sometimes they are analyzed as numerical values. These choices may not necessarily correspond to the real distribution of the data.
The objectives of the study have been accomplished according to several steps. The first phase consisted of an exhaustive analysis of the state of art
of the statistical literature with the aim of identifying the various approaches
to ordinal data analysis, the related limitations, and possible advantages. We
have then proposed to operate in the framework of Generalized Linear Latent
Variable Models (GLLVM), considering the response function approach with
a single latent variable Beta distributed. Our scope in using this method is
to shift from a set of ordinal features to a single continuous feature, which
well adapt the data, in order to directly apply the standard classification
methods.
A dedicated EM algorithm has been developed on the basis of this theoretical
framework using the statistical software R.
Finally, we have compared our approach with several scoring methods through
a wide simulation study. The scoring methods that we have considered in the
simulation study are: the raw scores, the ridits, the blom scores, the normal
median scores and the conditional mean scores. These methods, although
have a long history in literature, have never been used for classification purpose.
In addition we present an example of the application of the proposed approach
to real world business data problem.
Il lavoro di ricerca ha l'obiettivo di individuare una metodologia statistica per
la classificazione supervisionata di unità statistiche misurate da un insieme
di variabili ordinali. Questo tipo di dati è diffuso
in diverse aree di ricerca e, in particolare, è molto comune nei sondaggi,
dove le categorie di risposta sono elencate tramite scale Likert. Tipicamente,
le categorie associate a queste variabili sono codificate attraverso apposite
etichette le quali corrispondono solitamente a valori numerici progressivi
ed equi-distanziati che riflettono l'ordine delle categorie. In fase di analisi
non è però appropriato trattare questi dati come valori numerici reali, in
quanto si andrebbe ad introdurre una distanza tra categorie
che potrebbe non corrispondere a quella effettiva.
Il progetto di ricerca si articola in diverse fasi. Inizialmente, viene effettuata
un'analisi esaustiva dello stato dell'arte della letteratura, per identificare i
vari approcci all'analisi dei dati ordinali, valutandone i limiti e i vantaggi.
Successivamente, sulla base dei risultati di questa analisi, viene proposto un
metodo basato sull'approccio response function, nel contesto dei modelli generalizzati
a variabili latenti. A differenza del metodo classico, che prevede
variabili latenti normalmente distribuite, la nuova metodologia proposta considera
una singola variabile latente con distribuzione Beta, poiché fornisce
specifici vantaggi in termini di efficienza computazionale e di adattamento
ai dati. L'obiettivo è, sostanzialmente, di spostare il problema della classificazione da un insieme di variabili ordinali ad una singola variabile continua,
in modo da applicare i metodi di classificazione standard.
Sulla base di questo quadro teorico di riferimento è stato sviluppato un algoritmo
EM, utilizzando il software statistico R.
L'approccio proposto è confrontato, attraverso un ampio studio di simulazione,
con diversi metodi di scoring, in particolare: raw scores, ridits, blom
scores, normal median scores e conditional mean scores.
Si presenta, inoltre, un'applicazione del metodo discusso ad un problema
di classificazione su dati reali.
Mancini, Lorenzo (2018) Ordinal data supervised classification with Quantile-based and other classifiers, [Dissertation thesis], Alma Mater Studiorum Università di Bologna. Dottorato di ricerca in Scienze statistiche , 30 Ciclo. DOI 10.6092/unibo/amsdottorato/8543.