• Ordinal data supervised classification with Quantile-based and other classifiers
  • Mancini, Lorenzo <1989>

Subject

  • SECS-S/01 Statistica

Description

  • The aim of this research project is to propose a new method for supervised classification problems where the input features are ordinal. Ordinal data are preponderant in many research fields. They directly arise when the observations fall into separate distinct but ordered categories and they are very common in surveys where answers are listed as Likert scales. Typically, they are coded as equally spaced values and sometimes they are analyzed as numerical values. These choices may not necessarily correspond to the real distribution of the data. The objectives of the study have been accomplished according to several steps. The first phase consisted of an exhaustive analysis of the state of art of the statistical literature with the aim of identifying the various approaches to ordinal data analysis, the related limitations, and possible advantages. We have then proposed to operate in the framework of Generalized Linear Latent Variable Models (GLLVM), considering the response function approach with a single latent variable Beta distributed. Our scope in using this method is to shift from a set of ordinal features to a single continuous feature, which well adapt the data, in order to directly apply the standard classification methods. A dedicated EM algorithm has been developed on the basis of this theoretical framework using the statistical software R. Finally, we have compared our approach with several scoring methods through a wide simulation study. The scoring methods that we have considered in the simulation study are: the raw scores, the ridits, the blom scores, the normal median scores and the conditional mean scores. These methods, although have a long history in literature, have never been used for classification purpose. In addition we present an example of the application of the proposed approach to real world business data problem.
  • Il lavoro di ricerca ha l'obiettivo di individuare una metodologia statistica per la classificazione supervisionata di unità statistiche misurate da un insieme di variabili ordinali. Questo tipo di dati è diffuso in diverse aree di ricerca e, in particolare, è molto comune nei sondaggi, dove le categorie di risposta sono elencate tramite scale Likert. Tipicamente, le categorie associate a queste variabili sono codificate attraverso apposite etichette le quali corrispondono solitamente a valori numerici progressivi ed equi-distanziati che riflettono l'ordine delle categorie. In fase di analisi non è però appropriato trattare questi dati come valori numerici reali, in quanto si andrebbe ad introdurre una distanza tra categorie che potrebbe non corrispondere a quella effettiva. Il progetto di ricerca si articola in diverse fasi. Inizialmente, viene effettuata un'analisi esaustiva dello stato dell'arte della letteratura, per identificare i vari approcci all'analisi dei dati ordinali, valutandone i limiti e i vantaggi. Successivamente, sulla base dei risultati di questa analisi, viene proposto un metodo basato sull'approccio response function, nel contesto dei modelli generalizzati a variabili latenti. A differenza del metodo classico, che prevede variabili latenti normalmente distribuite, la nuova metodologia proposta considera una singola variabile latente con distribuzione Beta, poiché fornisce specifici vantaggi in termini di efficienza computazionale e di adattamento ai dati. L'obiettivo è, sostanzialmente, di spostare il problema della classificazione da un insieme di variabili ordinali ad una singola variabile continua, in modo da applicare i metodi di classificazione standard. Sulla base di questo quadro teorico di riferimento è stato sviluppato un algoritmo EM, utilizzando il software statistico R. L'approccio proposto è confrontato, attraverso un ampio studio di simulazione, con diversi metodi di scoring, in particolare: raw scores, ridits, blom scores, normal median scores e conditional mean scores. Si presenta, inoltre, un'applicazione del metodo discusso ad un problema di classificazione su dati reali.

Date

  • 2018-05-08

Type

  • Doctoral Thesis
  • PeerReviewed

Format

  • application/pdf

Identifier

urn:nbn:it:unibo-23384

Mancini, Lorenzo (2018) Ordinal data supervised classification with Quantile-based and other classifiers, [Dissertation thesis], Alma Mater Studiorum Università di Bologna. Dottorato di ricerca in Scienze statistiche , 30 Ciclo. DOI 10.6092/unibo/amsdottorato/8543.

Relations