NBN_resolver

Transportation data analysis. Advances in data mining and uncertainty treatment

Gecchele, Gregorio

Subject

Data Mining

Uncertainty treatment

FHWA

AADT

SCUOLA DI DOTTORATO DI RICERCA IN INGEGNERIA CIVILE E AMBIENTALE - indirizzo INGEGNERIA DELLE INFRASTRUTTURE, STRUTTURE E SISTEMI DI TRASPORTO

ICAR/05 TRASPORTI

Description

2010/2011

Nello studio dei sistemi di trasporto l’acquisizione e l’utilizzo di informazioni corrette e aggiornate sullo stato dei sistemi rappresentano da sempre elementi di centrale importanza per la produzione di analisi adeguate ed affidabili. Sfortunatamente in molti ambiti applicativi le informazioni disponibili per le analisi sono invece spesso carenti o di bassa qualità, e il loro utilizzo si traduce in risultati affetti da elevata incertezza e talvolta di dubbia validità. I processi di evoluzione tecnologica che interessano campi quali l’informatica, l’elettronica e le telecomunicazioni stanno rendendo progressivamente più semplice e conveniente l’acquisizione di rilevanti quantità di dati di interesse per le analisi trasportistiche, sia tradizionalmente raccolti per studi trasportistici (ad esempio dati di traffico rilevati su tronchi stradali) sia non direttamente connessi ad un uso trasportistico (ad esempio segnali Bluetooth e GPS provenienti da dispositivi di telefonia mobile). Tuttavia in molti casi l’ampia disponibilità di dati, soprattutto nel secondo caso, non si traduce in immediata spendibilità applicativa. I dati sono infatti spesso disomogenei dal punto di vista informativo, caratterizzati da una qualità non necessariamente elevata e spesso richiedono onerosi processi di verifica e validazione. In questi particolari contesti l’applicazione di tecniche di Data Mining può dimostrarsi una soluzione indubbiamente vantaggiosa. Esse infatti, per loro intrinseca natura, rendono possibile la gestione efficace di grandi quantità di dati e la produzione di risultati sempre più robusti all’aumentare delle dimensioni della base di dati disponibile. Sulla base di queste considerazioni questo lavoro di tesi si è concentrato in primo luogo su un’attenta revisione delle più consolidate tecniche di Data Mining, individuando gli ambiti applicativi, nel campo dei trasporti, in cui esse possono rappresentare dei validi strumenti di analisi. Con il termine Data Mining si fa riferimento al processo di estrazione dell’informazione presente in un certo insieme di dati, finalizzato ad individuare relazioni “nascoste” nei dati stessi o comunque a sintetizzare in modalità nuove la visione su di essi. Esso rappresenta una parte di un più ampio processo di estrazione della conoscenza, che inizia con un’accurata selezione e trasformazione dei dati disponibili (come detto i dati sottoposti a “mining” sono spesso raccolti con altri obiettivi) e si conclude con un’attenta interpretazione e valutazione dei risultati. Uno schema di classificazione generalmente accettato suddivide le tecniche di Data Mining in sei categorie in rapporto alla funzione considerata: stima (reti neurali, modelli di regressione, alberi decisionali), previsione (reti neurali, alberi decisionali), classificazione (k-nearest neighbour, alberi decisionali, reti neurali), raggruppamento (tecniche di clustering, Self-Organising-Maps), associazione (regole di associazione) e descrizione (regole di associazione, clustering, alberi decisionali). Nel presentare un quadro d’insieme dell’ampia letteratura esistente in materia, uno specifico rilievo è stato dato alle più consolidate tecniche di classificazione, raggruppamento e associazione, in quanto maggiormente impiegate nei diversi contesti applicativi. Successivamente è stato tracciato uno stato dell’arte per ciò che attiene le applicazioni in ambito trasportistico. In tal senso la revisione dei lavori prodotti ha evidenziato la notevole flessibilità d’uso di queste tecniche e la loro crescente diffusione applicativa. Molti sono infatti i filoni di ricerca che hanno beneficiato di queste tecniche innovative; tra questi nel lavoro di tesi si sono evidenziati alcuni tra i più interessanti: la previsione a breve termine dei flussi di traffico da dati storici o in real-time (traffic forecasting), l’identificazione e la quantificazione dei fattori che influenzano i fenomeni di incidentalità, l’analisi di sistemi di gestione delle pavimentazioni stradali e di sistemi di monitoraggio del traffico. La seconda parte della tesi si è invece focalizzata su un’applicazione delle tecniche di Data Mining allo studio del funzionamento di un sistema viario, attraverso una revisione critica della Procedura FHWA (Federal Highway Administration) per il monitoraggio del traffico stradale. La scelta di questo filone di ricerca è data dal fatto che la raccolta di informazioni sui volumi di traffico è un aspetto rilevante nell’attività di pianificazione dei trasporti (ambito stradale), quale componente significativa del processo conoscitivo. D’altra parte i costi legati alla gestione dei sistemi di monitoraggio, sia per attrezzature che per personale, richiedono una crescente attenzione alla loro progettazione, al fine di ottenere la massima qualità dei risultati. Negli Stati Uniti la FHWA definisce periodicamente alcune linee guida per migliorare questi aspetti attraverso la Traffic Monitoring Guide (2001) e ha raggiunto progressivamente un ruolo di riferimento per altre agenzie dello stesso tipo in altre parti del mondo, Italia compresa. Tale procedura è basata sull’uso congiunto di rilievi di diversa durata (rilievi in continuo con strumenti fissi e rilievi di breve durata con apparecchiature portatili) ed è finalizzata principalmente alla stima del Traffico Giornaliero Medio Annuo (Annual Average Daily Traffic, AADT). L’analisi della letteratura esistente ha individuato la lacuna principale della procedura FHWA nella determinazione dei gruppi tipologici di strade sulla base dei profili temporali di traffico e nell’assegnazione delle sezioni monitorate con rilievi di breve durata a questi gruppi. L’approccio elaborato si è pertanto posto l’obiettivo di migliorare la procedura relativamente a questi due aspetti rilevanti. Per trattare l’esistenza di situazioni di incerta attribuzione di una sezione stradale ad un certo gruppo tipologico, specie quando non è semplice fornire una chiara definizione in termini trasportistici (ad esempio strada “pendolare” o “turistica”), sono state adottate tecniche di Fuzzy Clustering, garantendo un’opportuna trattazione formale del problema. Per quanto concerne il secondo aspetto, le sezioni non monitorate in continuo vengono inserite nel gruppo tipologico più simile rispetto ai profili temporali di traffico osservati. Per effettuare l’assegnazione di queste sezioni ai gruppi tipologici, l’approccio proposto ha utilizzato una Rete Neurale Artificiale, opportunamente progettata per mantenere l’incertezza presente nella fase di creazione dei gruppi fino alla fine del processo. L’output della rete è infatti rappresentato dall’insieme delle probabilità di appartenenza del rilievo di breve durata ai diversi gruppi tipologici ed è interpretato utilizzando la teoria di Dempster-Shafer. Le misure di incertezza associate all’output (indici di non-specificità e discordanza) permettono di descrivere sinteticamente la qualità dell’informazione disponibile. L’approccio proposto è stato implementato considerando i dati di monitoraggio provenienti dal programma SITRA (Sistema Informativo TRAsporti) della Provincia di Venezia. Rispetto all’ambito applicativo di interesse è stata verificata la validità dell’approccio, confrontando i risultati ottenuti nella stima dell’AADT con precedenti approcci proposti in letteratura. L’analisi comparativa dei risultati ha permesso di rilevare una migliore accuratezza delle stime e soprattutto la possibilità, assente nei precedenti approcci, di evidenziare eventuali carenze informative (dovute all’esiguo numero di dati) e la necessità di procedere con ulteriori rilievi di traffico. I risultati positivi ottenuti in questa fase sperimentale hanno permesso di avviare il progetto per la realizzazione di uno strumento software di immediata spendibilità applicativa

In the study of transportation systems, the collection and the use of correct information of the state of the system represent a central point for the development of reliable and proper analyses. Unfortunately in many application fields information is generally obtained using limited, scarce and low-quality data and their use produces results affected by high uncertainty and in some cases low validity. Technological evolution processes which interest different fields, including Information Technology, electronics and telecommunications make easier and less expensive the collection of large amount of data which can be used in transportation analyses. These data include traditional information gathered in transportation studies (e.g. traffic volumes in a given road section) and new kind of data, not directly connected to transportation needs (i.e. Bluetooth and GPS data from mobile phones). However in many cases, in particular for the latter case, this large amount of data cannot be directly applied to transportation problems. Generally there are low-quality, non-homogeneous data, which need time consuming verification and validation process to be used. Data Mining techniques can represent an effective solution to treat data in these particular contexts since they are designed to manage large amount of data producing results whose quality increases as the amount of data increases. Based on these facts, this thesis first presents a review of the most well-established Data Mining techniques, identifying application contexts in transportation field for which they can represent useful analysis tools. Data mining can be defined as the process of exploration and analysis which aims to discover meaningful patterns and ‘’hidden’’ rules in the set of data under analysis. Data Mining could be considered a step of a more general Knowledge Discovery in Databases Process, which begins with selection, pre-processing and transformation of data (“mined” data are generally collected for reasons different from the analysis) and is completed with the interpretation and evaluation of results. A classification scheme generally accepted identifies six categories of DM techniques, which are related to the objective one would achieve from the analysis: estimation (neural networks, regression models, decision trees), prediction (neural networks, decision trees), classification (k-nearest neighbor, decision trees, neural networks), clustering (clustering techniques, Self-Organizing-Maps), affinity grouping or association (association rules) and profiling (association rules). In the review of the wide literature concerning Data Mining methods, particular attention has been devoted to the well-established technique of clustering, classification and association, since they are the most applied in different application contexts. The literature review process has been further extended to Data Mining applications in the transportation field. This review highlights the great flexibility of use of these techniques and the increasing number of applications. Many research topics have taken advantages of these innovative tools and some of them are presented due to their interest: short-term traffic flow forecasting from historical and real-time data, identification and quantification of factor risks in accident analysis, analysis of pavement management systems and traffic monitoring systems. The second part of the thesis has focused on the application of Data Mining techniques to road system analysis, through a critical review of U.S. Federal Highway Administration (FHWA) traffic monitoring approach. The choice of this topic is due to the fact that traffic monitoring activities represent a relevant aspect of highway planning activities, as a part of the knowledge process. However data collection activities produce relevant management costs, both for equipment and personnel, therefore monitoring programs need to be designed with attention to obtain the maximum quality of results. In the U.S.A., the Federal Highway Administration (FHWA) provides guidance for improving these aspects by way of its Traffic Monitoring Guide (TMG) (FHWA, 2001), which has a reference role for other similar agencies in the world. The FHWA procedure is based on two types of counts (short duration counts taken with portable traffic counters and continuous counts taken with fixed counters) and has the main objective of determine the Annual Average Daily Traffic (AADT). Critical review of literature on this topic has pointed out that the most critical aspects of this procedure are the definition of road groups based on traffic flow patterns and the assignment of a section to a road group using short counts. The proposed approach has been designed to solve both issues. The first issue is related to situations for which road section could belong to more than one road group, and the groups cannot be easily defined in transportation terms, (e.g. “commuter road”, “recreational road”). The proposed approach introduces Fuzzy Clustering techniques, which adopt an analytical framework consistent with this kind of uncertainty. Concerning the second issue, road sections monitored with short counts are assigned to the road group with more similar traffic patterns. In the proposed approach an Artificial Neural Network is implemented to assign short counts to roads groups. The Neural network is specifically designed to maintain the uncertainty related to the definition of road groups until the end of the estimation process. In fact the output of the Neural Network are the probabilities that the a specific short counts belongs to the road groups. These probabilities are interpreted using the Dempster-Shafer theory; measures of uncertainty related to the output (indices of non-specificity and discord) provide an assessment of the quality of information in a synthetic manner. The proposed approach have been implement on a case study, using traffic data from SITRA (Sistema Informativo TRAsporti) monitoring program of the Province of Venice. In this specific context the approach has been validated and the results obtained (AADT estimates) from the proposed method have been compared with those obtained by two approaches proposed in previous studies. The comparative analysis highlights that the proposed approach increases the accuracy of estimates and gives indication of the quality of assignment (depending on sample size) and suggests the need for additional data collection. The positive results obtained in the experimental phase of the research have led to the design of a software tool to be used in next future in real world applications.

XXIV Ciclo

1983

Date

2012-07-24T08:59:03Z

2012-07-24T08:59:03Z

2012-04-19

Type

Doctoral Thesis

Format

application/pdf

Identifier

http://hdl.handle.net/10077/7448

urn:nbn:it:units-9218