• Advancing abstractive long-input summarization in low-resource regimes: methods, datasets and benchmarks
  • Ragazzi, Luca <1996>

Subject

  • ING-INF/05 Sistemi di elaborazione delle informazioni

Description

  • The field of natural language processing (NLP) has experienced remarkable growth in recent years, driven by the emergence of transformer-based models. In today's information-rich era, automatic text summarization has become a pivotal pursuit within NLP. It aims to distill complex textual documents into their essential elements, providing valuable support to experts engaged in labor-intensive tasks. Technically, extractive summarization identifies and extracts key sentences from the source text, whereas abstractive summarization amalgamates, rephrases, and paraphrases essential topics from the input to generate the synthesis. However, significant advances are often impeded by resource constraints. State-of-the-art solutions face challenges in low-resource regimes, relying on substantial computational power and extensive collections of annotated examples for effective training. This heavy dependence on resources poses a significant obstacle for small and medium-sized organizations, limiting their ability to manage these unsustainable costs. This thesis delves into the challenges of text summarization in low-resource environments, presenting multiple techniques categorized by methodology to advance abstractive summarization of long inputs. We show that text segmentation, retrieval-augmented generation, and knowledge injection and distillation are integral components of the solution, whose effectiveness is complemented by the availability of new rigorous datasets and benchmarks. Overall, this work represents a significant step towards real-world practical solutions that do not necessitate reliance on extensive manually curated data and high-memory GPUs.
  • Il campo dell'elaborazione del linguaggio naturale (NLP) ha registrato una crescita notevole negli ultimi anni, supportata dall'introduzione di nuovi modelli basati sul modello transformer. In un'epoca caratterizzata da un incessante flusso di informazioni, il compito di sintesi automatica del testo ha assunto un ruolo di particolare rilevanza all'interno del NLP. Questa attività mira a sviluppare sistemi in grado di generare sintesi concise e significative di documenti testuali, supportando gli esperti in compiti intensivi. Tecnicamente, la sintesi estrattiva identifica ed estrae frasi chiave dal testo originale, mentre la sintesi astrattiva aggrega e riformula i temi essenziali dell'input per generare il riassunto. Tuttavia, il suo successo è spesso oscurato dalla crescente richiesta di risorse computazionali. Le soluzioni all'avanguardia soffrono i regimi a basse risorse, poiché fanno affidamento su una potenza di calcolo sostanziale e su ampie collezioni di esempi annotati per un addestramento efficace. Questa forte dipendenza dalle risorse costituisce un ostacolo significativo per le organizzazioni di piccole e medie dimensioni, limitando la loro capacità di gestire questi costi insostenibili. Questa tesi approfondisce le sfide della sintesi del testo in ambienti a bassa risorsa, presentando diverse tecniche categorizzate per metodologia per avanzare la sintesi astrattiva di lunghi documenti. Mostriamo che la segmentazione del testo, la generazione con recupero e l'iniezione e distillazione della conoscenza sono componenti integrali della soluzione, la cui efficacia è integrata dalla disponibilità di nuovi dataset e benchmark rigorosi. Nel complesso, questo lavoro rappresenta un passo significativo verso soluzioni pratiche nel mondo reale che non richiedono una dipendenza da numerosi dati curati manualmente e da GPU con memoria elevata.

Date

  • 2024-06-24
  • info:eu-repo/date/embargoEnd/2025-05-15

Type

  • Doctoral Thesis
  • PeerReviewed

Format

  • application/pdf

Identifier

urn:nbn:it:unibo-30491

Ragazzi, Luca (2024) Advancing abstractive long-input summarization in low-resource regimes: methods, datasets and benchmarks, [Dissertation thesis], Alma Mater Studiorum Università di Bologna. Dottorato di ricerca in Computer science and engineering , 36 Ciclo.

Relations