Elaborazione del linguaggio naturale e recupero delle informazioni

Area scientifica

Ogni giorno vengono generati enormi volumi di testo attraverso applicazioni online come app di messaggistica, social media, blog e piattaforme di pubblicazione digitale. A questi si aggiungono ingenti quantità di testi disponibili tramite canali tradizionali, tra cui politiche pubbliche (leggi e regolamenti), pubblicazioni accademiche, documentazione tecnica (manuali) e cartelle cliniche.

Responsabili di area:
Fabio Crestani (USI)
Fabio Rinaldi (SUPSI)

Gruppi di ricerca

Elaborazione del linguaggio naturale

Scopri di più

Tradizionalmente, nel Natural Language Processing (NLP) le parole sono state rappresentate come unità di significato discrete e statiche. Questo rendeva tecnicamente difficile modellare il fatto che alcune parole siano semanticamente correlate tra loro e sfruttare tali relazioni all’interno di un sistema computazionale. Le rappresentazioni distribuite delle parole superano questo limite utilizzando vettori numerici, che permettono di concepire le parole come punti in uno spazio semantico multidimensionale. È interessante notare che una tecnica analoga è stata utilizzata da tempo nel campo dell’Information Retrieval per rappresentare i documenti, contribuendo probabilmente ai successi iniziali di quest’area rispetto ai progressi più lenti dell’NLP. Il Deep Learning impiega reti neurali multistrato per elaborare le informazioni fornite da parole e frasi, rappresentate tramite vettori.

Il gruppo di ricerca in NLP di IDSIA è specializzato nell’applicazione di queste tecniche avanzate a problemi concreti, come l’estrazione di conoscenza medica dalla letteratura scientifica e dalle cartelle cliniche, oppure l’analisi dei flussi dei social media per l’individuazione di notizie false.

Recentemente, il gruppo ha ottenuto due progetti finanziati dal Fondo Nazionale Svizzero (SNF) nell’ambito del tema “NLP for Health”::

Recupero delle informazioni

Il gruppo di ricerca in Information Retrieval (IR), invece, si occupa dell’utilizzo di tecniche avanzate di analisi del testo e di pesatura dei termini per l’individuazione e il monitoraggio dei disturbi della salute mentale sui social media. In particolare, il gruppo ha sviluppato una collezione di test, una metodologia di valutazione e diversi indicatori di efficacia per il tracciamento temporale dell’insorgenza di tali disturbi, strumenti che sono attualmente utilizzati da decine di gruppi di ricerca in tutto il mondo nell’ambito di CLEF (Cross-Language Evaluation Forum).

Il gruppo studia inoltre la modellazione del linguaggio utilizzato dagli utenti affetti da disturbi della salute mentale, ad esempio attraverso la generazione automatica di testi che presentano sintomi riconducibili a specifici disturbi.

Un’ulteriore linea di ricerca, portata avanti in parallelo, riguarda l’area del Mobile Information Retrieval, nella quale il gruppo è attivo da molti anni attraverso diversi progetti precedenti (Crestani, 2017). Attualmente, la ricerca si concentra sul Conversational Information Retrieval come strumento per potenziare il Mobile IR. In questo contesto, il gruppo sta esplorando nuovi modelli di deep learning per la generazione di domande di chiarimento, che consentano ai sistemi di ricerca conversazionale di interagire con gli utenti mobili attraverso dialoghi multi-turno (Aliannejadi, 2019; Sekulic, 2021).

Progetti di punta

Medical NLP

Curatela della letteratura biomedica

Digital Humanities

Mini-Muse uno studio preliminare che mira a combinare algoritmi di Natural Language Processing e tecniche di visualizzazione dei dati per migliorare l’accesso e il coinvolgimento nei confronti delle pubblicazioni scientifiche nel campo della ricerca storica.
https://mini-muse.github.io/project/

Pubblicazioni di punta

Joseph Cornelius, Oscar Lithgow-Serrano, Sandra Mitrovic, Ljiljana Dolamic, and Fabio Rinaldi. 2024. BUST: Benchmark for the evaluation of detectors of LLM-Generated Text. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pages 8029–8057, Mexico City, Mexico. Association for Computational Linguistics.

doi: 10.18653/v1/2024.naacl-long.444

Anastassia Shaitarova, Jamil Zaghir, Alberto Lavelli, Michael Krauthammer, Fabio Rinaldi. Exploring the Latest Highlights in Medical Natural Language Processing across Multiple Languages: A Survey. IMIA Yearbook of Medical Informatics, 2023 December 2023 Yearbook of Medical Informatics 32(01):230-243 doi: 10.1055/s-0043-1768726

doi: 10.1055/s-0043-1768726

Sedlakova J, Daniore P, Horn Wintsch A, Wolf M, Stanikic M, Haag C, Sieber C, Schneider G, Staub K, Alois Ettlin D, Grübner O, Rinaldi F, von Wyl V; University of Zurich Digital Society Initiative (UZH-DSI) Health Community. Challenges and best practices for digital unstructured data enrichment in health research: A systematic narrative review. PLOS Digit Health. 2023 Oct 11;2(10):e0000347.

doi: 10.1371/journal.pdig.0000347

Vani Kanjirangat, Tanja Samardžić, Ljiljana Dolamic, Fabio Rinaldi (2023). Optimizing the Size of Subword Vocabularies in Dialect Classification. In Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023) (pp. 14-30). doi: 10.18653/v1/2023.vardial-1.2

doi: 10.18653/v1/2023.vardial-1.2

Kanjirangat,V., Samardzic,T., Rinaldi,Fabio., Dolamic,Ljiljana. (2022). Early Guessing for Dialect Identification. In Findings of the 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP 2022), pp. 6417-6426. https://aclanthology.org/2022.findings-emnlp.479/

https://aclanthology.org/2022.findings-emnlp.479/

Lenz Furrer, Joseph Cornelius, Fabio Rinaldi. Parallel sequence tagging for concept recognition. BMC Bioinformatics volume 22, Article number: 623 (2021). doi: 10.1186/s12859-021-04511-y

doi: 10.1186/s12859-021-04511-y

Roberto Zanoli, Alberto Lavelli, Theresa Löffler, Nicolas Andres Perez Gonzalez, Fabio Rinaldi. An annotated dataset for extracting gene-melanoma relations from scientific literature. Journal of Biomedical Semantics, volume 13, Article number: 2 (2022). doi: 10.1186/s13326-021-00251-3

doi: 10.1186/s13326-021-00251-3

Gaspar F, Lutters M, Beeler PE, Lang PO, Burnand B, Rinaldi F, Lovis C, Csajka C, Le Pogam M. SwissMADE study Automatic Detection of Adverse Drug Events in Geriatric Care: Study Proposal. JMIR Res Protoc 2022;11(11):e40456 doi: 10.2196/40456

doi: 10.2196/40456

Sedlakova, Jana & Daniore, Paola & Horn, Andrea & Wolf, Markus & Stanikić, Mina & Haag, Christina & Sieber, Chloé & Schneider, Gerold & Staub, Kaspar & Ettlin, Dominik & Gruebner, Oliver & Rinaldi, Fabio & von Wyl, Viktor. (2022). Challenges and best practices for digital unstructured data enrichment in health research: a systematic narrative review. PLOS Digit Health 2(10): e0000347. https://doi.org/10.1371/journal.pdig.0000347

doi: 10.1371/journal.pdig.0000347