Nell’era del data driven, fornire metadati di qualità per determinare le keywords, ovvero quelle parole chiave che consentono di ricercare e identificare dati e informazioni, è un aspetto molto importante.
E’ il cuore della ricerca proposta nel lavoro “BRYT: Automated keyword extraction for open datasets“, lavoro che si pone in sinergia con il WP4 del progetto Vitality, dal quale ha tratto dei fondamenti, e che è stato pubblicato nel Journal Paper Intelligent Systems with Applications. Vi hanno collaborato, tra gli altri, i Professori di Università di Camerino Andrea Polini e Marco Piangerelli.
Nello studio ci si è concentrati specificamente sulle parole chiave, proponendo una strategia per la loro generazione automatica.
In particolare, sono state impiegate cinque metodologie esistenti per l’estrazione di parole chiave (BERT, RAKE, YAKE, TEXTRANK e ChatGPT) e proposto una nuova metodologia ibrida, chiamata BRYT (da leggere come “bright”). La valutazione di questi algoritmi è stata condotta utilizzando le tecniche di Gestalt String Matching e Similarità di Jaccard. Abbiamo validato il nostro studio utilizzando una selezione di dataset provenienti dal portale dati dell’UE, scegliendo specificamente quelli che presentavano metadati potenzialmente di alta qualità. Ciò includeva dataset contenenti un numero significativo di parole chiave e metadati completi e pertinenti.
I risultati hanno mostrato che il 69,1% delle parole chiave dei dataset corrispondeva in modo significativo (oltre il 50% o più di 5 parole chiave), il 24,7% corrispondeva in modo marginale (fino al 50% o 5 parole chiave) e il 6,2% non corrispondeva. Il modello ibrido proposto, BRYT, ha superato gli altri algoritmi nelle corrispondenze significative, mentre ChatGPT si è classificato come secondo vicino. YAKE ha superato gli altri nelle corrispondenze marginali, con ChatGPT di nuovo al secondo posto.
Le valutazioni hanno concluso che BRYT ha costantemente estratto parole chiave più rappresentative nelle corrispondenze significative, evidenziando la sua efficacia nel migliorare la reperibilità.
Lo studio apre dunque la strada a ulteriori sviluppi nell’estrazione e nella popolazione di metadati rappresentativi, rendendo i dati più reperibili, scopribili e accessibili.