Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

Il contributo del progetto Vitality alla ricerca sull’individuazione di keywords per gli open datasets

Nell’era del data driven, fornire metadati di qualità per determinare le keywords, ovvero quelle parole chiave che consentono di ricercare e identificare dati e informazioni, è un aspetto molto importante.

E’ il cuore della ricerca proposta nel lavoro “BRYT: Automated keyword extraction for open datasets“, lavoro che si pone in sinergia con il WP4 del progetto Vitality, dal quale ha tratto dei fondamenti, e che è stato pubblicato nel Journal Paper Intelligent Systems with Applications. Vi hanno collaborato, tra gli altri, i Professori di Università di Camerino Andrea Polini e Marco Piangerelli.

Nello studio ci si è concentrati specificamente sulle parole chiave, proponendo una strategia per la loro generazione automatica.

In particolare, sono state impiegate cinque metodologie esistenti per l’estrazione di parole chiave (BERT, RAKE, YAKE, TEXTRANK e ChatGPT) e proposto una nuova metodologia ibrida, chiamata BRYT (da leggere come “bright”). La valutazione di questi algoritmi è stata condotta utilizzando le tecniche di Gestalt String Matching e Similarità di Jaccard. Abbiamo validato il nostro studio utilizzando una selezione di dataset provenienti dal portale dati dell’UE, scegliendo specificamente quelli che presentavano metadati potenzialmente di alta qualità. Ciò includeva dataset contenenti un numero significativo di parole chiave e metadati completi e pertinenti.

I risultati hanno mostrato che il 69,1% delle parole chiave dei dataset corrispondeva in modo significativo (oltre il 50% o più di 5 parole chiave), il 24,7% corrispondeva in modo marginale (fino al 50% o 5 parole chiave) e il 6,2% non corrispondeva. Il modello ibrido proposto, BRYT, ha superato gli altri algoritmi nelle corrispondenze significative, mentre ChatGPT si è classificato come secondo vicino. YAKE ha superato gli altri nelle corrispondenze marginali, con ChatGPT di nuovo al secondo posto.

Le valutazioni hanno concluso che BRYT ha costantemente estratto parole chiave più rappresentative nelle corrispondenze significative, evidenziando la sua efficacia nel migliorare la reperibilità.

Lo studio apre dunque la strada a ulteriori sviluppi nell’estrazione e nella popolazione di metadati rappresentativi, rendendo i dati più reperibili, scopribili e accessibili.

Lascia un commento