Manuale di Metacatalogo

Pagina dei risultati, operazioni e algoritmi di Data cleaning

Dopo aver lanciato una ricerca compare la schermata con la lista dei risultati.

Di seguito le principali operazioni disponibili nella pagina:

  • Nuova ricerca: consente di ritornare alla schermata di ricerca iniziale.

  • Modifica ricerca: consente di visualizzare le le impostazioni di ricerca utilizzate e modificarle. È possibile modificare i valori inseriti, aggiungere o togliere campi o gruppi di campi e cambiare gli operatori utilizzati. Il funzionamento è lo stesso della Ricerca della pagina iniziale.

  • Etichetta dell’indice: mostra indice di ricerca selezionato.

  • Filtri attivi: mostra gli eventuali filtri attivi.

  • Campi di ricerca selezionati: mostra gli attuali campi impostati in fase di ricerca. Possono essere deselezionati cliccando sulla X accanto al campo che si vuole togliere.

  • Filtri: sono gli algoritmi che individuano le similarità tra i record e propongono delle selezioni su cui fare bonifica.

  • Seleziona tutto: consente di selezionare i record presenti nella pagina attuale.

  • Operazioni di Data cleaning: sulla destra di ogni record ci sono le due caselle di selezione che permettono di fare operazioni di Data cleaning.

  • Risultati per pagina: i risultati per pagina indicano il numero di record visualizzati, impostati di default sul numero 20. È possibile impostare il numero anche su 10 o 50 e scorrere tra le varie pagine.

Filtri

I Filtri sulla sinistra sono degli algoritmi che individuano delle similarità tra i record, e possono variare a seconda della ricerca. Ogni faccetta rappresenta un cluster, un gruppo di possibili record duplicati.

I Filtri sono:

  • Intestazione alfabetica: questo algoritmo viene applicato all’intestazione del record. Dell’intestazione vengono mantenuti solo i caratteri alfabetici mentre eventuali altri simboli vengono ignorati.

  • Intestazione numerica: questo algoritmo viene applicato all’intestazione del record. Dell’intestazione vengono mantenuti solo i caratteri numerici.

  • Intestazione senza disambiguazione: questo algoritmo viene applicato all’intestazione del record, in cui viene rilevata la presenza dell’indicatore di disambiguazione (ad esempio Manzoni, Alessandro <1785-1873>) al quale viene tolta la parte disambiguante fra parentesi uncinate, vengono anche tolti tutti i caratteri non alfabetici.

  • Intestazione standard: dall’intestazione vengono considerati solamente i caratteri alfanumerici.

  • Titolo/Autore: prende in considerazione il primo elemento dei campi Titolo proprio (U200a), Responsabilità principale (U700l) e Responsabilità principale ente (u710l), se presenti e tenendo conto degli abbonamenti. Per legami con le responsabilità vengono tolte le parti tra parentesi uncinate.

  • Pubblicazione EAN: vengono calcolati i valori dell’editore nel campo pubblicazione, della data di pubblicazione e del numero standard.

Quando si attiva un filtro, questo rimane visibile in alto, nella sezione Filtri attivi, dove è possibile deselezionarlo cliccando sulla X accanto al nome del filtro.

Elenco dei risultati

La lista dei risultati presenta i dati sintetici dei record.

In alto a sinistra è presente l’indicazione di tipologia di entità.

Il simbolo del segnalibro fornisce informazioni sui sistemi che sono abbonati ai campi di quel record:

  • Se il segnalibro è pieno (nero) significa che il sistema a cui l’operatore è associato sta seguendo almeno un campo di quel record.

  • Se il segnalibro è vuoto (bianco) significa che il sistema a cui l’operatore è associato non segue nemmeno un campo ed è necessario abbonarsi per visualizzare i dati di quel record nel proprio catalogo.

A fianco all’icona del segnalibro è presente la sigla dei sistemi che seguono almeno un campo di quel record.

Se nel record è presente un’allegato di tipo Copertina viene visualizzato, altrimenti compare l’icona relativa al tipo di entità.

A destra del record compaiono le caselle di selezione per l’attività di bonifica.

Operazioni di Data cleaning

Per iniziare l’attività di bonifica occorre selezionare almeno due record tra i risultati. Le opzioni di selezione sono due:

  • Aggiungi alla selezione: aggiunge il record alla selezione

  • Imposta come voce corretta: seleziona il record che vincerà rispetto agli altri della selezione.

A seconda del tipo di selezione e dalle entità coinvolte, è possibile procedere con la bonifica, attraverso le operazioni:

  • Schiaccia: individuata l’entità che vince sulle altre, a parità di campo (anche se i valori e i contenuti sono diversi) si mantengono i valori dell’entità che vince. I campi diversi delle entità schiacciate vengono eliminati.

  • Riconcilia: i campi identici si uniscono, quelli diversi vengono mantenuti.

  • Imposta variante: individuata l’entità preferita, si crea un legame di tipo Rinvio con le altre entità.