Pagina dei risultati, operazioni e algoritmi di Data cleaning
Dopo aver lanciato una ricerca compare la schermata con la lista dei risultati.
Di seguito le principali operazioni disponibili nella pagina:
Nuova ricerca: consente di ritornare alla schermata di ricerca iniziale.
Modifica ricerca: consente di visualizzare le le impostazioni di ricerca utilizzate e modificarle. È possibile modificare i valori inseriti, aggiungere o togliere campi o gruppi di campi e cambiare gli operatori utilizzati. Il funzionamento è lo stesso della Ricerca della pagina iniziale.
Etichetta dell’indice: mostra indice di ricerca selezionato.
Filtri attivi: mostra gli eventuali filtri attivi.
Campi di ricerca selezionati: mostra gli attuali campi impostati in fase di ricerca. Possono essere deselezionati cliccando sulla X accanto al campo che si vuole togliere.
Filtri: sono gli algoritmi che individuano le similarità tra i record e propongono delle selezioni su cui fare bonifica.
Seleziona tutto: consente di selezionare i record presenti nella pagina attuale.
Operazioni di Data cleaning: sulla destra di ogni record ci sono le due caselle di selezione che permettono di fare operazioni di Data cleaning.
Risultati per pagina: i risultati per pagina indicano il numero di record visualizzati, impostati di default sul numero 20. È possibile impostare il numero anche su 10 o 50 e scorrere tra le varie pagine.
Filtri
I Filtri sulla sinistra sono degli algoritmi che individuano delle similarità tra i record, e possono variare a seconda della ricerca. Ogni faccetta rappresenta un cluster, un gruppo di possibili record duplicati.
I Filtri sono:
Intestazione alfabetica: questo algoritmo viene applicato all’intestazione del record. Dell’intestazione vengono mantenuti solo i caratteri alfabetici mentre eventuali altri simboli vengono ignorati.
Intestazione numerica: questo algoritmo viene applicato all’intestazione del record. Dell’intestazione vengono mantenuti solo i caratteri numerici.
Intestazione senza disambiguazione: questo algoritmo viene applicato all’intestazione del record, in cui viene rilevata la presenza dell’indicatore di disambiguazione (ad esempio Manzoni, Alessandro <1785-1873>) al quale viene tolta la parte disambiguante fra parentesi uncinate, vengono anche tolti tutti i caratteri non alfabetici.
Intestazione standard: dall’intestazione vengono considerati solamente i caratteri alfanumerici.
Titolo/Autore: prende in considerazione il primo elemento dei campi Titolo proprio (U200a), Responsabilità principale (U700l) e Responsabilità principale ente (u710l), se presenti e tenendo conto degli abbonamenti. Per legami con le responsabilità vengono tolte le parti tra parentesi uncinate.
Pubblicazione EAN: vengono calcolati i valori dell’editore nel campo pubblicazione, della data di pubblicazione e del numero standard.
Quando si attiva un filtro, questo rimane visibile in alto, nella sezione Filtri attivi, dove è possibile deselezionarlo cliccando sulla X accanto al nome del filtro.
Elenco dei risultati
La lista dei risultati presenta i dati sintetici dei record.
In alto a sinistra è presente l’indicazione di tipologia di entità.
Il simbolo del segnalibro fornisce informazioni sui sistemi che sono abbonati ai campi di quel record:
Se il segnalibro è pieno (nero) significa che il sistema a cui l’operatore è associato sta seguendo almeno un campo di quel record.
Se il segnalibro è vuoto (bianco) significa che il sistema a cui l’operatore è associato non segue nemmeno un campo ed è necessario abbonarsi per visualizzare i dati di quel record nel proprio catalogo.
A fianco all’icona del segnalibro è presente la sigla dei sistemi che seguono almeno un campo di quel record.
Se nel record è presente un’allegato di tipo Copertina viene visualizzato, altrimenti compare l’icona relativa al tipo di entità.
A destra del record compaiono le caselle di selezione per l’attività di bonifica.
Operazioni di Data cleaning
Per iniziare l’attività di bonifica occorre selezionare almeno due record tra i risultati. Le opzioni di selezione sono due:
Aggiungi alla selezione: aggiunge il record alla selezione
Imposta come voce corretta: seleziona il record che vincerà rispetto agli altri della selezione.
A seconda del tipo di selezione e dalle entità coinvolte, è possibile procedere con la bonifica, attraverso le operazioni:
Schiaccia: individuata l’entità che vince sulle altre, a parità di campo (anche se i valori e i contenuti sono diversi) si mantengono i valori dell’entità che vince. I campi diversi delle entità schiacciate vengono eliminati.
Riconcilia: i campi identici si uniscono, quelli diversi vengono mantenuti.
Imposta variante: individuata l’entità preferita, si crea un legame di tipo Rinvio con le altre entità.