Dublettenerkennung
Überblick
Die Dublettenerkennung verhindert, dass Metadaten mit bereits existierenden UUIDs den Index überschreiben. Beim CSW-Harvesting externer Kataloge ist diese Funktion standardmäßig aktiv und schützt lokale, priorisierte Metadaten automatisch. Beim manuellen Metadaten-Import können Sie wählen, ob Sie vorhandene Metadaten überschreiben oder Dubletten abweisen möchten.
Diese Funktion ist ab Version 3.0.0 verfügbar.
Konfiguration in solrconfig.xml
Konfigurieren Sie die Dublettenerkennung über den Parameter skipInsertIfExists in der SkipExistingDocumentsProcessorFactory.
Parameter anpassen
Suchen Sie in der UpdateRequestProcessorChain nach dem SkipExistingDocumentsProcessorFactory Prozessor:
<updateRequestProcessorChain name="uuid">
<!-- ... -->
<processor class="solr.SkipExistingDocumentsProcessorFactory">
<bool name="skipInsertIfExists">true</bool> (1)
</processor>
<!-- ... -->
</updateRequestProcessorChain>
| 1 | Setzen Sie den Wert auf true für Dublettenschutz oder false zum Überschreiben |
Parameter-Verhalten
Steuern Sie die Dublettenerkennung über den Parameter skipInsertIfExists:
| Wert | Verhalten |
|---|---|
|
Das System überschreibt Metadaten mit existierender UUID nicht. |
|
Das System überschreibt Metadaten mit existierender UUID. |
Sie können den Parameter skipInsertIfExists per Request überschreiben.
Dies ermöglicht unterschiedliches Verhalten je nach Anwendungsfall.
Anwendungsfälle
CSW-Harvesting: Automatischer Import
Beim automatischen Harvesting externer Kataloge greift die serverseitige Konfiguration in solrconfig.xml:
-
skipInsertIfExists=trueist aktiv -
Das System schützt Metadaten von lokalen Katalogen
-
Das System weist Dubletten aus externen Katalogen ab
-
Das System behandelt UUIDs case-insensitiv