Dublettenerkennung

Überblick

Die Dublettenerkennung verhindert, dass Metadaten mit bereits existierenden UUIDs den Index überschreiben. Beim CSW-Harvesting externer Kataloge ist diese Funktion standardmäßig aktiv und schützt lokale, priorisierte Metadaten automatisch. Beim manuellen Metadaten-Import können Sie wählen, ob Sie vorhandene Metadaten überschreiben oder Dubletten abweisen möchten.

Diese Funktion ist ab Version 3.0.0 verfügbar.

Konfiguration in solrconfig.xml

Konfigurieren Sie die Dublettenerkennung über den Parameter skipInsertIfExists in der SkipExistingDocumentsProcessorFactory.

Speicherort

Öffnen Sie die Konfigurationsdatei:

[SOLR_HOME]/iso/conf/solrconfig.xml

Parameter anpassen

Suchen Sie in der UpdateRequestProcessorChain nach dem SkipExistingDocumentsProcessorFactory Prozessor:

<updateRequestProcessorChain name="uuid">
    <!-- ... -->

    <processor class="solr.SkipExistingDocumentsProcessorFactory">
        <bool name="skipInsertIfExists">true</bool> (1)
    </processor>

    <!-- ... -->
</updateRequestProcessorChain>
1 Setzen Sie den Wert auf true für Dublettenschutz oder false zum Überschreiben

Solr-Core neu laden

Laden Sie nach der Änderung der solrconfig.xml den ISO-Core neu:

curl "http://example.com/solr/admin/cores?action=RELOAD&core=iso"

Alternativ starten Sie den gesamten Server neu.

Parameter-Verhalten

Steuern Sie die Dublettenerkennung über den Parameter skipInsertIfExists:

Wert Verhalten

true

Das System überschreibt Metadaten mit existierender UUID nicht.
Standard für CSW-Harvesting.

false

Das System überschreibt Metadaten mit existierender UUID.

Sie können den Parameter skipInsertIfExists per Request überschreiben. Dies ermöglicht unterschiedliches Verhalten je nach Anwendungsfall.

Anwendungsfälle

CSW-Harvesting: Automatischer Import

Beim automatischen Harvesting externer Kataloge greift die serverseitige Konfiguration in solrconfig.xml:

  • skipInsertIfExists=true ist aktiv

  • Das System schützt Metadaten von lokalen Katalogen

  • Das System weist Dubletten aus externen Katalogen ab

  • Das System behandelt UUIDs case-insensitiv

Manueller Metadaten-Import

Der smart.finder SDI Client bietet eine Checkbox "Vorhandene Metadaten überschreiben" im Import-Dialog:

Checkbox deaktiviert

skipInsertIfExists=true → Das System weist Dubletten ab

Checkbox aktiviert

skipInsertIfExists=false → Das System erlaubt Überschreiben