Dublettenerkennung

Überblick

Die Dublettenerkennung verhindert, dass Metadaten mit bereits existierenden UUIDs den Index überschreiben. Beim CSW-Harvesting externer Kataloge ist diese Funktion standardmäßig aktiv und schützt lokale, priorisierte Metadaten automatisch. Beim manuellen Metadaten-Import können Sie wählen, ob Sie vorhandene Metadaten überschreiben oder Dubletten abweisen möchten.

Diese Funktion ist ab Version 3.0.0 verfügbar.

Konfiguration in solrconfig.xml

Konfigurieren Sie die Dublettenerkennung über den Parameter skipInsertIfExists in der SkipExistingDocumentsProcessorFactory.

Speicherort

Öffnen Sie die Konfigurationsdatei:

[SOLR_HOME]/iso/conf/solrconfig.xml

Parameter anpassen

Suchen Sie in der UpdateRequestProcessorChain nach dem SkipExistingDocumentsProcessorFactory Prozessor:

<updateRequestProcessorChain name="uuid">
    <!-- ... -->

    <processor class="solr.SkipExistingDocumentsProcessorFactory">
        <bool name="skipInsertIfExists">true</bool> (1)
    </processor>

    <!-- ... -->
</updateRequestProcessorChain>

1	Setzen Sie den Wert auf `true` für Dublettenschutz oder `false` zum Überschreiben

Solr-Core neu laden

Laden Sie nach der Änderung der solrconfig.xml den ISO-Core neu:

curl "http://example.com/solr/admin/cores?action=RELOAD&core=iso"

Alternativ starten Sie den gesamten Server neu.

Parameter-Verhalten

Steuern Sie die Dublettenerkennung über den Parameter skipInsertIfExists:

Wert Verhalten

Wert	Verhalten
`true`	Das System überschreibt Metadaten mit existierender UUID nicht. Standard für CSW-Harvesting.
`false`	Das System überschreibt Metadaten mit existierender UUID.

true

Das System überschreibt Metadaten mit existierender UUID nicht.
Standard für CSW-Harvesting.

false

Das System überschreibt Metadaten mit existierender UUID.

Sie können den Parameter skipInsertIfExists per Request überschreiben. Dies ermöglicht unterschiedliches Verhalten je nach Anwendungsfall.

Anwendungsfälle

CSW-Harvesting: Automatischer Import

Beim automatischen Harvesting externer Kataloge greift die serverseitige Konfiguration in solrconfig.xml:

skipInsertIfExists=true ist aktiv
Das System schützt Metadaten von lokalen Katalogen
Das System weist Dubletten aus externen Katalogen ab
Das System behandelt UUIDs case-insensitiv

Manueller Metadaten-Import

Der smart.finder SDI Client bietet eine Checkbox "Vorhandene Metadaten überschreiben" im Import-Dialog:

Checkbox deaktiviert	`skipInsertIfExists=true` → Das System weist Dubletten ab
Checkbox aktiviert	`skipInsertIfExists=false` → Das System erlaubt Überschreiben