User Tools

Site Tools


deteccion_de_duplicados

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
deteccion_de_duplicados [18/08/2010 11:25]
fernando
deteccion_de_duplicados [19/08/2010 00:00]
Line 1: Line 1:
-====== Detección de duplicados ====== 
  
-Catalis no cuenta con un mecanismo para alertar al catalogador cuando se va a grabar un registro duplicado en la base de datos. 
- 
-Si bien el procedimiento correcto para ingresar registros a una base bibliográfica requiere que el catalogador haga previamente una búsqueda, para cerciorarse de que el registro en cuestión no ha sido ya ingresado, en la práctica a veces sucede (por distracción o por un error en la forma de hacer la búsqueda) que se termina cargando dos veces lo mismo. 
- 
-De modo que, por la salud de nuestro catálogo, nos vemos obligados a realizar periódicamente tareas de control de calidad, que incluyan la detección de registros posiblemente duplicados. 
- 
-A continuación se presenta un método sencillo que ayuda a detectar registros sospechosos de estar duplicados. En la forma que mostramos, el método funciona en Linux; con algunas pequeñas adaptaciones puede usarse también en Windows. 
- 
-Guardamos las siguientes líneas en un archivo que podemos llamar ''​duplic.sh'':​ 
- 
-<​file>​ 
-#!/bin/bash 
- 
-mx biblio uctab=ansi "​fst=1000 0 if s(v100,​v110,​v111) > ''​ then v100^a.10,​v110^a.10,​v111^a.10,​ else '​----------',​ fi,​c11,'/',​v250^a.2,'/',​replace(replace(v245^a,'​ /',''​),'​ :',''​)/"​ "​pft=v1000^*/"​ now | sort > claves.txt 
-mx seq=claves.txt create=claves now -all 
-mx claves "​pft=if v1=ref(mfn-1,​v1) then v1/ fi" now > dup-sospechosos.txt 
-</​file>​ 
- 
-Luego hacemos que el archivo sea ejecutable: 
- 
-<​code>​ 
-$ chmod +x duplic.sh 
-</​code>​ 
- 
-Ejecutamos el script con este comando: 
- 
-<​code>​ 
-$ ./duplic.sh 
-</​code>​ 
- 
-En el archivo ''​dup-sospechosos.txt''​ encontraremos un listado de las claves asociadas a registros que podrían estar duplicados. 
- 
-Es conveniente usar para esto el utilitario ''​mx''​ 16/60, que trabaja con claves grandes. Se lo puede descargar desde [[http://​bvsmodelo.bvsalud.org/​php/​level.php?​lang=es&​component=28&​item=1|el sitio de la BVS]]. 
- 
- 
- 
-{{tag>​catalis admin}} 
deteccion_de_duplicados.txt · Last modified: 19/08/2010 00:00 (external edit)