Differences

This shows you the differences between two versions of the page.

--- deteccion_de_duplicados [18/08/2010 11:36]
fernando
+++ deteccion_de_duplicados [18/08/2010 18:12]
fernando
@@ Line 18: / Line 18: @@
 #!/bin/bash
-mx biblio uctab=ansi "fst=1000 0 if s(v100,v110,v111) > '' then v100^a.10,v110^a.10,v111^a.10, else '----------', fi,c11,'/',v250^a.2,'/',replace(replace(v245^a,' /',''),' :','')/" "pft=v1000^*/" now | sort > claves.txt
+mx biblio \
-mx seq=claves.txt create=claves now -all
+   uctab=ansi \
-mx claves "pft=if v1=ref(mfn-1,v1) then v1/ fi" now > dup-sospechosos.txt
+   "fst=1 0 \
+      if s(v100,v110,v111) > '' then v100^a.10,v110^a.10,v111^a.10, else '----------', fi, \
+      c11,'/',v008*7.4,'/', \
+      replace(replace(v245^a,' /',''),' :','')" \
+   fullinv=clavesdup \
+   now -all
+mx dict=clavesdup "pft=if val(v1^t)>1 then v1^*/ fi" now
 </file>
@@ Line 28: / Line 35: @@
 $ chmod +x duplic.sh
 </code>
+Para el uso de este script, suponemos que trabajamos sobre una copia de la base bibliográfica (archivos ''biblio.mst'' y ''biblio.xrf''), ubicados en la misma carpeta donde tenemos el archivo ''duplic.sh''.
 Ejecutamos el script con este comando:
 <code>
-$ ./duplic.sh
+$ ./duplic.sh > dup-sospechosos.txt
 </code>
-En el archivo ''dup-sospechosos.txt'' encontraremos un listado de las claves asociadas a registros que podrían estar duplicados. Luego tendremos que comprobar, para cada una de esas claves, si los respectivos registros son en realidad duplicados. Es de esperar que este método produzca unos cuantos falsos positivos, así como por otra parte no debemos suponer que este método permita encontrar a //todos// los duplicados. Pero al menos es una ayuda para empezar a limpiar nuestros catálogos.
+En el archivo ''dup-sospechosos.txt'' encontraremos un listado de las claves asociadas a registros que podrían estar duplicados. Luego tendremos que comprobar, para cada una de esas claves, si los respectivos registros son en realidad duplicados. Esta es una muestra de lo que podríamos encontrar dentro de ''dup-sospechosos.txt'':
-Es conveniente usar para esto el utilitario ''mx'' 16/60, que trabaja con claves grandes. Se lo puede descargar desde [[http://bvsmodelo.bvsalud.org/php/level.php?lang=es&component=28&item=1|el sitio de la BVS]].
+<file>
+KARLIN, SA/1959/MATHEMATICAL METHODS AND THEORY IN GAMES, PR
+KLEIN, FEL/1950/VORLESUNGEN UBER DIE ENTWICKLUNG DER MATHEMA
+LIONS, J.-/1973/COURS D'ANALYSE NUMERIQUE
+LIUSTERNIK/1961/ELEMENTS OF FUNCTIONAL ANALYSIS
+MORGADO, J/1962/INTRODUCAO A TEORIA DOS RETICULADOS.
+</file>
-Para el uso de este script, suponemos que trabajamos sobre una copia de la base bibliográfica (archivos ''biblio.mst'' y ''biblio.xrf''), ubicados en la misma carpeta donde tenemos el archivo ''duplic.sh''.
+Es de esperar que este método produzca unos cuantos falsos positivos; por otra parte, no debemos suponer que nos permitirá encontrar a //todos// los duplicados. Es decir, el método puede andar flojo [[http://en.wikipedia.org/wiki/Precision_and_recall|tanto en 'precision' como en 'recall']]... pero al menos es una ayuda para empezar a limpiar nuestros catálogos.
+Para mejorar la precisión es conveniente usar la versión 16/60 del utilitario ''mx'', que trabaja con claves grandes. Se lo puede descargar desde [[http://bvsmodelo.bvsalud.org/php/level.php?lang=es&component=28&item=1|el sitio de la BVS]].
 {{tag>catalis admin}}

CatalisWiki

User Tools

Site Tools

Differences

Page Tools