User Tools

Site Tools


deteccion_de_duplicados

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
deteccion_de_duplicados [18/08/2010 18:28]
fernando
deteccion_de_duplicados [19/08/2010 11:12]
fernando
Line 2: Line 2:
  
 <​note>​ <​note>​
-Se agradece todo comentario o sugerencia que contribuya a hacer más comprensible,​ más usable o más eficiente el método que aquí se presenta.+Se agradece todo comentario o sugerencia que contribuya a hacer más comprensible,​ más usable o más eficiente el método que aquí se presenta. Se puede escribir en esta misma página del wiki, o enviar mensajes al [[http://​groups.google.com/​group/​catalis/​browse_thread/​thread/​17bd2a5661cc08dc|grupo de discusión]].
 </​note>​ </​note>​
  
Line 9: Line 9:
 Catalis no cuenta con un mecanismo para alertar al catalogador cuando se va a grabar en la base de datos un registro duplicado (aunque tal vez no sería complicado añadirle ese tipo de validación). De modo que, por la salud de nuestro catálogo, nos vemos obligados a realizar periódicamente tareas de control de calidad, que incluyan la detección de registros posiblemente duplicados. Catalis no cuenta con un mecanismo para alertar al catalogador cuando se va a grabar en la base de datos un registro duplicado (aunque tal vez no sería complicado añadirle ese tipo de validación). De modo que, por la salud de nuestro catálogo, nos vemos obligados a realizar periódicamente tareas de control de calidad, que incluyan la detección de registros posiblemente duplicados.
  
-A continuación se presenta un método sencillo que ayuda a detectar registros sospechosos de estar duplicados. ​Tal como lo mostramos, ​el método ​funciona en Linux; con algunas ​pequeñas ​adaptaciones puede usarse también en Windows.+A continuación se presenta un método sencillo que ayuda a detectar registros sospechosos de estar duplicados. ​El método, así como lo mostramos, funciona en Linux; con algunas ​mínimas ​adaptaciones puede usarse también en Windows.
  
 Guardamos las siguientes líneas en un archivo que podemos llamar ''​duplic.sh'':​ Guardamos las siguientes líneas en un archivo que podemos llamar ''​duplic.sh'':​
Line 15: Line 15:
 <​file>​ <​file>​
 #!/bin/bash #!/bin/bash
 +
 +#​PATH=/​ruta/​a/​cisis/​1660:​$PATH
  
 mx biblio \ mx biblio \
Line 25: Line 27:
    now -all    now -all
        
-mx dict=clavesdup "​pft=if val(v1^t)>​1 then v1^*/ fi" now+mx dict=clavesdup "​pft=if val(v1^t)>​1 then 
 +   ​putenv('​COUNT=',​ f(val(getenv('​COUNT'​))+1,​ 1, 0)), getenv('​COUNT'​),​ c5, \ 
 +   v1^*/ fi" now
 </​file>​ </​file>​
  
Line 45: Line 49:
  
 <​file>​ <​file>​
-KARLIN, SA/​1959/​MATHEMATICAL METHODS AND THEORY IN GAMES, PR +22  ​KARLIN, SA/​1959/​MATHEMATICAL METHODS AND THEORY IN GAMES, PR 
-KLEIN, FEL/​1950/​VORLESUNGEN UBER DIE ENTWICKLUNG DER MATHEMA +23  ​KLEIN, FEL/​1950/​VORLESUNGEN UBER DIE ENTWICKLUNG DER MATHEMA 
-LIONS, J.-/​1973/​COURS D'​ANALYSE NUMERIQUE +24  ​LIONS, J.-/​1973/​COURS D'​ANALYSE NUMERIQUE 
-LIUSTERNIK/​1961/​ELEMENTS OF FUNCTIONAL ANALYSIS +25  ​LIUSTERNIK/​1961/​ELEMENTS OF FUNCTIONAL ANALYSIS 
-MORGADO, J/​1962/​INTRODUCAO A TEORIA DOS RETICULADOS.+26  ​MORGADO, J/​1962/​INTRODUCAO A TEORIA DOS RETICULADOS.
 </​file>​ </​file>​
  
 Es de esperar que este método produzca falsos positivos; por otra parte, no debemos suponer que nos permitirá encontrar a //todos// los duplicados. Es decir, el método puede andar flojo [[http://​en.wikipedia.org/​wiki/​Precision_and_recall|tanto en '​precision'​ como en '​recall'​]]... pero al menos es una ayuda para empezar a limpiar nuestros catálogos. Es de esperar que este método produzca falsos positivos; por otra parte, no debemos suponer que nos permitirá encontrar a //todos// los duplicados. Es decir, el método puede andar flojo [[http://​en.wikipedia.org/​wiki/​Precision_and_recall|tanto en '​precision'​ como en '​recall'​]]... pero al menos es una ayuda para empezar a limpiar nuestros catálogos.
  
-Para mejorar la precisión es conveniente usar la versión 16/60 del utilitario ''​mx'',​ que trabaja con claves grandes. Se lo puede descargar desde [[http://​bvsmodelo.bvsalud.org/​php/​level.php?​lang=es&​component=28&​item=1|el sitio de la BVS]].+Para mejorar la precisión es conveniente usar la versión 16/60 del utilitario ''​mx'',​ que trabaja con claves grandes. Se lo puede descargar desde [[http://​bvsmodelo.bvsalud.org/​php/​level.php?​lang=es&​component=28&​item=1|el sitio de la BVS]]. Si esa versión de mx no es la predeterminada en la computadora,​ entonces en ''​duplic.sh''​ se debe modificar esta línea: 
 + 
 +  #​PATH=/​ruta/​a/​cisis/​1660:​$PATH 
 + 
 +quitando el ''#''​ inicial y reemplazando ''/​ruta/​a/​cisis/​1660''​ por la ruta que corresponda.
  
  
 {{tag>​catalis admin}} {{tag>​catalis admin}}
deteccion_de_duplicados.txt · Last modified: 19/08/2010 00:00 (external edit)