Digitalización de los I.T.I.

Prueba piloto: ITI nº 3

En marzo de 2009 hice un experimento de digitalización con el I.T.I. nro. 3, que trata sobre la historia del INMABB hasta 1983. El objetivo principal era poder poner en línea un documento histórico sobre el INMABB, y dadas las características de este trabajo (puro texto, sólo una tabla, nada de gráficos o ecuaciones) fue sencillo hacer un OCR completo.

Las herramientas usadas fueron:

El OCR obtenido fue de muy buena calidad. La prueba de OCR realizada con nuestro escaner HP LaserJet 3020 y el mismo software dio malos resultados.

Guardé el texto del OCR como RTF. Hice unas primeras correcciones de los errores más gruesos sobre Word, y luego pegué todo el texto en una página de DokuWiki. La revisión detallada fue hecha sobre el wiki.

No conservé imágenes del documento, sólo el texto del OCR. Posiblemente en el caso de este documento particular no fuera importante conservar imágenes, por tratarse de texto puro. Para la mayoría de los otros trabajos, de carácter matemático (con fórmulas y gráficos), habrá que limitarse a las imágenes.

En el caso particular de este texto, una vez digitalizado surgieron algunas inquietudes razonables: