ChatGPT es un modelo de lenguaje que fue lanzado al mercado en noviembre del año pasado por OpenAl (compañía californiana líder en inteligencia artificial) cuyo producto bandera es ChatGPT. Un grupo de científicos de datos y especialistas de esta compañía han trabajado arduamente para que la herramienta sea capaz de entender el lenguaje natural (es decir, el lenguaje humano) y por tanto, pueda responder nuestras preguntas. En este artículo, exploraremos cómo ChatGPT (en su versión 3.5 gratuita) podría trabajar en un archivo histórico, y cuáles serían sus potencialidades y barreras.
En esencia, sabemos que el entrenamiento previo y el aprendizaje supervisado por el que ha pasado esta herramienta le permite funcionar correctamente. En un escenario ideal, si se alimenta eficazmente y todo el acervo está categorizado y metadateado de manera uniforme, el ChatGPT podría aumentar la eficiencia del análisis documental, en tanto que tiene una capacidad exponencial para codificar grandes cantidades de información y por ende hacer eficientes todos los procesos que se derivan de los datos.
Este artículo nació como resultado de la experiencia de usuario que tuvimos en la interfaz de ChatGPT. Lo interrogamos durante varios días acerca de los distintos procesos que hacen parte de los archivos históricos; también evaluamos su aprendizaje luego de enseñarle a redactar sinopsis y a catalogar documentos. Al final del ejercicio, comprobamos que la inteligencia funciona como un espejo en tanto arroja respuestas distintas a las mismas preguntas día tras día, aunque retiene información de los datos suministrados ofreciendo respuestas rápidas y oportunas en diversos contextos.
La primera vez que le preguntamos cuáles eran los procesos básicos que se desarrollan en un archivo histórico mencionó cuatro y omitió uno: mencionó conservación, adquisiciones y gestión de derechos de autor, investigación y circulación/divulgación, aunque olvidó por completo la catalogación. Le preguntamos por su omisión y se retractó de su respuesta. Ya para la segunda vez que le hicimos la misma pregunta incluyó la catalogación, lo que demuestra que no solo se nutre de los datos almacenados sino también de la interacción con sus usuarios. En lo que sigue, hablaremos de estos cinco procesos principales enfatizando en las contribuciones y limitaciones que tienen al ser procesados por ChatGPT.
ChatGPT y sus bondades en el procesamiento de metadatos
En lo relativo al proceso de conservación, la herramienta puede aportar en la generación de metadatos asociados a recomendaciones para el cuidado y preservación del acervo, adicionalmente puede sugerir protocolos relacionados con copias de seguridad. Como apoyo a las labores humanas de restauración podría crear un sistema de alertas para preservar en condiciones idóneas el material a través de sistemas de monitoreo y control ambiental.
En materia de adquisiciones podría identificar colecciones que por su naturaleza y relevancia histórica tendrían un uso potencial y también hacer balances de las mejores opciones en términos de rentabilidad y economía, de acuerdo con los intereses particulares y las políticas establecidas por el archivo. Asimismo, en la gestión de derechos de autor, podría implementar sistemas automatizados que permitan identificar y registrar las licencias y permisos para cada documento del archivo, así como automatizar la renovación de licencias por el uso de obras protegidas.
Por su parte, en la clasificación aumentaría la eficiencia de la categorización e identificación del material a través de herramientas de análisis de texto que reconozcan los metadatos basándose en la frecuencia de temas, similitudes, personas, lugares, entidades, naturaleza, entre otra información convenida con el archivo. Usando los algoritmos pertinentes se asegura la precisión de los datos y la practicidad en el momento de identificar los fondos documentales, actividad que en muchos casos resulta problemática debido a las diversas figuras presentes en la titularidad de las obras protegidas.
Con respecto a la catalogación, la herramienta promete automatizar la generación de metadatos y etiquetado, en tanto que, los normaliza y realiza una corrección ortotipográfica básica, asegurando la uniformidad de los metadatos. Otra de las bondades es que puede integrarse con sistemas bibliográficos para la creación de registros, siempre y cuando tenga acceso a la interfaz de funcionamiento o en lenguaje técnico API (sus siglas traducidas significan Interfaz de Programación de Aplicaciones) y se le enseñe sobre la arquitectura del software en profundidad. En suma, la herramienta podría ejercer todas las funciones disponibles en el sistema bibliográfico como crear registros, hacer búsquedas, generar informes con mayor precisión y eficacia, apoyando las labores propias del catalogador a partir del procesamiento de grandes cantidades de documentos, la identificación de patrones y tendencias en la información, lo que podría ahorrar tiempo y mejorar la precisión de la descripción.
En lo que concierne a la investigación, podría realizar búsquedas automatizadas en diferentes bases de datos y repositorios digitales para identificar fuentes de información relevantes para el proyecto/producto que se encuentre en desarrollo. Asimismo podría contribuir en el análisis y extracción de información relevante de los documentos y registros históricos. Todo lo anterior sería posible utilizando métodos como la minería de datos que permitiría identificar coincidencias en los datos, así como la frecuencia de ciertos términos o palabras clave. En un archivo histórico, esto podría ser útil para descubrir relaciones entre diferentes metadatos que son imperceptibles a simple vista.
Finalmente, en el proceso de circulación/divulgación ofrecería la creación de estrategias digitales orientadas a compartir contenido relevante y llamativo para los usuarios; esto incluye, por ejemplo, el desarrollo de hashtags más asertivos en redes sociales y la creación de contenidos interactivos en encuestas para hacer sentir al público parte del archivo. Además de crear contenidos orientados a cada segmento del mercado del target definido, de acuerdo con sus intereses y necesidades. En concordancia con la estrategia de comunicación y línea editorial la herramienta podría crear copies para redes sociales a través de algoritmos de generación de lenguaje natural que permitan hacer más atractivos los contenidos.
Limitaciones y barreras que requieren supervisión humana
Evidentemente, en el proceso de conservación la mayor barrera de ChatGPT está relacionada con aquellos procesos del archivo que son netamente físicos; con esto nos referimos a técnicas especializadas de restauración física, limpieza y reparación de los distintos formatos que integran el acervo histórico. Aunque ChatGPT puede contribuir con la asesoría y monitoreo del estado de conservación del acervo, la herramienta no puede involucrarse directamente en estos procesos de restauración.
En procesos como clasificación, catalogación e investigación, existe también una suerte de sesgo cultural y lingüístico pues si en la metadata de entrenamiento que se entrega a la herramienta no hay etiquetas y lenguaje normalizado, difícilmente podrá procesar la información sin pasar por alto variaciones en el idioma, perspectivas históricas y culturales propias de los contenidos del material, lo que puede limitar su comprensión y análisis de datos ya que ChatGPT no interpreta la información más allá de la literalidad del texto.
De igual forma, el uso de herramientas de análisis de datos no es una garantía entera de la veracidad de la información pues se requiere de una comprensión profunda del contexto histórico y cultural en el que se produjeron los documentos. Por lo tanto, es importante que el uso de estas herramientas sea un complemento al análisis humano y no se utilice como un sustituto de este.
Refiriéndonos a la catalogación, podría considerarse una limitación de la herramienta no poseer algoritmos de reconocimiento de formatos distintos al texto, por ejemplo, audio o video. Por ello, no podría contribuir con la identificación de voces, sonidos, personas de manera automática debido a que su modelo de aprendizaje es netamente textual. Cabe aclarar que es posible entrenar a un modelo para que realice estas funciones específicas y, de esta forma, podría aprender a través de un algoritmo de transcripción automática del audio o el video con alto nivel de precisión.
En materia de los procesos asociados con investigación y catalogación encontramos varias imprecisiones de contenido en sus respuestas. Debido a que sus predicciones se basan en asociar grandes conjuntos de información que son codificados numéricamente en millones de etiquetas que se relacionan, comparan y contrastan con otros grupos de metadatos es necesaria la validación de sus resultados por parte de un equipo humano; de lo contrario, las predicciones en muchos casos son aparentemente coincidentes aunque en términos de contenido son incongruentes.
En resumen, ChatGPT se constituye como una herramienta fundamental para la gestión de un archivo histórico. Sus potencialidades incluyen la capacidad de analizar grandes cantidades de metadatos, identificar patrones y tendencias, lo que conlleva a la automatización de varios procesos clave que favorecen el rendimiento y productividad de las actividades inherentes al archivo. Sin embargo, existen algunas barreras que más que nada demuestran la necesidad de la intervención humana en estos procesos artificiales. Sin duda alguna, no hay que perder de vista la cantidad de recursos y de infraestructura tecnológica con la que debe contar un archivo en caso de que quiera utilizar los servicios personalizados de esta herramienta; entre ellos, se encuentran el uso de procesadores de alto rendimiento, sistemas operativos estables y un amplio espacio de almacenamiento que sea proporcional al tamaño del acervo.