TY - JOUR AU - Gil-Leiva, Isidoro AU - Fujita, Mariângela Spotti Lopes AU - Redigolo, Franciele Marques AU - Saran, Jordan Ferreira PY - 2022/09/23 Y2 - 2024/03/28 TI - Extracción de información de documentos PDF para su uso en la indización automática de e-books JF - Transinformação JA - Transinformação VL - 34 IS - SE - Originais DO - UR - https://periodicos.puc-campinas.edu.br/transinfo/article/view/6870 SP - 1-11 AB - <p>El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo<br>casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de<br>materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo<br>esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en<br>PDF que podrían usarse posteriormente como materia prima para un sistema de indización automática. Para ello, realizamos<br>una primera evaluación de cinco softwares (PDFMiner.six, PDFAct, PDF-extract, PDFExtract y Grobib) y, posteriormente, como<br>PDFAct consiguió el mejor rendimiento, hicimos una segunda evaluación para averiguar su capacidad para identificar y<br>extraer informaciones de los libros, tales como títulos, índices, secciones, títulos de tablas y gráficos y referencias bibliográficas,<br>informaciones relevantes para cualquier sistema de indización. Se concluye que ninguna de las herramientas evaluadas extrae<br>adecuadamente las diferentes partes de libros en PDF, si bien, PDFAct ha logrado un rendimiento superior al del resto.</p> ER -