@article{Gil-Leiva_Fujita_Redigolo_Saran_2022, title={Extracción de información de documentos PDF para su uso en la indización automática de e-books}, volume={34}, url={https://periodicos.puc-campinas.edu.br/transinfo/article/view/6870}, abstractNote={<p>El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo<br>casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de<br>materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo<br>esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en<br>PDF que podrían usarse posteriormente como materia prima para un sistema de indización automática. Para ello, realizamos<br>una primera evaluación de cinco softwares (PDFMiner.six, PDFAct, PDF-extract, PDFExtract y Grobib) y, posteriormente, como<br>PDFAct consiguió el mejor rendimiento, hicimos una segunda evaluación para averiguar su capacidad para identificar y<br>extraer informaciones de los libros, tales como títulos, índices, secciones, títulos de tablas y gráficos y referencias bibliográficas,<br>informaciones relevantes para cualquier sistema de indización. Se concluye que ninguna de las herramientas evaluadas extrae<br>adecuadamente las diferentes partes de libros en PDF, si bien, PDFAct ha logrado un rendimiento superior al del resto.</p>}, journal={Transinformação}, author={Gil-Leiva, Isidoro and Fujita, Mariângela Spotti Lopes and Redigolo, Franciele Marques and Saran, Jordan Ferreira}, year={2022}, month={set.}, pages={1–11} }