最近项目有个需求,需要解析pdf文件内容,我拿到需求后心想,既然能有方法生成pdf,这个解析应该也没啥问题,肯定能100%成功解析出来!
然而,结果并不是那么理想,虽然能解析出内容,但是如何将解析出的文字内容进行结构化展示确有很大的困难,因为要解析的pdf文件格式不统一,要解析准确的出结构化的数据还是比较困难的。
最后经过一系列的兼容优化处理,免强能达到90%以上,不过还是没达到100%,草率了
2024年10月09日
最近项目有个需求,需要解析pdf文件内容,我拿到需求后心想,既然能有方法生成pdf,这个解析应该也没啥问题,肯定能100%成功解析出来!
然而,结果并不是那么理想,虽然能解析出内容,但是如何将解析出的文字内容进行结构化展示确有很大的困难,因为要解析的pdf文件格式不统一,要解析准确的出结构化的数据还是比较困难的。
最后经过一系列的兼容优化处理,免强能达到90%以上,不过还是没达到100%,草率了