TechNote

事務屋のおぼえがき

2022-11-14から1日間の記事一覧

【Python】tabula.read_pdfで読み込めるpdfと読み込めないpdf(IndexError: list index out of range)

tabula-pyがpdf上の表をテキスト抽出できる優秀ツールであることは下記で述べたとおり。 kojikoji75.hatenablog.com kojikoji75.hatenablog.com だが、値を抽出するといってもOCR処理ができるというわけではなく、あくまでpdf上の「テキストとして認識できる…