如何在Python 3中安装textract?

How to install textract in Python 3?

我想从pdf中提取内容,但pypdf2不能提取所有信息,并且由于以下错误,textract无法安装在3.7中:

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to


  • 从以下位置下载textract的源文件:https://pypi.python.org/pypi/textract

  • pip3 install pdfminer3k

  • untar下载的文件

  • cd进入目录

  • 运行:python3 setup.py install

  • 希望它对您有用:)


    我已通过以下步骤在Windows 10上安装了textract:-

  • pip install textract
  • 安装poppler:

    • 下载档案-http://blog.alivate.com.au/wp-content/uploads/2018/10/poppler-0.68.0_x86.7z
    • 提取它
    • 将完整文件夹粘贴到C:\\Program Files
    • C:\\Program Files\\poppler-0.68.0\\bin添加到路径变量
  • 安装完成
  • 测试者-import textract
  • textract.process('path_to_file_with_extension')
  • 有关更多参考,请单击此处

    希望对您有帮助!