如何在Python 3中安装textract？

pythonpython-3.7

How to install textract in Python 3?

我想从pdf中提取内容，但pypdf2不能提取所有信息，并且由于以下错误，textract无法安装在3.7中：

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to

相关讨论

从以下位置下载textract的源文件：https://pypi.python.org/pypi/textract

pip3 install pdfminer3k

untar下载的文件

cd进入目录

运行：python3 setup.py install

希望它对您有用:)

相关讨论

我已通过以下步骤在Windows 10上安装了textract：-

pip install textract

安装poppler：

下载档案-http://blog.alivate.com.au/wp-content/uploads/2018/10/poppler-0.68.0_x86.7z
提取它
将完整文件夹粘贴到C:\\Program Files中
将C:\\Program Files\\poppler-0.68.0\\bin添加到路径变量

安装完成

测试者-import textract

textract.process('path_to_file_with_extension')

有关更多参考，请单击此处

希望对您有帮助！