How to install textract in Python 3?
我想从pdf中提取内容,但pypdf2不能提取所有信息,并且由于以下错误,textract无法安装在3.7中:
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 1671: character maps to
-
看到这里:stackoverflow.com/questions/50743723/
从以下位置下载textract的源文件:https://pypi.python.org/pypi/textract
pip3 install pdfminer3k
untar下载的文件
cd进入目录
运行:python3 setup.py install
希望它对您有用:)
-
我收到"错误:安装脚本退出,错误:命令swig失败,退出状态为1"。 我无法安装Swig
我已通过以下步骤在Windows 10上安装了textract:-
pip install textract
安装poppler:
-
下载档案-http://blog.alivate.com.au/wp-content/uploads/2018/10/poppler-0.68.0_x86.7z
-
提取它
-
将完整文件夹粘贴到C:\\Program Files中
-
将C:\\Program Files\\poppler-0.68.0\\bin添加到路径变量
安装完成
测试者-import textract
textract.process('path_to_file_with_extension')
有关更多参考,请单击此处
希望对您有帮助!