关于python:从url输出html文本源码

Print HTML From Url

本问题已经有最佳答案,请猛点这里访问。

所以我想打印出一个网站的HTML

1
2
3
4
from urllib.request import urlopen

http = urlopen('http://www.google.de/').read()
print(http)

但是在输出中,所有的换行符都被打印成
,字符串以b'开头,这与我的谷歌研究告诉我的一个位数组有关?抱歉,我刚接触到python xd

因此,我的问题是,如何将HTML代码作为普通字符串打印,并像文本编辑器中显示的那样使用换行符?


请看一下urlopen文档。在HTML报头中,它被写入charset=UTF-8。因此,您需要将行更改为:

1
print(http.decode('utf-8'))

如果HTML输出中有特殊字符(由于区域设置),请使用:

1
print(http.decode('utf-8'), errors='ignore')