如何使用 Python 提取嵌入在 RTF 中的 HTML？

How can I extract HTML embedded in RTF using Python?

我正在尝试从 Outlook msg 文件中提取 HTML 电子邮件正文。我已经使用 email-outlook-message-perl 成功地将它们转换为 eml/标准 RFC 822 文件，但电子邮件的正文是用 RTF package的 HTML。这是一个示例代码段：

1
2
3

{\\*\\htmltag96 }\\htmlrtf {\\htmlrtf0 {\\*\\htmltag64}\\htmlrtf {\\htmlrtf0 \\htmlrtf{\\f4\\fs24\\htmlrtf0 \'cd\'d5\'e0\'c1\'c5\'b9\'d5\'e9\'ca\'e8\'a7\'e4\'bb\'b7\'d5\'e8 john.smith\\htmlrtf\\f0}\\htmlrtf0
{\\*\\htmltag116 }\\htmlrtf \\line
\\htmlrtf0

有没有办法获取 HTML 内容，而不需要所有的 RTF crud？