Python正则清理特定HTML结构

学习笔记作者:admin日期:2025-06-10点击:36

摘要:使用Python正则表达式批量清除字符串中多种HTML标记和特殊结构,包括`wbCustomBlock`、`media-block`及新增的`think`标签。

清理特定HTML结构的Python实现

      本文介绍了如何通过正则表达式批量删除字符串中的特定HTML标记和结构。

需求

  • 删除形如```wbCustomBlock{...}```的标记。
  • 删除形如<media-block>...</media-block><media-block>...\/<media-block>的标记。
  • 新增功能:删除形如<think>...</think>的标记。

解决方法

import re

text = r""
2025年6月除飞```wbCustomBlock{aaaaaa}```
    这里有换行和内容
\2<br>
还有另一个<media-block>bbbbbb\)', '', text, flags=re.DOTALL)

# 删除新增的 <think>...</think>
text = re.sub(r'<think>.*?\', '', text, flags=re.DOTALL)

print(text.strip())

输出结果

2025年6月除飞2<br>
还有另一个结束
最后的内容

关键点

  • 正则使用了.*?非贪婪匹配。
  • 添加了flags=re.DOTALL允许匹配跨行内容。
  • 新增规则成功处理了<think>标签。

上一篇      下一篇