Python正则清理特定HTML结构
学习笔记作者:admin日期:2025-06-10点击:174
摘要:使用Python正则表达式批量清除字符串中多种HTML标记和特殊结构,包括`wbCustomBlock`、`media-block`及新增的`think`标签。
清理特定HTML结构的Python实现
本文介绍了如何通过正则表达式批量删除字符串中的特定HTML标记和结构。
需求
- 删除形如```wbCustomBlock{...}```的标记。
- 删除形如<media-block>...</media-block>或<media-block>...\/<media-block>的标记。
- 新增功能:删除形如<think>...</think>的标记。
解决方法
import re
text = r""
2025年6月除飞```wbCustomBlock{aaaaaa}```
    这里有换行和内容
\ 2<br>
还有另一个<media-block>bbbbbb\)', '', text, flags=re.DOTALL)
# 删除新增的 <think>...</think>
text = re.sub(r'<think>.*?\', '', text, flags=re.DOTALL)
print(text.strip())
输出结果
2025年6月除飞2<br>
还有另一个结束
最后的内容
关键点
- 正则使用了.*?非贪婪匹配。
- 添加了flags=re.DOTALL允许匹配跨行内容。
- 新增规则成功处理了<think>标签。