Python正则清理特定HTML结构
学习笔记作者:admin日期:2025-06-10点击:36
摘要:使用Python正则表达式批量清除字符串中多种HTML标记和特殊结构,包括`wbCustomBlock`、`media-block`及新增的`think`标签。
清理特定HTML结构的Python实现
本文介绍了如何通过正则表达式批量删除字符串中的特定HTML标记和结构。
需求
- 删除形如
```wbCustomBlock{...}```
的标记。 - 删除形如
<media-block>...</media-block>
或<media-block>...\/<media-block>
的标记。 - 新增功能:删除形如
<think>...</think>
的标记。
解决方法
import re
text = r""
2025年6月除飞```wbCustomBlock{aaaaaa}```
这里有换行和内容
\ 2<br>
还有另一个<media-block>bbbbbb\)', '', text, flags=re.DOTALL)
# 删除新增的 <think>...</think>
text = re.sub(r'<think>.*?\', '', text, flags=re.DOTALL)
print(text.strip())
输出结果
2025年6月除飞2<br>
还有另一个结束
最后的内容
关键点
- 正则使用了
.*?
非贪婪匹配。 - 添加了
flags=re.DOTALL
允许匹配跨行内容。 - 新增规则成功处理了
<think>
标签。