最近做了一个个人网站,就想把CSDN的文章迁移过去,于是自己写了一个自动爬取CSDN的脚本,在这里分享一下给有需要的朋友
效果图:
源码放在后面的链接(微信打开看不到)
当前适用文章类型:
- 纯文本(MD编辑器)
- bash语言(后续再写判断)
附上部分正则凑数
info = re.sub(r'<pre><code class="prism language-bash"><span class="token function">', '', info)
info = re.sub(r'</span>', '', info)
info = re.sub(r'</code></pre>', f'```\n', info)
# info = re.sub(r'<pre><code class="prism language-bash"><span class="token function">', '```bash\n', info)
info = re.sub(r"""<span class="token string">""", ' ', info)
info = re.sub(r"""<span class="token function">""", '', info)
info = re.sub(r"""<span class="token keyword">""", '', info)
info = re.sub(r"""<span class="token operator">""", '', info)
info = re.sub(r"""<span class="token comment">""", '', info)
info = re.sub(r"""<pre><code class="prism language-bash">""", '```bash\n', info)
info = re.sub(r"""<span class="token punctuation">""", '', info)
info = re.sub(r'>', '>', info)
status = up.write_md(file=file, txt=info)