李成笔记网

专注域名、站长SEO知识分享与实战技巧

使用python爬虫把自己的CSDN文章爬取下来并保存到MD文件

最近做了一个个人网站,就想把CSDN的文章迁移过去,于是自己写了一个自动爬取CSDN的脚本,在这里分享一下给有需要的朋友

效果图:





源码放在后面的链接(微信打开看不到)

当前适用文章类型:

  • 纯文本(MD编辑器)
  • bash语言(后续再写判断)

附上部分正则凑数

        info = re.sub(r'<pre><code class="prism language-bash"><span class="token function">', '', info)
        info = re.sub(r'</span>', '', info)

        info = re.sub(r'</code></pre>', f'```\n', info)

        # info = re.sub(r'<pre><code class="prism language-bash"><span class="token function">', '```bash\n', info)
        info = re.sub(r"""<span class="token string">""", ' ', info)
        info = re.sub(r"""<span class="token function">""", '', info)
        info = re.sub(r"""<span class="token keyword">""", '', info)
        info = re.sub(r"""<span class="token operator">""", '', info)
        info = re.sub(r"""<span class="token comment">""", '', info)
        info = re.sub(r"""<pre><code class="prism language-bash">""", '```bash\n', info)
        info = re.sub(r"""<span class="token punctuation">""", '', info)
        info = re.sub(r'>', '>', info)
        status = up.write_md(file=file, txt=info)

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言