当前位置: 首页 > 网站建设

使用ThinkPHP+Python采集任意网站的全站内容

作者:admin发布时间:2023-05-05 21:41:35阅读:197

最近又建了不少网站,但是很可惜的是没有太多精力去管理和维护,因此网站的收录并不怎么样。其实也不是没有精力和时间去管理,而是自己实在是太懒散了,一想到要花费太多功夫就想放弃,就想去打游戏。

“想躺着还把钱给挣了”并不是不可能,首先就是先得打好基础。为此,昨天我认真研究了PbootCMS的API接口,今天又花费一天的功夫使用ThinkPHP和Python相结合的办法实现了采集任意网站的全部内容。

准确来说也不叫全站内容,大体上是符合相似规则的内容。例如URL是相似格式的,标题和内容所在的标签是相似的这样。实现方法就是给出一个链接,程序会顺着这个链接找到符合规则的URL,并记录入库,然后再从这些URL上获取文章内容。

image.png

等于集中管理,然后通过Python随机访问一个采集源获取到内容,在通过API分发给一些网站。

ThinkPHP做的平台就是一个集中管理平台,我收集一些采集源添加到后台中,Python就可以有无限的内容去分发给网站,实现持久批量更新。目前是这样的功能,后续看怎么加入一些伪原创的元素让内容变得更优质一些。