有哪些比较好的相亲软件呢?爬取三大相亲软件评论

内容摘要
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
文章正文

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

本文以360手机助手为例,地址为:/d/file/p/20221107/,相亲软件选择%203%20个比较流行的,分别为:世纪佳缘、百合婚恋、有缘网,我们使用%20Python%20爬取软件评论区,看看用户评价情况。

先来看一下这三款软件的下载量和好中差评占比情况(下图单位为万次

下面开始爬取评论区,以世纪佳缘为例,首先,在搜索框输入世纪佳缘进行搜索,如图所示:

接着,点击搜索到的软件进入其详情页,如图所示:

将页面向下拉就可以看到评论区了,如图所示:

此时打开开发者工具并选择Network项,点击查看更多评论,然后可以看到getComments请求,如图所示:

通过这个请求我们就可以动态获取评论区数据了,其中参数star为开始的评论索引,参数count为每次加载的评论个数,可以通过参数callback、baike指定不同应用,爬取代码实现如下:

headers%20=%20{
%20%20%20%20"Accept":%20"*/*",
%20%20%20%20"Accept-Encoding":%20"gzip,%20deflate,%20sdch",
%20%20%20%20"Accept-Language":%20"zh-CN,zh;q=0.8",
%20%20%20%20"Connection":%20"keep-alive",
%20%20%20%20"Host":%20"comment.mobilem.360.cn",
%20%20%20%20"User-Agent":%20"Mozilla/5.0%20(Windows%20NT%206.1;%20WOW64)%20AppleWebKit/537.36%20(KHTML,%20like%20Gecko)%20Chrome/57.0.2987.98%20Safari/537.36%20LBBROWSER"
}
def%20comment_spider(param,%20file_name):
%20%20%20%20base_url%20=%20"/d/file/p/20221107/getComments%20style="color:%20rgba(128,%200,%200,%201)">"
%20%20%20%20start%20=%200
%20%20%20%20for%20i%20in%20range(1,%2050):
%20%20%20%20%20%20%20%20print("第{}页".format(i))
%20%20%20%20%20%20%20%20url%20=%20base_url%20+%20param%20+%20"&start="%20+%20str(start)
%20%20%20%20%20%20%20%20r%20=%20requests.get(url,%20headers=headers)
%20%20%20%20%20%20%20%20data%20=%20re.findall("{"errno"(.*));}catch(e){}",%20r.text)
%20%20%20%20%20%20%20%20#%20转为%20Json%20格式
%20%20%20%20%20%20%20%20jdata%20=%20json.loads("{"errno""%20+%20data[0])
%20%20%20%20%20%20%20%20for%20message%20in%20jdata["data"]["messages"]:
%20%20%20%20%20%20%20%20%20%20%20%20content%20=%20message["content"]
%20%20%20%20%20%20%20%20%20%20%20%20print(content)
%20%20%20%20%20%20%20%20%20%20%20%20with%20open(file_name%20+%20".txt",%20"a",%20encoding="utf-8")%20as%20f:
%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20f.write(content)
%20%20%20%20%20%20%20%20start%20=%20start%20+%2050
%20%20%20%20%20%20%20%20time.sleep(2)

我们将爬取的评论数据存到了%20txt%20文件中。

接着,我们将评论数据进行词云展示,代码实现如下:

with%20open("yy.txt",%20"r",%20encoding="utf-8")%20as%20f:
%20%20%20%20content%20=%20f.read()
%20%20%20%20stylecloud.gen_stylecloud(text=content,%20max_words=600,
%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20collocations=False,
%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20font_path="SIMLI.TTF",
%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20icon_name="fas%20fa-heart",
%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20size=800,
%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20output_name="yy.png")
    Image(filename="yy.png")

 

最后,通过词云看一下用户对上述软件的评价情况。

世纪佳缘:

百合婚恋:

有缘网:

代码注释
[!--zhushi--]

作者:喵哥笔记

IDC笔记

学的不仅是技术,更是梦想!