来源 :金融界2024-03-31
据国家知识产权局公告,网宿科技股份有限公司取得一项名为“一种爬虫数据的识别方法、系统及设备“,授权公告号CN111368163B,申请日期为2020年2月。
专利摘要显示,本发明公开了一种爬虫数据的识别方法、系统及设备,其中,所述方法包括:获取目标网站的站点地图数据,并生成所述站点地图数据的向量图;获取所述目标网站的会话数据,并基于所述会话数据中包含的请求,将所述会话数据映射为所述向量图中的子图;为所述会话数据添加会话标签,所述会话标签用于表征所述会话数据是否为爬虫数据,并基于所述会话标签和所述子图对预设分类器进行训练,以得到用于区分爬虫数据和非爬虫数据的分类器。本申请提供的技术方案,能够有效地识别出爬虫数据。