来源 :金融界2023-12-29
据国家知识产权局公告,广联达科技股份有限公司申请一项名为“文本聚类方法、装置、计算机设备及存储介质”、公开号CN117312550A,申请日期为2022年6月。
专利摘要显示,本发明提供一种文本聚类方法、装置、计算机设备及存储介质,该方法包括:获取多个目标文本,确定每个所述目标文本的文本向量;计算所述文本向量之间的第一相似度,根据所述第一相似度将所述多个目标文本划分为多个初始类别;属于同一个初始类别内的两个或两个以上的文本向量之间的第一相似度大于预设的第一阈值;计算多个所述初始类别之间的第二相似度,根据所述第二相似度对所述多个初始类别进行合并,以得到多个终极类别。本发明分为粗聚类和细聚类两个阶段。在粗聚类阶段把相似度高于某个较大阈值的文本聚在一起,保证聚类的准确性。在细聚类阶段,不断合并类中心最近的两个类直到整体聚类度不再增加,在快速聚类的前提下保证了聚类最终效果。