我采用 jieba 进行了高频词汇的统计,然后再根据 高频词调出包含的问题,但是感觉这样也不是太好。用户问题一般方式不是太一样,但是关键字都是类似的,如何能提出相似度较高的问题,想求教下大家,不吝赐教
我采用 jieba 进行了高频词汇的统计,然后再根据 高频词调出包含的问题,但是感觉这样也不是太好。用户问题一般方式不是太一样,但是关键字都是类似的,如何能提出相似度较高的问题,想求教下大家,不吝赐教
1
princelai Mar 17, 2021
简单点就 TFIDF 提取出每句 TOP5 的词,然后转 one hot 求和,最后求余弦距离
复杂点就 bert 直接整句输入,输出一个 768 维向量,最后还是余弦距离 /Ball-Tree/KD-Tree 这些,无新增直接聚类也应该可以。 |
2
chogath Mar 17, 2021
统计学问题
|
3
xiaoxinshiwo Mar 17, 2021
|
4
daijinming OP @xiaoxinshiwo 我也是这个感觉,不明觉厉
|
5
daijinming OP @princelai 兄台,理解你说的这话,都需要啥基础
|
6
princelai Mar 17, 2021
@daijinming #5 只想了解名词大概意思,学 NLP 三天就够了,要想了解原理怎么也得学 2 月吧
|
7
qW7bo2FbzbC0 Mar 17, 2021
https://zhuanlan.zhihu.com/p/166499896 我也看到了这个,不知道和 ES 方案比起来如何
|
8
MOONLIGHTT Mar 17, 2021
目前深度学习来做文本理解的方案一般是 预训练+finetune,预训练模型里面一般都采用 bert 或者 bert 的变种。
具体的话可以看看这个仓库 https://github.com/ymcui/Chinese-BERT-wwm |
9
superrichman Mar 17, 2021
|