最近直播火热,网上也看到很多通过“抓图 - 文字识别 - 百度搜题推荐”的程序介绍,自己也整理了一份
###########举例######################
问题:9.中国历史上,在位时间最长的皇帝是?
备选答案: ['康熙', '乾隆', '刘彻']
Answer: ['刘彻(9.091%)', '康熙(63.636%)', '乾隆(27.273%)']
#######################################
想问问大家,对搜索答案这块的算法,怎么设计,有什么高见?
先抛砖引玉,目前想到的算法:
1. 通过百度网页,请求问题,以答案选项作为关键字,数数判断(主流)
2. 对答案采用“中文分词”,针对答案可能是 xxx-yyy-zzz 无法全字匹配的情况
3. 对问题进行“中文分词“,逆向搜索,针对 “下面那些不是美国的品牌”这类问题
对于 1 已经实现,之前也有人发过存在“不”的情况处理;目前想通过 jieba 实现 2 和 3,但是总感觉这块的思考不是“很专业”,请大家吐槽
###########举例######################
问题:9.中国历史上,在位时间最长的皇帝是?
备选答案: ['康熙', '乾隆', '刘彻']
Answer: ['刘彻(9.091%)', '康熙(63.636%)', '乾隆(27.273%)']
#######################################
想问问大家,对搜索答案这块的算法,怎么设计,有什么高见?
先抛砖引玉,目前想到的算法:
1. 通过百度网页,请求问题,以答案选项作为关键字,数数判断(主流)
2. 对答案采用“中文分词”,针对答案可能是 xxx-yyy-zzz 无法全字匹配的情况
3. 对问题进行“中文分词“,逆向搜索,针对 “下面那些不是美国的品牌”这类问题
对于 1 已经实现,之前也有人发过存在“不”的情况处理;目前想通过 jieba 实现 2 和 3,但是总感觉这块的思考不是“很专业”,请大家吐槽