爱意满满的作品展示区。
akfish

撸了一个 SAE 上的中文关键字提取服务,TF-IDF 算法

  •  1
     
  •   akfish ·
    akfish · Aug 31, 2014 · 7040 views
    This topic created in 4304 days ago, the information mentioned may be changed or developed.

    使用的SAE的中文分词服务,关键字提取算法用的TF-IDF,语料库来自教育部的语料库在线。
    SAE的中文分词服务只能从SAE访问,服务端需要部署在SAE上。
    参数未细调,大概测试了下基本上靠谱,后面项目里用上了再调。

    链接:
    * Blog
    * Demo
    * GitHub - Seger Demo
    * GitHub - Seger

    6 replies    2014-08-31 16:05:51 +08:00
    andybest
        1
    andybest  
       Aug 31, 2014
    词库不太全,比如:中秋发福利:开发者专属定制 Coding 月饼!

    中秋,专属 没有正确的分词
    akfish
        2
    akfish  
    OP
       Aug 31, 2014
    @andybest 显示的只是关键词,不是完整的分词。
    SAE分词的词性分得太细了,权重还没细调,“中秋”词性为“时间专指”,显然我漏掉了。
    ChanneW
        3
    ChanneW  
       Aug 31, 2014
    部署在 SAE 上的程序把接口留出来不就哪里都能用了么
    akfish
        4
    akfish  
    OP
       Aug 31, 2014 via iPad
    @ChanneW 就是这样搞的
    dbbbit
        5
    dbbbit  
       Aug 31, 2014
    @akfish
    权重加的是否太暴力了。
    动词,名词,形容词, 副词之外权重都为 0?
    SAE 的分词确实好细,100+的词性
    akfish
        6
    akfish  
    OP
       Aug 31, 2014
    @dbbbit 看了几篇文献,权重基本上都是这么暴力,主要的考虑是其它词性的词大多是对内容没贡献的虚词、高频词,如果不过滤掉估计也得逐步加进停止词列表。
    看到的文献里大多没有把词性分得像SAE这么细,所以其实名词、动词、形容词、副词基本上就能涵盖大部分有效内容了。
    于是现在就要tweak那100+词性的权重,目前的实现肯定是漏了些,比如1L提到的时间专指词“中秋”。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2834 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 15:17 · PVG 23:17 · LAX 08:17 · JFK 11:17
    ♥ Do have faith in what you're doing.