• 请不要在回答技术问题时复制粘贴 AI 生成的内容
bobuick
V2EX  ›  程序员

用第三方数据和一个开源文本分类库撸了一个短语垃圾分类器

  •  1
     
  •   bobuick · Jul 6, 2016 · 4329 views
    This topic created in 3625 days ago, the information mentioned may be changed or developed.

    临时开的测试地址

    git 里只有 load handler 的部分, 训练数据太大了,没放上去。随便玩玩, 大神轻喷, 准确率还没做仔细评测,应该对训练数据做个比例分离,拿一部分做测试数据, 算法库是 LibLinear ,在它基础上还有一层 python 封装库 tgrocery

    我是 git 地址 求 star =。=

    4 replies    2016-08-02 11:13:34 +08:00
    qqmishi
        1
    qqmishi  
       Jul 6, 2016
    http://115.231.96.136:8810/v1/classify?msg=冃狌交伖,释鲂压劦、棑解漃瘼◆真人视频.网址: wWw.GitHub 。 Com

    {"predict": {"ad": -0.066918752863160541, "spam": -0.10691206619180635, "porn": -0.13125600199396634, "nonsense": -0.17521140226677201, "politic": -0.15298335802307686, "ham": 0.6332815813380146}, "res": "ham"}

    23333
    bobuick
        2
    bobuick  
    OP
       Jul 6, 2016
    =。=牛,数据短缺, “冃狌交伖,释鲂压劦、棑解漃瘼”
    bobuick
        3
    bobuick  
    OP
       Jul 6, 2016
    看来火星文和用偏僻词谐音的数据缺的比较厉害, 这么一比较我那些训练数据原来那么和谐呢
    vincentfung13
        4
    vincentfung13  
       Aug 2, 2016
    题主是在哪拿到的训练数据啊,能分享下么,哈哈哈
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3158 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 14:30 · PVG 22:30 · LAX 07:30 · JFK 10:30
    ♥ Do have faith in what you're doing.