professorz
V2EX  ›  问与答

网站建设思路指教

  •  
  •   professorz · Jan 19, 2015 · 2568 views
    This topic created in 4158 days ago, the information mentioned may be changed or developed.

    我想做一个用于文本检索的网站,数据源是大约2000个PDF文件。实现的效果主要是能够检索PDF文档中的内容。
    我的大致思路是,把PDF文件中的文本提取出来放到MySQL中去,然后再用nodejs配合MySQL去检索。但是不知道具体实现起来用哪些比较好,希望能得到有经验的大牛的指教。

    2 replies    2015-01-19 16:39:11 +08:00
    zouxy
        1
    zouxy  
       Jan 19, 2015
    你的方案不是挺好么。好像有包可以提取PDF中的文字。TCPDF?
    Comdex
        2
    Comdex  
       Jan 19, 2015
    我想搞个文本相似度查询的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3625 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 04:46 · PVG 12:46 · LAX 21:46 · JFK 00:46
    ♥ Do have faith in what you're doing.