V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
calon
V2EX  ›  问与答

有没有根据英语或人造语言规律自动生成新词的最佳方案?

  •  
  •   calon · Jun 11, 2018 · 2688 views
    This topic created in 2876 days ago, the information mentioned may be changed or developed.

    今天看到了一篇文章 Generating naming languages,介绍了根据语音组合法,将元音、辅音组成音节,再根据拼写特征,组成词语的思路。 还有具体实现的例子。 不过可能是构造规则比较简单的缘故,构造出来的词语还是不太合理,比如可能构造出像 pulkerkervrelkerkelg、Apipalipipow、Selpulreln 这样的词,正常人是不会这么发音和组词的。

    对这一块了解不深,不知道现在有没有更好的这类单词生成器,如果指定符合英语规律,生成的词看上去能够确实像英语,也可以自定义人造语言的规律。

    7 replies    2018-06-12 11:37:52 +08:00
    takato
        1
    takato  
       Jun 11, 2018
    个人认为可以考虑“炼丹学习”一下。
    当然首先要解决 Sampling 的问题,以什么作为采样数据。
    个人觉得可以以单个音素来进行 onehot 编码。然后尝试导入模型寻找音素之间的 Pattern 联系.

    简单扫描了一下那一段代码,目测作者是人工提取了一些特征,不过在随机拼入的时候可能并没有考虑到上下文音节和音素的影响。
    dallaslu
        2
    dallaslu  
       Jun 12, 2018 via iPhone
    听上去好像很适合用来取名字啊。比如宜家的产品命名…
    param
        3
    param  
       Jun 12, 2018 via Android
    我今天刚好也想到这个。有更新的话 @我一下谢谢
    WildCat
        4
    WildCat  
       Jun 12, 2018
    炼丹学习+1

    LSTM RNN 的一个比较基础的示例就是生成单词。
    calon
        5
    calon  
    OP
       Jun 12, 2018 via Android
    @takato 不知道英语有没有现成的单词构成规律,如果有的话可以省掉采样和建模这一步了。
    takato
        6
    takato  
       Jun 12, 2018 via iPhone
    @calon 如果有人训练过嵌入层的话,弄一份权值来也是可以的。
    takato
        7
    takato  
       Jun 12, 2018 via iPhone
    @WildCat Encoder-Decoder 结构的典型示例+1
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6086 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 68ms · UTC 02:07 · PVG 10:07 · LAX 19:07 · JFK 22:07
    ♥ Do have faith in what you're doing.