翻译句子

今晚的课程有意思

一、分词

今晚 | 的 | 课程 | 有意思

二、按单词翻译

tonight |of | the course | is interesting

三、排列组合

the course | of | tonight | is interesting

is interesting | of | tonight |the course

四、放入LM(language model)获得每句话概率 (不考虑模型效果)

// 不考虑句法分析、语法分析

the course | of | tonight | is interesting —– 0.85 最优

五、输出最优方案、最优解

the course of night is interesting

中文 —- ( 1 ) —- Boken English —- ( 2 ) —- English

1 - translation —– 翻译

2 - language —- 是否通顺

缺点

复杂度很高 4 个单词 —- 4的阶乘

优化

复杂度$o(2n)$ —- $o(n2)$ 指数到多项式优化

整合 1 和 2 Decoding Algorithm - Vertib Algorithm

(语音识别核心 : 可以判断语音具体单词 , 其核心动态规划)

1 —- $p ( c | e )$ —- 语义相似度高 则 $p ( c | e )$ 高,语义相似度低则 $p ( c | e )$ 低

2 —-$ p ( e )$ —- 如果符合英文语法 $p ( e )$ 高,随机语句 $ p ( e ) $ 低

viterb —- $p( e ) · p ( c | e )$ —- 给定语言模型, 翻译模型和f,找出最优解 使得 $p ( e ) · p ( c | e )$ 最大

对于一个好的语言模型(训练好)

p ( He is study AI ) —- p ( He studying AI is )

计算 p ( . )

Uni-gram = $p ( He is study AI ) = p ( He ) · P( is ) · P( study ) · P( AI ) $

Bi-gram = $p ( He is study AI ) = p ( He ) · p ( is | He ) · p ( study | is ) · p ( AI | study ) $

也就是 马尔可夫假设(Mavkov Assopotion)