统计分词:为长度为$m$ 的字符串确定其概率分布 $p(\omega_1,\omega_2,\cdots,\omega_m)$ ,其中$\omega_1$到 $\omega_m$ 依次表示文本中的各个词语,一般使用二元概率模型:
$$
P\left(\omega_{i} | \omega_{1}, \omega_{2}, \cdots, \omega_{i-1}\right) \approx
P\left(\omega_{i} | \omega_{i-1}\right)
$$

1. HMM隐含马尔科夫模型

引言

将分词作为字在字串中的序列标注任务 。对每个字标注其词位(该字在词中的位置),现规定只有四种词位:B (词首)、 M( 词中)、 E (词尾),S(单独成词 )

对每个字的标签记为$o_{i}$,每个字记为$\omega_{i}$则目标函数:

$$
\max =\max P\left(o_{1} o_{2} \cdots o_{n} | \omega_{1} \omega_{2} \cdots \omega_{n}\right)
$$

上面式子太难算,独立性假设:

$$
P\left(o_{1} o_{2} \cdots o_{n} | \omega_{1} \omega_{2} \cdots \omega_{n}\right)=P\left(o_{1} | \omega_{1}\right) P\left(o_{2} | \omega_{2}\right) \cdots P\left(o_{n} | \omega_{n}\right)
$$

这样的假设又会忽视上下文关系,可能会出现B(词首)B(词首)的问题,而两个词首不可能连续出现。

HMM

HMM是解决此问题的一种办法。
根据贝叶斯公式:

$$
P(o | \omega)=\frac{P(o, \omega)}{P(\omega)}=\frac{P(\omega | o) P(o)}{P(\omega)}
$$

$P(\omega)$ 为常数,所以目标函数:

$$\max P(o | \omega) \Leftrightarrow \max P(\omega | o) P(o)$$

针对 $P(\omega | o) P(o)$作马尔可夫假设,得到 :

$$
P(\omega | o)=P\left(\omega_{1} | o_{1}\right) P\left(\omega_{2} | o_{2}\right) \cdots P\left(\omega_{n} | o_{n}\right)
$$

又根据联合概率链式法则并进行齐次马尔可夫假设:

齐次马尔可夫假设,下一个状态只与上一个状态有关,即下一个词出现的概率只与上一个词有关,也是二元模型的假设前提

$$
P(o)=P\left(o_{1}\right) P\left(o_{2} | o_{1}\right) P\left(o_{3} | o_{2}\right) \cdots P\left(o_{n} | o_{n-1}\right)
$$

综上:

$$\max P(\omega | o) P(o) = \max
P\left(\omega_{1} | o_{1}\right) P\left(o_{2} | o_{1}\right) P\left(\omega_{2} | o_{2}\right) P\left(o_{3} | o_{2}\right) \cdots P\left(o_{n} | O_{n-1}\right) \mathrm{P}\left(\omega_{n} | O_{n}\right) $$

$P\left(\omega_{k} | o_{k}\right)$ 称为发射概率 , $P\left(o_{k} | o_{k-1}\right)$ 称为转移概率,通过设置某些$P\left(o_{k} | o_{k-1}\right)=0
$,可以排除类似 BBB 、 EM 等不合理的组合。求解$\max P(\omega | o) P(o)$的方法参见Veterbi 动态规划算法