1
英文单词都用“空格键”分隔,因此当计算机处理英文文本时,很容易用这些空格来分隔单词。不幸的是,中文在句子中没有任何分隔符,但是一系列连续的中文字符却被顺序地连接成一个句子。
在现代汉语中,表达意思的基本语素是单词而不是汉字。例如,“自然”不能分为“自”和“然”,因为它不能分别表示。仅当这两个汉字组合成一个单词时,“自然”才能具有准确的含义。
当我们使用NLP对中文进行“自动语义分析”时,首要的操作是“中文分词”。根据“中国人如何理解中文”的方式,我们将连续的汉字分为可以单独表达的单词然后解析并对信息进行处理。 例如: 胡赤儿是中国的网红→胡赤儿/是/中国的/网红
收藏