NLP-I的基本术语和概念

词是可以独立运动的最小的有意义的语言成分。英语单词以空格为自然分隔符,汉语以单词为基本书写单位,单词之间没有明显的区分标记。因此,中文分词是中文分词的基础和关键。中文和英文都有分词的需求,但相比较而言,英文单词有空格可以分词,处理起来相对方便。但是因为中文没有分隔符,所以分词的问题更重要。基于词典的最长串匹配常用于分词,据说可以解决85%的问题,但是歧义分词比较困难。比如“美国将通过对台军售法案”,可分为“美国/国会/台湾军售法案”和“美国/国会/台湾军售法案”。

中文分词技术可以分为三类:

在基于机器学习的方法中,往往需要标注单词的词性。词性一般指动词、名词、形容词等。标注的目的是表示一个词的隐藏状态,隐藏状态的转换构成了一个状态转换序列。比如:我/r爱/v京/ns天安门/ns。其中ns代表名词,v代表动词,ns和v都是标签,以此类推。

词性作为词的概括,在语言识别、句法分析、信息抽取等任务中起着重要的作用。

/s/qjpozo 8 mt 17 mtnc 7 eft 8 NQ