What is NLP
NLP = NLU + NLG
NLU:语音/文本 —- 意思 (meaning)
NLG:意思 —- 文本/语音
Why NLP is Harder than Computer Vision
图片:所见即所得
文本:Ambiguity(一词多义)
NLP的四个维度
Semantic ( 语义 ) —-NLU (理解语义)、
Syntax ( 句子结构 ) —- 句法分析(每种语言都有每种的句法,词性等)、依存分析(单词单词之间关系)
Morphology ( 单词 ) —- 分词、pos、ner…
Phonetics ( 声音 )
NLP的三大类
Easy or mostly solved //简单或者基本解决的
Named Entity Recognition // 命名实体识别
Participles // 分词
Spam Detection // 垃圾邮件分类
Part of Speech Tagging // 词性标注
…
Intermediate or making good progress //中等或者有一定进展的
Sentiment analysis // 情感分析
Coreference resolution // 算法
Word sense disambiguation // 词义消歧
Syntactic analysis // 句法分析
Machine Translation // 机器翻译
Information Translation // 信息翻译
…
Hard or still need lot of work //困难或者还需要一定时间的
Text Summarization // 文章摘要(生成)
Machine Dialog System // 机器对话系统
…
Pipeline
原始文本 | 分词 | 清洗 | 标准化 | 特征提取 | 建模 |
---|---|---|---|---|---|
网页文本 | Jibe | 无用的标签&特殊符号 | ate —- eat | tf-idf | 相似度算法 |
新闻 | Nltk | 停用词 | swam —- swim | word2vector | 分类算法 |
报告 | … | 大小写转换 | … | … | … |