NLP 基础概念

2025/12/19

Table of contents

《第一章 NLP 基础概念》

一、这个内容真正解决的是什么问题？

如果不先把“语言如何被计算机表示、以及理解/生成被拆成哪些可计算的子问题”想清楚，人最容易在两处判断上翻车：一是把 NLP 误当成“查词典+套规则”的工程拼装，低估歧义与语境；二是把模型效果归因到“模型更大/更深”而忽略文本表示与任务设定才是性能上限的决定因素。

二、最容易产生误解的地方

误解一：NLP 就是把句子翻译成向量，剩下全靠模型学 诱因在于深度学习端到端的叙事很强，让人以为表示只是“喂进去就行”。代价是忽视分词/子词、标签体系、训练数据分布等前置选择，导致同一模型在不同预处理与标注规范下表现差异巨大，却误判为“模型不行”。
误解二：中文分词是可有可无的清洗步骤 诱因在于子词切分与字符级建模的普及，让人以为“分不分都一样”。代价是把“词边界不稳定”带来的连锁误差传给词性标注、实体识别、句法分析等任务，最终在信息抽取与检索类应用中出现系统性偏差。
误解三：统计方法已经过时，深度学习完全替代了它 诱因是近年来预训练模型在榜单上的优势过于显眼。代价是在资源受限或可解释性敏感的场景里，放弃 n-gram、TF-IDF、线性模型等强基线，反而让系统变慢、变贵、变难调，还不一定更稳。
误解四：词向量天然“懂语义”，所以能直接推理 诱因是“相似词向量更近”的直观效果很迷人。代价是把“共现相关”当成“逻辑关系”，在抽象概念、讽刺隐喻、长距离依赖上高估模型能力，产生看似合理但方向错误的输出。

三、支撑正确理解的核心机制

把语言处理拆成“任务”，才能把智能落到可评估的接口上

直观理解：语言很大，但系统通常只需要完成一件具体事，比如“找出人名地名”或“判断这段话属于哪类”。
专业表述：中文分词、子词切分、POS、分类、NER、关系抽取、摘要、翻译、问答等构成常用任务谱系，它们对应不同的输入输出形式与评价指标。
在整体中的位置：这是问题定义层，决定了训练数据怎么标、模型输出如何落地。

文本表示决定了模型“能看见什么信息”

直观理解：同一句话，用稀疏的 one-hot 看起来像“只知道出现过哪些词”，用上下文化表示则更像“知道这个词在这里是什么意思”。
专业表述：从 VSM/TF-IDF 的高维稀疏表示，到 Word2Vec 的静态稠密词嵌入，再到 ELMo 这类上下文化词表示，表示能力逐步从“词频共现”走向“语境条件化”。
在整体中的位置：这是能力上限层，直接影响分类、抽取、生成等下游任务的可达性能与资源成本。

从规则到统计再到深度学习，是对“歧义与泛化”难题的三次应对

直观理解：规则法像人工写语法书；统计法像从大量例子里总结规律；深度学习像用更强的函数逼近去吸收更复杂的模式。
专业表述：符号主义强调形式规则与逻辑范式；统计方法用概率建模替代手写规则；深度学习用 RNN/LSTM/注意力机制等在更大语料上学习表示与映射。
在整体中的位置：这是方法演进层，解释“为什么今天的系统长这样”。

语言模型的核心是“给序列赋概率”，但建模视野受限会带来结构性缺口

直观理解：n-gram 只看前面很短的几个词，所以擅长局部搭配，不擅长跨句、跨段推断。
专业表述：基于马尔可夫假设，n-gram 用条件概率链式规则计算句子概率；N 增大带来参数爆炸与数据稀疏。
在整体中的位置：这是生成与预测的基础层，为纠错、翻译、检索等提供可计算的概率框架。

上下文化表示解决“一词多义”，代价是训练与推理成本显著上升

直观理解：“苹果”在科技新闻与水果店里不是同一个意思，上下文能把它区分开。
专业表述：ELMo 通过双向 LSTM 语言模型预训练，再在下游任务中提取特征以补充表示，实现从静态到动态词向量的跃迁。
在整体中的位置：这是表示升级层，提升语义贴合度，同时引入计算资源与工程复杂度的约束。

四、关键术语与概念对齐

NLP：让计算机理解、解释与生成自然语言的一组技术与研究方向，不等于单一模型或单一任务。
中文分词（CWS）：把连续中文字符序列切分为词序列的过程，不等于子词切分。
子词切分（Subword Segmentation）：把词进一步拆成更小单位以缓解未登录词与稀疏性问题，常见方法含 BPE、WordPiece、Unigram、SentencePiece，不等于“按字切”。
词性标注（POS Tagging）：为词分配词类标签以支撑句法与语义分析，不等于实体识别。
实体识别（NER）：识别并分类人名、地名、组织、日期等实体，不负责给出实体之间关系。
关系抽取（RE）：从文本中识别实体间语义关系（如“创始人”），不等于知识库推理。
向量空间模型（VSM）/TF-IDF：以稀疏高维向量表达文本并计算相似度的经典框架，不包含词序与深层语境。
Word2Vec：学习静态稠密词向量的嵌入方法，主要架构为 CBOW 与 Skip-Gram，不等同于上下文化表示。
ELMo：通过双向语言模型得到上下文化词表示的预训练式方法，不等于 BERT 但都属于“利用大语料预训练再服务下游任务”的思路。
n-gram 语言模型：用马尔可夫假设近似建模序列概率的统计语言模型，不等于神经网络语言模型。

五、结构全景层：原文笔记

NLP 被定义为让计算机理解、解释和生成人类语言的技术，并被描述为人工智能的重要分支与活跃研究方向。
- NLP 试图模拟人类对语言的认知与使用过程，并融合计算机科学、人工智能、语言学、心理学等学科知识。
- NLP 的目标被表述为打破人类语言与计算机语言之间的障碍，从而实现更自然的交流与互动。
NLP 的任务谱系覆盖从基础预处理到语义理解与生成的一系列问题。
- 文本处理任务被列举为中文分词、子词切分、词性标注、文本分类、实体识别、关系抽取、文本摘要、机器翻译、自动问答等。
- 这些任务被强调不仅处理表层结构，还要触及语义、语境、情感、文化等深层因素。
NLP 的发展被概括为从规则方法到统计学习，再到机器学习与深度学习的多次技术革新。
- 早期阶段被描述为依赖字典查找与词序规则的简单机器翻译系统，并提到图灵测试与生成语法理论对研究的影响。
- 1970–1990 年代被描述为符号主义与统计方法并行发展，且 1980 年代统计模型开始取代复杂的手写规则。
- 2000 年代至今被描述为深度学习推动进展，提到 RNN、LSTM、注意力机制的应用，以及 Word2Vec（2013）、BERT（2018）与基于 Transformer 的 GPT-3 等模型带来的变化。
中文分词被定位为中文 NLP 的首要步骤，因为中文文本缺少英文那样的显式分隔符。
- 分词的目标被描述为把连续中文文本切分为有意义的词汇序列，并给出中英文切分示例。
- 分词错误被展示为会拆散地名或造成边界混乱，并被强调会直接影响词性标注、实体识别、句法分析等后续流程效果。
子词切分被描述为缓解词汇稀疏与未见词问题的常见预处理技术。
- 子词切分被说明能把词分解为更小单位，从而在遇到罕见词时仍可借助已知子词理解或生成。
- 常见方法被列为 BPE、WordPiece、Unigram、SentencePiece，并用 “unhappiness → un / happi / ness” 说明其能利用前缀、词根与后缀提供语义线索。
词性标注被定义为为每个单词分配词性标签，并被强调对句子结构理解与高级任务很关键。
- 英文例句 “She is playing the guitar in the park.” 被逐词标注为代词、动词、限定词、名词、介词与标点等类别。
- 词性标注常用模型被列为 HMM、CRF，以及基于深度学习的 RNN 与 LSTM，并被描述为通过学习标注数据来预测新句子词性。
文本分类被定义为把文本自动分配到一个或多个预定义类别，并被描述为广泛用于情感分析、垃圾邮件检测、新闻分类与主题识别。
- 新闻分类示例展示了体育、政治、科技三类文本到类别的映射。
- 成功关键被归结为选择合适特征表示与分类算法，并依赖高质量训练数据；神经网络方法被提到能捕捉复杂模式与语义信息以提升性能。
实体识别被定义为识别文本中具有特定意义的实体并分类到人名、地点、组织、日期等类别。
- 示例句中输出了人名、地名与日期等实体-类型对，并被说明可帮助系统理解关键元素及其属性。
- 实体识别被指出对信息提取、知识图谱、问答系统与推荐等应用重要，且精度与效率随 NLP 发展不断提高。
关系抽取被定义为从文本中识别实体之间的语义关系，并被说明对理解文本与构建知识图谱具有意义。
- 示例 “比尔·盖茨是微软公司的创始人。” 被抽取为（比尔·盖茨，创始人，微软公司）的三元组形式。
- 关系类型被列为因果、拥有、亲属、地理位置等，并被强调为后续知识图谱与问答系统提供支持。
文本摘要被定义为生成简洁准确的摘要，并区分为抽取式与生成式两类。
- 抽取式摘要被描述为直接选取关键句子或短语，优点是信息来自原文而准确性较高，但可能不够流畅。
- 生成式摘要被描述为在理解深层含义基础上重组与改写，通常需要更复杂模型如注意力机制的 Seq2Seq；并给出“天问一号”新闻的抽取式与生成式摘要示例。
机器翻译被定义为将源语言自动翻译成目标语言，并强调不仅词汇转换还要传达语义、风格与文化背景。
- 示例把“今天天气很好。”翻译为 “The weather is very nice today.”，并说明长文本更复杂、挑战更大。
- 改进方向被提到包括基于神经网络的 Seq2Seq 与 Transformer 等模型以学习源/目标语言之间的复杂映射。
自动问答被定义为理解自然语言问题并从数据源自动给出答案，并被划分为检索式、知识库与社区问答三类。
- 检索式问答被描述为从大量文本中检索答案，知识库问答依赖结构化知识库，社区问答依赖用户生成问答数据。
- 系统构建被说明涉及信息检索、文本理解、知识表示与推理，并强调随着算法改进在准确性与适用范围上持续提升。
文本表示被强调为把自然语言转为计算机可处理形式的基础工作，并被描述为直接影响 NLP 系统质量与性能。
- 文本表示被说明要把字/词/短语/句子等单位及其关系结构转成向量、矩阵等数据结构，同时兼顾语义保留与计算/存储效率。
- 词向量相关内容提到向量空间模型（VSM）以特征项维度表示文本并用 TF、TF-IDF 等计算权重，可用于相似度、分类与信息检索；并指出其稀疏性、维数灾难与独立性假设忽略词序与上下文等局限。
- VSM 的 one-hot 示例展示在 16384 维词表下句子仅 5 个位置为 1 的高稀疏率，并解释词汇表与 one-hot 映射关系。
- 语言模型相关内容介绍 n-gram 基于马尔可夫假设，用条件概率链式规则计算句子概率，优点是简单实用但 N 增大带来稀疏与长程依赖缺失。
- Word2Vec 被描述为 2013 年提出的词嵌入技术，通过上下文学习稠密低维向量，包含 CBOW 与 Skip-Gram 两种架构，并指出其难以捕捉长距离依赖与整体关系。
- ELMo 被描述为从静态到动态词向量的转变，引入预训练思想，采用双向 LSTM，两阶段为语言模型预训练与下游提取词向量特征，并指出其训练时间长、资源消耗大等问题。
- 参考文献被列为 Word2Vec、BERT、Attention Is All You Need、主题建模与过滤、ELMo、VSM、中文文本表示综述与中文信息处理发展报告等条目。

六、如何把这个内容讲清楚给别人？

最值得慢下来讲的是“文本表示为什么是核心”：同一句话，模型能否抓住语义、能否在未见词上泛化、能否区分一词多义，往往先由表示方式决定，再由模型结构放大或削弱。

可以快速带过的是“任务清单的枚举”：让对方先形成“任务=明确输入输出”的观念即可，细节差异放到具体应用时再补，不会影响主干理解。

最小示例（只用一句话贯穿机制）：

句子：“雍和宫的荷花开得很好。”
如果做 中文分词，系统要先决定“雍和宫”应当作为整体而不是被拆散。
如果做 实体识别，系统要进一步把“雍和宫”标成地名/景点类实体。
如果做 文本分类（例如“旅游/非旅游”），这些表示与抽取到的关键信息会直接影响最终类别判断。

这三个动作看似不同，背后共用一条主线：先把文本变成可计算的表示，再把目标问题约束成可评价的任务输出。

七、实践与使用视角的结论

适合用在什么场景
- 海量文本需要自动处理与结构化：检索、推荐、舆情与内容审核等。
- 需要从非结构化文本抽取关键信息：实体、关系、事件要素抽取与知识图谱构建。
- 需要生成或改写文本：摘要、翻译、问答与对话等。
不适合用在什么场景
- 数据极少且标注口径不稳定时，追求复杂模型往往不如先把任务与标签定义清楚。
- 需要严格逻辑证明或强可控推理链的任务，单靠语言模型输出容易出现“看起来合理但不受约束”的结论。
- 计算资源、延迟、成本强约束而又缺少收益评估的场景，直接上大模型容易得不偿失。
最常见、也最危险的错误用法是什么
- 把“分词/子词/标注规范”当成无关紧要的细节，导致线上线下分布不一致而性能崩塌。
- 把向量相似当成语义等价，把相关性当成因果或事实，从而在抽取与问答里制造错误信息。
- 只看单一指标（如准确率或 BLEU）而忽略任务目标（可解释、可控、可追溯），让系统在关键边界条件下失效。

最低使用原则：先把任务的输入输出、标注口径与文本表示定稳，再谈模型结构与规模。

八、最终总结

NLP 的核心不是“让模型读文字”，而是把语言问题拆成可定义、可评估的任务。
文本表示决定模型能利用的信息类型，进而决定下游任务的性能上限与稳定性。
规则、统计、深度学习三条路径分别在可控性、泛化能力与表示学习上做权衡。
分词/子词、词性、实体、关系、摘要、翻译、问答等任务相互衔接，前置误差会级联放大。
把语境与多义性纳入表示（如 ELMo 的上下文化思路）能提升理解力，但会带来更高的训练与推理成本。

-- End --