【文本数据分析】第二章语料库

type

status

date

slug

summary

📝主旨内容

一、语料库概述

1、语料库简介

（1）语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合。（2）语料库的实质是经过科学取样和加工的大规模电子文本库。（3）语料作为最基本的资源，尽管在不同的NLP系统中所起到的作用不同，但是却在不同层面上共同构成了各种NLP方法赖以实现的基础。（4）语料库具备如下3个显著的特征。 ·语料库中存放的是真实出现过的语言材料。 ·语料库是以计算机为载体，承载语言知识的基础资源。 ·语料库是对真实语料进行加工、分析和处理的资源。

2、语料库的用途

（1）用于语言研究：语料库为语言学的研究提供了丰富真实的语言材料，在句法分析、词法分析、语言理论及语言史研究中都起到了强大的作用。（2）用于编纂工具参考书籍：一些对语言教学有重要影响的词典和语法书均是在语料库的基础上编写的。（3）用于语言教学：在语言教学中，语料库可以帮助减少课堂上学习的语言与实际使用的语言之间的差距，发现过去被忽略的语言规律，能够更准确地理解一些词语在实际交际中的意义和用法，发现学习者使用语言时的一些问题。（4）用于NLP：语料库按照一定的要求加工处理后可以应用到NLP的各个层面的研究中。语料库在词层面上进行分词、词性标注后，可以用于词法分析、拼写检查、全文检索、词频统计、名词短语的辩识和逐词机器翻译等。语料库包含的语言词汇、语法结构、语义和语用信息为语言学研究和NLP研究提供了大量的资料来源。

二、语料库种类与原则

1、语料库种类

（1）平衡结构语料库与自然随机结构语料库。 ·平衡结构语料库：平衡结构语料库的着重点是语料的代表性和平衡性，需要预先设计语料库中语料的类型，定义好每种类型语料所占的比例并按这种比例去采集组成语料库。 ·自然随机语料库：自然随机结构的语料库则是按照某个原则随机去收集组成语料。（2）通用语料库与专用语料库。 ·通用语料库：通用语料库与专用语料库是从不同的用途角度上看问题得来的结果，其中不做特殊限定。 ·专用语料库：专用语料库的选材可以只限于某一领域，为了某种专门的目的而采集。只采集某一特定领域、特定地区、特定时间、特定类型的语料所构成的语料库即为专用语料库。

（3）共时语料库与历时语料库。 ·共时语料库：共时语料库是为了对语言进行共时研究而建立的语料库，即无论所采集语料的时间段有多长，只要研究的是一个时间平面上的元素或元素的关系，具有共时性，则是共时研究。 ·历时语料库：历时语料库是为了对语言进行历时研究而建立的语料库，即研究一个历时切面中元素与元素关系的演化。根据历时语料库得到的统计结果是依据时间轴的等距离抽样得到的若干频次变化形成的走势图。

2、语料库的构建原则

（1）代表性：样本语料尽可能多地反映无限的真实语言现象和特征。（2）结构性：语料集合结构包括语料库中语料记录的代码，元数据项、数据类型、数据宽度、取值范围、完整性约束。（3）平衡性：平衡性是指语料库中的语料要考虑不同内容的平衡性。（4）规模性：大规模的语料库对于语言研究特别是对NLP研究具有不可替代的作用，但随着语料库的增大，垃圾语料带来的统计垃圾问题也越来越严重。因此在使用时，应根据实际的需要来决定语料库的规模。

三、NLTK库

1、NLTK简介

（1）NLTK（Natural Language Toolkit）是一个用于构建处理自然语言数据的Python应用开源平台。（2）NLTK提供了超过50多个素材库和词库资源的易用接口，涵盖了分词、词性标注、命名实体识别、句法分析等各项NLP领域的功能。（3）NLTK支持NLP和教学研究，它收集的大量公开数据集和文本处理库，可以用于给文本分类、符号化、提取词根、贴标签、解析及语义推理等。（4）NLTK也是当前最为流行的自然语言编程与开发工具，在进行NLP研究和应用时，利用NLTK中提供的函数可以大幅度地提高效率。

2、NLTK库模块及功能

3、安装步骤

4、NLTK函数的使用

（1）similar函数搜索相似词语。

（2）concordance函数搜索指定内容。

（3）collocations函数搜索搭配词语。

（4）common_contexts函数搜索共同上下文。

（5）len函数统计文本的长度。

260819

（6）set函数获取文本的词汇表。

（7）sorted函数对词汇表按照英文字母排序。（8）FreqDist函数查询文本中的词汇频数分布。（9）dispersion_plot函数可绘制出指定词的分布以及在文本中出现的位置。（10）fdist.plot函数可绘制指定的常用词累计频率图。

四、语料库的获取

1、基本语料库函数

2、古腾堡语料库

3、网络聊天文本

4、即时消息聊天会话语料库

5、布朗语料库

6、路透社语料库

7、就职演说语料库

8、网络在线语料库

五、语料库的构建与应用

1、构建作品集语料库

2、武侠小说语料库分析

（1）读取本地语料。（2）查询词频。（3）查看《神雕侠侣》部分文本。（4）统计高频词次数。（5）查询词频在指定区间内的次数量。（6）使用jieba进行分词。（7）查看指定单词上下文。（8）搜索相似词语。（9）绘制词汇离散图。

致谢：

💡

欢迎您在底部评论区留言，一起交流~