语料库(Corpuls)

加载文本文档的语料库,(可选)用类别标记,或更改语料库的数据输入信号。

输入

  • 数据: 输入数据(可选)

输出

  • 语料库: 一个文件的集合。

功能

语料库小部件可以在两种模式下工作:

  • 当没有数据输入时,它从文件中读取文本语料库, 并将语料库实例发送到其输出通道。最近打开的文件保存在历史记录中。小部件还包括一个目录,里面有预装的样本语料库。小工具从 Excel (.xlsx)、逗号分隔 (.csv) 和本地标签分隔 (.tab) 文件中读取数据。
  • 当用户向输入端提供数据时,它会将数据转换为语料库。用户可以选择哪些特征被用作文本特征。

界面

  1. 浏览以前打开的数据文件,或加载任何一个样本文件。
  2. 浏览一个数据文件。
  3. 重新加载当前选择的数据文件。
  4. 选择在语料库浏览器中显示为文件标题的变量。
  5. 将在文本分析中使用的特征。
  6. 在文本分析中不会用到的特征。
  7. 浏览与插件一起出现的数据集。
  8. 访问帮助,制作报告并获取加载数据集的信息。

您可以在两个框之间拖放特征,也可以改变它们的出现顺序。

示例

第一个例子展示了一个非常简单的语料库(Corpuls)小部件的使用。将语料库(Corpuls)放置在画布上,并将其连接到语料查看器。我们已经使用 book-excerpts.tab 数据集,它是插件中附带的,并在 语料查看器 中检查它。

第二个例子演示了如何使用词云快速可视化你的语料库。我们可以将词云直接连接到 语料库(Corpuls),但我们决定应用文本预处理做一些预处理。我们再次使用 book-excerpts.tab。我们将所有文本都改为小写,将文本标记化(分词)为仅有单词的文本,过滤掉英文停用词,并选择100个最常见的词。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里

更新时间: