数字历史词汇表

本术语表旨在为各部门和委员会评估学者提供他们在项目描述、研究报告和评估中可能遇到的一些术语、概念和工具的简要定义。基于术语表由Doing Digital History开发暑期研究所在2016年的罗伊·罗森茨威格历史和新媒体中心,美国心脏协会的数字历史工作组成员扩大了它。虽然它涵盖了许多重要的数字人文和相关的技术术语,但不能涵盖所有相关的概念。词汇表的用户还应该将其视为数字历史领域的定义方面,在与数字历史学家一起工作时,他们应该熟悉这些方面,计划创建包含数字工作的职位,或者探索数字工具和方法在我们的学科中发挥的作用。


3 d模型:空间分析的一种计算方法。三维可视化是由专门的软件使用几何数据创建的。物体可以通过3D打印机创建,放置在场景中,并以实体形式产生。在3D建模中,静态模型之间存在差异,如建筑空间的再创造,以及模型的经验,如那些用于模拟可以探索。Sketchup有一个免费版本,是数字人文领域使用最广泛的3D软件(https://www.sketchup.com/)。3D模型也出现在Unity game Engine等游戏开发平台上。

算法:一组明确的指令,告诉计算机做什么和如何做。

API(应用程序界面):允许两个网络应用程序通信的软件。通常用于访问在线数据库中的数据。博物馆、图书馆和档案馆可以提供API作为共享数据库的一种方式,为用户提供比数据库提供的搜索工具和界面更有效地收集大量数据的能力。

增强现实技术,基于“增大化现实”技术:一种可视化形式,将用户对真实世界环境和其中物体的看法叠加在一起,创建一个改变对环境感知的合成图片(这与用模拟代替真实世界环境的VR不同)。AR通常显示在智能手机和平板电脑上,通过设备的摄像头和GPS来确定显示什么信息以及在哪里显示。增强现实技术在数字人文领域的应用包括:用当地的历史照片来增强地点,用原始的颜色来增强古典雕塑,用附加的描述来增强显示。

后端(AKA控制面板或仪表板):软件的管理方面,您可以进行技术和内容更改,这是不可见的或访问网站的访问者(不是面向公众的)。

博客:包含离散的、简短的、通常是非正式的条目(帖子)的网站,这些条目(帖子)按时间倒序出现,可以结合文本、多媒体和链接。博客最初是一种在线日记的形式,允许读者发表公开评论,作者可以对此作出回应。现在,博客已经演变为公众人物、机构、记者以及包括学者在内的个人对各种话题发表评论的场所。大多数博客都是使用免费的内容管理系统发布的,如WordPress和Blogger,并且都是免费的。

出生的数字:以数字形式产生的材料;与数字化的材料相比,它源于另一种形式。常见的原生数字内容形式是数字照片、网页和电子记录,如电子邮件和电子表格。

CMS(内容管理系统)一种允许内容从一个中心界面进行发布、编辑和修改的计算机程序。CMS通常提供一个接口来消除编写代码的需要,尽管这个选项通常也是可用的。cms通常用于运行包含博客和数字集合的网站。

CSS(层叠样式表):用来修改网页设计和外观的一种标记语言。与HTML一起使用来创建在线内容。

CSV(逗号分隔值):具有一组信息的文件,其中每个值由逗号或其他特定字符(; | /)分隔。可以使用像Excel,Google纸张,数字等电子表格软件创建;将电子表格保存为CSV文件时,行和列中的值由逗号或其他指定字符分隔。大多数数据库和许多CMS平台(即Omeka)和数字工具可以导入CSV文件,使其成为传输信息的常用手段。

计算方法/工具:数据分析程序和软件;数字人文最常用的方法是文本分析、空间分析和网络分析。使用计算方法需要通过提取信息和特征将历史资料转换为数据,并通过将它们规范化来创建结构化的数据,以适应为特定研究目标服务的选定类别。计算分析的结果通常以可视化的形式呈现,如地图、图形和图表。

语料库语言学:建立在文本分析的基础上,通过检查句法和语义结构大于单个单词来阐明意义。一个文本语料库是用标签标注词性,以及一个词在不同上下文中可能具有的不同修饰功能和关系。语料库的分析采用了搜索和定位相结合的方法,利用上下文来确定词的意义。

数据清洁:从数据库中检测并纠正(或删除)拼写或格式不一致的不完整记录或数据的过程。

数据库:一种结构化数据的形式,其中相关信息被组织成字段(单个数据项)、记录(一组完整的字段;电子表格中的一行)和文件(记录的集合)。也软件,使您能够进入,组织,存储和检索信息的数据库。

数字化:将模拟内容转换为数字格式。通过摄影或扫描创建数字图像是数字化的常见形式,用于文档,照片,艺术品或对象的情况。通过在数字媒体上重新录制视频和音频,也可以将声音和运动图像进行数字化。另见JPEG;tiff。

数字档案:用元数据组织、描述并通过在线接口进行访问的数字化源的集合。在数字人文的语境中,这一术语通常是指从各种不同的实体馆藏和地点在线汇集到一起的馆藏。档案保管员通常不会认为这样的收藏是一个档案;在该领域中,术语存档仅用于指由原始组织或个人创建的材料,或由聚集在存储库中的第三方创建的材料。

遥远的阅读:来自Franco Moretti,一个术语使用文本分析来寻找文本的大公司的模式。

DOI(数字对象标识符):到在线出版物的托管的持久链接。要获得一个DOI,您必须向一个DOI注册机构注册,该机构收集关于出版物的元数据并为它们分配DOI名称。如果发布的url更改,发布者必须更新DOI元数据,以便DOI继续链接到该发布。

域名,域名:互联网上资源(如网络服务器、网站或网络应用程序)的唯一标识符;代替互联网协议使用的数字地址,作为URL的一部分。域名用于为项目建立唯一标识。任何人都可以通过向域名注册商注册域名来租赁域名,域名注册商会收取年费。域名可以包括一些顶级域名之一,其中。org、。net.和。com是最常见的(。edu域名仅限于教育机构,。gov域名仅限于政府机构)。第二级域,在顶级域之前,是一个最多253个字符的文本和数字字符串。个人、组织和项目经常使用他们的名字作为二级域名

都柏林核心:用于描述任何包含15个要素的可想到资源的国际认可的元数据标准,包括“标题”,“描述”,“日期”和“格式”。都柏林核心用于Omeka,该开源内容管理系统,用于在线广泛用于数字人文学科的资源。

FTP客户端:一个程序,可让用户将文件从计算机传输到Web服务器,以便可以在线可用或查看。

地理信息系统:结合数据库和地图应用程序将信息与位置联系起来的软件。ARC-GIS是该软件最著名的例子;它是一种商业产品,具有陡峭的学习曲线,主要是为研究定量数据的社会科学家设计的。一个开源的替代方案是QGIS。请参见Web Mapping。

运用:将地点名称和地址转换为映射坐标。

GIF:现在最常用于包含动画的图像的无损图像文件格式。另见TIFF.

Github:一个用于共享代码和任何其他类型文件的开源平台。

魅力:Galleries图书馆档案馆的首字母缩略词。

举办;看到虚拟主机

超文本标记语言:一种使用标记来描述联机内容的结构,并指定文本格式(字体、粗体、斜体)、页眉等的标记语言。HTML现在通常与CSS一起使用,CSS是另一种修改HTML元素的设计和外观的标记语言,并提供了一种创建站点风格的更简单的方法。

JPEG格式:一种使用有损压缩的图像格式 - 通过在编辑和保存时丢弃一些数据来压缩图像。数码相机中最常用的格式以及用于在线存储和传输图像文件。另见tiff。

密钥孔标记语言;KMZ文件:一种基于xml的标记语言,使用标记来描述可以显示在地图上的地方的地理信息。最初是为谷歌地球开发的。KMZ文件是经过压缩的KML文件。

LAMP (Linux, Apache, MySQL, PHP/Python)一个用于创建网站和web应用程序的开源软件包:Linux是操作系统,Apache是web服务器,MySQL是数据库,PHP/Python是脚本语言。

学习管理系统:一种专为教学和学习而设计的内容管理系统,提供了通过类和课程组织内容,设计测验和管理成绩并监控学生的活动。最着名的例子是黑板。

无损压缩;看到TIFF;GIF

有损压缩;看到JPEG

机器学习:通过拍摄培训数据样本并逐步构建统计模型来自动分析以分类或分类数据来自动分析。常用于数据的功能和模式过于模糊时,可以使用严格指令对数据进行排序的可行性。

标记语言:一种使用标记来定义文档中的元素的计算机语言。该语言包含标准单词,而不是代码,因此人类可读。最流行的两种标记语言是HTML和XML。历史学家和文学学者经常使用一种称为TEI的XML变体来识别和标记文档的特定非技术元素(例如人或地方)。参见KML

元数据:有关数据的数据,或描述项目的信息。元数据是您在图书馆目录记录或博物馆集合管理系统中读取的内容。标准化元数据使用商定的拼写,语言,日期格式等,以便比较元数据。元数据标准或者模式是一组结构化和标准化的元数据,用于描述特定目的或社区的资源。Dublin Core是用于描述数字和物理资源的广泛使用的元数据标准。

命名实体识别(ner):一种自然语言处理的形式,它使用算法来识别涉及人、地点和组织的单词。

自然语言处理(NLP):识别语言的特征的算法,例如每个单词的语音部分,单词(lemmatization)的基本形式,称为真实世界实体,如人,地方,活动和组织(ner)以及关系句子中的单词(依赖解析)

网络分析:一种计算方法,它使用网络图来可视化和测量人,组或信息之间的非空间关系。这些图表将网络的组件呈现为节点以及它们之间的关系作为边缘或链接,并允许多种类型的节点和边缘。由此产生的网络可以描述哪些实体是那些关系的最核心,或整个网络的集中度或集中程度。Gephi一直是数字人文学科最常用的开源网络可视化软件(https://gephi.org/)。

OCR(光学字符识别)将文本的数字图像(照片,扫描)转换为可通过计算方法分析的机器可读文本的数字图像(照片,扫描)。通常仅对现代字体中的文本有效(尽管正在开发机器学习算法以转换旧的字体和手写)。

Omeka:一个开源的内容管理系统,它使用一个项目(对象/图像/文档)作为主要部分(与WordPress相反,它使用帖子)和Dublin Core元数据来描述项目。Omeka通常用于创建数字收藏和基于这些收藏的展览,以及档案馆、图书馆、博物馆和教室。www.omeka.org

开放式访问:网上免费提供的材料。通常是指已发表的同行评议研究,读者可以免费获得。

开源:软件源代码是自由可用的,可以修改和重新分配,鼓励开放的软件开放协作。广泛应用于数字人文领域的示例是内容管理系统,如WordPress,Omeka和标量,以及诸如Voyant和Gephi等计算工具。

插件:为现有计算机程序添加特定功能的软件。用于WordPress和Omeka。

编程语言:一种由计算机指令组成的正式语言,用于创建实现特定算法的程序,告诉计算机该做什么和如何做。每种语言都有自己的词汇和用来组织指令的语法。数字人文中常用的语言包括R、Python、Javascript和Ruby/Ruby on Rails。

响应web设计:网页的设计在各种设备和窗口或屏幕尺寸上呈现良好。由于Web页面的默认设计通常假设它们将在计算机监视器上查看,响应式网页设计意味着确保这些页面在手机或平板电脑上呈现良好。

标量:一个用于发布长格式数字文本的开源内容管理系统。它的设计目的是允许以嵌套的、递归的和非线性的格式组织出版物,以及各种媒体的注释。https://scalar.me/anvc/scalar/

服务器;看到Web服务器

空间分析:一种计算方法,包括测绘和其他形式的可视化,利用空间数据来分析历史过程。绘制地图涉及地理参考位置信息来生成坐标,这些坐标可以被绘制出来,并使用GIS软件、网络地图平台或使用开放源码工具(如传单和Openlayers)编程来可视化这些数据。

SQL(结构化查询语言):一种用于在数据库中查询、插入、更新和修改数据的编程语言。WordPress使用SQL来管理存储站点信息的数据库,这是CMS的一个组件。

结构化数据:在数据库或标记标记中组织的数据,其中每个元素都适用于表中的字段或具有标记语言的标签。可以使用计算方法分析结构化数据。另请参阅非结构化数据。

SVG(可缩放矢量图形):基于XML的图像格式;由于它基于标记语言,可以在文本编辑器中作为代码编辑SVG图像。SVG图像可以在图形软件中创建,例如Adobe Illustrator和草图。

文本分析(又称文本挖掘):数字化文档中文本数据(词)的计算分析。算法通过查找空格和标点符号来识别单词,这一过程被称为标记化。最简单的文本分析形式是抛弃单词顺序来计算文档语料库中单词的频率。Voyant是一个用于简单文本分析的开源工具(https://voyant-tools.org/)。这种形式的文本分析还可以用来衡量和比较文本的相似性,通过计算它们有共同的单词和短语。其他形式的文本分析建立在这些算法的基础上,试图识别单词之间的语义关系,从而确定文本中的概念;看到语料库语言学;遥远的阅读;主题建模。

TEI(文字编码计划):一组定义XML标记语言格式以标记文本组件(如单词、句子)和概念(如人员、地点)的指导原则。TEI广泛应用于文学研究和文本的数字版本中。

TIFF(标签图像文件格式);TIF:一种由多种使用无损压缩的软件支持的图像文件格式——意味着当文件被编辑或保存时没有图像质量损失——因此是用于保存图像的文件格式。其他常见的无损文件格式是PNG和GIF。也看到JPEG。

工具:一个用于数字人文学科的软件术语。

主题建模:建立在文本分析的基础上,使用算法通过识别单词簇(即主题)来捕获语义特征,这些单词簇更有可能出现在彼此之间。该算法将文本划分为用户指定的尽可能多的主题,以生成语料的可能主题的模型。这是由研究人员来确定这些主题的意义;主题可以捕获样式特征或系统OCR错误以及主题。

非结构化数据:未组织在数据库中或未使用标记标记的数据。例如,人文学者通常研究的文本文档是非结构化数据;它们可以具有结构元素,例如信件中的日期、发件人和收件人信息,但并非所有文本都适合这些类别。非结构化数据中的信息需要以一致的方式进行标记,或者在数据库中提取和组织,然后才能使用计算方法(如映射和网络分析)对其进行分析。非结构化文本数据可以通过文本分析、主题建模和语料库语言学等计算方法进行分析。参见结构化数据。

URL(统一资源定位器):url通常被称为web地址,它指定了一个网站或web应用程序的位置以及检索它的机制。它通常显示在网页浏览器上方的地址栏中。一个典型的url包含数据传输的协议(通常是http或https),一个标识网站位置的域名(如historians.org),以及一个标识网站特定部分的文件名(如index.html)。

虚拟现实、虚拟现实:一个计算机生成的模拟,使用户沉浸在一个三维环境中,他们可以与之交互。目前的技术使用耳机来产生图像、声音和感觉,有时还通过控制器来传输振动和其他触觉。

可视化、数据可视化:将数据放在视觉上下文中以分析和传达它;包含图像,图表,图形,映射和动画。大多数计算方法产生可视化。数字人文科学的可视化是探索数据的常见研究工具,但它们也可以用于传达参数。

Web应用,Web应用:运行在网页浏览器而不是电脑桌面上的软件。网络应用程序存储在网络服务器上,而不是安装在你的电脑上。参见API。

Web存档:从网站收集的内容,以便保留和提供在线可用的信息的长期访问。集合通常使用Web爬虫自动完成。收集的信息包括网页,CSS样式表,图像,视频和元数据。最大的Web归档组织是Internet Archive,旨在归档整个网络。国家和当地机构还在创建特定领域的Web档案。

Web履带,又名蜘蛛:系统浏览网页的网络机器人。一般用于索引网页,但也自动收集数据,为网页存档

虚拟主机:提供一个Web服务器,在哪些文件,CMS和Web发布平台以及网络应用程序/软件上可以在Internet上提供。有些免费托管可用,通常仅适用于特定平台和有限的功能和广告。例如,通过WordPress.com提供了一个免费的WordPress网站,通过Omeka.net获得免费Omeka网站。该托管的用户无论如何都不需要管理服务器,因此它们易于使用,但在这两个实例中,只有一些平台功能都可提供。一种专用或管理托管服务租用其网络服务器上的空间,客户可以在上面存储文件和安装自己选择的软件。专门的托管需要每年支付一笔费用,并且需要一些管理知识。所需的成本和技能都在减少。Reclaim Hosting是一种在美国高等教育中广泛使用的服务,提供30美元/年(2018年)起,以及WordPress、Omeka和Scalar等平台的一键式安装,这些平台处理软件安装最复杂的方面。

Web Mapping:谷歌地图等平台,可在线访问地理数据和API,允许用户创建自定义地图。在数字人文科学中广泛使用的GIS替代品。开源为人文科学开发的Web映射软件包括Neatline(一组用于Omeka的插件)和Palladio。

网页:以HTML编写的文件并存储在连接到Internet的Web服务器上。

Web服务器或服务器:指连接到互联网上的计算机,以及它们所运行的响应其他计算机请求而将文件传送到网络上的软件。参见灯

网站:存储在与互联网相连的网络服务器上的网页集合。Web站点现在通常是通过使用CMS(如WordPress或Omeka)创建的,但它们也可以是一组用HTML编写的文件。

WordPress:最初为博客开发的开源内容管理系统。WordPress允许创建页面和帖子;页面没有发布日期,用于固定位置的静态内容;帖子有一个发布日期,并按时间倒序出现,可以被标记和分类。WordPress网站可以通过安装插件来增加其他功能。

wysiwyg.(" What You See Is What You Get "):用于编辑内容的接口,该接口将内容按发布时的样子显示。它们提供了另一种接口,用于显示用于以那种方式显示内容的标记和标记语言。经典的WordPress编辑界面提供了一个选项卡来按照显示的方式查看内容(Visual),第二个选项卡来查看产生这种外观的标记(Text)。

XML(可扩展标记语言):一种使用标记来描述所标识内容的标记语言:标题、作者、年份、类型等。XML文件是一种结构化的形式可以用计算方法分析的数据。