长城知识网

常识知识库,如何高效获取与验证日常知识?

下面我将从定义、重要性、构建方法、挑战、现有系统未来方向等多个维度,为您全面地解释“常识知识库”。

常识知识库,如何高效获取与验证日常知识?-图1


什么是常识知识库?

核心定义: 常识知识库是一个大规模的、结构化的知识库,旨在存储和编码人类普遍共享的、无需特别解释就能理解的背景知识、事实、关系和推理规则。

通俗理解: 你可以把它想象成一个“超级大脑”的“记忆笔记”,它不包含像“法国的首都是巴黎”这种需要学习的具体事实,而是存储了像“人需要吃饭才能生存”、“水是湿的”、“钥匙能开锁”、“如果你把球扔向天空,它会掉下来”这类不言而喻的、构成我们世界观的底层知识。

与一般知识库的区别:

特性 常识知识库 一般知识库 (如维基百科、百度百科)
知识类型 隐性的、背景性的、推理性的知识 显性的、陈述性的、可验证的知识
知识粒度 概念、属性、事件、因果关系、物理规律 实体、属性、时间、地点、人物关系
例子 “鸟通常会飞”、“热的东西会烫手”、“哭是因为伤心” “周杰伦是歌手”、“《阿凡达》是2009年的电影”
目的 支持推理、理解深层含义、预测行为 快速查询事实、提供结构化信息

为什么常识知识库如此重要?

在人工智能领域,仅仅拥有海量数据是不够的,AI需要像人一样“思考”和“理解”,而常识是这种理解和思考的基础。

  1. 提升自然语言理解能力:

    • 消歧: 当看到“苹果”这个词时,常识知识库可以帮助AI判断在“吃苹果”和“用苹果电脑”这两个语境中,它指的是水果还是公司。
    • 理解隐喻和反讽: 理解“他像头牛一样工作”需要知道“牛”与“勤奋”之间的常识关联。
    • 指代消解: 理解“他把杯子放在桌上,因为它很重”中的“它”指的是“杯子”,因为常识告诉我们杯子有重量。
  2. 增强推理和规划能力:

    • 问答系统: 回答“为什么地面是湿的?”时,AI需要推理出“可能是刚刚下过雨”或“有人洒了水”。
    • 机器人行动: 一个机器人需要知道“杯子是易碎的”、“水是流动的”等常识,才能安全地完成倒水任务。
    • 内容生成: 生成一个故事时,常识知识库能确保故事情节符合逻辑,人不能凭空飞起来”。
  3. 减少“幻觉”和错误:

    缺乏常识的AI可能会生成看似通顺但完全违背物理规律或社会常识的文本(他吃了一辆汽车来补充能量”),常识知识库可以作为事实核查的过滤器。


常识知识库是如何构建的?

构建一个高质量的常识知识库是一个极其复杂的过程,主要分为以下几种方法:

  1. 人工构建:

    • 方式: 专家或众包人员手动编写常识知识。
    • 优点: 知识准确、高质量。
    • 缺点: 成本极高、耗时极长、覆盖范围有限。
    • 例子: Cyc 项目,从1984年开始,由人工工程师花费数十年时间构建了一个巨大的、形式化的常识知识库。
  2. 半自动/众包构建:

    • 方式: 设计巧妙的任务,让大众参与进来贡献知识。
    • 优点: 规模大、成本相对较低。
    • 缺点: 质量参差不齐,需要严格的数据清洗和验证。
    • 例子: ConceptNet 早期版本通过众包游戏收集概念之间的关系。
  3. 从文本中自动抽取:

    • 方式: 利用自然语言处理技术,从海量的文本(如维基百科、新闻、书籍)中自动发现和抽取常识知识。
    • 技术: 命名实体识别、关系抽取、事件抽取等。
    • 优点: 覆盖范围广、成本低。
    • 缺点: 抽取出的知识可能包含噪声、不完整、难以表示复杂的因果关系。
    • 例子: ATOMIC 知识库就是从新闻语料中抽取事件和其可能的原因、结果、反应等。
  4. 基于预训练语言模型的生成:

    • 方式: 利用像 GPT 这样的大语言模型,通过精心设计的提示,让模型“生成”出常识知识。
    • 优点: 能生成非常丰富、细粒度的知识,并且能捕捉到隐含的关联。
    • 缺点: 生成内容可能存在“幻觉”,需要人工或算法进行验证。
    • 例子: ASPIRE 等工作探索使用LLMs来构建因果常识知识库。

面临的挑战

构建常识知识库远未完美,仍面临诸多挑战:

  • 主观性和文化差异: “常识”在不同文化、不同时代背景下可能不同。“用手抓饭吃”在某些文化中是常识,在另一些文化中则不然。
  • 知识的表示: 如何用机器可以理解和计算的形式来表示复杂的常识(如“..就...”的因果关系、“..”的或然性知识)是一个难题。
  • 知识的验证: 如何自动判断一条常识知识的正确性非常困难。
  • 规模和覆盖度: 人类常识浩如烟海,任何现有的知识库都只是冰山一角。
  • 动态性: 常识也会随着社会发展而变化(过去“上网”需要去网吧,现在则随时随地可以)。

知名的常识知识库示例

名称 主要特点 来源/方法
Cyc 最早的常识知识库之一,采用形式化逻辑,知识极其精细,覆盖面广。 人工构建
ConceptNet 一个大规模语义网络,用“概念-关系-概念”的图结构表示常识,支持多语言。 众包、文本抽取
ATOMIC (Atomicknowledge) 专注于事件和常识的因果关系,包含事件、反应、 intents、attributes 等。 文本抽取(新闻语料)
CommonsenseKB 整合了多个来源(如 ATOMIC, ConceptNet)的常识知识,形成一个统一的知识库。 数据集成
ROCStories / SAMSum 虽然不是典型的知识库,但它们是包含大量常识推理链的语料库,常用于训练和评估模型。 众包
LLM-based Knowledge 由 GPT-4 等大语言模型生成的知识,特点是粒度细、关联丰富,但需要验证。 大语言模型生成

未来方向

  • 多模态常识: 结合文本、图像、视频等多种模态的信息来构建更全面的常识。
  • 个性化常识: 构建能适应不同文化、不同个体背景的常识知识库。
  • 可解释的常识推理: 不仅让AI知道“是什么”,还要让它能解释“为什么”。
  • 与大型语言模型的深度融合: 将结构化的常识知识库作为LLM的“外部大脑”,增强其推理能力,减少“幻觉”,使其成为一个更可靠的智能体。

常识知识库是AI从“模式匹配”走向“真正理解”的关键桥梁,它赋予AI背景知识和逻辑推理能力,使其能更智能地与人类交互、理解世界并解决复杂问题,尽管构建和维护它充满挑战,但它无疑是通往通用人工智能道路上不可或缺的一块基石。

分享:
扫描分享到社交APP
上一篇
下一篇