来源:华盛论文咨询网时间:2021-04-14所属栏目:科技论文
文本智能计算是依托于人工智能、自然语言处理等大数据管理和分析技术,所形成的体系化的智能计算解决方案[1] ,是文本处理领域的全新计算模式,囊括了信息分析、自然语言处理、深度学习等领域的大量技术创新,能够揭示大规模非结构化文本数据的语义内涵,从而为决策提供智力支持。 传统情报学文本计算方法已无法满足大数据时代下不断提升的文本处理需求,以及智能计算方法不断发展,促使文本智能计算成为当前文本处理研究的重要方向与热点课题。
1958 年 Luhn 将词频统计与句子显著性因子计算的方法应用于自动摘要生成[2] ,开创了文本智能计算研究的先河。 1991 年 Dubois 研究了基于模糊集的近似推理语义方法[3] ,进一步推动了文本智能计算研究的发展,自此之后研究规模开始发展壮大。 近年来国际学者从多种细分领域对其进行研究,取得了丰富的成果,并广泛涉及社会诸领域,为舆情分析、情感计算、迁移学习、金融市场等领域提供了技术支持[4-7] 。
上述研究对文本智能计算及其子领域的研究现状、主题分布及发展趋势进行了揭示,但所涉及的多为部分子领域,缺乏对文本智能计算整体研究结构及关联关系的描述;同时缺少定量分析,特别是基于计量学基础的演化脉络梳理与发展趋势分析。 基于上述情况,本文在前人研究的基础上,对文本智能计算研究的相关文献进行关键词抽取,通过计算词共现关系,以识别文本智能计算研究的主题分布,并揭示整体研究结构与子领域研究结构的特征与差异;在对词共现网络和演化脉络进行可视化分析的同时,基于多元指标计算,对其研究的发展态势进行预测,从而全面系统地揭示文本智能计算研究的主题结构与演化态势,为国家、科研院所与学者把握研究动态提供智力支持。
1 主题网络提取与分析方法
共同出现在同一文献中的一对关键词被视为具有共现关系,共现强度等于包含这对关键词的文献数量[12] 。 共现强度越大,两个词之间的内涵关联性越强,在主题上的一致性越好,对大规模学科关键词共现的关联网络计算[13] 则能够反映研究主题的结构和演变规律[14-17] 。 共现分析已成为学科研究现状描述及发展趋势预测的重要定量分析方法[18] 。 由此,本文以文本智能计算研究文献的关键词为数据处理与分析依据,在关键词共现网络分析的基础上进行主题结构揭示、演化脉络梳理与发展态势分析,并进行可视化展示。
1. 1 文献数据收集与处理 为获取学科最前沿、最全面的研究动态,本文从国际视角展开研究,以 WOS 核心合集(含 SCIE、SSCI、A&HCI、CPCI 数据库) 为数据源,以“ text AND intelligen* AND ( comput* OR calculat*)冶为检索词在主题字段进行检索,检索时间范围为 2000 年 1 月 1 日至 2020 年 12 月 31 日。 检索结果经人工筛选,去除与主题不相关的文献,共得到 1483 篇文献,下载其题录数据作为词频统计与词共现分析的基础数据集。 文本智能计算研究的历年发文及关键词数量(多次出现的关键词不重复计) 统计情况如图 1 所示,可以发现其研究过程经历了相当长的平稳期,自 2011 年起,文献数量呈显著增长趋势,2015 年和 2019 年的增长情况最为突出;关键词数量总体呈增长趋势,说明文本智能计算的研究内涵在逐步扩大。
1. 2 主题关联数据提取与关联网络分析方法 本文以文本智能计算研究文献为分析单位,进行关键词共现相关数据计算与关联网络构建,对关键词共现网络进行格式化处理。 网络中,节点代表关键词,其大小代表关键词词频;边代表连接的两节点存在共现关系, 其粗细代表共现次数。 对上述 127 个关键词形成的共词网络进行最大连通子图提取,以表示文本智能计算研究的主流。
2 文本智能计算研究的主题关联结构与演化发展态势
2. 1 主题分布 本文从所采集的文献数据中共提取出 3952 个唯一的关键词,总频次为 6876。 进行频次累计比例计算后发现,频次 Top100 的关键词频次总和占总频次的 31. 4% ,覆盖了当前文本智能计算研究的绝大部分,具有统计学上的代表性。 这表明文本智能计算研究的词频分布不均衡,总体呈现幂律分布,即少数关键词占据绝大多数词频,说明研究的倾向性明显[31] ,主要集中于少数主题,如图 2 所示。
2. 2 主题关联网络分析 计算发现,本文选取的 127 个关键词组成的共词网络为最大连通子图,代表了文本智能计算研究的热点。 计算其网络指标并识别社区关联结构,可以展示出研究的主题方向,并对其发展态势作出预测。
2. 2. 1 整体网络分析 整体网络指标如表 2 所示,整体共词网络的中心势较高,具体表现为:较高的点度中心势表明文本智能计算研究的向心力较大,形成了部分核心主题且其对整体研究的把控与影响能力较强;较高的接近中心势表明网络中各关键词间路径较短,信息通达度较好,核心主题对边缘主题可以产生直接影响;中介中心势较低,表明网络中多数关键词可以直接关联,而不需中介关键词作为共现的“桥梁冶。结合较高的聚类系数,表明文本智能计算研究主题具有明显的内聚性与差异性,子领域内部一致性较强而各子领域间区别鲜明。 此外,网络密度较低,说明学科正处于发展过程中,尚未完全成熟。
2. 2. 2 主题社区分析 根据关键词间的关联关系及其强度,可将当前文本智能计算的研究划分为 5 个主题社区,具体研究内容如表 4 所示。 各主题研究规模各异,分层现象鲜明。 其中规模较大的社区有: C3-信息检索,包含本体论、算法、信息抽取、语义网、知识库等主题;C4 -文本挖掘,包括教育、智能导学系统、社会媒体、计量学、虚拟现实等主题;规模一般的社区有:C1-人工智能,包含自然语言处理、深度学习、会话代理、认知计算、医学信息学等主题;C5-文本分析, 包含多媒体、主题建模、验证码、知识图谱、图像分割等主题;规模较小的主题有 C2 -数据挖掘,包含情感识别、情感分析、情感计算、商务智能、交互等。 各社区的研究主题各异,但都是文本智能计算范畴内的研究方向,可以代表当前国际研究的主流。
2. 3 主题演化与发展态势分析 为探究文本智能计算研究主题随时间演化的情况,本文将文献数据以两年为单位进行切片,将主题演化脉络进行可视化展示,并依据战略图分析各主题社区的发展态势。
3 研究结论与反思
文章基于文献关键词,利用复杂网络分析方法和可视化工具,以文献关键词为分析依据,对文本智能计算研究的主题分布、关联结构、演化脉络和发展态势进行了分析与揭示,以更直观清晰地揭示文本智能计算研究的当前主题关联结构与未来发展规律。
3. 1 研究结论 2000 -2020 年间文本智能计算研究涉猎主题广泛,研究方向明显,形成了特征和区别鲜明的主题社区,各主题社区均表现出了独特的方向特征与发展态势。在学科结构上,整个文本智能计算领域结构稳定, 发展全面,各主题社区在互相交叉渗透的同时也保持了自身研究体系的稳定。 研究大致可分为如下 5 个主题社区:人工智能、数据挖掘、信息检索、文本挖掘、文本分析。 其中,人工智能在文本智能计算领域的运用已成共识;数据挖掘、信息检索、文本挖掘领域的发展已经较为成熟;文本分析领域具有较大的发展潜力。
3. 2 研究反思 本文直观清晰地揭示了 2000 - 2020 年期间文本智能计算研究的主题关联结构、研究方向、演化脉络和发展态势,总结并拓展了前人在文本智能计算领域的研究成果,并为后续的研究指明了可能的方向。
此外,本文的研究是基于文献中的关键词及其之间的共现关系开展的计量学定量分析,有一定的研究缺陷:在今后的研究中应当考虑文献多方面的特征,如标题、摘要、基金及参考文献等,以更加深入丰富地揭示领域研究的内涵;还可以考虑开展文本智能计算研究领域的国家、机构、作者的合作关系研究,从而多元化地描述文本智能计算研究的主题结构与发展演化态势。
参 考 文 献
[1] 温有奎,温 浩,乔晓东. 让知识产生智慧———基于人工智能的文本挖掘与问答技术研究[J]. 情报学报,2019,38(07):722 -730.
[2] Luhn H P. The automatic creation of literature abstracts [ J]. IBM Journal of research and development,1958,2 ( 2 ): 159 - 165.
[3] Dubois D,Prade H. Fuzzy sets in approximate reasoning,Part 1: Inference with possibility distributions[ J]. Fuzzy sets and sys鄄 tems,1991,40(1):143-202.
《文本智能计算研究的主题挖掘与演化分析》来源:《情报杂志》,作者:胡吉明1,2 田沛霖1,2