文本数据挖掘(Text Data Mining)
文本数据挖掘(Text Data Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,在商务智能(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理等方面都有应用。
按照挖掘对象的不同,可以将TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。
- 基于单文档的数据挖掘对文档的分析不涉及其他文档,主要挖掘技术有文本摘要和信息提取。
- 基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,主要技术有文本分类、文本聚集、个性化文本过滤、因素分析等。
TDM可分为3层:
- 底层是TDM基础领域层,包括机器学习、数理统计和自然语言处理。
- 中间是TDM基础技术层,包括文本信息抽取、文本分类、文本聚集、文本数据压缩和文本数据处理,其中文本信息抽取和文本数据压缩是TMD独有的技术。
- 最上层是应用领域层,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。
Web文本数据挖掘是Web内容挖掘的最主要、最重要的部分,比数据挖掘具有更高的商业潜力。Web文本数据挖掘是对web上大量文档集合的内容进行总结、分类、聚集和关联分析,以及利用wen文档进行趋势预测等。
相关推荐
小小梦想家 2020-09-26
YeChao 2020-08-04
ZweixunSJTU 2020-07-28
santiago00 2020-07-11
黄刚的技术 2020-10-13
风吹夏天 2020-07-26
inabaraku 2020-07-22
xceman 2020-07-19
clouderyu 2020-07-17
挨T榕 2020-06-17
swazerz 2020-06-04
muyurenzheng 2020-05-30
clouderyu 2020-05-27
小小梦想家 2020-05-14
Cocainebai 2020-05-12
clouderyu 2020-04-08
白飞飞Alan 2020-03-13
xiaoxiaoCNDS 2020-03-09