数据挖掘在非结构化文本中的应用.pdf
文本预览下载声明
中国民航大学 计算机科学与技术学院 刘东楠
Computer Science Technology School of CAUC
LiuDongnan
ne_ldn@
Question :结构化文本和非结构化文本?
age glucose level blood pressure diabetes?
26 78 50 1
56 111 72 1
23 81 78 0
mpg cylinders HP sec. 0-60
30 4 68 19.5
45 4 48 21.7
20 8 130 12
Question :结构化文本和非结构化文本?
结构化数据:可以通过一系列属性来描述实例。
非结构化数据:包括邮件、推文、博文新闻报道等对象。这些数
据看上去 (至少一眼看上去)并不能很清晰地通过表格来描述。
should
we
bad,
sooo
is
film
the
see
wanna
Save I
it!
see
显示全部