基于随机森林算法的对外汉语文本可读性评估—中国教育信息化网ICTEDU
儿童文学
来源:本站
2019-08-11

基于随机森林算法的对外汉语文本可读性评估—中国教育信息化网ICTEDU

摘要  摘要:可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。

文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法...  摘要:可读性指文本易于阅读的程度或性质,评估对外汉语文本可读性在对外汉语教学中十分重要。

文章针对对外汉语文本可读性难以人工评估的问题,提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法。

该方法从基础特征、词性特征、等级特征和语法特征这四个维度提取特征,进行特征选择后在训练集上利用随机森林算法训练分类器,并在测试集上证实了该方法的有效性。

  关键词:对外汉语;可读性评估;随机森林  中图分类号:G40-057文献标志码:A文章编号:1673-8454(2019)14-0089-08  一、引言  发展阅读能力是学习语言的重要组成部分[1][2],阅读材料对发展阅读能力的重要性不言而喻。

为了确保阅读材料符合潜在读者的熟练程度,准确预测L2(第二语言)学习者阅读材料的可读性对于教育工作者、作者、出版商等非常重要[3]。

然而对L2学习者和教师而言,预测阅读材料的难度非常耗时且常常带有主观性。 随着自然语言处理与机器学习的发展,文本可读性的研究也随之进步,并可以在一定程度上解决这一问题。

  可读性是文本材料中影响读者理解、阅读速度和对材料感兴趣程度的所有要素之和[4]。

影响文本可读性的因素可分为主观因素和客观因素两大方面,其中主观因素主要指读者因素,如读者自身的阅读水平,客观因素是指那些脱离具体对象、不因人的主观意志为转移、一切实际存在的影响文本易读性的因素的总和[5]。