WAP手机版 RSS订阅 加入收藏  设为首页
澳门新濠天地
当前位置:首页 > 澳门新濠天地

澳门新濠天地:中文分词主要面临歧义和未登录词两大难点

时间:2020/7/25 12:00:40   作者:   来源:   阅读:0   评论:0
内容摘要:从绪论中可以看出,汉语分词的目的是在汉语词序列中插入分隔符,并将其划分为词。例如,“我喜欢音乐”将被分为“我/喜欢/音乐”。创新工程大湾区人工智能研究所执行主任宋燕分析,由于汉语的特殊性,在分词方面面临两大共同的主要困难。一是歧义,由于汉语中存在大量的歧义,常用的分词工具在分句时...
从绪论中可以看出,汉语分词的目的是在汉语词序列中插入分隔符,并将其划分为词。例如,“我喜欢音乐”将被分为“我/喜欢/音乐”。

创新工程大湾区人工智能研究所执行主任宋燕分析,由于汉语的特殊性,在分词方面面临两大共同的主要困难。

一是歧义,由于汉语中存在大量的歧义,常用的分词工具在分句时可能会出现错误。例如,“部分居民的生活水平”的正确划分应该是“部分/居民/生活水平”,但存在“分离”、“民生”等歧义性词语。

二是生词问题。未注册词是指不存在于词汇表中或模型在训练过程中没有遇到的词。这种问题在跨域分词任务中尤为明显。宋燕介绍说,这些未注册词将极大地影响分词和词性标注模型和系统的性能。

宋艳介绍,该模型利用N元组(即N元组)提供的每个词的构词能力。,由连续N个单词组成的序列,如“residents”为2元组,“living standard”为4元组),通过添加(降低)权重实现特定上下文下的歧义消解。通过无监督方法构建义类库,实现未标记文本在特定领域的使用,从而提高对未知词的识别。

相关评论

本类更新

本类推荐

本类排行

本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (比分188)
蜀ICP备13013545号-1