2021-07-27 1898b4493fdd44773c33898a3f1bb63e 99+ 2 m 0.3 knlpcda-NLP中文数据增强工具,强推下载:pip install nlpcda 工具支持 1.随机实体替换 2.近义词 3.近义近音字替换 4.随机字删除(内部细节:数字时间日期片段,内容不会删) 5.NER类 BIO 数据增强 6.随机置换邻近的字:研表究明,汉字序顺并不定一影响文字的阅读理解<<是乱序的 7.中文等价字替换(1 一 壹 ①,2 二 贰 ②) 8.翻译互转实现的增强 9.使用simbert做生成式相似句生成 10.Cluster2Cluster生成更多样化的新数据 NLP 小帮手 中文数据增强