文章浏览阅读445次。字级别分词,不要用官方的tokenizer (https://github.com/google-research/bert/blob/master/tokenization.py)自己重写一个def tokenize_to_str_list(textString): split_tokens = [] for i in range(len(textString)): split_tokens.append(textString[i]) ......
文章浏览阅读445次。字级别分词,不要用官方的tokenizer (https://github.com/google-research/bert/blob/master/tokenization.py)自己重写一个def tokenize_to_str_list(textString): split_tokens = [] for i in range(len(textString)): split_tokens.append(textString[i]) ......
文章浏览阅读699次。题目ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations作者:Shizhe Diao, Jiaxin Bai, Yan Song, Tong Zhang, Yonggang Wang机构:创新工厂,香港科技大学年份:2019研究的问题:关注预训练字符编码问题。对句子的细......