网页文本中空格
网页中文本空格存在如下几类
- u200b:零宽度空格
- u0020:普通空格
- u00a0:不换行空格
- 不换行空格的转义字符
处理时,先替换成常规的空格字符
sentence.replaceAll("\\u200B|\\u0020|\\u00a0", " ").trim()
参考:
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!
网页中文本空格存在如下几类
处理时,先替换成常规的空格字符
sentence.replaceAll("\\u200B|\\u0020|\\u00a0", " ").trim()
参考:
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!
目录