网页文本中空格

网页中文本空格存在如下几类

  • u200b:零宽度空格
  • u0020:普通空格
  • u00a0:不换行空格
  •   不换行空格的转义字符

处理时,先替换成常规的空格字符

sentence.replaceAll("\\u200B|\\u0020|\\u00a0", " ").trim()

参考:

Unicode 之神奇的空格


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!