Skip to content

正则判断类说明文档

冬日新雨 edited this page Nov 28, 2022 · 2 revisions

正则判断类函数

  • 正则判断类函数是一类非常简单,但又非常常用的函数,如果做过一些文本解析类的项目,您应该深有体会,大量的解析情况需要根据一些规则和逻辑进行判断。此时应当会用到以下几个函数。

判断字符串中是否包含中文字符

check_any_chinese_char

检查文本中是否包含中文字符,若至少包含一个,则返回 True,否则返回 False。若为空字符串,返回 False。

>>> import jionlp as jio
>>> print(jio.check_any_chinese_char('【新华社消息】(北京时间)从昨天...'))

# True
  • 若您是做 NLP 的解析类,应该理解这种判断函数有多么常用(●'◡'●)

判断字符串中是否全部为中文字符

check_all_chinese_char

检查文本中是否全部都是中文字符,若全部都是,则返回 True;若至少有一个不是中文字符,否则返回 False。若为空字符串,返回 False

>>> import jionlp as jio
>>> print(jio.check_all_chinese_char('【新华社消息】(北京时间)从昨天...'))

# False

判断字符串中是否包含阿拉伯数字

check_any_arabic_num

检查文本中是否包含阿拉伯数字字符,若至少包含一个,则返回 True,否则返回 False。若为空字符串,返回 False。

>>> import jionlp as jio
>>> print(jio.check_any_arabic_num('【新华社消息】(北京时间2022-11-28)...'))

# True

判断字符串中是否全部为阿拉伯数字

check_any_arabic_num

检查文本中是否全部都是阿拉伯数字字符,若全部都是,则返回 True;若至少有一个不是,则返回 False。若为空字符串,返回 False。

>>> import jionlp as jio
>>> print(jio.check_all_arabic_num('20221128'))

# True