且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

如何计算文本字符串中的单词?

更新时间:2023-11-07 22:28:58

比分割更有效的方法是逐字符检查字符串。

A more efficient method than splitting is to check the string character by character.

int word_count(NSString* s) {
  CFCharacterSetRef alpha = CFCharacterSetGetPredefined(kCFCharacterSetAlphaNumeric);
  CFStringInlineBuffer buf;
  CFIndex len = CFStringGetLength((CFStringRef)s);
  CFStringInitInlineBuffer((CFStringRef)s, &buf, CFRangeMake(0, len));
  UniChar c;
  CFIndex i = 0;
  int word_count = 0;
  Boolean was_alpha = false, is_alpha;
  while (c = CFStringGetCharacterFromInlineBuffer(&buf, i++)) {
    is_alpha = CFCharacterSetIsCharacterMember(alpha, c);
    if (!is_alpha && was_alpha)
      ++ word_count;
    was_alpha = is_alpha;
  }
  if (is_alpha)
    ++ word_count;
  return word_count;
}

@ ennuikiller的解决方案,计算一个1,000,000字的字符串:

Compared with @ennuikiller's solution, counting a 1,000,000-word string takes:


  • 0.19秒构建字符串

  • 0.39秒构建字符串+使用我的方法计数。

  • 1.34秒使用ennuikiller的方法构建字符串+计数。

我的方法的一大缺点是它不是一个 - 班轮。

The big disadvantage of my method is that it's not a one-liner.