PHP的substr函數(shù)用來(lái)截取字符串,當(dāng)需要截取中文字符串時(shí),我們需要注意一個(gè)問(wèn)題:這里的“字符”是指的是字節(jié),而不是中文字符。
舉個(gè)例子:
$str = "我愛(ài)PHP";
echo substr($str, 0, 2); // 輸出:我
echo substr($str, 0, 3); // 輸出:我愛(ài)
echo substr($str, 0, 4); // 輸出:我愛(ài)P
echo substr($str, 0, 5); // 輸出:我愛(ài)PH
echo substr($str, 0, 6); // 輸出:我愛(ài)PHP
我們可以看到,substr函數(shù)的第二個(gè)參數(shù)是截取的長(zhǎng)度(注意是字節(jié)長(zhǎng)度),而不是截取到的位置。也就是說(shuō),截取的字符串可能會(huì)被截?cái)啵缟厦娴睦铀尽?/p>
當(dāng)然,如果你確定字符串的編碼方式是UTF-8,可以使用mb_substr函數(shù)來(lái)截取中文字符。
例如:
$str = "我愛(ài)PHP";
echo mb_substr($str, 0, 2, 'utf-8'); // 輸出:我愛(ài)
echo mb_substr($str, 0, 3, 'utf-8'); // 輸出:我愛(ài)P
在使用mb_substr函數(shù)時(shí),第三個(gè)參數(shù)依然是截取的長(zhǎng)度,但是最后一個(gè)參數(shù)是編碼方式。
需要注意的是,一個(gè)中文字符在UTF-8編碼下可能占據(jù)3個(gè)字節(jié),而在GB2312編碼下只占據(jù)2個(gè)字節(jié)。因此,在使用截取函數(shù)時(shí)必須確認(rèn)字符串的編碼方式,否則有可能會(huì)截取到半個(gè)中文字符。
例如:
$str = "我愛(ài)PHP";
echo substr($str, 0, 5); // 輸出:我愛(ài)P
這里截取了半個(gè)中文字符,因?yàn)檫@個(gè)函數(shù)默認(rèn)使用的是ASCII編碼方式。
總之,當(dāng)需要截取中文字符串時(shí),必須要注意這個(gè)“字節(jié)長(zhǎng)度”的問(wèn)題,避免錯(cuò)誤。