C++如何過濾出字符串的中文(GBK、UTF-8)
前言
最近在處理游戲敏感詞之類的東西,為了加強屏蔽處理,所以需要過濾掉字符串中的除漢字之外的是其他東西如數(shù)字,符號,英文字母等。
首先我查閱資料并寫了個函數(shù):
示例:返回輸入字符串中漢字的個數(shù):
std::string StrWithOutSymbol(const std::string &source) { string sourceWithOutSymbol; int i = 0; while (source[i] != 0) { if (source[i] & 0x80 ) { sourceWithOutSymbol += source[i]; sourceWithOutSymbol += source[i + 1]; i += 2; else { i ++; } } return sourceWithOutSymbol; }
這個函數(shù)的原理是ord($str)&0x80來判斷漢字
80對應的二進制代碼為1000 0000,最高位為一,代表漢字漢字編碼格式通稱為10格式一個漢字占2字節(jié),但只代表一個字符
"Windows中,中文簡體字符集的編碼是同時用1個字節(jié)和2個字節(jié)來表示的。當高位是0x00~0x7f時,為一個字節(jié),高位為0x80以上時用2個字節(jié)表示"
當你發(fā)現(xiàn)一個字節(jié)的內(nèi)容大于0x7f,那它肯定是個(跟另外一個字節(jié)拼湊成一個)漢字,如何判斷肯定大于0x7f呢?
0x7f(1111111)后面一個數(shù)就是0x80(10000000),所以想要大于0x7f,這個字節(jié)的最高位都肯定是1,我們只需要判斷這個最高位是否為1就行了。
判斷方法:
位與(相同的位都是1的才為1,否則為0):
如:要判斷一個數(shù)的第三位是否是1,只要跟4(100)位與,判斷一個數(shù)的第2位是否為1就跟2(10)位與.
同理判斷第八位是否為1只要跟(10000000)也就是0x80位與了.
這里為什么不用>0x7f?php可能還行,但在其他強類型語言里面,1個字節(jié)的最高位用來標示負數(shù),一個負數(shù)肯定不可能大于0x7f(最大的整數(shù))
再舉個例子:
a的assic碼是97(1100001)
A的assic碼是65(1000001)b的assic碼是98(1100010)
B的assic碼是66(1000010)
發(fā)現(xiàn)一個規(guī)律:一個a-z的字母,只要是小寫字母,第六位肯定是1,我們可以用這個來判斷大小寫:
這時候只要跟用以個字母跟0x20(100000)來位與判斷:
if(ord($a)&0x20){ //大寫 }
如何把所有字母改成大寫?第六位的1改成0就行了:
$a='a'; $a = chr(ord($a)&(~0x20)); echo $a;
然后我信心滿滿的吧這個函數(shù)加入到項目中去,點擊運行,輸入中文進行檢查,當!項目報錯了????數(shù)組越界????
這是為什么,我又定位到報錯的地方,發(fā)現(xiàn)我使用的cocos-lua,在向c++傳遞字符串的時候傳進來的字符串是以UTF-8來進行編碼的,我又去找UIF-8的編碼規(guī)則發(fā)現(xiàn)
UTF-8編碼規(guī)則:如果只有一個字節(jié)則其最高二進制位為0;如果是多字節(jié),其第一個字節(jié)從最高位開始,連續(xù)的二進制位值為1的個數(shù)決定了其編碼的字節(jié)數(shù),其余各字節(jié)均以10開頭。UTF-8轉(zhuǎn)換表表示如下:
而我之前的是按照GBK編碼進行操作的,GBK每個中文字符只占兩個字節(jié),而utf-8的話中文可能占3個字節(jié),四個字節(jié),甚至是五個六個,所以用剛才那樣的函數(shù)就會有越界的情況發(fā)生,所以對用UTF-8進行編碼的字符串,就需要進行另外的處理,所以我寫了一個新函數(shù):
對UTF-8編碼的字符串進行中文篩選的函數(shù):
std::string censorStrWithOutSymbol(const std::string &source) { string sourceWithOutSymbol; int i = 0; while (source[i] != 0) { if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20) { int byteCount = 0; if (source[i] & 0x10) { byteCount = 4; } else { byteCount = 3; } for (int a = 0; a < byteCount; a++) { sourceWithOutSymbol += source[i]; i++; } } else if (source[i] & 0x80 && source[i] & 0x40) { i += 2; } else { i += 1; } } return sourceWithOutSymbol; }
點擊運行,成功了!舒服。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對我們的支持。
上一篇:OpenCV實現(xiàn)鼠標框選并顯示框選區(qū)域
欄 目:C語言
本文標題:C++如何過濾出字符串的中文(GBK、UTF-8)
本文地址:http://mengdiqiu.com.cn/a1/Cyuyan/235.html
您可能感興趣的文章
- 04-02c語言沒有round函數(shù) round c語言
- 01-10如何判斷一個數(shù)是否為2的冪次方?若是,并判斷出來是多少次方
- 01-10深入理解C++中常見的關(guān)鍵字含義
- 01-10使用C++實現(xiàn)全排列算法的方法詳解
- 01-10如何判斷一個數(shù)是否為4的冪次方?若是,并判斷出來是多少次方
- 01-10如何查看進程實際的內(nèi)存占用情況詳解
- 01-10c++中inline的用法分析
- 01-10如何尋找數(shù)組中的第二大數(shù)
- 01-10用C++實現(xiàn)DBSCAN聚類算法
- 01-10全排列算法的非遞歸實現(xiàn)與遞歸實現(xiàn)的方法(C++)


閱讀排行
本欄相關(guān)
- 04-02c語言函數(shù)調(diào)用后清空內(nèi)存 c語言調(diào)用
- 04-02func函數(shù)+在C語言 func函數(shù)在c語言中
- 04-02c語言的正則匹配函數(shù) c語言正則表達
- 04-02c語言用函數(shù)寫分段 用c語言表示分段
- 04-02c語言中對數(shù)函數(shù)的表達式 c語言中對
- 04-02c語言編寫函數(shù)冒泡排序 c語言冒泡排
- 04-02c語言沒有round函數(shù) round c語言
- 04-02c語言分段函數(shù)怎么求 用c語言求分段
- 04-02C語言中怎么打出三角函數(shù) c語言中怎
- 04-02c語言調(diào)用函數(shù)求fibo C語言調(diào)用函數(shù)求
隨機閱讀
- 08-05織夢dedecms什么時候用欄目交叉功能?
- 01-10使用C語言求解撲克牌的順子及n個骰子
- 08-05dedecms(織夢)副欄目數(shù)量限制代碼修改
- 01-11ajax實現(xiàn)頁面的局部加載
- 01-10delphi制作wav文件的方法
- 01-10C#中split用法實例總結(jié)
- 08-05DEDE織夢data目錄下的sessions文件夾有什
- 04-02jquery與jsp,用jquery
- 01-10SublimeText編譯C開發(fā)環(huán)境設(shè)置
- 01-11Mac OSX 打開原生自帶讀寫NTFS功能(圖文