C語(yǔ)言中壓縮字符串的簡(jiǎn)單算法小結(jié)
應(yīng)用中,經(jīng)常需要將字符串壓縮成一個(gè)整數(shù),即字符串散列。比如下面這些問題:
(1)搜索引擎會(huì)通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個(gè)查詢串的長(zhǎng)度為1-255字節(jié)。請(qǐng)找出最熱門的10個(gè)檢索串。
(2)有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過16字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。
(3)有10個(gè)文件,每個(gè)文件1G,每個(gè)文件的每一行存放的都是用戶的query,每個(gè)文件的query都可能重復(fù)。要求你按照query的頻度排序。
(4)給定a、b兩個(gè)文件,各存放50億個(gè)url,每個(gè)url各占64字節(jié),內(nèi)存限制是4G,讓你找出a、b文件共同的url。
(5)一個(gè)文本文件,大約有一萬行,每行一個(gè)詞,要求統(tǒng)計(jì)出其中最頻繁出現(xiàn)的前10個(gè)詞。
這些問題都需要將字符串壓縮成一個(gè)整數(shù),或者說是散列到某個(gè)整數(shù) M 。然后再進(jìn)行取余操作,比如 M%16,就可以將該字符串放到編號(hào)為M%16的文件中,相同的字符串肯定是在同一個(gè)文件中。通過這種處理,就可以將一個(gè)大文件等價(jià)劃分成若干小文件,而對(duì)于小文件,就可以用常規(guī)的方法處理,內(nèi)排序、hash_map等等。最后將這些小文件的處理結(jié)果綜合起來,就可以求得原問題的解。
下面介紹一些字符串壓縮的算法。
方法1:最簡(jiǎn)單就是將所有字符加起來,代碼如下:
unsigned long HashString(const char *pString, unsigned long tableSize) { unsigned long hashValue = 0; while(*pString) hashValue += *pString++; return hashValue % tableSize; }
分析:如果字符串的長(zhǎng)度有限,而散列表比較大的話,浪費(fèi)比較大。例如,如果字符串最長(zhǎng)為16字節(jié),那么用到的僅僅是散列表的前16*127=2032。假如散列表含2729項(xiàng),那么2032以后的項(xiàng)都用不到。
方法2:將上次計(jì)算出來的hash值左移5位(乘以32),再和當(dāng)前關(guān)鍵字相加,能得到較好的均勻分布的效果。
unsigned long HashString(const char *pString,unsigned long tableSize) { unsigned long hashValue = 0; while (*pString) hashValue = (hashValue << 5) + *pString++; return hashValue % tableSize; }
分析:這種方法需要遍歷整個(gè)字符串,如果字符串比較大,效率比較低。
方法3:利用哈夫曼算法,假設(shè)只有0-9這十個(gè)字符組成的字符串,我們借助哈夫曼算法,直接來看實(shí)例:
#define Size 10 int freq[Size]; string code[Size]; string word; struct Node { int id; int freq; Node *left; Node *right; Node(int freq_in):id(-1), freq(freq_in) { left = right = NULL; } }; struct NodeLess { bool operator()(const Node *a, const Node *b) const { return a->freq < b->freq; } }; void init() { for(int i = 0; i < Size; ++i) freq[i] = 0; for(int i = 0; i < word.size(); ++i) ++freq[word[i]]; } void dfs(Node *root, string res) { if(root->id >= 0) code[root->id] = res; else { if(NULL != root->left) dfs(root->left, res+"0"); if(NULL != root->right) dfs(root->right, res+"1"); } } void deleteNodes(Node *root) { if(NULL == root) return ; if(NULL == root->left && NULL == root->right) delete root; else { deleteNodes(root->left); deleteNodes(root->right); delete root; } } void BuildTree() { priority_queue<Node*, vector<Node*>, NodeLess> nodes; for(int i = 0; i < Size; ++i) { //0 == freq[i] 的情況未處理 Node *newNode = new Node(freq[i]); newNode->id = i; nodes.push(newNode); } while(nodes.size() > 1) { Node *left = nodes.top(); nodes.pop(); Node *right = nodes.top(); nodes.pop(); Node *newNode = new Node(left->freq + right->freq); newNode->left = left; newNode->right = right; nodes.push(newNode); } Node *root = nodes.top(); dfs(root, string("")); deleteNodes(root); }
上一篇:C++ auto類型說明符
欄 目:C語(yǔ)言
下一篇:深入解析C++的循環(huán)鏈表與雙向鏈表設(shè)計(jì)的API實(shí)現(xiàn)
本文標(biāo)題:C語(yǔ)言中壓縮字符串的簡(jiǎn)單算法小結(jié)
本文地址:http://mengdiqiu.com.cn/a1/Cyuyan/2435.html
您可能感興趣的文章
- 04-02c語(yǔ)言函數(shù)調(diào)用后清空內(nèi)存 c語(yǔ)言調(diào)用函數(shù)刪除字符
- 04-02c語(yǔ)言的正則匹配函數(shù) c語(yǔ)言正則表達(dá)式函數(shù)庫(kù)
- 04-02func函數(shù)+在C語(yǔ)言 func函數(shù)在c語(yǔ)言中
- 04-02c語(yǔ)言中對(duì)數(shù)函數(shù)的表達(dá)式 c語(yǔ)言中對(duì)數(shù)怎么表達(dá)
- 04-02c語(yǔ)言用函數(shù)寫分段 用c語(yǔ)言表示分段函數(shù)
- 04-02c語(yǔ)言編寫函數(shù)冒泡排序 c語(yǔ)言冒泡排序法函數(shù)
- 04-02c語(yǔ)言沒有round函數(shù) round c語(yǔ)言
- 04-02c語(yǔ)言分段函數(shù)怎么求 用c語(yǔ)言求分段函數(shù)
- 04-02C語(yǔ)言中怎么打出三角函數(shù) c語(yǔ)言中怎么打出三角函數(shù)的值
- 04-02c語(yǔ)言調(diào)用函數(shù)求fibo C語(yǔ)言調(diào)用函數(shù)求階乘


閱讀排行
- 1C語(yǔ)言 while語(yǔ)句的用法詳解
- 2java 實(shí)現(xiàn)簡(jiǎn)單圣誕樹的示例代碼(圣誕
- 3利用C語(yǔ)言實(shí)現(xiàn)“百馬百擔(dān)”問題方法
- 4C語(yǔ)言中計(jì)算正弦的相關(guān)函數(shù)總結(jié)
- 5c語(yǔ)言計(jì)算三角形面積代碼
- 6什么是 WSH(腳本宿主)的詳細(xì)解釋
- 7C++ 中隨機(jī)函數(shù)random函數(shù)的使用方法
- 8正則表達(dá)式匹配各種特殊字符
- 9C語(yǔ)言十進(jìn)制轉(zhuǎn)二進(jìn)制代碼實(shí)例
- 10C語(yǔ)言查找數(shù)組里數(shù)字重復(fù)次數(shù)的方法
本欄相關(guān)
- 04-02c語(yǔ)言函數(shù)調(diào)用后清空內(nèi)存 c語(yǔ)言調(diào)用
- 04-02func函數(shù)+在C語(yǔ)言 func函數(shù)在c語(yǔ)言中
- 04-02c語(yǔ)言的正則匹配函數(shù) c語(yǔ)言正則表達(dá)
- 04-02c語(yǔ)言用函數(shù)寫分段 用c語(yǔ)言表示分段
- 04-02c語(yǔ)言中對(duì)數(shù)函數(shù)的表達(dá)式 c語(yǔ)言中對(duì)
- 04-02c語(yǔ)言編寫函數(shù)冒泡排序 c語(yǔ)言冒泡排
- 04-02c語(yǔ)言沒有round函數(shù) round c語(yǔ)言
- 04-02c語(yǔ)言分段函數(shù)怎么求 用c語(yǔ)言求分段
- 04-02C語(yǔ)言中怎么打出三角函數(shù) c語(yǔ)言中怎
- 04-02c語(yǔ)言調(diào)用函數(shù)求fibo C語(yǔ)言調(diào)用函數(shù)求
隨機(jī)閱讀
- 04-02jquery與jsp,用jquery
- 08-05織夢(mèng)dedecms什么時(shí)候用欄目交叉功能?
- 01-11ajax實(shí)現(xiàn)頁(yè)面的局部加載
- 01-10C#中split用法實(shí)例總結(jié)
- 01-10SublimeText編譯C開發(fā)環(huán)境設(shè)置
- 01-10使用C語(yǔ)言求解撲克牌的順子及n個(gè)骰子
- 08-05dedecms(織夢(mèng))副欄目數(shù)量限制代碼修改
- 01-11Mac OSX 打開原生自帶讀寫NTFS功能(圖文
- 08-05DEDE織夢(mèng)data目錄下的sessions文件夾有什
- 01-10delphi制作wav文件的方法