幫助你排序文本文件的 Awk 命令行或腳本(推薦)
Awk 是一個強大的工具,可以執(zhí)行某些可能由其它常見實用程序(包括 sort)來完成的任務。
Awk 是個普遍存在的 Unix 命令,用于掃描和處理包含可預測模式的文本。但是,由于它具有函數(shù)功能,因此也可以合理地稱之為編程語言。
令人困惑的是,有不止一個 awk。(或者,如果你認為只有一個,那么其它幾個就是克隆。)有 awk(由Aho、Weinberger 和 Kernighan 編寫的原始程序),然后有 nawk 、mawk 和 GNU 版本的 gawk。GNU 版本的 awk 是該實用程序的一個高度可移植的自由軟件版本,具有幾個獨特的功能,因此本文是關(guān)于 GNU awk 的。
雖然它的正式名稱是 gawk,但在 GNU+Linux 系統(tǒng)上,它的別名是 awk,并用作該命令的默認版本。 在其他沒有帶有 GNU awk 的系統(tǒng)上,你必須先安裝它并將其稱為 gawk,而不是 awk。本文互換使用術(shù)語 awk 和 gawk。
awk 既是命令語言又是編程語言,這使其成為一個強大的工具,可以處理原本留給 sort、cut、uniq 和其他常見實用程序的任務。幸運的是,開源中有很多冗余空間,因此,如果你面臨是否使用 awk 的問題,答案可能是肯定的“隨便”。
awk 的靈活之美在于,如果你已經(jīng)確定使用 awk 來完成一項任務,那么無論接下來發(fā)生什么,你都可以繼續(xù)使用 awk。這包括對數(shù)據(jù)排序而不是按交付給你的順序的永恒需求。
樣本數(shù)據(jù)集
在探索 awk 的排序方法之前,請生成要使用的樣本數(shù)據(jù)集。保持簡單,這樣你就不會為極端情況和意想不到的復雜性所困擾。這是本文使用的樣本集:
Aptenodytes;forsteri;Miller,JF;1778;Emperor Pygoscelis;papua;Wagler;1832;Gentoo Eudyptula;minor;Bonaparte;1867;Little Blue Spheniscus;demersus;Brisson;1760;African Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyed Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopper Torvaldis;linux;Ewing,L;1996;Tux
這是一個很小的數(shù)據(jù)集,但它提供了多種數(shù)據(jù)類型:
- 屬名和種名,彼此相關(guān)但又是分開的
- 姓,有時是以逗號開頭的首字母縮寫
- 代表日期的整數(shù)
- 任意術(shù)語
- 所有字段均以分號分隔
根據(jù)你的教育背景,你可能會認為這是二維數(shù)組或表格,或者只是行分隔的數(shù)據(jù)集合。你如何看待它只是你的問題,而 awk 只認識文本。由你決定告訴 awk 你想如何解析它。
只想排序
如果你只想按特定的可定義字段(例如電子表格中的“單元格”)對文本數(shù)據(jù)集進行排序,則可以使用 sort 命令。
字段和記錄
無論輸入的格式如何,都必須在其中找到模式才可以專注于對你重要的數(shù)據(jù)部分。在此示例中,數(shù)據(jù)由兩個因素定界:行和字段。每行都代表一個新的記錄,就如你在電子表格或數(shù)據(jù)庫轉(zhuǎn)儲中看到的一樣。在每一行中,都有用分號(;)分隔的不同的字段(將其視為電子表格中的單元格)。
awk 一次只處理一條記錄,因此,當你在構(gòu)造發(fā)給 awk 的這指令時,你可以只關(guān)注一行記錄。寫下你想對一行數(shù)據(jù)執(zhí)行的操作,然后在下一行進行測試(無論是心理上還是用 awk 進行測試),然后再進行其它的一些測試。最后,你要對你的 awk 腳本要處理的數(shù)據(jù)做好假設,以便可以按你要的數(shù)據(jù)結(jié)構(gòu)提供給你數(shù)據(jù)。
在這個例子中,很容易看到每個字段都用分號隔開。為簡單起見,假設你要按每行的第一字段對列表進行排序。
在進行排序之前,你必須能夠讓 awk 只關(guān)注在每行的第一個字段上,因此這是第一步。終端中 awk 命令的語法為 awk,后跟相關(guān)選項,最后是要處理的數(shù)據(jù)文件。
$ awk --field-separator=";" '{print $1;}' penguins.list Aptenodytes Pygoscelis Eudyptula Spheniscus Megadyptes Eudyptes Torvaldis
因為字段分隔符是對 Bash shell 具有特殊含義的字符,所以必須將分號括在引號中或在其前面加上反斜杠。此命令僅用于證明你可以專注于特定字段。你可以使用另一個字段的編號嘗試相同的命令,以查看數(shù)據(jù)的另一個“列”的內(nèi)容:
$ awk --field-separator=";" '{print $3;}' penguins.list Miller,JF Wagler Bonaparte Brisson Milne-Edwards Viellot Ewing,L
我們尚未進行任何排序,但這是良好的基礎。
腳本編程
awk 不僅僅是命令,它是一種具有索引、數(shù)組和函數(shù)的編程語言。這很重要,因為這意味著你可以獲取要排序的字段列表,將列表存儲在內(nèi)存中,進行處理,然后打印結(jié)果數(shù)據(jù)。對于諸如此類的一系列復雜操作,在文本文件中進行操作會更容易,因此請創(chuàng)建一個名為 sort.awk 的新文件并輸入以下文本:
#!/bin/gawk -f BEGIN { FS=";"; }
這會將該文件建立為 awk 腳本,該腳本中包含執(zhí)行的行。
BEGIN 語句是 awk 提供的特殊設置功能,用于只需要執(zhí)行一次的任務。定義內(nèi)置變量 FS,它代表字段分隔符field separator,并且與你在 awk 命令中使用 --field-separator 設置的值相同,它只需執(zhí)行一次,因此它包含在 BEGIN 語句中。
awk 中的數(shù)組
你已經(jīng)知道如何通過使用 $ 符號和字段編號來收集特定字段的值,但是在這種情況下,你需要將其存儲在數(shù)組中而不是將其打印到終端。這是通過 awk 數(shù)組完成的。awk 數(shù)組的重要之處在于它包含鍵和值。 想象一下有關(guān)本文的內(nèi)容;它看起來像這樣:author:"seth",title:"How to sort with awk",length:1200。諸如作者、標題和長度之類的元素是鍵,跟著的內(nèi)容為值。
在排序的上下文中這樣做的好處是,你可以將任何字段分配為鍵,將任何記錄分配為值,然后使用內(nèi)置的 awk 函數(shù) asorti()(按索引排序)按鍵進行排序。現(xiàn)在,隨便假設你只想按第二個字段排序。
沒有被特殊關(guān)鍵字 BEGIN 或 END 引起來的 awk 語句是在每個記錄都要執(zhí)行的循環(huán)。這是腳本的一部分,該腳本掃描數(shù)據(jù)中的模式并進行相應的處理。每次 awk 將注意力轉(zhuǎn)移到一條記錄上時,都會執(zhí)行 {} 中的語句(除非以 BEGIN 或 END 開頭)。
要將鍵和值添加到數(shù)組,請創(chuàng)建一個包含數(shù)組的變量(在本示例腳本中,我將其稱為 ARRAY,雖然不是很原汁原味,但很清楚),然后在方括號中分配給它鍵,用等號(=)連接值。
{ # dump each field into an array ARRAY[$2] = $R; }
在此語句中,第二個字段的內(nèi)容($2)用作關(guān)鍵字,而當前記錄($R)用作值。
asorti() 函數(shù)
除了數(shù)組之外,awk 還具有一些基本函數(shù),你可以將它們用作常見任務的快速簡便的解決方案。GNU awk中引入的函數(shù)之一 asorti() 提供了按鍵(索引)或值對數(shù)組進行排序的功能。
你只能在對數(shù)組進行填充后對其進行排序,這意味著此操作不能對每個新記錄都觸發(fā),而只能在腳本的最后階段進行。為此,awk 提供了特殊的 END 關(guān)鍵字。與 BEGIN 相反,END 語句僅在掃描了所有記錄之后才觸發(fā)一次。
將這些添加到你的腳本:
END { asorti(ARRAY,SARRAY); # get length j = length(SARRAY); for (i = 1; i <= j; i++) { printf("%s %s\n", SARRAY[i],ARRAY[SARRAY[i]]) } }
asorti() 函數(shù)獲取 ARRAY 的內(nèi)容,按索引對其進行排序,然后將結(jié)果放入名為 SARRAY 的新數(shù)組(我在本文中發(fā)明的任意名稱,表示“排序的 ARRAY”)。
接下來,將變量 j(另一個任意名稱)分配給 length() 函數(shù)的結(jié)果,該函數(shù)計算 SARRAY 中的項數(shù)。
最后,使用 for 循環(huán)使用 printf() 函數(shù)遍歷 SARRAY 中的每一項,以打印每個鍵,然后在 ARRAY 中打印該鍵的相應值。
運行該腳本
要運行你的 awk 腳本,先使其可執(zhí)行:
$ chmod +x sorter.awk
然后針對 penguin.list 示例數(shù)據(jù)運行它:
$ ./sorter.awk penguins.list antipodes Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyed chrysocome Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopper demersus Spheniscus;demersus;Brisson;1760;African forsteri Aptenodytes;forsteri;Miller,JF;1778;Emperor linux Torvaldis;linux;Ewing,L;1996;Tux minor Eudyptula;minor;Bonaparte;1867;Little Blue papua Pygoscelis;papua;Wagler;1832;Gentoo
如你所見,數(shù)據(jù)按第二個字段排序。
這有點限制。最好可以在運行時靈活選擇要用作排序鍵的字段,以便可以在任何數(shù)據(jù)集上使用此腳本并獲得有意義的結(jié)果。
添加命令選項
你可以通過在腳本中使用字面值 var 將命令變量添加到 awk 腳本中。更改腳本,以使迭代子句在創(chuàng)建數(shù)組時使用 var:
{ # dump each field into an array ARRAY[$var] = $R; }
嘗試運行該腳本,以便在執(zhí)行腳本時使用 -v var 選項將其按第三字段排序:
$ ./sorter.awk -v var=3 penguins.list Bonaparte Eudyptula;minor;Bonaparte;1867;Little Blue Brisson Spheniscus;demersus;Brisson;1760;African Ewing,L Torvaldis;linux;Ewing,L;1996;Tux Miller,JF Aptenodytes;forsteri;Miller,JF;1778;Emperor Milne-Edwards Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyed Viellot Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopper Wagler Pygoscelis;papua;Wagler;1832;Gentoo
修正
本文演示了如何在純 GNU awk 中對數(shù)據(jù)進行排序。你可以對腳本進行改進,以便對你有用,花一些時間在gawk 的手冊頁上研究 awk 函數(shù)并自定義腳本以獲得更好的輸出。
這是到目前為止的完整腳本:
#!/usr/bin/awk -f # GPLv3 appears here # usage: ./sorter.awk -v var=NUM FILE BEGIN { FS=";"; } { # dump each field into an array ARRAY[$var] = $R; } END { asorti(ARRAY,SARRAY); # get length j = length(SARRAY); for (i = 1; i <= j; i++) { printf("%s %s\n", SARRAY[i],ARRAY[SARRAY[i]]) } }
總結(jié)
以上所述是小編給大家介紹的幫助你排序文本文件的 Awk 命令行或腳本,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對我們網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!
上一篇:如何為 Linux 桌面配置 Openbox(推薦)
欄 目:Linux/apache
下一篇:Linux中如何查看文件的創(chuàng)建時間詳解
本文標題:幫助你排序文本文件的 Awk 命令行或腳本(推薦)
本文地址:http://mengdiqiu.com.cn/a1/Linux_apache/10590.html
您可能感興趣的文章


閱讀排行
本欄相關(guān)
- 04-02linux關(guān)閉串口命令 關(guān)閉linux端口命令
- 04-02linux文件命令重命名 linux重命名文件名
- 04-02linux中jobs命令 shell jobs命令
- 04-02linux命令注入過濾 linux 代碼注入
- 04-02linux依次執(zhí)行命令 linux命令的執(zhí)行過程
- 04-02linux命令注銷vnc linux命令行注銷用戶
- 04-02linux命令免輸入 linux配置免密登錄
- 04-02軟交換linux命令 軟交換網(wǎng)絡主要協(xié)議
- 04-02linux命令歷史記錄 linux查看歷史記錄的
- 04-02linux命令頁面 linux命令頁面中文
隨機閱讀
- 01-11Mac OSX 打開原生自帶讀寫NTFS功能(圖文
- 04-02jquery與jsp,用jquery
- 01-10delphi制作wav文件的方法
- 08-05dedecms(織夢)副欄目數(shù)量限制代碼修改
- 01-10C#中split用法實例總結(jié)
- 01-10使用C語言求解撲克牌的順子及n個骰子
- 08-05DEDE織夢data目錄下的sessions文件夾有什
- 08-05織夢dedecms什么時候用欄目交叉功能?
- 01-11ajax實現(xiàn)頁面的局部加載
- 01-10SublimeText編譯C開發(fā)環(huán)境設置