Categories
程式開發

22個最常用的Python包


[*]

22個最常用的Python包 1

我們從最常用的Python包入手,去解答這個問題——全球各地的程序員都是怎樣使用Python? 。最初,我列出過去一年在PyPI 上下載次數最多的Python包。接下來,深入研究其用途、它們之間的關係和它們備受歡迎的原因。

1.Urllib3

下載次數:8.93億

Urllib3是一個Python的HTTP客戶端,它擁有Python標準庫中缺少的許多功能:

  • 線程安全
  • 連接池
  • 客戶端SSL/TLS驗證
  • 使用分段編碼上傳文件
  • 用來重試請求和處理HTTP重定向的助手
  • 支持gzip和deflate編碼
  • HTTP和SOCKS的代理支持

不要被名字所誤導,Urllib3並不是urllib2的後繼者,而後者是Python核心的一部分。如果你想使用盡可能多的Python核心功能,或者你能安裝什麼東西是受限,那麼請查看urlllib.request

對最終用戶來說,我強烈建議使用requests包(參閱列表中的#6)。這個包之所以會排名第一,是因為有差不多1200個包依賴urllib3,其中許多包在這個列表中的排名也很高。

2.Six

下載次數:7.32億

six是一個是Python 2和3的兼容性庫。這個項目旨在支持可同時運行在Python 2和3上的代碼庫。

它提供了許多可簡化Python 2和3之間語法差異的函數。一個容易理解的例子是six.print_()。在Python 3中,打印是通過print()函數完成的,而在Python 2中,print後面沒有括號。因此,有了six.print_()後,你就可以使用一個語句來同時支持兩種語言。

事實:

  • 它的名字叫six,是因為二乘以三等於六。
  • 同類庫還可以看看future包。
  • 如果你要將代碼轉換為Python3(並停止支持2),請查看2to3

雖然我理解它為什麼這麼受歡迎,但我希望人們能完全放棄Python 2,因為要知道從2020年1月1日起Python 2的官方支持就已停止。

相關鏈接:PyPI頁面和文檔

3.botocore、boto3、s3transfer、awscli

這裡,我把相關的幾個項目列在一起:

  • botocore(#3,6.6億次下載)
  • s3transfer(#7,5.84億次下載)
  • awscli(#17,3.94億次下載)
  • boto3(#22,3.29億次下載)

Botocore是AWS的底層接口。Botocore是Boto3庫(#22)的基礎,後者讓你可以用Amazon S3和Amazon EC2一類的服務。

Botocore還是AWS-CLI的基礎,後者為AWS提供統一的命令行界面。

S3transfer(#7)是用於管理Amazon S3傳輸的Python庫。它正在積極開發中,其介紹頁面不推薦人們現在使用,或者至少等版本固定下來再用,因為它的API可能發生變化,在次要版本之間都可能更改。Boto3AWS-CLI其他許多項目都依賴s3transfer

令人驚訝的是,這些針對AWS庫的排名竟如此之高——這充分說明了AWS有多厲害。

相關鏈接:

4.Pip

下載次數:6.27億

22個最常用的Python包 2

我想,你們大多數人都知道並且很喜歡pip,它是Python的包安裝器。你可以用pip輕鬆地從Python包索引和其他索引(例如本地鏡像或帶有私有軟件的自定義索引)來安裝軟件包。

有關pip的一些有趣事實:

  • pip是“Pip Installs Packages”的首字母遞歸縮寫。
  • pip很容易使用。要安裝一個包只需pip install 即可,而刪除包只需pip uninstall 即可。
  • 最大優點之一是它可以獲取包列表,通常以requirements.txt文件的形式獲取。該文件能選擇包含所需版本的詳細規範。大多數Python項目都包含這樣的文件。
  • 如果結合使用pipvirtualenv(列表中的#57),就可以創建可預測的隔離環境,同時不會干擾底層系統,反之亦然。要了解更多細節,請查看這篇文章:Stop Installing Python Packages Globally — Use Virtual Environments

5.Python-dateutil

下載次數:6.17億

python-dateutil模塊提供了對標準datetime模塊的強大擴展。我的經驗是,常規的Python datetime缺少哪些功能,python-dateutil就能補足那一塊。

你可以用這個庫做很多很棒的事情。其中,我發現的一個特別有用的功能就是:模糊解析日誌文件中的日期,例如:

from dateutil.parser import parse

logline = 'INFO 2020-01-01T00:00:01 Happy new year, human.'
timestamp = parse(log_line, fuzzy=True)
print(timestamp)
# 2020-01-01 00:00:01

6.Requests

下載次數:6.11億

Requests建立在我們的#1庫——urllib3基礎上。它讓Web請求變得非常簡單。相比urllib3來說,很多人更喜歡這個包。而且使用它的最終用戶可能也比urllib3更多。後者更偏底層,並且考慮到它對內部的控制級別,它一般是作為其他項目的依賴項。

下面這個例子說明requests用起來有多簡單:

import requests

r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
r.status_code
# 200
r.headers['content-type']
# 'application/json; charset=utf8'
r.encoding
# 'utf-8'
r.text
# u'{"type":"User"...'
r.json()
# {u'disk_usage': 368627, u'private_gists': 484, ...}

相關鏈接:

7.S3transfer

這裡把#3、#7、#17和#22放在一起介紹,因為它們的關係非常密切。

8.Certifi

下載次數:5.52億

近年來,幾乎所有網站都轉向SSL,你可以通過地址欄中的小鎖符號來識別它。加了小鎖意味著與該站點的通信是安全和加密的,能防止竊聽行為。

22個最常用的Python包 3

小鎖告訴我們此網站已使用SSL保護

加密過程是基於SSL證書的,並且這些SSL證書由受信任的公司或非營利組織(如LetsEncrypt)創建。這些組織使用他們的(中間)證書對這些證書進行數字簽名。

你的瀏覽器使用這些證書的公開可用部分來驗證這些簽名,這樣就能確保你正查看的是真實內容,並且沒有人能窺探到通信數據。 Python軟件也能做同樣事情。這就是certifi的用途所在。它與Chrome、Firefox和Edge等網絡瀏覽器隨附的根證書集合沒有太大區別。

Certifi是根證書的一個精選集合,有了它,你的Python代碼就能驗證SSL證書的可信度。

此處所示,許多項目信任並依賴certifi。這也是該項目排名如此之高的原因所在。

相關鏈接:certifi PyPI頁面文檔certifi.io

9.Idna

下載次數:5.27億

根據其PyPI頁面,idna提供了“對RFC5891中指定的應用程序中國際化域名(IDNA)協議的支持。 ”

可能你像我一樣也是一頭霧水,不知道Idna是什麼,有什麼用!據悉,應用程序中的國際化域名(IDNA)是一種用來處理包含非ASCII字符的域名機制。但是,原始域名系統已經提供對基於非ASCII字符的域名支持。所以,哪有問題?

22個最常用的Python包 4

問題在於應用程序(例如電子郵件客戶端和Web瀏覽器)不支持非ASCII字符。更具體地說,電子郵件和HTTP用的協議不支持這些字符。對許多國家來說,這沒什麼問題,但是像中國、俄羅斯、德國、希臘和印度尼西亞等國家,這是個問題。最後,來自這些地方的一群聰明人想到IDNA。

IDNA的核心是兩個函數:ToASCIIToUnicodeToASCII會將國際Unicode域轉換為ASCII字符串。ToUnicode則逆轉該過程。在IDNA包中,這些函數稱為idna.encode()idna.decode(),如以下代碼片段所示:

import idna
idna.encode('ドメイン.テスト')
# b'xn--eckwd4c7c.xn--zckzah'
print(idna.decode('xn--eckwd4c7c.xn--zckzah'))
# ドメイン.テスト

如果你是受虐狂,則可以閱讀RFC-3490了解這一編碼的詳細信息。

相關鏈接:

Idna PyPI頁面,GitHub頁面

10.PyYAML

下載次數:5.25億

YAML是一種數據序列化格式。它的設計宗旨是讓人類和計算機都能很容易地閱讀代碼——人類很容易讀寫它的內容,計算機也可以解析它。

22個最常用的Python包 5

PyYAML是Python的YAML解析器和發射器,這意味著它可以讀寫YAML。它會把任何Python對象寫成YAML:列表、字典,甚至是類實例都包括在內。

Python提供了自己的配置解析器,但是與Python的ConfigParser的基本.ini文件結構相比,YAML提供更多功能。

例如,YAML可以存儲任何數據類型:布爾值、列表、浮點數等等。ConfigParser會將所有內容存儲為內部字符串。如果要使用ConfigParser加載整數,則你需要指定自己要顯式獲取一個int

config.getint(“section”, “my_int”)

pyyaml能自動識別類型,所以這將使用PyYAML返回你的int

config[“section”][“my_int”]

YAML還允許任意的deep trees,雖然不是每個項目都需要這種東西,但是需要時,它就可以派上用場。你可能有自己的偏好,但是許多項目都使用YAML作為配置文件,所以這個項目是很受歡迎的。

相關鏈接:PyYAML PyPI頁面、文檔

11.Pyasn1

下載次數:5.12億

像上面的IDNA一樣,這個項目也非常有用:

ASN.1類型和DER/BER/CER編碼(X.208)的純Python實現

所幸這個已有數十年曆史的標準有很多信息可用。ASN.1是Abstract Syntax Notation One的縮寫,它就像是數據序列化的教父。它來自電信行業。也許你知道協議緩衝區或Apache Thrift?這就是它們的1984年版本。

ASN.1描述了系統之間的跨平台接口,以及可以通過該接口發送的數據結構。

還記得Certifi(請參閱#8)嗎? ASN.1用於定義HTTPS協議和其他許多加密系統中使用的證書格式。它也用在了SNMP、LDAP、Kerberos、UMTS、LTE和VOIP協議中。

這是一個非常複雜的規範,並且某些實現已被證明滿是漏洞。你可能還會喜歡關於ASN.1的這個有趣的Reddit帖子

一個建議,除非你真的需要,否則還是敬而遠之吧。但由於它用在很多地方,因此許多包都依賴這個包。

12.Docutils

下載次數:5.08億

Docutils是一個模塊化系統,用來將純文本文檔處理為很多有用的格式,例如HTML、XML和LaTeX等。Docutils能讀取reStructuredText格式的純文本文檔,這種格式是類似於MarkDown的易讀標記語法。

你可能聽說過,甚至讀過PEP文檔。那麼什麼是PEP文檔?最早的PEP文檔,PEP-1為我們提供很好的解釋:

PEP的意思是Python增強提案。一個PEP就是一個設計文檔,用來向Python社區提供信息,或描述Python或其過程或環境的新功能。 PEP應該提供該功能的簡明技術規範以及功能的原理。

PEP文檔使用固定的reStructuredText模板編寫,並使用docutils轉換為格式正確的文檔。

Docutils也是Sphinx的核心。Sphinx用於創建文檔項目。如果Docutils是一台機器,則Sphinx就是工廠。它最初是為了構建Python文檔而創建的,但其他許多項目也使用它為代碼提供文檔。你可能已經讀過readthedocs.org上的文檔,那裡的大多數文檔都是由Sphinxdocutils創建的。

13.Chardet

下載次數:5.01億

你可以用chardet模塊來檢測文件或數據流的字符集。比如說,需要分析大量隨機文本時,這會很有用。但你也可以在處理遠程下載的數據,但不知道用的是什麼字符集時使用它。

安裝chardet後,你還有一個名為chardetect的命令行工具,用法如下:

chardetect somefile.txt
somefile.txt: ascii with confidence 1.0

你還能通過編程方式使用這個庫,具體參閱文檔Chardetrequests等許多包的需求。我覺得沒有多少人會單獨使用chardet,所以它這麼流行肯定是因為這些依賴項。

14.RSA

下載次數:4.92億

rsa包是一個純Python的RSA實現。它支持:

  • 加密和解密
  • 簽名和驗證簽名,
  • 根據PKCS#1 1.5版生成密鑰。

它既可以用作Python庫,也能在命令行中使用。

一些事實:

  • RSA是RonRivest、Adi Shamir和Leonard Adleman三人姓的首字母。他們在1977年發明該算法。
  • RSA是最早的公鑰密碼系統之一,被廣泛用於安全數據傳輸。在這樣的密碼系統中,有兩個密鑰:公共部分和私有部分。你用公鑰加密數據,只能用私鑰解密數據。
  • RSA是一種slow algorithm。它很少用於直接加密用戶數據。通常,RSA用於安全傳遞對稱密鑰加密的共享密鑰,這樣加密和解密大量數據時會快得多。

以下代碼段展示瞭如何在一個非常簡單的用例中使用RSA:

import rsa

# Bob creates a key pair:
(bob_pub, bob_priv) = rsa.newkeys(512)

# Alice ecnrypts a message for Bob
# with his public key
crypto = rsa.encrypt('hello Bob!', bob_pub)

# When Bob gets the message, he
# decrypts it with his private key:
message = rsa.decrypt(crypto, bob_priv)
print(message.decode('utf8'))
# hello Bob!

假設Bob保留自己的私鑰private,那麼Alice可以確定他是唯一可以閱讀該消息的人。[*]
但是,Bob不能確定是Alice發送了該消息,因為任何人都可以獲取並使用他的公鑰。為證明是她,Alice可以用她的私鑰在郵件上簽名。 Bob可以用她的公鑰驗證此簽名,確保消息的確是她發送的。

諸如google-auth(#37)、oauthlib(#54)、awscli(#17)之類的包都依賴rsa包。很少有人會將這個工具獨立使用,因為有更快、更原生的替代方法。

15.Jmespath

下載次數:4.73億

在Python中用JSON非常容易,因為它在Python字典上的映射非常好。對我來說,這是它最好的特性之一。

22個最常用的Python包 6

實話實說——儘管我已經用JSON做過很多工作,但我從未聽說過這個包。我只是用json.loads()並從字典中手動獲取數據,也許再搞個循環什麼的。

JMESPath,發音為“James path”,使Python中的JSON更容易使用。它允許你聲明性地指定如何從JSON文檔中提取元素。以下是一些基本示例:

import jmespath

# Get a specific element
d = {"foo": {"bar": "baz"}}
print(jmespath.search('foo.bar', d))
# baz

# Using a wildcard to get all names
d = {"foo": {"bar": [{"name": "one"}, {"name": "two"}]}}
print(jmespath.search('foo.bar[*].name', d))
# [“one”, “two”]

更多消息,請參見PyPI頁面文檔

16.Setuptools

下載次數:4.01億

它是用於創建Python包的工具。不過,其文檔很糟糕。它沒有清晰描述它的用途,並且文檔中包含無效鏈接。最好的信息源是這個站點,特別是這個創建Python包的指南

17.Awscli

這裡把#3、#7、#17和#22放在一起介紹,因為它們的關係非常密切。

18.Pytz

下載次數:3.94億次

dateutils(#5)一樣,這個庫可幫助你處理日期和時間。有時候,時區處理起來可能很麻煩。幸好有這樣的包,可以讓事情變得簡單些。

我自己關於計算機上處理時間的經驗總結來說是:始終在內部使用UTC。僅當生成供人類讀取的輸出時,才轉換為本地時間。

這是pytz用法的示例:

from datetime import datetime
from pytz import timezone

amsterdam = timezone('Europe/Amsterdam')

ams_time = amsterdam.localize(datetime(2002, 10, 27, 6, 0, 0))
print(ams_time)
# 2002-10-27 06:00:00+01:00

# It will also know when it's Summer Time
# in Amsterdam (similar to Daylight Savings Time):
ams_time = amsterdam.localize(datetime(2002, 6, 27, 6, 0, 0))
print(ams_time)
# 2002-06-27 06:00:00+02:00

請查看PyPI頁面以獲取更多示例和文檔。

19.Futures

下載次數:3.89億

從Python 3.2開始,python提供current.futures模塊,可幫助你實現異步執行。 futures包是該庫適用於Python 2的backport。它不適用於Python3用戶,因為Python 3原生提供了該模塊

正如我之前提到的,從2020年1月1日起,Python 2的官方支持停止。希望我明年重新再來看的時候,這個包不會再出現在前22名中吧。

下面是futures的基本示例:

from concurrent.futures import ThreadPoolExecutor
from time import sleep
 
def return_after_5_secs(message):
  sleep(5)
  return message
 
pool = ThreadPoolExecutor(3)
 
future = pool.submit(return_after_5_secs, 
                     ("Hello world"))

print(future.done())
# False
sleep(5)
print(future.done())
# True
print(future.result())
# Hello World

如你所見,你可以創建一個線程池並提交一個要由這些線程之一執行的函數。同時,你的程序將繼續在主線程中運行。這是並行執行程序的簡便方法。

20.Colorama

下載次數:3.7億

使用Colorama,你可以為終端添加一些顏色:

22個最常用的Python包 7

這樣做起來非常容易,具體請查看以下示例代碼:

from colorama import Fore, Back, Style

print(Fore.RED + 'some red text')
print(Back.GREEN + 'and with a green background')
print(Style.DIM + 'and in dim text')
print(Style.RESET_ALL)
print('back to normal now')

21.Simplejson

下載次數:3.41億

原生的json模塊有什麼問題,才需要這種高級替代方案呢?並沒有!實際上,Python的json就是simplejson。但是simplejson也有一些優點:

  • 它適用於更多的Python版本。
  • 它比Python更新的頻率更頻繁。
  • 它有用C編寫的(可選)部分,因此速度非常快。

你經常會在支持JSON的腳本中看到以下內容:

try:
  import simplejson as json
except ImportError:
  import json

除非你需要標準庫中所沒有的內容,否則我只會使用jsonSimplejson可以比json快很多,因為它有一些用C實現的部分。除非你正在處理成千上萬個JSON文件,否則這種優勢對你來說不是什麼大事。還可以看看UltraJSON,它應該更快一些,因為它幾乎所有的代碼都是用C編寫的。

22.Boto3

這裡把#3、#7、#17和#22放在一起介紹,因為它們的關係非常密切。

小結

僅僅介紹這22個包恐怕不夠,因為排在後面的許多包都是像我們這樣最終用戶感興趣的。

通過製作這份列表,我了解到一些新東西:

  1. 許多排名靠前的package(包)都提供某種核心功能,例如處理時間、配置文件、加密和標準化等。它們往往是其他項目的依賴項。
  2. 一個常見的主題是連接性。這些包大多允許你連接到服務器和服務,或支持其他包這樣做。
  3. 剩下的那些是對Python的擴展。創建Python包的工具、幫助創建文檔的工具、創建版本之間兼容性的庫等。

英文原文:

The 22 Most-Used Python Packages in the World

[*]