Python的正則表達式和數據框功能是兩個最強大的工具。它們可以完美結合,使您的數據處理過程更加高效和準確。下面我們將介紹如何使用Python正則表達式來處理數據框中的文本數據。
首先,我們需要導入數據框和正則表達式模塊:
import pandas as pd
import re
接下來,我們可以使用pandas提供的read_csv()
函數將我們的數據框讀入到Python中:
df = pd.read_csv("data.csv")
假設我們有一個包含姓名、地址和電話號碼的數據框,格式如下:
Name Address Phone
0 John 123 Main Street 555-123-4567
1 Jane 456 Park Boulevard 555-987-6543
2 Bob 789 Maplewood Drive 555-555-5555
3 Mary 321 Elm Avenue 555-345-6789
我們想要提取每個電話號碼的區號。因此,我們可以使用正則表達式來查找每個號碼的前三個數字:
area_codes = []
for phone in df['Phone']:
area_code = re.search("\d{3}", phone).group()
area_codes.append(area_code)
此代碼將遍歷我們的數據框中的每個電話號碼,并使用正則表達式\d{3}
匹配前三個數字。然后,我們將它們添加到一個名為area_codes
的列表中。
現在,我們可以將area_codes
這個新列表添加到原始的數據框中:
df['Area Code'] = area_codes
我們得到了以下新的數據框:
Name Address Phone Area Code
0 John 123 Main Street 555-123-4567 555
1 Jane 456 Park Boulevard 555-987-6543 555
2 Bob 789 Maplewood Drive 555-555-5555 555
3 Mary 321 Elm Avenue 555-345-6789 555
現在,我們已成功地從每個電話號碼中提取了區號,并將其添加到我們的數據框中。這是一種簡單而強大的處理文本數據的方法,特別是當您需要從大量數據中提取特定信息時。在此過程中,正則表達式起到了重要的作用。
上一篇python 縱坐標刻度
下一篇python 正則包安裝