Cách sử dụng chức năng ĐĂNG KÝ trong Google Trang tính

Đã cập nhật vào lúc March 20, 2024

Chức năng REGEXEXTRACT trong Google Trang tính là một phần của chức năng REGEX có sẵn cho nhiều người dùng. Chức năng này rất tiện dụng khi bạn đang cố gắng tìm một chuỗi cụ thể là một phần của chuỗi lớn hơn.

Điều kiện duy nhất để sử dụng hàm này là kiến ​​thức vững chắc về các biểu thức chính quy.

Trong hướng dẫn này, chúng ta sẽ thảo luận chi tiết về hàm REGEXEXTRACT, cũng như một vài ví dụ về cách bạn có thể áp dụng chúng cho một số tác vụ bảng tính phổ biến.

Chức năng REGEXTRACT làm gì?

Về cơ bản, hàm REGEXEXTRACT sử dụng các biểu thức chính quy để trích xuất các chuỗi con phù hợp từ một chuỗi. Nó nhận một chuỗi và một biểu thức chính quy và trả về một phần của chuỗi khớp với mẫu trong biểu thức chính quy.

Cú pháp REGEXEXTRACT

Cú pháp của hàm REGEXTRACT như sau:

REGEXEXTRACT (text; reg_exp)

Đây,

  • văn bản là văn bản hoặc chuỗi bạn muốn trích xuất chuỗi con từ
  • reg_exp là một biểu thức chính quy. Biểu thức khớp với phần văn bản bạn muốn trích xuất. Tham số biểu thức chính quy phải được đặt trong dấu ngoặc kép.

Lưu ý: hàm luôn trả về phần đầu tiên của văn bản khớp với mẫu trong reg_exp.

Các ứng dụng của hàm REGEXTRACT

Hàm REGEXEXTRACT có thể khá hữu ích nếu bạn muốn trích xuất thông tin có giá trị từ một tập hợp các chuỗi không chính xác “đồng nhất” hoặc nhất quán về định dạng.

Dưới đây là một số ứng dụng hữu ích của chức năng REGEXEXTRACT. Bạn có thể sử dụng nó như thế này:

  • Trích xuất một vài ký tự đầu tiên hoặc cuối cùng từ một chuỗi
  • Trích xuất các số từ một chuỗi
  • Trích xuất toàn bộ từ dựa trên đối sánh từng phần
  • Trích xuất một từ danh sách các từ
  • Trích xuất nội dung giữa các ký tự nhất định
  • Trích xuất các phần khác nhau của URL
  • Trích xuất các phần khác nhau của địa chỉ email

Hãy xem cách REGEXREPLACE có thể được sử dụng trong mỗi ứng dụng trên.

Sử dụng hàm REGEXEXTRACT để trích xuất các ký tự đầu tiên hoặc cuối cùng từ một chuỗi

Trước tiên, hãy xem cách bạn có thể sử dụng REGEXREPLACE để trích xuất một số ký tự hoặc từ đầu tiên hoặc cuối cùng từ một chuỗi.

Giả sử bạn có danh sách tên sách sau trong cột A:

Nếu bạn chỉ muốn trích xuất đầu tiên, giả sử 3 ký tự từ mỗi ô, bạn có thể sử dụng ký tự dấu chấm đơn (.). Một dấu chấm trong biểu thức chính quy được sử dụng để đại diện cho một ký tự. Vì vậy, nếu bạn muốn trích xuất 3 ký tự từ một chuỗi, bạn cần chỉ định 3 dấu chấm trong tham số regex như sau: = REGEXEXTRACT (A2, “…”)

Đây là kết quả bạn sẽ nhận được:

Tương tự, nếu bạn muốn trích xuất 3 ký tự cuối cùng từ mỗi ô, bạn có thể sử dụng 3 dấu chấm theo sau là ký tự siêu ký tự $, vì ký tự đô la đại diện cho phần cuối của một chuỗi.

Vì vậy, công thức của bạn sẽ như thế này:

= REGEXEXTRACT (A2, “… $”)

Đây là kết quả bạn sẽ nhận được:

Ký tự dấu chấm đại diện cho bất kỳ ký tự nào, bao gồm dấu cách hoặc bất kỳ ký tự nào khác. Vì vậy, sử dụng ”. + “trong một biểu thức chính quy sẽ chỉ trích xuất tất cả văn bản trong ô.

Nếu bạn muốn đảm bảo rằng bạn chỉ trích xuất các ký tự chữ và số, thì thay vì ký tự dấu chấm, bạn có thể sử dụng ký tự siêu ký tự w, đại diện cho một ký tự chữ và số (chữ số, chữ cái hoặc dấu gạch dưới).

Vì vậy, nếu bạn muốn trích xuất toàn bộ từ đầu tiên, bạn sẽ cần sử dụng tổ hợp “w +”. Điều này đảm bảo rằng bất kỳ ký tự nào trước khoảng trắng đầu tiên đều được trích xuất như thế này:

= REGEXEXTRACT (A2, “\ w +”)

Tương tự, để trích xuất từ ​​cuối cùng, công thức sẽ giống như sau:

= REGEXEXTRACT (A2, “\ w + $”)

Đây là kết quả bạn sẽ nhận được:

Sử dụng hàm REGEXEXTRACT để trích xuất các số từ một chuỗi

Siêu ký tự d đại diện cho một chữ số. Do đó, nếu bạn muốn trích xuất số đầu tiên từ một chuỗi, bạn có thể sử dụng biểu thức “d +” như sau:

= REGEXEXTRACT (A2, “\ d +”)

Đây là kết quả bạn sẽ nhận được cho danh sách các chuỗi sau:

Sử dụng chức năng REGEXTRACT để trích xuất các từ toàn bộ dựa trên một phần đối sánh

Giả sử bạn có danh sách các chuỗi sau và muốn trích xuất tất cả các biển số xe bắt đầu bằng các ký tự ‘L-‘:

Sau đó, bạn có thể sử dụng mẫu chuỗi bắt buộc theo sau là “w +” như hình dưới đây: = REGEXEXTRACT (A2, “L- \ w +”)

Điều này sẽ cho bạn kết quả sau:

Loại biểu thức chính quy này cũng có thể được sử dụng nếu bạn muốn trích xuất các từ theo một mẫu cụ thể, chẳng hạn, giả sử bạn có danh sách các câu sau:
Nếu bạn muốn trích xuất từ ​​đầu tiên trong mỗi dòng bắt đầu bằng ‘bo’ và kết thúc bằng ‘d’, bạn có thể sử dụng hàm REGEXEXTRACT như sau: = REGEXEXTRACT (A2, “bo \ w + d”)

Điều này sẽ cho bạn kết quả sau:

Lưu ý rằng trong ví dụ cuối cùng, hàm chỉ trích xuất từ ​​đầu tiên trong chuỗi theo mẫu “bo … d”. Thay vào đó, nếu bạn muốn nó trích xuất từ ​​cuối cùng, bạn sẽ cần thêm siêu ký tự đô la ($) vào cuối: = REGEXEXTRACT (A2, “bo \ w + d $”)

Điều này sẽ cho bạn kết quả sau:

Sử dụng hàm REGEXEXTRACT để trích xuất một từ một danh sách các từ

Siêu ký tự “|” là một phép toán HOẶC. Vì vậy, nếu bạn muốn trích xuất một từ duy nhất từ ​​danh sách các từ hoặc ký tự, bạn có thể sử dụng ký tự đó trong hàm REGEXMATCH.

Ví dụ: giả sử bạn có danh sách các chuỗi sau:

Nếu bạn muốn trích xuất lần xuất hiện đầu tiên của bất kỳ từ nào trong số các từ đỏ, xanh dương, xanh lá cây hoặc vàng trong ô A2, bạn có thể sử dụng hàm REGEXTRACT như sau: = REGEXEXTRACT (A2, “red | blue | green | yellow”)

Điều này sẽ cho bạn kết quả sau:

Sử dụng chức năng REGEXTRACT để trích xuất nội dung giữa các ký tự cụ thể

Thông thường, hàm REGEXREPLACE được sử dụng để trích xuất nội dung giữa các ký tự nhất định. Ví dụ: giả sử bạn đã sao chép một số văn bản đánh dấu từ một trang web và bạn chỉ muốn trích xuất phần văn bản của nó bằng cách xóa các thẻ HTML:

Bây giờ bạn có thể nghĩ rằng chỉ cần sử dụng biểu thức chính quy ‘>. + ‘và’ . + <“)

Tuy nhiên, điều này cũng sẽ trích xuất các ký tự cùng với văn bản giữa chúng, như được hiển thị bên dưới:

Để chỉ trích xuất văn bản giữa chúng và loại trừ các ký tự phân tách, bạn cần bao gồm dấu “. + ”Trong dấu ngoặc nhọn nhóm“ () ”. Điều này đảm bảo rằng chỉ nội dung bên trong dấu ngoặc nhóm được trích xuất: = REGEXTRACT (A2; “> (. +) <“)

Điều này sẽ cho bạn kết quả sau:

Sử dụng hàm REGEXEXTRACT để trích xuất các phần khác nhau của URL

Nếu bạn muốn trích xuất tên miền của một URL, bạn có thể sử dụng REGEXEXTRACT như sau:

= REGEXEXTRACT (A2, “http. + \ / \ /(.+) \ /”)

Thao tác này sẽ trích xuất tất cả nội dung giữa mẫu HTTP: // (hoặc HTTPS: //) và ký tự ‘/’.

Công thức trên sẽ cho bạn kết quả sau:

Nếu bạn muốn xóa mọi thứ và chỉ trích xuất tên miền chính (không có bất kỳ tên miền phụ hoặc phần mở rộng nào, thì chức năng REGEXEXTRACT của bạn có thể được tinh chỉnh như sau: = REGEXEXTRACT (A27, “http. + \ / \ / \ W + \. (. + ) \.[org|com]”)

Ở đây chúng tôi đã đảm bảo rằng tất cả các từ trước và sau dấu chấm đều bị xóa. Vì từ sau dấu chấm có thể là bất kỳ từ nào trong số các từ org hoặc com, chúng tôi đã đặt chúng trong dấu ngoặc vuông.

Điều này sẽ cho bạn kết quả sau:

Sử dụng chức năng REGEXTRACT để trích xuất các phần khác nhau của địa chỉ email

Như trong ví dụ trước, chúng ta cũng có thể sử dụng REGEXEXTRACT để trích xuất các phần của địa chỉ email. Ví dụ: giả sử bạn có danh sách các địa chỉ email sau:

Nếu bạn chỉ muốn trích xuất một phần tên người dùng từ địa chỉ email, bạn có thể sử dụng chức năng REGEXEXTRACT để trích xuất mọi thứ đứng trước ký tự ‘@’ như sau: = REGEXTRACT (A33; “(. +) @”)

Điều này sẽ cho bạn kết quả sau:

Chúng tôi đã sử dụng siêu ký tự dấu chấm thay vì w vì chúng tôi muốn biểu thức khớp với bất kỳ ký tự nào trong tên người dùng, bao gồm dấu chấm, dấu gạch ngang hoặc dấu gạch dưới (như trong ví dụ thứ ba).

Nếu thay vì tên người dùng, bạn quan tâm hơn đến việc trích xuất phần tên miền từ địa chỉ email, bạn có thể sử dụng chức năng REGEXEXTRACT như sau:

= REGEXTRACT (A33; “@ (. +)”)

Điều này sẽ cho bạn kết quả sau:

Sử dụng chức năng REGEXTRACT để trích xuất một mẫu ký tự cụ thể

Giả sử bạn có danh sách các chuỗi sau và muốn trích xuất số điện thoại từ mỗi ô:

Bởi vì tất cả các số điện thoại của Hoa Kỳ đều theo cùng một mẫu, bạn có thể sử dụng hàm REGEXTRACT như sau: = REGEXTRACT (A40; “(…) …-….”)

Ở đây, mỗi dấu chấm đại diện cho một ký tự. Tuy nhiên, thay vì đặt nhiều dấu chấm như vậy, bạn có thể rút ngắn biểu thức chính quy bằng cách đặt số ký tự được đặt trong dấu ngoặc nhọn sau dấu chấm sau dấu chấm.

Vì vậy, thay vì “…” bạn có thể sử dụng “. {3} “trong biểu thức của bạn. Điều này có nghĩa là công thức trên cũng có thể được viết dưới dạng:

= REGEXTRACT (A40; “(. {3}). {3} -. {4}”)

Bạn có 3 số trong ngoặc đơn, tiếp theo là 3 số tiếp theo là dấu gạch ngang và 4 số nữa.

Điều này sẽ cho bạn kết quả sau:

Bây giờ cho một thủ thuật thú vị. Nếu bạn cũng muốn tách các phần của số điện thoại thành các cột riêng cho mã vùng, mã tổng đài và số thuê bao, bạn có thể đặt dấu ngoặc đơn xung quanh mỗi phần bạn muốn trong một cột.

Vì vậy, để chia kết quả của công thức trên thành ba cột khác nhau, hàm REGEXTRACT của bạn có thể được viết như sau:

= REGEXTRACT (A40, “((. {3})) (. {3}) – (. {4})”)

Điều này sẽ cho bạn kết quả sau:

Đây là một số ví dụ đơn giản về cách hàm REGEXEXTRACT có thể giúp bạn trích xuất chính xác những gì bạn cần từ một chuỗi một cách hiệu quả.

REGEXEXTRACT Mẹo về tính năng của Google Trang tính:

Dưới đây là một số mẹo quan trọng cần ghi nhớ khi sử dụng chức năng REGEXEXTRACT.

  • Tính năng này chỉ hoạt động với kiểu nhập văn bản. Không hoạt động với số
  • Nếu bạn muốn sử dụng số làm đầu vào (chẳng hạn như số điện thoại), trước tiên bạn phải chuyển chúng thành văn bản bằng chức năng TEXT.
  • Hàm REGEXEXTRACT phân biệt chữ hoa chữ thường. Do đó, bạn sẽ cần chỉ định trường hợp chính xác bên trong biểu thức chính quy hoặc chuyển đổi toàn bộ chuỗi đầu vào thành chữ hoa hoặc chữ thường bằng cách sử dụng hàm UPPER hoặc LOWER.

Hàm REGEXEXTRACT có thể có nhiều ứng dụng nếu bạn học cách sử dụng nó một cách hiệu quả. Kiến thức tốt về cụm từ thông dụng sẽ hữu ích và cách tốt nhất để nắm vững nó là thông qua thực hành.

Hãy thử với các cụm từ thông dụng khác nhau và xem bạn nhận được kết quả nào. Bạn sẽ ngạc nhiên về mức độ hữu ích của hàm REGEXEXTRACT khi bạn bắt đầu sử dụng nó cho dữ liệu bảng tính hàng ngày.

Bài viết tương tự