Quét web là hành động trích xuất dữ liệu, thông tin hoặc hình ảnh từ một trang web bằng phương pháp tự động. Hãy nghĩ về nó như là bản sao và dán vào hoàn toàn tự động.
Chúng tôi hoặc viết hoặc sử dụng một ứng dụng để truy cập các trang web mà chúng tôi muốn và tạo một bản sao của những điều cụ thể mà chúng tôi muốn từ các trang web đó. Nó chính xác hơn nhiều so với tải xuống toàn bộ trang web.
Giống như bất kỳ công cụ nào, việc quét web có thể được sử dụng cho mục đích tốt hoặc xấu. Một số lý do tốt hơn để loại bỏ các trang web sẽ được xếp hạng trong công cụ tìm kiếm dựa trên nội dung của nó, mua sắm so sánh giá, hoặc thông tin thị trường giám sát. Bạn thậm chí có thể sử dụng nó như một công cụ nghiên cứu sắp xếp.
Làm cách nào tôi có thể quét trang web bằng Excel?
Tin hay không, Excel đã có khả năng trích xuất các trang web datafrom trong một thời gian dài, ít nhất là từ Excel 2003. Chỉ là vậy webscraping là điều mà hầu hết mọi người không nghĩ tới, hãy để một mình nghĩ đến việc sử dụng chương trình trải rộng để thực hiện công việc. Nhưng thật dễ dàng và mạnh mẽ một cách đáng ngạc nhiên. Hãy tìm hiểu cách thực hiện bằng cách tạo một bộ sưu tập các phím tắt Microsoft Office.
Tìm các trang web bạn muốn cạo
Điều đầu tiên chúng ta sẽ làm việc cần làm là tìm các trang web cụ thể mà chúng tôi muốn nhận thông tin. Hãy cùng đến với nguồn và tìm kiếm tại https://support.office.com/. Chúng tôi sẽ sử dụng thuật ngữ tìm kiếm, các phím tắt thường được sử dụng. Chúng tôi có thể làm cho nó cụ thể hơn bằng cách sử dụng tên của ứng dụng cụ thể, như Outlook, Excel, Word, v.v. Có thể là một ý tưởng tốt để đánh dấu trang kết quả để chúng tôi có thể dễ dàng quay lại đó.
Nhấp vào kết quả tìm kiếm, các phím tắt trên Bàn phím trong Excel forWindows. Khi ở trên trang đó, hãy tìm danh sách các phiên bản Excel và nhấp vào Phiên bản mới hơn. Bây giờ chúng tôi làm việc với mới nhất và lớn nhất.
Chúng tôi có thể quay lại trang kết quả tìm kiếm của mình và mở các liệu pháp cho tất cả các ứng dụng Office khác trong các tab của riêng chúng và đánh dấu chúng. Đó là ý tưởng tốt, ngay cả đối với bài tập này. Đây là nơi mà hầu hết mọi người sẽ ngừng làm phiền các phím tắt Office, nhưng không phải chúng tôi. Chúng tôi sẽ đưa chúng vào Excel để wecan làm bất cứ điều gì chúng tôi muốn với chúng, bất cứ khi nào chúng tôi muốn.
Mở Excel và Scrape
Mở Excel và bắt đầu một bảng tính mới. Lưu sổ làm việc dưới dạng Phím tắt văn phòng. Nếu bạn có OneDrive, hãy lưu nó ở đó để Tự động lưufeaturewill hoạt động.
Khi sổ làm việc được lưu, hãy nhấp vào tab Dữ liệu.
Trong ruy-băng của tab Dữ liệu, nhấp vào Từ Web.
Trình hướng dẫn Từ trang websẽ mở. Đây là nơi chúng tôi đặt địa chỉ web hoặc URL của trang web mà chúng tôi muốn cạo dữ liệu. Chuyển sang trình duyệt web của bạn và sao chépURL.
Dán URL vào Trường URLcủa trình hướng dẫn Từ Web. Chúng tôi có thể chọn sử dụng điều này trong chế độ Cơ bảnhoặc Nâng cao. Chế độ Nâng cao cung cấp cho chúng tôi nhiều tùy chọn hơn về cách truy cập dữ liệu từ trang web. Đối với bài tập này, chúng ta chỉ cần Basicmode. Nhấp vào OK.
Excel sẽ cố gắng kết nối với trang web. Điều này có thể mất một vài giây. Chúng ta sẽ thấy một cửa sổ tiến trình, nếu có.
Cửa sổ Điều hướngsẽ mở và chúng tôi sẽ thấy danh sách các bảng từ trang web bên trái. Khi chúng tôi chọn một bảng, chúng tôi sẽ thấy bản xem trước bảng trên đúng. Hãy chọn bảng Các phím tắt thường được sử dụng.
Chúng tôi có thể nhấp vào tab WebViewđể xem trang web thực tế, nếu chúng tôi cần tìm xung quanh để tìm bảng. Khi chúng tôi tìm thấy nó, chúng tôi có thể nhấp vào nó và nó sẽ được chọn forimport.
Bây giờ, chúng tôi nhấp vào nút Tảiở dưới cùng của cửa sổ này. Có những lựa chọn khác mà chúng tôi có thể chọn, phức tạp hơn và vượt quá phạm vi thực hiện lần cạo đầu tiên của chúng tôi. Chỉ cần beaware rằng họ đang ở đó. Khả năng quét web của Excel rất mạnh.
Bảng web sẽ được tải trong Excel sau vài giây. Chúng tôi sẽ thấy dữ liệu ở bên trái, trong đó số 1trong hình bên dưới. Số 2làm nổi bật Truy vấnđược sử dụng để lấy dữ liệu từ trang web. Khi chúng tôi có nhiều truy vấn trong sổ làm việc, đây là nơi chúng tôi chọn một truy vấn chúng tôi cần sử dụng.
Lưu ý rằng dữ liệu đi vào bảng tính dưới dạng Exceltable. Chúng tôi đã thiết lập để có thể lọc hoặc sắp xếp dữ liệu.
Chúng tôi có thể lặp lại quy trình này cho tất cả các trang web khác có các phím tắt Office mà chúng tôi muốn cho Outlook, Word, Access, PowerPoint, và bất kỳ ứng dụng Office nào khác.
Giữ dữ liệu bị loại bỏ trong Excel
Để làm phần thưởng cho bạn, chúng tôi sẽ tìm hiểu cách giữ cho dữ liệu của chúng tôi luôn mới trong Excel. Đây là một cách tuyệt vời để minh họa mức độ mạnh mẽ của Excel đối với việc quét dữ liệu. Ngay cả với điều này, chúng tôi chỉ thực hiện các thao tác cạo nhất mà Excel có thể làm.
Ví dụ này, hãy sử dụng trang web thông tin chứng khoán như https://www.cnbc.com/stocks/.
Đi qua những gì chúng tôi đã làm trước đó và sao chép và dán URL mới từ thanh địa chỉ.
Bạn có thể đến cửa sổ Điều hướng và xem các bảng có sẵn. Hãy chọn các Chỉ số Chứng khoán Chính của Hoa Kỳ.
Sau khi dữ liệu được quét, chúng tôi sẽ thấy bảng tính sau.
Ở bên phải, chúng tôi thấy truy vấn cho Chỉ số chứng khoán chính của Hoa Kỳ. Chọn để nó được tô sáng. Hãy chắc chắn rằng chúng tôi đã ghi lại trong tab Công cụ bảngvà trong khu vực Thiết kế. Sau đó nhấp vào mũi tên xuống bên dưới Làm mới. Sau đó nhấp vào Thuộc tính kết nối.
Trong cửa sổ QueryProperives, trong tab Cách sử dụng, chúng ta có thể kiểm soát làm thế nào thông tin này làm mới. Chúng ta có thể đặt một mốc thời gian cụ thể để làm mới hoặc để làm mới khi chúng ta mở sổ làm việc vào lần tiếp theo, hoặc torefresh trong nền hoặc bất kỳ sự kết hợp nào của chúng. Khi chúng tôi chọn weneed, nhấp vào OKđể đóng cửa gió và tiếp tục.
Thế thôi! Giờ đây, bạn có thể theo dõi giá cổ phiếu, tỷ số thể thao hoặc bất kỳ dữ liệu nào khác thay đổi thường xuyên từ bảng tính Excel. Nếu bạn giỏi với Các phương trình và hàm Excel, bạn có thể làm hầu hết mọi thứ bạn muốn với dữ liệu.
Có thể cố gắng xác định xu hướng chứng khoán, điều hành một bể thể thao giả tưởng tại nơi làm việc hoặc có thể chỉ cần theo dõi thời tiết. Ai biết? Trí tưởng tượng của bạn và dữ liệu có sẵn trên Internet là những giới hạn duy nhất.