Mô tả Công việc
Chúng tôi đang tìm kiếm một Chuyên gia Thu thập Dữ liệu có kỹ năng để gia nhập đội ngũ của chúng tôi. Ứng viên lý tưởng sẽ chịu trách nhiệm phát triển và duy trì các trình thu thập dữ liệu web để thu thập dữ liệu từ nhiều nguồn khác nhau, đảm bảo việc trích xuất và lưu trữ dữ liệu chất lượng cao.
Trách nhiệm Chính
- Chịu trách nhiệm thu thập dữ liệu, bao gồm các trang web tĩnh, trang web động (kết xuất JS), dữ liệu giao diện API, v.v.
- Xử lý các chiến lược chống thu thập dữ liệu như giả mạo User Agent, hồ sơ proxy, bỏ qua mã captcha, mã hóa cookie, mã hóa tham số body, v.v. để nâng cao tỷ lệ thu thập thành công.
- Phân tích dữ liệu trang web và trích xuất thông tin bằng các kỹ thuật như XPath, bộ chọn CSS, biểu thức chính quy, v.v.
- Lưu trữ và thu thập dữ liệu vào các cơ sở dữ liệu như MySQL, MongoDB, Redis, Selectdb, v.v.
- Viết mã liên quan đến làm sạch và loại bỏ trùng lặp dữ liệu để nâng cao chất lượng dữ liệu.
- Giám sát trạng thái hoạt động của trình thu thập dữ liệu, tối ưu hóa chiến lược thu thập và đảm bảo tính ổn định của việc thu thập dữ liệu.
Yêu cầu Công việc
- Có kinh nghiệm đã được chứng minh trong việc thu thập dữ liệu web và các kỹ thuật thu thập dữ liệu.
- Hiểu biết sâu sắc về các cơ chế và chiến lược chống thu thập dữ liệu.
- Thành thạo các kỹ thuật trích xuất dữ liệu như XPath, bộ chọn CSS và biểu thức chính quy.
- Kinh nghiệm với các cơ sở dữ liệu khác nhau như MySQL, MongoDB, Redis hoặc Selectdb.
- Khả năng viết các kịch bản làm sạch và loại bỏ trùng lặp dữ liệu hiệu quả.
- Kỹ năng giải quyết vấn đề mạnh mẽ và chú ý đến chi tiết.
- Kinh nghiệm trong việc giám sát và tối ưu hóa hiệu suất trình thu thập dữ liệu là một lợi thế.


