Khám phá việc làm AI & Data nổi bật.
Xem ngay

Data Crawler Engineer (Web Scraping, Python)

CÔNG TY CỔ PHẦN SOLVITECH
OCT3A, Khu đô thị Resco, Quận Bắc Từ Liêm, Hà Nội
Tại văn phòng
Đăng 5 giờ trước
Chuyên môn:
Lĩnh vực:
Sản Phẩm Phần Mềm và Dịch Vụ Web

Mô tả công việc

1. Phát Triển Hệ Thống Scraping Chuyên Nghiệp 

Yêu Cầu Kỹ Thuật: Kiến Trúc Hệ Thống: 

  • Thiết kế script Python crawling đa nền tảng 
  • Xây dựng hệ thống có khả năng mở rộng ○ Phát triển giải pháp crawling song song 
  • Quản lý luồng dữ liệu lớn, đa luồng Công Nghệ: 
  • Scrapy, BeautifulSoup 
  • Selenium 
  • Asyncio, Multiprocessing 
  • Proxy management 
  • IP rotation techniques 

2. Xử Lý và Chuẩn Hóa Dữ Liệu Phương Pháp Xử Lý: 

  • Phát triển quy trình làm sạch dữ liệu API 
  • Thuật toán chuyển đổi dữ liệu 
  • Kiểm tra tính toàn vẹn 
  • Loại bỏ dữ liệu nhiễu Công Cụ: 
  • Pandas 
  • Data validation techniques 
  • Machine Learning preprocessing 

3. Quản Lý Cơ Sở Dữ Liệu Kỹ Năng Chuyên Môn: 

SQL Nâng Cao: 

  • Truy vấn phức tạp 
  • Tối ưu hóa hiệu năng 

4. Giám Sát & Tối Ưu Hóa Chiến Lược: 

  • Quản lý vận hành hệ thống scraping. 
  • Theo dõi hiệu suất scraping 
  • Xử lý thách thức: 
  • Chặn IP 
  • Giới hạn tốc độ 
  • CAPTCHA 

5. Báo cáo

  • Báo cáo trực tiếp cho: Quản lý và Ban Giám đốc 
  • Nội dung báo cáo: theo quy định chế độ báo cáo và nội dung báo cáo đối với phòng Technical 
  • Thời hạn báo cáo: Báo cáo tuần gửi vào Thứ 6 hàng tuần; Báo cáo tháng gửi vào Ngày cuối cùng của tháng 
  • Các loại báo cáo gồm: 
    • Báo cáo tiến độ hàng ngày 
    • Báo cáo hàng tuần 
    • Báo cáo hàng tháng 
    • Báo cáo nhanh theo cột mốc
    • Báo cáo sự cố 
    • Báo cáo hiệu suất 
  • Ngoài ra là các báo cáo đột xuất theo yêu cầu của Ban Giám đốc

TIÊU CHÍ ĐÁNH GIÁ 

  • Tính ổn định hệ thống 
  • Chất lượng dữ liệu 
  • Hiệu suất xử lý 
  • Khả năng mở rộng

Yêu cầu công việc

Trình Độ Học Vấn 

  • Tốt nghiệp Đại học (GPA > 3.0) 
  • Chuyên ngành: 
    • Khoa học dữ liệu 
    • Kỹ thuật máy tính 
    • Hoặc các ngành liên quan đến dữ liệu 
  • Tiếng Anh: TOEIC > 600 hoặc IELTS >5.5 

Kỹ Năng Kỹ Thuật Python Ecosystem 

  • Asyncio, Multiprocessing 
  • Data cleaning techniques 
  • Machine Learning preprocessing 
  • Advanced error handling Database & Big Data 
  • SQL (Trung cấp đến Nâng cao) 
  • NoSQL database management 
  • PySpark 
  • Data warehousing 

Kinh Nghiệm Chuyên Sâu 

  • Tối thiểu 1-2 năm 
  • Từng triển khai dự án: 
    • Web scraping 
    • Xử lý dữ liệu tự động 
    • Crawling dữ liệu lớn 

KỸ NĂNG MỀM 

  • Phân tích hệ thống 
  • Giải quyết vấn đề 
  • Làm việc độc lập & nhóm 
  • Quản lý thời gian 
  • Tư duy logic 

ĐIỂM CỘNG 

  • Kinh nghiệm Big Data 
  • Thiết kế data pipeline 
  • Làm việc với API đa dạng 
  • Chứng chỉ chuyên môn 
  • Tính sáng tạo và chủ động đề xuất ý tưởng

Tại sao bạn sẽ yêu thích làm việc tại đây

  • Môi trường công nghệ hiện đại 
  • Mức lương cạnh tranh 
  • Cơ hội phát triển 
  • Đào tạo liên tục
  • Phương tiện làm việc: được cấp thiết bị làm việc

CÔNG TY CỔ PHẦN SOLVITECH

Mô hình công ty
Sản phẩm
Lĩnh vực công ty
Sản Phẩm Phần Mềm và Dịch Vụ Web
Quy mô công ty
1-50 nhân viên
Quốc gia
Vietnam
Thời gian làm việc
Thứ 2 - Thứ 6
Làm việc ngoài giờ
Không có OT

Việc làm tương tự dành cho bạn

Nhận các việc làm tương tự qua email
NEW FOR YOU
Đăng 12 giờ trước

Data Engineer (Python, Cloud, SQL)

Linh hoạt