Explore outstanding AI & Data jobs.
See now

Data Crawler Engineer (Web Scraping, Python)

CÔNG TY CỔ PHẦN SOLVITECH
OCT3A, Khu đô thị Resco, Bac Tu Liem, Ha Noi
At office
Posted 4 hours ago
Job Expertise:
Job Domain:
Software Products and Web Services

Job description

1. Phát Triển Hệ Thống Scraping Chuyên Nghiệp 

Yêu Cầu Kỹ Thuật: Kiến Trúc Hệ Thống: 

  • Thiết kế script Python crawling đa nền tảng 
  • Xây dựng hệ thống có khả năng mở rộng ○ Phát triển giải pháp crawling song song 
  • Quản lý luồng dữ liệu lớn, đa luồng Công Nghệ: 
  • Scrapy, BeautifulSoup 
  • Selenium 
  • Asyncio, Multiprocessing 
  • Proxy management 
  • IP rotation techniques 

2. Xử Lý và Chuẩn Hóa Dữ Liệu Phương Pháp Xử Lý: 

  • Phát triển quy trình làm sạch dữ liệu API 
  • Thuật toán chuyển đổi dữ liệu 
  • Kiểm tra tính toàn vẹn 
  • Loại bỏ dữ liệu nhiễu Công Cụ: 
  • Pandas 
  • Data validation techniques 
  • Machine Learning preprocessing 

3. Quản Lý Cơ Sở Dữ Liệu Kỹ Năng Chuyên Môn: 

SQL Nâng Cao: 

  • Truy vấn phức tạp 
  • Tối ưu hóa hiệu năng 

4. Giám Sát & Tối Ưu Hóa Chiến Lược: 

  • Quản lý vận hành hệ thống scraping. 
  • Theo dõi hiệu suất scraping 
  • Xử lý thách thức: 
  • Chặn IP 
  • Giới hạn tốc độ 
  • CAPTCHA 

5. Báo cáo

  • Báo cáo trực tiếp cho: Quản lý và Ban Giám đốc 
  • Nội dung báo cáo: theo quy định chế độ báo cáo và nội dung báo cáo đối với phòng Technical 
  • Thời hạn báo cáo: Báo cáo tuần gửi vào Thứ 6 hàng tuần; Báo cáo tháng gửi vào Ngày cuối cùng của tháng 
  • Các loại báo cáo gồm: 
    • Báo cáo tiến độ hàng ngày 
    • Báo cáo hàng tuần 
    • Báo cáo hàng tháng 
    • Báo cáo nhanh theo cột mốc
    • Báo cáo sự cố 
    • Báo cáo hiệu suất 
  • Ngoài ra là các báo cáo đột xuất theo yêu cầu của Ban Giám đốc

TIÊU CHÍ ĐÁNH GIÁ 

  • Tính ổn định hệ thống 
  • Chất lượng dữ liệu 
  • Hiệu suất xử lý 
  • Khả năng mở rộng

Your skills and experience

Trình Độ Học Vấn 

  • Tốt nghiệp Đại học (GPA > 3.0) 
  • Chuyên ngành: 
    • Khoa học dữ liệu 
    • Kỹ thuật máy tính 
    • Hoặc các ngành liên quan đến dữ liệu 
  • Tiếng Anh: TOEIC > 600 hoặc IELTS >5.5 

Kỹ Năng Kỹ Thuật Python Ecosystem 

  • Asyncio, Multiprocessing 
  • Data cleaning techniques 
  • Machine Learning preprocessing 
  • Advanced error handling Database & Big Data 
  • SQL (Trung cấp đến Nâng cao) 
  • NoSQL database management 
  • PySpark 
  • Data warehousing 

Kinh Nghiệm Chuyên Sâu 

  • Tối thiểu 1-2 năm 
  • Từng triển khai dự án: 
    • Web scraping 
    • Xử lý dữ liệu tự động 
    • Crawling dữ liệu lớn 

KỸ NĂNG MỀM 

  • Phân tích hệ thống 
  • Giải quyết vấn đề 
  • Làm việc độc lập & nhóm 
  • Quản lý thời gian 
  • Tư duy logic 

ĐIỂM CỘNG 

  • Kinh nghiệm Big Data 
  • Thiết kế data pipeline 
  • Làm việc với API đa dạng 
  • Chứng chỉ chuyên môn 
  • Tính sáng tạo và chủ động đề xuất ý tưởng

Why you'll love working here

  • Môi trường công nghệ hiện đại 
  • Mức lương cạnh tranh 
  • Cơ hội phát triển 
  • Đào tạo liên tục
  • Phương tiện làm việc: được cấp thiết bị làm việc

CÔNG TY CỔ PHẦN SOLVITECH

Company type
IT Product
Company industry
Software Products and Web Services
Company size
1-50 employees
Country
Vietnam
Working days
Monday - Friday
Overtime policy
No OT