Middle AI Engineer (RAG/LLM/Computer Vision )

Công ty Cổ phần Công nghệ DP Unity

Ứng tuyển

331 Nguyễn Trọng Tuyển, P.10, TP Hồ Chí Minh

Tại văn phòng

Đăng 27 ngày trước

Kỹ năng:

AI Computer Vision JSON Git Docker Python

Chuyên môn:

Kỹ sư AI / Machine Learning

Lĩnh vực:

Dịch Vụ và Tư Vấn IT

Mô tả công việc

Chúng tôi đang xây dựng các tính năng AI cho sản phẩm phần mềm thương mại trong lĩnh vực xây dựng / BIM, và đang tuyển 2 Kỹ sư AI cho hai mảng chuyên môn khác nhau:

Track A — AI Tài liệu: xây dựng agent đọc, tổng hợp tài liệu PDF kỹ thuật, tra cứu quy chuẩn – tiêu chuẩn (TCVN, ISO…) và phát hiện điểm bất thường để gợi ý người dùng kiểm tra (trợ lý soát lỗi, không phải phán quyết tự động).
Track B — AI Thị giác: xây dựng hệ thống phát hiện thay đổi (change detection) từ ảnh flycam/vệ tinh — ví dụ so sánh hai lần bay để phát hiện công trình mới xây và xác định vị trí.

Tóm tắt nhanh - Bạn sẽ làm gì ?

Track A: xây dựng AI đọc hiểu tài liệu kỹ thuật, RAG, tra cứu tiêu chuẩn, phát hiện bất thường.
Track B: xây dựng AI phát hiện công trình thay đổi từ ảnh flycam / vệ tinh.
Không yêu cầu biết cả hai track — thạo một mảng là đủ nộp.
Ưu tiên người từng đưa sản phẩm AI chạy thật, hơn là bằng cấp.

Cả hai vị trí đều thiên về kỹ sư ứng dụng (applied / product engineering): trọng tâm là biến mô hình có sẵn ưu tiên mã nguồn mở hoặc chi phí hợp lý, thành sản phẩm chạy ổn định, đáng tin cậy và tối ưu chi phí để bán cho khách hàng — không phải nghiên cứu thuật toán mới. Với Track B, công việc có thể bao gồm tinh chỉnh (fine-tune) model pretrain trên dữ liệu thực tế để phù hợp ảnh tại Việt Nam. Bạn làm việc cùng người phụ trách kỹ thuật (tech lead) để hiện thực hóa kiến trúc đã duyệt, và chủ động đi từ yêu cầu đến sản phẩm chạy được.

Track A - AI Tài liệu (RAG/LLM)

Trách nhiệm:

Xây dựng pipeline RAG (Retrieval-Augmented Generation) để tra cứu tài liệu, quy chuẩn, tiêu chuẩn và trả lời có dẫn nguồn rõ ràng.
Phát triển agent xử lý tài liệu: nhận PDF đầu vào, trích xuất – tổng hợp thông tin, đối chiếu bộ tiêu chuẩn, xuất kết quả có cấu trúc (JSON).
Xây dựng cơ chế phát hiện lỗi / bất thường / thiếu sót trong tài liệu và sinh cảnh báo dễ hiểu cho người dùng.
Cùng team xây dựng “kho kinh nghiệm lỗi” (error memory): lưu lại các lỗi thường gặp để hệ thống cải thiện dần theo dữ liệu thực tế — đây là lợi thế cạnh tranh của sản phẩm.
Ép mô hình trả kết quả ổn định, hạn chế “bịa” (hallucination) — yếu tố sống còn với sản phẩm tra cứu tiêu chuẩn.

Yêu cầu chính:

Đã xây dựng ít nhất một hệ thống RAG hoặc ứng dụng LLM chạy thật.
Thành thạo ít nhất một framework ứng dụng LLM: LangChain, LlamaIndex hoặc tương đương.
Kinh nghiệm với cơ sở dữ liệu vector: Qdrant, ChromaDB, Weaviate hoặc pgvector (PostgreSQL).
Thành thạo prompt engineering và kỹ thuật ép mô hình trả kết quả có cấu trúc.
Kinh nghiệm trích xuất dữ liệu từ PDF và tài liệu không / bán cấu trúc (PyMuPDF, pdfplumber hoặc tương đương).

Điểm cộng:

Kinh nghiệm OCR tài liệu scan tiếng Việt (khử nhiễu, nhận đúng dấu, OCR bảng biểu) với Tesseract, PaddleOCR hoặc tương đương.
Kinh nghiệm với Agentic RAG, AI agent, quy trình AI nhiều bước.
Đã xây dựng vòng lặp cải thiện chất lượng dựa trên feedback / dữ liệu lỗi.

Track B - AI Thị giác (Change Detection)

Lưu ý quan trọng: Ứng viên KHÔNG cần phụ trách bay flycam, ghép ảnh, georeference hay xử lý GIS chuyên sâu — phần này đã có đội ngũ nội bộ đảm nhận. Bạn nhận dữ liệu ảnh đã xử lý sẵn và tập trung hoàn toàn vào lớp AI thị giác.

Trách nhiệm:

Xây dựng hệ thống phát hiện thay đổi từ ảnh trên cao: nhận hai ảnh trực giao (đã ghép, khớp tọa độ) ở hai thời điểm, phát hiện công trình/nhà mới xây và khoanh vùng vị trí.
Lựa chọn, tích hợp và tinh chỉnh các model change detection mã nguồn mở (Open-CD, ChangeFormer, RSBuilding, BIT… hoặc tương đương).
Xử lý lọc nhiễu: phân biệt thay đổi thật (công trình) với thay đổi vặt (bóng, xe, cây, mùa vụ) để giảm báo động giả.
Kết hợp model thị giác-ngôn ngữ (VLM) để xác nhận và mô tả vùng thay đổi cho người dùng.
Tích lũy dữ liệu ảnh thực tế + nhãn đúng/sai làm “kho kinh nghiệm” để cải thiện độ chính xác của model theo thời gian.

Yêu cầu chính:

Thành thạo PyTorch (hoặc TensorFlow) và quen với quy trình huấn luyện / tinh chỉnh model thị giác.
Kinh nghiệm với computer vision: phân vùng ngữ nghĩa (semantic segmentation), phát hiện đối tượng, hoặc change detection.
Biết sử dụng và tinh chỉnh model pretrain (Hugging Face, model zoo, hoặc các repo như Open-CD).
Thành thạo xử lý ảnh với OpenCV, NumPy; làm việc được với ảnh độ phân giải cao.
Hiểu cách đánh giá model thị giác (IoU, F1, precision/recall) và cải thiện độ chính xác.

Điểm cộng:

Kinh nghiệm với ảnh viễn thám / vệ tinh / flycam và các bộ dữ liệu change detection (LEVIR-CD, WHU, S2Looking).
Quen làm việc với ảnh có tọa độ địa lý (rasterio, GDAL) — dù phần GIS đã có đội khác lo.
Kinh nghiệm với mô hình thị giác-ngôn ngữ (VLM) như Grounding DINO, SAM, Qwen-VL.
Sản phẩm có lộ trình mở rộng sang phân tích video giám sát công trường (an toàn lao động, phát hiện hành vi bất thường). Ứng viên có hứng thú hoặc kinh nghiệm video understanding / object tracking là một lợi thế cho định hướng tương lai.

Kỹ năng mềm:

Tư duy phân tích và giải quyết vấn đề tốt; biết đặt câu hỏi đúng trước khi code.
Tinh thần làm chủ công việc (ownership), chủ động đi từ yêu cầu đến kết quả.
Truyền đạt ý tưởng kỹ thuật rõ ràng cho cả người trong và ngoài ngành kỹ thuật.
Cẩn trọng với chất lượng đầu ra — đây là sản phẩm bán cho khách hàng kỹ thuật.
Sẵn sàng học công nghệ AI mới và áp dụng vào bài toán kinh doanh thực tế.

Kết quả kỳ vọng sau 3 - 6 tháng:

Để bạn hình dung rõ vai trò, đây là những gì chúng tôi kỳ vọng đạt được sau 3--6 tháng đầu:

Track A: triển khai được pipeline RAG đọc tài liệu kỹ thuật, trả lời có dẫn nguồn, xuất kết quả JSON có cấu trúc dùng được trong sản phẩm.
Track B: triển khai được pipeline change detection nhận hai ảnh trước/sau, trả ra vùng công trình mới kèm vị trí, có thể đánh giá bằng precision / recall / IoU và đạt mức dùng được cho sản phẩm.
Cả hai: đóng gói được service bằng Docker / API để tích hợp vào sản phẩm chính.

Yêu cầu công việc

Tốt nghiệp Đại học ngành Khoa học máy tính, CNTT, Kỹ thuật phần mềm, Trí tuệ nhân tạo hoặc tương đương (hoặc có sản phẩm / kinh nghiệm tương xứng).
Khoảng 2–4 năm kinh nghiệm (hoặc ít hơn nếu năng lực tương đương); thành thạo Python, nền tảng kỹ thuật phần mềm vững (Git, REST API, code sạch dễ bảo trì).
Biết gọi mô hình qua API và có kinh nghiệm chạy mô hình mã nguồn mở (local hoặc trên server) để tối ưu chi phí.
Đóng gói và triển khai dịch vụ bằng Docker.
Đã từng đưa ít nhất một sản phẩm/dự án AI chạy thật (không chỉ làm theo tutorial).

Bạn không cần đáp ứng 100% các công nghệ được liệt kê. Chúng tôi đánh giá cao khả năng học nhanh và sản phẩm bạn đã làm hơn là việc tick đủ mọi từ khóa.

Tại sao bạn sẽ yêu thích làm việc tại đây

Lương: thỏa thuận theo năng lực và kinh nghiệm thực tế, cạnh tranh so với mặt bằng thị trường.
Tham gia BHXH, BHYT, BHTN theo quy định của Nhà nước và Công ty.
Lương tháng 13, thưởng các ngày lễ, Tết và thưởng theo hiệu suất làm việc.
Làm sản phẩm thật, không outsourcing: bạn sở hữu mảng kỹ thuật của mình, thấy sản phẩm đến tay khách hàng thật trong ngành xây dựng / BIM.
Chuyên môn có chiều sâu: được làm với AI ứng dụng, BIM/GIS và bài toán kỹ thuật thực tế, có người định hướng kiến trúc rõ ràng.
Dữ liệu thực tế: được làm trực tiếp với tài liệu kỹ thuật, hồ sơ công trình và ảnh bay thật — không phải dữ liệu giả lập.
Lộ trình phát triển: cơ hội phát triển thành Senior AI Engineer / AI Product Engineer khi sản phẩm mở rộng.
Môi trường làm việc trẻ trung, đề cao tính chủ động, định hướng phát triển lâu dài.