IT System Reliability Engineer

442 Nguyễn Thị Minh Khai, District 3, Ho Chi Minh
See map
4 days ago

Top 3 Reasons To Join Us

  • Phúc lợi siêu hấp dẫn tại ACB
  • Lương cực kỳ cạnh tranh
  • Áp dụng công nghệ mới nhất

The Job

  • Define service level objectives (SLOs) and service level indicators (SLIs) to represent and measure service quality.
  • Xác định mục tiêu cấp độ dịch vụ (SLO) và chỉ số cấp độ dịch vụ (SLIs) để thể hiện và đo lường chất lượng dịch vụ.
  • You are the kind of person that can combine software and systems engineering to build and run large-scale, distributed, fault-tolerant systems, to ensure our internal critical and our externally-visible systems have reliability and uptime.
  • Là nhân sự biết kết hợp kỹ thuật phần mềm và hệ thống để xây dựng và chạy các hệ thống fault –tolerant được phân phối ở quy mô lớn, đảm bảo các hệ thống quan trọng nội bộ và bên ngoài có độ tin cậy và thời gian vận hành nhìn thấy được.
  • Work closely with Branch Support teams, Operations teams, Development teams, Testing teams to meet SLA and provide world-class support for application or infrastructure issues across the enterprise.
  • Phối hợp chặt chẽ với các nhóm Hỗ trợ chi nhánh, Nhóm vận hành, Nhóm phát triển, Nhóm thử nghiệm thỏa cam kết mức độ dịch vụ (SLA) và cung cấp hỗ trợ đẳng cấp thế giới cho các vấn đề về ứng dụng hoặc cơ sở hạ tầng trên phạm vi toàn doanh nghiệp.
  • Develop runbooks and maintain services once they are live by measuring and monitoring availability, latency and overall system health.
  • Phát triển runbook và duy trì dịch vụ khi nó có sẵn trên hệ thống bằng cách đo lường và giám sát khả năng , độ trễ và sức khỏe tổng thể của hệ thống
  • Use configuration management tools to create scalable, repeatable environments.
  • Sử dụng các công cụ quản lý cấu hình để tạo các môi trường có thể mở rộng và lặp lại
  • Create dashboards which communicate and alert on the overall system health to less technical colleagues.
  • Tạo ra các bảng báo cáo chia sẻ thông tin và cảnh báo sức khỏe tổng thể hệ thống cho các đồng nghiệp ít kỹ thuật hơn.
  • Develop system configuration management templates, and audit systems against those templates over the system lifecycle.
  • Phát triển các biểu mẫu quản lý cấu hình hệ thống và các hệ thống kiểm toán đối với các biểu mẫu đó theo vòng đời hệ thống
  • Work with developers to quickly identify and address issues to provide smooth code rollouts and seamless change back-out when there are problems.
  • Làm việc với các nhân sự phát triển phần mềm để xác định và giải quyết các vấn đề nhanh chóng nhằm đưa ra các triển coding tốt hơn và các cơ sở thay đổi liền lạc khi có vấn đề xày ra.
  • Monitoring, alerting, problem-solving, and coordinating incident response when service failures, infrastructure issues, or deployment issues occur.
  • Theo dõi, cảnh báo, giải quyết vấn đề và phối hợp ứng phó sự cố khi xảy ra lỗi dịch vụ, sự cố cơ sở hạ tầng hoặc sự cố triển khai.
  • Create incident response reporting, conduct post-mortem reviews of system downtime with internal stakeholders to put short- and long-term solutions in place to eliminate repeat occurrences.
  • Tạo báo cáo ứng phó sự cố, tiến hành đánh giá , phân tích tỉ mỉ thời gian ngừng hoạt động của hệ thống với các bên liên quan trong nội bộ để đưa ra các giải pháp ngắn hạn và dài hạn nhằm loại bỏ các sự cố lặp lại.
  • Perform hands-on analysis and troubleshooting of production environment.
  • Phân tích các thực hành và xử lý sự cố của môi trường Production.
  • Identify, define, and build improvements to support tools, processes, and the service itself.
  • Xác định, định nghĩa và xây dựng các cải tiến cho các công cụ hỗ trợ, quy trình và các dịch vụ của chinh nó.
  • Improve customer experience with delivering new service monitoring, alarming and scripting.
  • Cải thiện trải nghiệm của khách hàng với việc cung cấp dịch vụ mới về giám sát , báo động và kịch bản triển khai.

Your Skills and Experience

Requirements: Yêu cầu:

  • Expertise in designing, analyzing and troubleshooting large-scale distributed systems.
  • Ability to debug and optimize code and to automate routine tasks.
  • Systematic problem-solving approach, coupled with effective communication skills and a sense of ownership and drive.
  • Familiarity with site and infrastructure monitoring systems (for example Prometheus/Datadog/NewRelic, ELK/EFK)
  • SysOps experience, including expertise in administration, monitoring, troubleshooting, performance tuning, preventative maintenance and capacity planning.
  • Networking (TCP/IP, routing, network topologies and hardware, SDN, OpenVSwitch,etc).
  • Broad understanding of large-scale system architecture, automation, integration, and processes.
  • Ability to work night/weekend shifts
  • 4+ year of work experience with production database, application server systems administration
  • 2+ years with configuration management, source control and containerization tools (Git, Docker, Kubernetes, OpenShift/Rancher...)
  • 2+ year of work experience managing Cloud-based infrastructure and automation (Ansible/Salt/Chef, Terraform, Helm Chart, Azure, AWS...)
  • 2+ year of experience with at least one scripting language (e.g. Bash, Python, Ruby, Go )
  • Motivated, critical thinker with proven skills to troubleshoot and solve problems in a production support environment
  • Ability to successfully manage competing priorities in critical incident situations
  • Strong desire to learn and understand new technologies
  • Excellent verbal and written communication skills

Education:

  • Bachelor’s Degree or equivalent experience.
  • Bằng cấp Cử nhân hoặc tương đương

Desired: Mong muốn

  • Experience working with ITIL and Service Management best practices is a plus.
  • Hành động làm việc với ITIL và Service Management best practice
  • Startup experience a plus
  • Ưu tiên ứng viên có kinh nghiệm về khởi nghiệp
  • Agile software development experience a plus
  • Có kinh nghiệm Agile software là một lợi thế.

Why You'll Love Working Here

Bắt Tay Cùng ACB

  • Bạn có thêm 10.000 đồng nghiệp tại 365 đơn vị trên cả nước.
  • Bạn được chia sẻ những mối quan tâm với một cộng đồng thân thiện, tôn trọng con người
  • Bạn tiếp cận với kiến thức, kỹ năng mới nhất bằng các phương pháp tư đào tạo hiện đại
  • Bạn làm chủ con đường sự nghiệp trong một môi trường luôn vận động, đầy thách thức
  • Chế độ phúc lợi, đãi ngộ của bạn được bảo đảm
  • Bạn thực hiện trách nhiệm với cộng đồng qua những hoạt động tình nguyện ý nghĩa

Và Nếu Bạn Là Một Nhân Tài Của ACB

  • Chúng tôi tạo điều kiện để bạn chủ động nắm bắt những cơ hội thăng tiến công bằng, nhanh chóng.
  • Bạn được quy hoạch, huấn luyện và đào tạo để đáp ứng nhu cầu nguồn lực trung, dài hạn cũng như đủ năng lực kế thừa
  • Có sự đánh giá, ghi nhận và tưởng thưởng xứng đáng