Big Data và nghề Data Scientist dưới góc nhìn của “Tiến sĩ Cambridge” Đặng Hoàng Vũ

big-data-la-gi

Big Data là tập hợp dữ liệu lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi những công nghệ hay phần mềm truyền thống không có khả năng xử lý trong một khoảng thời gian nhất định. Big Data đòi hỏi phải áp dụng công nghệ mới để thu thập, lưu trữ nhằm tối ưu hóa quá trình xử lý dữ liệu.

Thực ra, Big Data không có định nghĩa duy nhất. Ví dụ như IBM định nghĩa Big Data là 4V: Volume, Velocity, Variety, Veracity…”

Big Data không còn là công nghệ mới nổi mà đã trở thành xu hướng công nghệ chung của thế giới. Nghề Data Scientist cũng là nghề “đắt giá” và hứa hẹn tiếp tục được săn đón gắt gao.

Đọc bài phỏng vấn của ITviec với anh Đặng Hoàng VũChief Scientist của tập đoàn FPT để biết được:

  • Big Data là gì? Có ý nghĩa ra sao?
  • Những lầm tưởng về nghề Data Scientist và thử thách trong nghề
  • Tiêu chí tuyển dụng Data Scientist từ chính người trong cuộc
  • Tài liệu hữu ích để học Big Data

Xem thêm việc làm Big Data trên website ITviec

Tiểu sử: Sau khi tốt nghiệp với bằng Tiến sĩ khoa Toán học, trường Đại học Cambridge, anh Vũ về làm Software Engineer cho tập đoàn HP (Hewlett-Packard) tại Anh. Đến năm 2014, anh quay về Việt Nam và đầu quân cho FPT với vai trò Data Scientist. Hiện tại anh là Chief Scientist ở Ban công nghệ tập đoàn FPT.

Chào anh Vũ. Em thắc mắc là vì sao anh lại quyết định về Việt Nam và chuyển hướng sang Data Scientist?

Lúc đấy anh chỉ nghĩ rằng anh ở châu Âu quá lâu rồi nên muốn về nhà cho vui thôi.

Còn chuyển hướng sang Data Scientist thì trước kia lúc còn ở HP, anh đã làm về Machine Learning, xử lý ảnh rồi nên về Việt Nam, làm các dự án Data Science cũng phù hợp.

Tìm hiểu thêm về Machine Learning

Anh đã từng làm về Big Data cho những tập đoàn lớn như HP và FPT. Vậy theo cá nhân anh định nghĩa, Big Data là gì?

Big Data thực ra không có định nghĩa duy nhất. Ví dụ như IBM định nghĩa Big Data là 4V, bao gồm:

  • Volume: Khối lượng dữ liệu
  • Velocity: Tốc độ của dữ liệu
  • Variety: Sự đa dạng của dữ liệu
  • Veracity: Tính xác thực của dữ liệu

Nói chung, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp.

Các công ty làm Big Data thực ra cũng không quan tâm lắm đến định nghĩa chính xác. Họ chỉ quan tâm đến kết quả cuối cùng mà quá trình khai thác dữ liệu mang lại.

Sự khác nhau giữa Data truyền thống và Big Data là gì?

Chúng chỉ khác nhau ở quy mô và tốc độ thôi. 

Thực ra thuật ngữ Big Data cũng mang tính thời trang nữa. Nghĩa là thỉnh thoảng người ta vẫn áp tên gọi Big Data cho những dữ liệu ở quy mô bình thường, chứ không phải lúc nào cũng là dữ liệu quy mô lớn.

Theo anh thì Big Data có thực sự cần thiết? 

Khái niệm Big Data không phải trắng đen rõ ràng, người ta áp dụng nó nhiều khi cũng tùy hoàn cảnh. Không chỉ là thực sự cần thiết mà hiện nay Big Data là “xương sống” của hầu hết các công nghệ rồi.

Ví dụ: mỗi một sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.

Các công ty truyền thống cũng dùng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ cho công tác marketing…

Công việc hàng ngày của một Data Scientist là gì?

Công việc của Data Scientist được chia thành các bước chính:

– Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…

– Thu thập và xử lý dữ liệu

– Xây dựng các mô hình, thuật toán để đưa ra kết quả

– Test, đánh giá kết quả

– Đưa vào triển khai

Ở bước triển khai, công ty anh sẽ dùng các kết quả, dự đoán, đề xuất… được rút ra từ dữ liệu để đưa vào các hoạt động kinh doanh, marketing mà anh đã nhắc ở trên.

Những khó khăn và thử thách khi làm việc với Big Data mà anh cảm nhận được?

Khó khăn thì có 3 loại:

  • (1) là đối tác không cho dữ liệu,
  • (2) là code sai nên phải code đi code lại nhiều lần
  • (3) là code không ra kết quả như ý.

Anh nghĩ thu thập và xử lý dữ liệu là phần việc mất nhiều thời gian và công sức nhất. Em phải làm việc với nhiều bộ phận khác nhau, các nguồn dữ liệu nhiều khi cũng không nhất quán và chất lượng dữ liệu thường là không tốt.

Còn phần mọi người hay mắc sai lầm nhất chính là đánh giá và triển khai kết quả. Nhiều khi dân kỹ thuật thường đặt ra các tiêu chí theo lý thuyết hoặc theo các case study có sẵn nhưng nó lại không phù hợp với quy trình kinh doanh thực tế.

Ví dụ: Trước đây anh và team có làm việc với một khách hàng khá có tiếng trong lĩnh vực thương mại điện tử (anh không tiện nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm bán được trên website.

Sau khi phân tích và đánh giá dựa trên dữ liệu thu thập được, cả team anh quyết định sẽ sắp xếp lại các link sản phẩm để hấp dẫn khách hàng. Vì bọn anh nghĩ rằng khách hàng càng xem được nhiều sản phẩm thì họ sẽ mua hàng nhiều hơn.

Đúng là lần đó khách hàng mỗi khi vào website xem nhiều sản phẩm hơn thật nhưng mà kết quả kinh doanh không có cải thiện gì. Nguyên nhân là vì họ cảm thấy bị “ngợp”, không biết quyết định như thế nào, thế là không mua nữa.

Rõ ràng, bọn anh đã hoàn thành được tiêu chí mình đề ra là kích thích hành vi xem sản phẩm và giữ khách hàng ở lâu hơn trên website nhưng như em thấy đó, nó không mang lại lợi ích thực tế nào cho doanh nghiệp cả.

Ở một góc nhìn khác, blogger Ông Xuân Hồng cho hay: “Một trong những sai lầm của người làm Data Scientist là chưa có mindset đúng.

Background của tôi là full-stack web developer nên mindset của tôi là một Software engineer. Một Software engineer sau khi xác định được vấn đề của mình sẽ tìm kiếm công cụ tương ứng (thường là Google, Stackoverflow) để giải quyết vấn đề hiệu quả và hợp lý nhất. Mindset này đã giúp tôi thành công trong thời gian vừa qua với vai trò của một Engineer. Tiếc rằng khi bê nguyên xi mindset này vào DS đã khiến tôi thất bại thảm hại.

Tôi tập trung nhiều vào tool-box mà bỏ qua việc đặt câu hỏi nghiên cứu và planning (lên kế hoạch) nên đã dẫn đến thất bại trong phân tích. 

Ví dụ, tôi cố gắng brute-force tất cả các các phân tích đã biết mà không thật sự rõ mình muốn gì. Điều này đã dẫn đến kết quả phân tích tràn ngập các con số và biểu đồ sơ sài. Hơn nữa việc thiếu định hướng trong phân tích đã không thôi thúc tôi tìm hiểu sâu hơn dữ liệu đang tiềm ẩn những gì thú vị ở đó.”

Anh đã làm gì để vượt qua những thử thách này?

Cái này thì dự án nào cũng gặp hết, không phải thử thách theo kiểu vượt qua 1 lần là được (cười). Khi có nhiều kinh nghiệm thì sẽ quen thôi.

Tất nhiên là mỗi dự án cụ thể đều có cách giải quyết nhưng mà không có công thức chung. Em phải dựa vào kinh nghiệm và thí nghiệm để giải quyết.

Làm sao để một người có thể trở thành Data Scientist vậy anh?

Điều đầu tiên là phải biết lập trình (cười). Bạn không cần phải chạy theo các ngôn ngữ hoặc công cụ mới nhất nhưng phải có tư duy rõ ràng, mạch lạc.

Có rất nhiều thứ để học: 

  • Ngôn ngữ lập trình Python. Ngoài Python thì có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
  • Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
  • Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
  • Thống kê cơ bản

Bạn phải có hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala, sau nữa phải biết cách làm việc với Data Engineer.

Tóm lại, không cần biết tất cả nhưng tối thiểu phải biết về SQL, Numpy, Scikit-learn và 1 công cụ Machine Learning. Tất nhiên khi bắt đầu có thể hơi khó khăn nhưng vừa làm vừa học cũng được.

Tham khảo thêm: 20 tài liệu học lập trình Python

Có nhiều người vẫn chưa thực sự phân biệt được Data Engineer và Data Scientist. Anh có thể định nghĩa chúng một cách ngắn gọn?

Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích. Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.

big-data-la-gi-2

Anh Vũ (thứ 2 từ trái sang) cùng đồng nghiệp

Cơ hội nghề nghiệp cho những người muốn làm việc với Big Data nói riêng? Và những người muốn trở thành Data Scientist nói chung?

Anh nghĩ cơ hội nghề nghiệp nói  là tốt. So với nghề Developer nói chung thì tất nhiên là số việc làm ít hơn nhiều nhưng mà mức thu nhập khá ổn. Công việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm.

Xem ngay: Việc làm Data Scientist trên ITviec

Có điều gì mà nhiều người lầm tưởng về nghề Data Scientist không anh?

Có một số người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải. Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn.

Data Scientist là người giải quyết các vấn đề cho doanh nghiệp bằng cách phân tích dữ liệu chứ không phải là nhà khoa học nghiên cứu cái mới.

Anh lựa chọn Data Scientist dựa trên những tiêu chí nào?

Đầu tiên là đầu óc phải sáng sủa. Đặc biệt là không được cố chấp vì sai là chuyện bình thường.

Bạn đó phải có khả năng code rõ ràng, mạch lạc và biết cơ bản về Python. Nếu biết về Machine Learning, Database hoặc toán thống kê là một lợi thế lớn. 

Ngoài ra, còn phải có khả năng giao tiếp, biết diễn đạt và lắng nghe người khác. Nên nhớ đây ko phải vị trí làm việc một mình (cười).

Điều gì mà anh nghĩ một người cần biết trước khi quyết định có trở thành Data Scientist hay không?

Anh nghĩ nghề Data Scientist cũng không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có tinh thần học hỏi là làm được.

Những nguồn học Big Data hiệu quả

  • Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
  • Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data là gì và tấ cả những gì liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: The Definitive Guide: được viết bởi Tom White – một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
  • High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.

Ngoài ra, các khóa học Big Data online trên Coursera cũng đáng để cân nhắc.

Robby2

Bạn có nghĩ những kiến thức về Big Data này thực sự mang lại ý nghĩa? Hoặc bạn muốn chia sẻ kinh nghiệm về nghề Data Scientist? Hãy để lại bình luận bên dưới nhé.

Và đừng quên tham khảo việc làm Big Data tại ITviec!

About the Author:

Social Content Lead
Avatar

Read more...

error: