Big Data là gì? Big Data là tập hợp dữ liệu lớn (cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh và phức tạp đến nỗi những công nghệ hay phần mềm truyền thống không có khả năng xử lý trong một khoảng thời gian nhất định.
Khối lượng chính xác của Big Data không phải vấn đề quan trọng (có thể là vài petabyte hoặc exabytes), điểm mấu chốt là nếu biết khai thác đúng hướng thì Big Data sẽ mang lại tiềm lực cạnh tranh lớn cho doanh nghiệp.
Để hiểu thêm Big Data là gì, ITviec đã trò chuyện cùng anh Đặng Hoàng Vũ – Chief Scientist của tập đoàn FPT và đã “khai thác” được rất nhiều thông tin hữu ích.
Xem thêm việc làm Big Data trên website ITviec
Big Data là gì?
Big Data là gì?
Theo anh Vũ, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp. Tuy nhiên, thật ra không có định nghĩa duy nhất cho Big Data là gì. Ví dụ, như IBM định nghĩa Big Data là 4V, bao gồm:
- Volume: Khối lượng dữ liệu
- Velocity: Tốc độ của dữ liệu
- Variety: Sự đa dạng của dữ liệu
- Veracity: Tính xác thực của dữ liệu
Thật ra, thuật ngữ Big Data cũng mang tính thời trang nữa. Nghĩa là thỉnh thoảng người ta vẫn áp tên gọi Big Data cho những dữ liệu ở quy mô bình thường, chứ không phải lúc nào cũng là dữ liệu quy mô lớn.
Anh Vũ khẳng định rằng Big Data hiện nay không chỉ là thực sự cần thiết mà đã là “xương sống” của hầu hết các công nghệ.
Ví dụ: mỗi một sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.
Các công ty truyền thống cũng dùng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ cho công tác marketing…
Xem thêm: Những siêu năng lực mà Big Data đem đến cho doanh nghiệp
Những khó khăn khi làm việc với Big Data là gì?
Khi làm việc với Big Data, sẽ có những khó khăn lớn như sau:
- Chất lượng dữ liệu không đảm bảo
Trong quá trình làm việc với Big Data, anh Vũ chia sẻ rằng giai đoạn thu thập và xử lý dữ liệu là phần việc mất nhiều thời gian và công sức nhất. Lúc đó, anh phải làm việc với nhiều bộ phận khác nhau dẫn đến việc các nguồn dữ liệu không nhất quán và chất lượng dữ liệu không tốt.
- Kết quả triển khai không như ý
Với kinh nghiệm làm việc của mình, anh cho rằng sai lầm dễ mắc phải nhất chính là đánh giá và triển khai kết quả dựa trên dữ liệu đã thu thập và xử lý. Nhiều khi dân kỹ thuật thường đặt ra các tiêu chí theo lý thuyết hoặc theo các case study có sẵn nhưng nó lại không phù hợp với quy trình kinh doanh thực tế.
Trước đây anh đã từng làm việc với một khách hàng khá có tiếng trong lĩnh vực thương mại điện tử (anh không tiện nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm bán được trên website.
Sau khi phân tích và đánh giá dựa trên dữ liệu thu thập được, cả team anh quyết định rằng sẽ để khách hàng xem được càng nhiều sản phẩm càng kích thích hành vi mua hàng.
Kết quả rằng, khách hàng ở lâu hơn trên website và xem nhiều sản phẩm hơn thật nhưng kết quả kinh doanh không có cải thiện. Nguyên nhân là vì họ cảm thấy bị “ngợp”, không biết quyết định như thế nào, thế là không mua nữa.
Rõ ràng, tuy đã hoàn thành được tiêu chí tự đề ra là kích thích hành vi xem sản phẩm nhưng không mang lại lợi ích thực tế nào cho doanh nghiệp.
Cũng theo anh, các công ty làm Big Data thực ra cũng không quan tâm lắm đến định nghĩa chính xác Big Data là gì. Họ chỉ quan tâm đến kết quả cuối cùng mà quá trình khai thác dữ liệu mang lại nên người làm việc với Big Data cần phải hiểu rõ mục đích cuối cùng là gì.
Nghề “làm” Big Data là gì? Là Data Scientist!
Công việc hằng ngày của một Data Scientist
Anh Vũ chia sẻ về những “bước” trong công việc hằng ngày của một Data Scientist:
- Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…
- Thu thập và xử lý dữ liệu
- Xây dựng các mô hình, thuật toán để đưa ra kết quả
- Test, đánh giá kết quả
- Đưa vào triển khai
Ở bước triển khai, công ty sẽ dùng các kết quả, dự đoán, đề xuất… được rút ra từ dữ liệu để đưa vào các hoạt động kinh doanh, marketing như anh Vũ đã nhắc ở phần chia sẻ trên.
Những kỹ năng cần thiết để trở thành Data Scientist
Để trở thành một Data Scientist, có rất nhiều kỹ năng và công cụ bạn cần học:
- Kỹ năng đầu tiên mà bạn cần đương nhiên phải là lập trình. Bạn nên học ngôn ngữ lập trình Python
- Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
- Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
- Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
- Hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala
- Thống kê cơ bản
Ngoài kỹ năng cứng về chuyên môn, bạn còn cần kỹ năng mềm nữa. Nghề này cần tư duy rõ ràng, mạch lạc và bạn phải biết cách làm việc với Data Engineer.
Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích. Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.
Có rất nhiều kỹ năng và kiến thức bạn cần trau dồi, tất nhiên khi bắt đầu có thể hơi khó khăn nhưng bạn có thể vừa làm vừa học.
Xem thêm: 20 tài liệu học lập trình Python
Cơ hội nghề nghiệp với Big Data
Anh Vũ nhận định rằng cơ hội nghề nghiệp dành cho những ai muốn làm việc với Big Data vô cùng rộng mở. So với nghề Developer nói chung thì tất nhiên là số việc làm liên quan đến Big Data sẽ ít hơn nhiều. Tuy nhiên, bởi vì ít, hiếm nên mức thu nhập khá ổn. Công việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm mà bạn đang theo làm.
Xem ngay: Việc làm Data Scientist trên ITviec
Tại vị trí của mình, anh cũng tham gia tuyển dụng Data Scientist. Từ đó, anh Vũ chia sẻ một vài tiêu chí anh dựa trên để tuyển người vào làm việc chung:
- Khả năng code rõ ràng, mạch lạc.
- Biết cơ bản về Python. Nếu biết về Machine Learning, Database hoặc toán thống kê là một lợi thế lớn.
- Tinh thần tốt. Đặc biệt là không được cố chấp vì làm sai và được nhắc nhở là chuyện bình thường.
- Có khả năng giao tiếp, biết diễn đạt và lắng nghe người khác. Nên nhớ đây không phải vị trí làm việc một mình.
Những nguồn tài liệu tham khảo Big Data
- Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
- Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data là gì và tấ cả những gì liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
- Hadoop: The Definitive Guide: được viết bởi Tom White – một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
- High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.
Ngoài ra, các khóa học Big Data online trên Coursera cũng đáng để cân nhắc.
Data Scientist trong ngành nói gì?
Anh Vũ chia sẻ về một nhận định sai lầm, một hiểu lầm, mà anh đã từng nghe trong quá trình làm việc với Big Data nói chung, làm Data Scientist nói riêng.
Có một số người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải. Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn.
Data Scientist là người giải quyết các vấn đề cho doanh nghiệp bằng cách phân tích dữ liệu chứ không phải là nhà khoa học nghiên cứu cái mới.
Có thể vì chữ Scientist này mà nhiều người cho rằng đây là một ngành nghề đòi hỏi nhiều sự mạo hiểm, đánh đổi. Thật ra là không. Data Scientist không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có tinh thần học hỏi là làm được.
Tiểu sử: Sau khi tốt nghiệp với bằng Tiến sĩ khoa Toán học, trường Đại học Cambridge, anh Vũ về làm Software Engineer cho tập đoàn HP (Hewlett-Packard) tại Anh. Tại đây, anh anh đã làm về Machine Learning, xử lý ảnh rồi nên về Việt Nam, anh cũng chọn làm các dự án Data Science cũng phù hợp.
Đến năm 2014, anh quay về Việt Nam và đầu quân cho FPT với vai trò Data Scientist. Hiện tại anh là Chief Scientist ở Ban công nghệ tập đoàn FPT.
Bạn có nghĩ những kiến thức về Big Data này thực sự mang lại ý nghĩa? Hay bài viết này có thể giúp ích cho các Developer khác? Chia sẻ ngay để giúp cộng đồng Developer cùng phát triển.
Và đừng quên tham khảo việc làm Big Data tại ITviec!