Data Scientist là nghề nghiệp sexy nhất thế kỷ 21 (tạp chí Harvard Business Review , 2012) , cũng với đó Data Science là từ khóa tìm kiếm nổi bật trên thế giới hiện nay, với hàng loạt bài báo, tin tuyển dụng cũng như các khóa học được đề cập, được mở và đi kèm với từ khóa “4.0”.
Nhưng bạn đã bao giờ nghe tới “Citizen Data scientist”. Trong thực tế, tổ chức nào hiện nay cũng cần hướng tới hành trình trở thành 1 tổ chức “data-driven” để có thể tăng tính cạnh tranh trong thời đại hiện nay, nhưng không phải tổ chức nào cũng cần các Data Scientist cũng như không cần phải là Data Scientist mới có thể làm-việc-với-data.
Citizen Data scientist không phải là các nhà thống kê , nhà toán học cũng như các chuyên gia khoa học máy tính, họ thông thường chỉ là những người dùng bình thường, họ tạo ra và sử dụng dữ liệu theo cách của họ.
Cụ thể, họ là ai ?:
Thử nhìn vào Google Trends về từ khóa ‘Microsoft Excel’ ở Việt Nam từ 2018- hiện tại. Bạn thấy gì?
Xu hướng ? Vâng, đó là “no-trend” trong giai đoạn hơn 2 năm qua, có 1 số yếu tố mùa bạn có thể nhận ra như 3 đáy của line charts tương ứng với 2 kỳ nghĩ Tết và 1 kỳ nghỉ lễ 2/9/2019.
Còn lại thì ta có thể kết luận là nhu cầu tìm hiểu rất cao về công cụ Spreadsheet của Microsoft rất ổn định vì tính phổ biến và ứng dụng đa nghành của nó.
Trở lại với chủ đề, vậy Citizen Data Scientists có liên quan gì ?
Bạn có thể hình dung họ là những Excel Users , những người đang sử dụng công cụ để thu thập, lưu trữ và phân tích trên các bảng tính. Nhưng bạn biết đấy, Excel là công cụ lâu đời và nó có những hạn chế của nó dù các nhà phát triển đã nâng cấp nó lên rất nhiều kể từ khi ra đời.
Có thể kể ra 1 số giới hạn như :
1.Chỉ giới hạn xử lý tối đa 1,5 triệu dòng ( thông thường với vài trăm ngàn dòng đã đủ làm khổ cỗ máy tính của bạn rồi ), trong khu dữ liệu cần phân tích theo xu hướng cần nhiều tháng gộp lại để làm cơ sở, rõ rang giới hạn trên là không đủ, và bạn cần phải xử lý hoặc là cắt bớt, hoặc là tổng hợp lại ở mức tập trung cao hơn ( điều này sẽ đánh đổi sự chi tiết )
2. Bị phân tán: giả sử bạn biết SQL và sử dụng Analytic functions để tận dụng sức mạnh của Database Server tính toán và connect, import aggregated data vào Excel. Rất nhẹ, và file Excel của bạn không phải chứa raw data triệu dòng như trên ? Tuy nhiên, khi bạn gửi những file này cho người khác, họ lập tức chỉ nhận được những file “chết” và không được cập nhật kịp thời theo tiến trình của hoạt động kinh doanh, muốn có, bạn phải tiếp tục gửi những file khác hàng ngày (với các chỉnh sửa nếu có).
3. Khả năng phân tích đa chiều: Thông thường, khi phân tích kinh doanh, bạn không chỉ phân tích trên 1 data source duy nhất, đó sẽ là sử kết hợp thêm nhiều thuộc tính thông tin khác để làm giàu dữ liệu của bạn, để có góc nhìn đa chiều giải quyết vấn đề. Với người Excel, đó có thể là các chức năng Vlookup hay MATCH/INDEX để ghép nối các cột, dựa theo các mối quan hệ. Và, quá trình này khá thủ công (manual) và dễ gây sai sót, ngoài ra còn làm nặng thêm file Excel của bạn
Đó chỉ là 3 trong nhiều giới hạn của Excel trong thời đại “4.0”:
Vậy, giải pháp nào ? Hãy cùng nhìn vào xu hướng tìm kiếm của 3 từ khóa sau :
Như các bạn có thể quan sát được, khi xem xét giai đoạn 2018 – hiện tại, một xu hướng uptrend rõ rệt thể hiện cho nhu cầu gia tăng của Business Intelligence nói chung và hai phần mềm nổi tiếng của lĩnh vực này nói riêng ở Việt Nam.
Đó thực sự là giải pháp để giải quyết cho những giới hạn đã đề cập trên trong thời đại dữ liệu, và các BI tools chính là sản phẩm của các Data Scientist, Data Engineering thiết kế nên để dành cho các Citizen Data Scientist sử dụng, khám phá dữ liệu của họ một cách dễ dàng nhất, ẩn chứa sau đó là các công nghệ nền tảng để xử lý dữ liệu lớn. Do đó, các doanh nghiệp vừa và nhỏ không cần phải cạnh tranh với các tập đoàn có tiềm lực để tuyển dụng những chuyên gia thực thu để giải quyết những vấn đề phổ biến của kinh doanh, khi mà họ có thể đào tạo nội bộ những chuyên viên của họ, ở bất cứ phòng ban nào từ Marketing, Admin, Kế toán đến Phân tích kinh doanh , những người am hiểu doanh nghiệp hơn bất cứ chuyên gia thuê mướn nào, trao cho họ công cụ phân tích phù hợp để có thể khai thác hiểu biết từ dữ liệu kinh doanh
Đó chính là ý nghĩa của Data is for everyone.
Tác giả:
Danh Nguyen/ Tableau Specialist
Reference Source
2. Becoming-data-driven-organization-SAS
Comments