Trưởng nhóm: TS. Lê Chí Ngọc
Liên hệ
Các thành viên chính
- TS. Lê Chí Ngọc
- TS. Nguyễn Tiến Thành
- TS. Nguyễn Thị Ngọc Anh
- ThS. Lê Kim Thư
Các cộng sự
- GS. TSKH Bùi Công Cường, Phòng Tối ưu và Điều khiển, Viện Toán học, Việt Nam
- TS. Lê Hoàng Sơn, Khoa Toán – Cơ – Tin, ĐH Khoa học Tự nhiên, ĐH QGHN
- ThS. Phạm Hồng Phong, Khoa Công nghệ thông tin, ĐH Xây Dựng Hà Nội
- ThS. Roãn Thị Ngân, Khoa Khoa học cơ bản, Đại học Tài nguyên môi trường
Giới thiệu chung
Khoa học dữ liệu là một lĩnh vực nghiên cứu liên ngành bao gồm các quá trình và hệ thống để trích rút tri thức bên trong dữ liệu dưới nhiều dạng có cấu trúc và phi cấu trúc khác nhau. Khoa học dữ liệu bao gồm nhiều lĩnh vực phân tích dữ liệu như thống kê, máy học, khai phá dữ liệu, phân tích dự báo. Khoa học dữ liệu sử dụng nhiều kỹ thuật và lý thuyết từ nhiều lĩnh vực khác nhau như vận trù học, khoa học thông tin, khoa học máy tính, bao gồm cả xử lý tín hiệu, mô hình xác suất, học thống kê, cơ sở dữ liệu, nhận dạng mẫu, mô tả trực quan, logic mờ, kho dữ liệu, trí tuệ nhân tạo, hệ hỗ trợ quyết định, kinh doanh thông minh. Các phương pháp hướng tới dữ liệu lớn được quan tâm đặc biệt của khoa học dữ liệu. Khoa học dữ liệu có rất nhiều ứng dụng trong đời sống như dịch máy, nhận dạng giọng nói, chữ viết, máy tìm kiếm, y sinh học, chăm sóc sức khỏe, khoa học xã hội và kinh tế, tài chính, bảo hiểm.
Sự phát triển của máy học đã đóng góp không nhỏ vào sự phát triển của khoa học dữ liệu. Máy học là một lĩnh vực của khoa học máy tính nhằm cung cấp cho máy tính khả năng học thông qua dữ liệu và kinh nghiệm mà không đòi hỏi được lập trình tường minh. Là một lĩnh vực của phân tích dữ liệu, máy học là một phương pháp cho phép xây dựng các mô hình và thuật toán phức tạp để tìm ra các tri thức ẩn dấu bên trong dữ liệu hỗ trợ cho quá trình ra quyết định và kinh doanh thông minh.
Do các vấn đề về tính phức tạp trong tính toán trên các dữ liệu lớn, các phương pháp chính xác để tìm lời giải là không khả thi. Từ đó dẫn tới các nghiên cứu về tính toán mềm. Tính toán mềm là một lĩnh vực của khoa học máy tính cho lời giải xấp xỉ đối với các bài toán tính toán phức tạp như các bài toán thuộc phân lớp NP-khó hay các bài toán có kích thước dữ liệu đầu vào lớn dẫn tới các thuật toán cho lời giải chính xác là không khả thi về mặt thời gian hoặc các bài toán mà dữ liệu đầu vào thể được mô tả chính xác. Tính toán mềm sử dụng các phương pháp chấp nhận tính gần đúng của phương án và cả tính không rõ ràng như logic mờ, mạng Neural, tính toán tiến hóa và các phương pháp Metaheuristics khác.
Các hướng nghiên cứu mũi nhọn
- Máy học và khai phá dữ liệu
- Dữ liệu lớn và kho dữ liệu
- Hệ hỗ trợ quyết định và kinh doanh thông minh
- Hệ mờ và Logic mờ
- Mạng Neural
- Meta Heuristic và các phương pháp tính toán mềm khác
- Các ứng dụng của máy học, khai phá dữ liệu và tính toán mềm trong giao thông vận tải, y học, phân tích ảnh viễn thám, sử dụng đất, dự báo thời tiết, điều khiển học, phân tích dữ liệu web, phân tích dữ liệu kinh doanh, điều tra thị trường, phân tích rủi ro, dự báo tài chính, chứng khoán, quan hệ khách hàng, sinh học …