Điểm tin – Tháng 4 – Tuần đầu

Bắt chước mọi người, hôm nay ngày Cá tháng Tư, tôi cũng bắt đầu viết blog trở lại. Tôi bảo đảm mọi thứ trong bài này đều là thật, mặc dù không đúng với tinh thần ngày này chút nào -;)

Tuần đầu tiên của tháng Tư thường là tuần rất bận rộn với hầu hết mọi người ở Nhật, nhất là dân Tokyo như tôi, vì phải tham gia vô số buổi hanami (ngắm hoa đào) với bạn bè, cơ quan, khách hàng, tiếp nhận các đồng nghiệp mới, chia tay các đồng nghiệp cũ ra đi tìm chân trời mới (hahaha), và còn phải bận rộn chuẩn bị cho ngày khai giảng năm học mới của đám nhóc ở nhà. Nước Nhật chọn mùa hoa đào nở là mùa bắt đầu cho tất cả mọi thứ quan trọng nhất trong năm, từ kết thúc năm học cũ đến khai giảng năm học mới ở tất cả các cấp, tiếp nhận nhân viên mới vào công ty, rồi lễ tốt nghiệp ra trường cho sinh viên đại học, dọn nhà mới, …

Tôi sẽ bắt đầu với chủ đề Deep Learning.

Bạn nào đã và đang làm các thứ liên quan đến Deep Learning, hay nói rộng ra là Machine Learning, chắc chắn đều biết mùi vị đau khổ của công việc thu thập/chuẩn bị dữ liệu đầu vào cho các thuật toán máy học, cho dù là học có quản trị (supervised learning) hay học không có quản trị (unsupervised learning). Một trong những bước quan trọng của công việc mệt mỏi, buồn tẻ và dễ dẫn đến sai sót này là ngồi tạo annotation cho dữ liệu cần học. Để cải tiến cả về chất và lượng của nhiệm vụ đặc biệt này, khuynh hướng chủ đạo hiện nay đang được các nhóm nghiên cứu AI khắp nơi tiến hành là tạo ra các công cụ tự động/bán tự động sinh annotation cho dữ liệu huấn luyện hệ thống dựa vào các kết quả của các thuật toán đã được cài đặt trước đó. Việc làm này còn giúp phát hiện và cải thiện các điểm chưa hoàn thiện trong chính các thuật toán, theo kiểu lấy mỡ nó rán nó.

Đi theo hướng này, bạn Ishtar Nyawira, một sinh viên thực tập bộ môn khoa học dữ liệu (một bộ môn hết sức thời thượng) tại trung tâm siêu máy tính Pittsburgh, đã chỉ ra cách bạn sử dụng deep learning và siêu máy tính Bridges với các bộ gia tốc GPU để tự động hóa quá trình tạo annotation cho các ảnh sinh học có độ phân giải cao thu được từ các máy quét ảnh SEM (Scanning Electron Microscope). Mục tiêu của dự án bạn đang tham gia hết sức ghê gớm là nhằm hiểu thấu đáo cách thức các neuron trong não người nối kết với nhau.

Trước đây các sinh viên sau đại học tại học viện Allen chuyên về khoa học não của Harvard (Harvard Allen Institute for Brain Science) đã phải mất hàng tháng trời để tạo annotation bằng tay cho các ảnh neuron của cá ngựa vằn (zebrafish) có được từ máy SEM. Theo Nyawira cho biết, “Các bạn sinh viên đã làm việc với gần 5000 ảnh cá ngựa vằn. Trong mỗi cái ảnh đó, có khoảng 200 cái neuron cần được annotate — do vậy mà quá trình xử lý 5000 ảnh này cực kỳ tốn thời gian”. Cô nói tiếp, “Đây là quá trình mà chúng tôi muốn tự động hóa để các bạn sinh viên không phải tốn thời gian vô những chuyện này, thay vào đó dùng các kỹ năng của mình cho những việc hay ho khác.”

Với việc sử dụng các GPU Tesla P100 trên siêu máy tính Bridges và công cụ TensorFlow cho deep learning, Ishtar đang huấn luyện các mô hình của mình dựa trên các ảnh SEM của ấu trùng cá ngựa vằn cũng như não chuột để nhận dạng các neuron một cách chính xác, không bị nhầm lẫn với các nhiễu và mô có trong các ảnh.

Xem video trên YouTube ở đây nhé: https://youtu.be/2X6-PTX5BzM

Chi tiết về nghiên cứu của Nyawira xem ở đây.

Cập nhật blog

Đầu tháng Sáu năm ngoái, tôi có nói về việc thay đổi gói giao diện của blog sang Annotum, một theme khá hay của WordPress phục vụ cho việc viết các bài có liên quan đến khoa học kỹ thuật rất tốt (xem bài “Cập nhật theme“). Thật là không may khi đến tháng Mười Một sau đó, Annotum thông báo phát hành phiên bản sau cùng 2.1.1.1 đúng năm năm sau ngày phát hành phiên bản đầu tiên (ngày 22 tháng Mười Một năm 2011) [chi tiết xem ở đây]. Cũng may là tôi cũng chưa kịp chuyển đổi các bài viết cũ trên blog cho phù hợp với giao diện của Annotum.

Cuối cùng tôi cũng tìm được cái theme mới như các bạn đang thấy. Hy vọng trong quá trình sử dụng, tôi sẽ có thời gian để chỉnh sửa nó nhiều hơn.

Kế hoạch viết bài của tôi trong thời gian tới sẽ tập trung vào các chủ đề sau đây:

  • Siêu máy tính trên nền tảng DGX-x
  • Xử lý song song với Deep Learning
  • Xử lý song song với Computer Vision
  • Xử lý song song với ADAS cho Self-Driving Cars
  • Tối ưu hóa ứng dụng AI
  • Tối ưu hóa ứng dụng điện toán đám mây

CUDA 8.0 & cuDNN 5.0 ra lò

Sau một thời gian dài thử nghiệm, phiên bản CUDA 8.0 RC đã được cho ra lò hôm nay. Trọng tâm của CUDA 8.0 là hỗ trợ kiến trúc GPU mới với mã hiệu Pascal.

Bạn nào muốn dùng thử có thể vào các liên kết dưới đây nhé.

  1. Giới thiệu về kiến trúc GPU Pascal (bài viết, bài thuyết trình tại hội nghị GTC 2016)
  2. Download CUDA 8.0 RC
  3. Các tính năng mới của CUDA 8.0 (bài viết, bài thuyết trình tại hội nghị GTC 2016)

Cùng với CUDA 8.0, phiên bản cuDNN 5.0 hỗ trợ tính toán hiệu năng cao cho các ứng dụng Deep Learning cũng đã được phát hành. Thông tin chi tiết có thể tham khảo ở đây.

Tôi sẽ có các bài viết chuyên sâu về CUDA 8.0 & cuDNN 5.0 trên trang này.