Với sự trợ giúp từ trí thông minh nhân tạo và các cảm biến đặc biệt, các robot thế hệ tiếp theo sẽ có thể thực hiện các nhiệm vụ từ hiểu giọng nói trong môi trường ồn ào đến đánh hơi rượu giả. Mọi thứ trong tương lai bao gồm sự đổi mới. Và công nghệ sẽ thay đổi cách chúng ta sống, làm việc và giải trí. Với các vấn đề được quan tâm như sức khỏe, tiền bạc, nơi sống và hơn thế nữa.
Xem thêm: Nhân sự cho chuyển đổi số nên hay không?
Nội dung chính
Liệu sự thay đổi đó có khó như chúng ta nghĩ?
Ngay cả những máy tính thông minh nhất cũng không thể hiểu hết thế giới nếu không có khả năng nhìn, nghe, ngửi, nếm hoặc chạm. Dù có chạy đua hàng ngàn thập kỷ để có thể tạo ra một cỗ máy có các giác quan giống con người là một điều không hề dễ dàng. Nhưng ngày nay, các kỹ sư và nhà nghiên cứu nói rằng điều đó không còn là vấn đề nữa.
Các tính năng như nhận dạng hình ảnh hoặc giọng nói đã trở nên đơn giản với điện thoại thông minh và trợ lý ảo. Giờ đây, các cảm biến tùy chỉnh, máy học và mạng nơ-ron đang đẩy các giác quan kỹ thuật số lên cấp độ tiếp theo. Cấp độ này tạo ra các robot có thể biết khi nào một gói hàng dễ vỡ. Thậm chí phát hiện ra bộ tản nhiệt quá nóng hoặc xác định chai vang Chardonnay rởm.
Sự cường điệu về AI đang tăng cao và phần lớn các nghiên cứu đang ở giai đoạn đầu. Cùng xem một số mô hình làm việc nổi bật của AI với khả năng giác quan nhé.
Nhìn rõ mọi thứ
Robot không giỏi xử lý chai thủy tinh hoặc cốc nhựa trong. Đó là bởi vì hầu hết các hệ thống thị giác sử dụng chùm tia hồng ngoại. Còn được gọi là cảm biến độ sâu. Nhằm xác định hình dạng của vật thể. Và chúng chiếu ngay qua các vật liệu trong suốt, chỉ chụp được những bóng mờ mơ hồ.
Các kỹ sư tại Đại học Carnegie Mellon đã ghép nối cảm biến độ sâu với một máy ảnh màu tiêu chuẩn. Nhằm mục đích lấp đầy khoảng trống dữ liệu bằng cách bắt các màu đỏ, xanh lá cây và xanh lam xung quanh các cạnh của các vật thể nhìn xuyên qua. Sau đó, họ thiết lập lại hệ thống để nhận ra những dấu hiệu thị giác tinh tế này. Và cho phép cánh tay robot điều chỉnh độ bám của nó. David Held, trợ lý giáo sư tại Viện Robotics của Carnegie Mellon cho biết: “Tầm nhìn của bạn giống với cách hoạt động của camera màu hơn. Bạn không phát ra tia laser và xem chúng mất bao lâu để ánh xạ trở lại.”
Robot có trí tưởng tượng phong phú như con người
Nhà sản xuất phần mềm OpenAI đã phát triển một ứng dụng được hỗ trợ bởi AI. Ứng dụng đó được đặt tên là DALL-E. Nó có thể tạo ra hình ảnh của những cảnh huyền ảo từ văn bản do người dùng nhập vào. CLIP – một ứng dụng thứ hai, đi theo cách khác. Nó tạo ra văn bản mô tả từ các hình ảnh đã nhập. Ilya Sutskever – nhà đồng sáng lập kiêm nhà khoa học chính của OpenAI cho biết, cả hai ứng dụng đều sử dụng mạng nơ-ron “nhai và tiêu hóa”.
Dữ liệu được đưa vào một thư viện hình ảnh và văn bản khổng lồ cho đến khi nó tạo ra hình ảnh hoặc văn bản hoàn toàn mới phù hợp với đầu vào ban đầu. Các hệ thống có thể được sử dụng để tạo ra các phiên bản trực quan của sách giáo khoa. Hoặc phim ảnh chân thực từ một kịch bản trong số các ứng dụng liên quan khác. Ông Sutskever nói rằng mạng lưới nơ-ron không chỉ cung cấp cái nhìn thoáng qua về cách hệ thống thị giác máy tính “nhìn” thế giới. Mà còn có thể cung cấp cái nhìn sâu sắc về chính tâm trí con người.
Khả năng nghe
Âm thanh ngày càng đóng vai trò quan trọng trong việc giúp robot phân biệt giữa các vật thể. Từ đó có thể giúp chúng phát hiện các khuyết tật tiềm ẩn trong các sản phẩm trên dây chuyền lắp ráp. Hoặc xác định nội dung của các gói hàng chưa mở.
Phân biệt giọng nói trong đám đông
Mạng nơ-ron cũng đang được đào tạo để phân biệt giữa giọng nói và tiếng ồn. Hoặc tách nhiều giọng nói để tập trung vào một người nói chính. Cả hai khả năng hữu ích trong phòng họp hoặc đường phố đông đúc. Douglas Beck, phó chủ tịch khoa học hàn lâm của hãng sản xuất máy trợ thính Oticon Inc., cho biết phương pháp này sử dụng một loại bộ lọc thời đại kỹ thuật số.
Các thuật toán được cung cấp hàng triệu mẫu giọng nói, có và không có tiếng ồn xung quanh, để cô lập các đặc điểm độc đáo của giọng nói của con người và ngăn chặn mọi thứ khác. Sau khi được đào tạo, bất cứ khi nào thiết bị nhận và số hóa âm thanh, mạng thần kinh sẽ chuyển động qua các mẫu dữ liệu để tách giọng nói. Từ một chiếc búa khoan gần đó hoặc không theo mẫu cụ thể của một giọng nói nào.
Vượt qua bài kiểm tra đánh hơi
Aryballe – một công ty khởi nghiệp phần mềm AI có trụ sở tại Pháp đã kết hợp cảm biến sinh học và máy có chức năng học hỏi con người. Giúp bắt chước quá trình mà bộ não của chúng ta xác định và phân biệt giữa các mùi. Đó là một lĩnh vực được gọi là khứu giác kỹ thuật số. Trong khi cảm biến thu nhận các phân tử mùi trong không khí. Và mã hóa chúng thành dữ liệu đại diện cho các chữ ký kỹ thuật số duy nhất. Các mạng thần kinh sẽ kết hợp. Và đối sánh dữ liệu đó trong một cơ sở dữ liệu khổng lồ về các đặc điểm đã phân tích trước đó.