Một phương pháp mới để dạy trí tuệ nhân tạo (AI) hiểu được các bức vẽ tay của con người -- thậm chí từ những người không phải là nghệ sĩ -- đã được phát triển.
Một phương pháp mới để dạy trí tuệ nhân tạo (AI) hiểu các bản vẽ tay của con người - thậm chí từ những người không phải là nghệ sĩ - đã được phát triển bởi một nhóm từ Đại học Surrey và Đại học Stanford.
Mô hình mới này đạt đến mức độ hiệu suất của con người trong việc nhận dạng các bản vẽ cảnh.
Tiến sĩ Yulia Gryaditskaya, Giảng viên tại Trung tâm Xử lý Hình ảnh, Giọng nói và Tín hiệu (CVSSP) và Viện AI Tập trung vào Con người của Surrey (PAI), cho biết:
Phát triển các công cụ để hiểu các bản phác thảo là một bước tiến hướng tới sự tương tác người-máy mạnh mẽ hơn và các quy trình thiết kế hiệu quả hơn. Các ví dụ bao gồm khả năng tìm kiếm hoặc tạo hình ảnh bằng cách phác thảo một cái gì đó."Vẽ phác thảo là một ngôn ngữ mạnh mẽ của giao tiếp hình ảnh. Đôi khi nó còn biểu cảm và linh hoạt hơn cả ngôn ngữ nói."
Người ở mọi lứa tuổi và xuất thân sử dụng bản vẽ để khám phá ý tưởng mới và giao tiếp. Tuy nhiên, các hệ thống AI từ trước đến nay gặp khó khăn trong việc hiểu các bản phác thảo.
AI phải được dạy cách hiểu hình ảnh. Thông thường, điều này liên quan đến quá trình thu thập nhãn cho mọi pixel trong hình ảnh, tốn nhiều công sức. Sau đó, AI học từ các nhãn này.
Thay vào đó, nhóm đã dạy AI bằng cách sử dụng kết hợp các bản phác thảo và mô tả bằng văn bản. Nó học cách nhóm các pixel, đối chiếu chúng với một trong các danh mục trong mô tả.
AI kết quả thể hiện sự hiểu biết phong phú và giống con người hơn về những bản vẽ này so với các phương pháp trước đó. Nó xác định và gắn nhãn chính xác diều, cây, hươu cao cổ và các vật thể khác với độ chính xác 85%. Điều này vượt trội hơn so với các mô hình khác dựa vào pixel có nhãn.
Cũng như xác định đối tượng trong một cảnh phức tạp, nó có thể xác định những nét bút nào được dùng để vẽ mỗi đối tượng. Phương pháp mới hoạt động tốt với các bản phác thảo không chính thức của những người không phải là nghệ sĩ, cũng như các bản vẽ của những vật thể mà nó không được đào tạo rõ ràng.
Giáo sư Judith Fan, Phó Giáo sư Tâm lý học tại Đại học Stanford, cho biết:
"Vẽ và viết là những hoạt động điển hình của con người và từ lâu đã hữu ích trong việc nắm bắt quan sát và ý tưởng của mọi người.
"Công việc này đại diện cho tiến bộ thú vị hướng tới các hệ thống AI hiểu được bản chất của ý tưởng mà mọi người đang cố gắng truyền đạt, bất kể họ đang sử dụng hình ảnh hay văn bản."
Nghiên cứu này là một phần của Viện AI Tập trung vào Con người của Surrey, và đặc biệt là chương trình SketchX của viện. Sử dụng AI, SketchX tìm cách hiểu cách chúng ta nhìn nhận thế giới qua cách chúng ta vẽ nó.
Giáo sư Yi-Zhe Song, Đồng giám đốc Viện AI Tập trung vào Con người và trưởng nhóm SketchX, cho biết:
"Nghiên cứu này là một ví dụ điển hình về cách AI có thể cải thiện các hoạt động cơ bản của con người như phác họa. Bằng cách hiểu các bản vẽ sơ sài với độ chính xác gần như con người, công nghệ này có tiềm năng lớn để nâng cao sự sáng tạo tự nhiên của con người, bất kể khả năng nghệ thuật."
Các phát hiện sẽ được trình bày tại Hội nghị IEEE/CVF về Thị giác Máy tính và Nhận dạng Hình mẫu 2024. Hội nghị sẽ diễn ra tại Seattle từ ngày 17-21 tháng 6 năm 2024.
Sửa lần cuối: