Máy Tính

Nâng Tầm Sáng Tạo: Đánh Giá Chuyên Sâu Khả Năng Tạo Ảnh Của ChatGPT 4o và So Sánh Với DALL-E

Bàn tay nghệ sĩ chơi hợp âm E minor trên đàn guitar acoustic, minh họa chi tiết khả năng xử lý tay của AI tạo ảnh DALL-E

Kỷ nguyên Trí tuệ Nhân tạo (AI) đang chứng kiến những bước tiến vượt bậc, và bản nâng cấp mới nhất về khả năng tạo ảnh của ChatGPT 4o vừa được OpenAI ra mắt là một minh chứng rõ ràng. Đây không chỉ là một cải tiến nhỏ mà là một cú nhảy vọt đáng kinh ngạc, có khả năng định hình lại cách chúng ta tương tác và sử dụng các công cụ Generative AI để tạo ra hình ảnh. Với vai trò là chuyên gia tại diemhencongnghe.com, chúng tôi sẽ đi sâu phân tích và so sánh khả năng tạo hình ảnh đột phá của ChatGPT 4o với mô hình DALL-E cũ, làm nổi bật những điểm vượt trội và thách thức còn tồn tại, nhằm cung cấp cho độc giả cái nhìn toàn diện nhất về công nghệ AI tạo ảnh tiên tiến này.

Bài viết này sẽ không tập trung vào các thông số kỹ thuật khô khan hay quy trình đào tạo mô hình phức tạp. Thay vào đó, chúng tôi sẽ đưa ra những minh chứng trực quan, thông qua các thử nghiệm cụ thể để độc giả có thể tự mình đánh giá sự khác biệt đáng kinh ngạc giữa hai thế hệ AI tạo ảnh này. Chúng tôi sẽ đi từ những thách thức kinh điển của AI trong việc tái tạo hình ảnh cho đến những ứng dụng phức tạp hơn, qua đó khẳng định vị thế dẫn đầu của ChatGPT 4o trong lĩnh vực sáng tạo nội dung hình ảnh.

1. Tay và Ngón Tay: Thử Thách Kinh Điển Của AI

Một trong những “dấu hiệu” dễ nhận biết nhất của một bức ảnh do AI tạo ra trong giai đoạn đầu là sự biến dạng của tay và ngón tay. Đây luôn là một thách thức lớn đối với các mô hình Generative AI. Để kiểm chứng khả năng xử lý chi tiết phức tạp này, chúng tôi đã sử dụng yêu cầu: “Một cận cảnh ai đó đang chơi hợp âm E minor trên guitar, ngón tay ấn xuống dây đàn với độ sâu trường ảnh nông.”

Ban đầu, chúng tôi yêu cầu mô hình DALL-E cũ thực hiện.

Bàn tay nghệ sĩ chơi hợp âm E minor trên đàn guitar acoustic, minh họa chi tiết khả năng xử lý tay của AI tạo ảnh DALL-EBàn tay nghệ sĩ chơi hợp âm E minor trên đàn guitar acoustic, minh họa chi tiết khả năng xử lý tay của AI tạo ảnh DALL-E

Kết quả từ DALL-E cho thấy sự cải thiện so với những phiên bản rất cũ, khi bàn tay và ngón tay được xử lý ở mức khá ổn về mặt giải phẫu tổng thể. Tuy nhiên, khi nhìn kỹ hơn, hợp âm guitar gần như không thể nhận ra là E minor. Vị trí bàn tay đặt quá cao trên cần đàn để có thể chơi đúng hợp âm này. Thậm chí, cây đàn còn có nhiều hơn bảy dây và khoảng cách giữa các dây không đều.

Với những hạn chế đó, hãy cùng xem ChatGPT 4o thể hiện như thế nào.

Bàn tay nghệ sĩ chơi hợp âm E minor trên đàn guitar acoustic, minh họa chi tiết khả năng xử lý tay vượt trội của ChatGPT 4oBàn tay nghệ sĩ chơi hợp âm E minor trên đàn guitar acoustic, minh họa chi tiết khả năng xử lý tay vượt trội của ChatGPT 4o

Bức ảnh từ ChatGPT 4o chân thực đến mức khó tin. Nó có thể dễ dàng bị nhầm lẫn với một bức ảnh thật. Cây đàn có sáu dây, khoảng cách đều đặn, và hợp âm có thể chấp nhận được là E minor. Sự chính xác trong việc tái tạo chi tiết phức tạp như ngón tay và nhạc cụ đã cho thấy bước tiến vượt bậc của ChatGPT 4o trong lĩnh vực AI tạo ảnh.

2. Nhân Vật Lịch Sử: Kết Nối Quá Khứ và Hiện Tại

Sau khi kiểm tra khả năng xử lý các chi tiết nhỏ, chúng tôi chuyển sang một thử thách khác: tái tạo các nhân vật lịch sử trong bối cảnh hiện đại. Điều này đòi hỏi AI phải có khả năng nhận diện và tái tạo đặc điểm khuôn mặt đặc trưng, đồng thời hòa nhập chúng vào một môi trường mới một cách tự nhiên. Yêu cầu đặt ra là: “Albert Einstein đang ăn kem ở Central Park, mặc áo sơ mi và quần yếm thông thường.”

DALL-E đã đưa ra hình ảnh sau:

Người đàn ông giống Einstein ăn kem tại Công viên Trung tâm, minh họa khả năng tái tạo nhân vật lịch sử của DALL-ENgười đàn ông giống Einstein ăn kem tại Công viên Trung tâm, minh họa khả năng tái tạo nhân vật lịch sử của DALL-E

Kết quả từ DALL-E khá thất vọng. Mặc dù mô hình đã cảnh báo rằng nó không thể sử dụng trực tiếp hình ảnh Einstein và sẽ tạo ra một nhân vật “gần giống”, bức ảnh vẫn mang đậm phong cách hoạt hình hóa-thực tế đặc trưng của DALL-E, không đủ độ chân thực. Tòa nhà San Remo ở hậu cảnh gợi ý đây là Central Park, nhưng đó là điểm cộng duy nhất.

Giờ đây, hãy xem ChatGPT 4o thể hiện như thế nào:

Người đàn ông giống Einstein ăn kem tại Central Park, thể hiện sự chân thực tuyệt vời của AI tạo ảnh ChatGPT 4oNgười đàn ông giống Einstein ăn kem tại Central Park, thể hiện sự chân thực tuyệt vời của AI tạo ảnh ChatGPT 4o

Bức ảnh của ChatGPT 4o chân thực đến mức nếu áp dụng bộ lọc đen trắng, nó có thể dễ dàng được coi là một bức ảnh cổ điển thật. Kem ốc quế trông rất hấp dẫn, Albert Einstein toát lên vẻ bình thản đặc trưng của ông, và San Remo vẫn đứng sừng sững ở phía sau. Mọi chi tiết đều hoàn hảo, khẳng định khả năng tái tạo nhân vật lịch sử ấn tượng của ChatGPT 4o.

3. Nhân Vật Hư Cấu: Từ Tưởng Tượng Đến Hiện Thực

Tiếp nối thành công với nhân vật lịch sử, chúng tôi tiếp tục thử thách AI với các nhân vật hư cấu, một lần nữa nhấn mạnh khả năng xử lý khuôn mặt và hình dáng con người. Thử thách đầu tiên là: “Một nhân vật giống Chúa tể Sith đang gọi taxi ở Quảng trường George, Glasgow, với mưa nhẹ và đèn giao thông ở hậu cảnh.”

DALL-E đã tạo ra:

Hình ảnh một nhân vật bí ẩn, cao lớn giống Chúa tể Sith đứng ở Quảng trường George, Glasgow, do DALL-E tạo raHình ảnh một nhân vật bí ẩn, cao lớn giống Chúa tể Sith đứng ở Quảng trường George, Glasgow, do DALL-E tạo ra

Để tránh vấn đề bản quyền, chúng tôi đã sử dụng từ “similar” (giống). Kết quả của DALL-E ở mức chấp nhận được. Hình dáng nhân vật gợi nhớ đến Sith, và các yếu tố khác cũng tương đối chính xác. Tuy nhiên, bức ảnh vẫn thiếu đi sự “thật”, không có cảm giác như một bức ảnh chụp đời thực.

Và đây là kết quả từ ChatGPT 4o với cùng yêu cầu:

Hình ảnh một nhân vật bí ẩn, cao lớn giống Chúa tể Sith đứng ở Quảng trường George, Glasgow, với không khí chân thực từ ChatGPT 4oHình ảnh một nhân vật bí ẩn, cao lớn giống Chúa tể Sith đứng ở Quảng trường George, Glasgow, với không khí chân thực từ ChatGPT 4o

Chúng tôi hoàn toàn bị ấn tượng bởi không khí mà ChatGPT 4o tạo ra: ánh sáng, mưa phùn, và sự hiện diện đầy uy lực của Chúa tể Sith. Mọi yếu tố đều được tái hiện một cách chân thực. Điểm trừ nhỏ là vị Chúa tể bóng tối đang đứng trên đường gọi taxi nhưng lại đối mặt với vỉa hè, và biển hiệu taxi bị viết sai thành “TAXL”. Dù vậy, tổng thể bức ảnh vẫn rất ấn tượng.

Chúng tôi tiếp tục thử thách với một nhân vật hư cấu khác: “Một nhân vật giống Geralt of Rivia đang mua sắm tại siêu thị hiện đại, đẩy xe hàng và cau mày nhìn vào đồ hộp.”

DALL-E đã xử lý yêu cầu này:

Hình ảnh người đàn ông tóc trắng, phong trần, có vết sẹo trên mặt, giống thợ săn quái vật giả tưởng, đang mua sắm trong siêu thị hiện đại do DALL-E tạoHình ảnh người đàn ông tóc trắng, phong trần, có vết sẹo trên mặt, giống thợ săn quái vật giả tưởng, đang mua sắm trong siêu thị hiện đại do DALL-E tạo

Kết quả của DALL-E không tệ. Bức ảnh vẫn mang nét hoạt hình tổng hợp và văn bản trên hộp ngũ cốc là vô nghĩa, như dự đoán.

ChatGPT 4o ban đầu từ chối yêu cầu vì lý do bản quyền, nhưng đã hoạt động khi chúng tôi đổi “similar to” thành “resembling” (na ná). Và đây là kiệt tác:

Hình ảnh người đàn ông tóc trắng, phong trần, có vết sẹo trên mặt, giống thợ săn quái vật giả tưởng, đang mua sắm trong siêu thị hiện đại với độ chân thực đáng kinh ngạc từ ChatGPT 4oHình ảnh người đàn ông tóc trắng, phong trần, có vết sẹo trên mặt, giống thợ săn quái vật giả tưởng, đang mua sắm trong siêu thị hiện đại với độ chân thực đáng kinh ngạc từ ChatGPT 4o

Chúng tôi thực sự cạn lời. Giống như nhiều người, phiên bản Geralt của ChatGPT thường dựa trên Henry Cavill hơn là phiên bản trò chơi điện tử, nhưng nó đã hoàn toàn “đỉnh của chóp”. Vẻ mặt cau có đúng điệu và bối cảnh siêu thị hiện đại hòa nhập một cách tự nhiên. Bức ảnh này thậm chí có thể được dùng làm cảnh quay trong một quảng cáo crossover độc đáo.

4. Phong Cách Hoạt Hình: Sự Linh Hoạt Trong Sáng Tạo

Khả năng tạo ảnh của OpenAI không chỉ giới hạn ở phong cách chân thực. Mặc dù DALL-E luôn có xu hướng hơi “airbrushed” (làm mịn quá mức) dù bạn yêu cầu gì, chúng tôi quyết định thử thách cả hai mô hình với chế độ hoạt hình hoàn toàn. Yêu cầu là: “Một thuyền trưởng cướp biển phong cách hoạt hình với áo khoác đỏ dài và cánh tay robot, đang cười trên boong tàu bay. Nền trong suốt.”

DALL-E đã tạo ra:

Thuyền trưởng cướp biển phong cách hoạt hình trên boong tàu bay do DALL-E tạo, với nền bàn cờThuyền trưởng cướp biển phong cách hoạt hình trên boong tàu bay do DALL-E tạo, với nền bàn cờ

DALL-E đã làm khá tốt ở đây và thậm chí còn hiểu yêu cầu về nền trong suốt. Tuy nhiên, thay vì một nền trong suốt thực sự, chúng tôi nhận được họa tiết bàn cờ xám-trắng cổ điển thường tượng trưng cho nền trong suốt – nhưng lại được “nướng” trực tiếp vào ảnh. Vì vậy, thực tế là không trong suốt. Hơn nữa, bàn tay sinh học của cướp biển có bốn ngón, trong khi cánh tay robot lại có năm ngón, một lỗi nhỏ nhưng thú vị.

Giờ hãy cùng xem phiên bản của ChatGPT 4o:

Thuyền trưởng cướp biển phong cách hoạt hình trên boong tàu bay do ChatGPT 4o tạo, với nền trong suốt thực sựThuyền trưởng cướp biển phong cách hoạt hình trên boong tàu bay do ChatGPT 4o tạo, với nền trong suốt thực sự

Phiên bản của ChatGPT 4o sắc nét và có chủ đích hơn. Phong cách tô màu khác biệt – liệu có tốt hơn hay không là tùy thuộc vào cảm nhận cá nhân – nhưng rõ ràng nó trông giống như một họa sĩ đã cố tình vẽ theo cách đó. Đặc biệt, nền thực sự trong suốt, cho phép bạn dễ dàng sử dụng hình ảnh này cho nhiều mục đích khác nhau, từ in áo thun đến tạo nhãn dán WhatsApp.

5. Gương và Phản Chiếu: Thử Thách Về Logic Không Gian

Gương phản chiếu, và các phản chiếu đòi hỏi logic không gian chính xác để trông tự nhiên. Đây là một điểm yếu cố hữu của nhiều mô hình AI. Chúng tôi đã đưa ra yêu cầu mà chúng tôi biết DALL-E sẽ gặp khó khăn: “Một bồn rửa hiện đại trong phòng tắm với bàn chải đánh răng và dao cạo trên quầy, cả hai đều hiển thị trong gương và ở thế giới thực – ánh sáng mềm mại và đều.”

DALL-E đã cho ra kết quả:

Bồn rửa phòng tắm hiện đại với thiết kế bóng bẩy và mặt bàn sạch sẽ, thể hiện lỗi phản chiếu của DALL-EBồn rửa phòng tắm hiện đại với thiết kế bóng bẩy và mặt bàn sạch sẽ, thể hiện lỗi phản chiếu của DALL-E

Đúng như dự đoán, hình ảnh từ DALL-E có nhiều sai sót nghiêm trọng. Một vật thể nào đó cố gắng phản chiếu từ vòi nước trong gương nhưng lại quá dài. Bàn chải đánh răng thì lơ lửng bên trong bồn rửa và không hề có phản chiếu. DALL-E đã hoàn toàn “đội mũ bảo hiểm AI” (ý nói làm việc một cách máy móc và không có logic) ở trường hợp này.

Hãy xem ChatGPT 4o thể hiện như thế nào:

Bồn rửa phòng tắm hiện đại với thiết kế bóng bẩy và mặt bàn sạch sẽ, minh họa khả năng phản chiếu của ChatGPT 4oBồn rửa phòng tắm hiện đại với thiết kế bóng bẩy và mặt bàn sạch sẽ, minh họa khả năng phản chiếu của ChatGPT 4o

Mô hình mới làm tốt hơn rất nhiều trong việc tạo ra một hình ảnh chân thực, giống như một bức ảnh thật. Phản chiếu của vòi nước hơi lệch nhưng có thể chấp nhận được. Tuy nhiên, vẫn có lỗi logic: bàn chải đánh răng có phản chiếu trong gương nhưng lại không tồn tại trong thế giới thực – giống như một ma cà rồng ngược. Rõ ràng, vẫn chưa có mô hình AI nào giải quyết triệt để được bài toán phản chiếu và logic không gian.

Để thử thách hơn nữa, chúng tôi đã đưa ra một yêu cầu tham vọng hơn: “Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, trang phục và tư thế của cô ấy được phản chiếu chính xác, với hình ảnh phản chiếu cửa sổ phía sau rõ ràng.”

DALL-E đã cho ra hình ảnh không thể chấp nhận được:

Người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, minh họa sự thất bại của DALL-E trong xử lý phản chiếuNgười phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, minh họa sự thất bại của DALL-E trong xử lý phản chiếu

Không cần phân tích thêm, DALL-E đã hoàn toàn thất bại với thử thách “gương”.

Và đây là kết quả từ ChatGPT 4o:

Người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, thể hiện nỗ lực của ChatGPT 4o trong việc tạo ảnh phản chiếuNgười phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, thể hiện nỗ lực của ChatGPT 4o trong việc tạo ảnh phản chiếu

Như dự đoán, phiên bản của ChatGPT 4o trông thực tế hơn nhiều, nhưng lần này lại có chút siêu thực. Tư thế và trang phục của người phụ nữ được phản chiếu, nhưng chỉ một phần, giống như hiệu ứng pop-out 3D của Photoshop. Các góc phản chiếu cũng bị lệch. Rõ ràng, AI vẫn còn gặp khó khăn với logic không gian phức tạp.

6. Ô Tô và Đường Phố: Chi Tiết và Bối Cảnh Thực Tế

Là những người đam mê ô tô, chúng tôi rất muốn thử thách các AI tạo ảnh với việc tái tạo xe cộ và bối cảnh đường phố phức tạp. Kết quả trước đây không mấy khả quan, nhưng với mô hình mới, chúng tôi đã phải thử lại. Yêu cầu là: “Một chiếc Ford GT đời 2006 và một chiếc Peugeot 206 phía sau đèn giao thông màu đỏ trên phố Wall, New York, vào giữa trưa.”

DALL-E đã tạo ra:

Ford GT 2006 và Peugeot 206 dừng đèn đỏ trên phố Wall, New York do DALL-E tạo, với phong cách hoạt hình thiếu thực tếFord GT 2006 và Peugeot 206 dừng đèn đỏ trên phố Wall, New York do DALL-E tạo, với phong cách hoạt hình thiếu thực tế

DALL-E một lần nữa lại thể hiện phong cách hoạt hình ngày càng khó chịu của nó. Chiếc Peugeot nằm trên vỉa hè, đèn giao thông chúng tôi yêu cầu lại hướng vào các tòa nhà, và biển số xe hoàn toàn vô nghĩa.

Kết quả của ChatGPT 4o tốt hơn đáng kể.

Ford GT 2006 và Peugeot 206 dừng đèn đỏ trên phố Wall, New York do ChatGPT 4o tạo, với chi tiết xe và bối cảnh chân thựcFord GT 2006 và Peugeot 206 dừng đèn đỏ trên phố Wall, New York do ChatGPT 4o tạo, với chi tiết xe và bối cảnh chân thực

Các chiếc xe được mô tả chính xác – ngay cả nắp chụp bánh xe của Peugeot cũng hoàn hảo và đúng thời kỳ. Mức độ chi tiết này không phải ngẫu nhiên. Và điều tuyệt vời hơn nữa là:

Ford GT 2006 và Peugeot 206 dừng đèn đỏ trên phố Wall, New York do ChatGPT 4o tạo, với ánh sáng và bố cục hoàn hảoFord GT 2006 và Peugeot 206 dừng đèn đỏ trên phố Wall, New York do ChatGPT 4o tạo, với ánh sáng và bố cục hoàn hảo

Bức ảnh thứ hai từ ChatGPT 4o có thể dùng làm hình nền điện thoại của chúng tôi. Ánh sáng, bố cục, phản chiếu – tất cả đều hoàn hảo. Ngoại trừ sự trống rỗng lạ thường của con phố, đây có thể dễ dàng được coi là một bức ảnh thật. Khả năng tái tạo chi tiết và bối cảnh thực tế của ChatGPT 4o trong lĩnh vực này thực sự ấn tượng.

7. Văn Bản và Chữ Viết: Điểm Yếu Chú Mạng Đã Được Khắc Phục?

Cuối cùng, chúng ta nhắm vào Achilles’ heel (điểm yếu chí mạng) của hầu hết các công cụ tạo ảnh AI: khả năng xử lý văn bản. Hầu hết các AI tạo ảnh đều gặp khó khăn trong việc tạo ra văn bản chính xác và dễ đọc trong hình ảnh. Để làm cho thử thách thú vị hơn, chúng tôi đã thêm yêu cầu bức thư phải chứa nội dung bài phát biểu của Vua Terenas gửi Arthas từ Warcraft III. Yêu cầu đầy đủ là: “Một lá thư viết tay trên giấy cũ với chữ viết tay nét nghiêng, đặt cạnh một cây bút máy và một lọ mực.”

DALL-E đã thực hiện:

Cận cảnh lá thư viết tay trên giấy da hơi ngả vàng, minh họa lỗi xử lý văn bản của DALL-ECận cảnh lá thư viết tay trên giấy da hơi ngả vàng, minh họa lỗi xử lý văn bản của DALL-E

DALL-E đã làm điều nó “giỏi nhất” với văn bản: biến nó thành những dòng chữ bị nhòe, không thể đọc được. Nó cố gắng đúng một vài từ, và bầu không khí cùng các vật thể như bút và lọ mực trông khá ổn.

Và đây là kết quả từ ChatGPT 4o:

Cận cảnh lá thư viết tay trên giấy da hơi ngả vàng, minh họa khả năng xử lý văn bản hoàn hảo của ChatGPT 4oCận cảnh lá thư viết tay trên giấy da hơi ngả vàng, minh họa khả năng xử lý văn bản hoàn hảo của ChatGPT 4o

ChatGPT 4o đã làm được điều không tưởng – mọi từ đều được viết chính xác, với nét chữ nghiêng rõ ràng. So với DALL-E, đây là một bước nhảy vọt khổng lồ. Khả năng tái tạo văn bản chính xác của ChatGPT 4o đã khắc phục một trong những điểm yếu lớn nhất của các mô hình tạo ảnh AI trước đây.

Kết luận: Một Kỷ Nguyên Mới Cho AI Tạo Ảnh

Qua những phân tích và so sánh chuyên sâu này, rõ ràng khả năng tạo ảnh của Trí tuệ Nhân tạo đã đi một chặng đường dài. ChatGPT 4o thực sự là mô hình đầu tiên mang lại cảm giác “thấu hiểu” thực sự về ánh sáng, kết cấu, và bối cảnh. Từ những chi tiết nhỏ như ngón tay, các đặc điểm khuôn mặt của nhân vật lịch sử, cho đến khả năng xử lý văn bản phức tạp, ChatGPT 4o đã chứng minh sự vượt trội đáng kinh ngạc so với DALL-E cũ.

Mặc dù vẫn còn một số thách thức nhất định, đặc biệt là trong việc xử lý logic không gian với gương và phản chiếu, những bước tiến mà OpenAI đạt được với ChatGPT 4o là không thể phủ nhận. Đây là một công cụ mạnh mẽ, mở ra cánh cửa cho vô vàn ứng dụng sáng tạo trong tương lai, từ thiết kế đồ họa, marketing, cho đến sản xuất nội dung số. diemhencongnghe.com tin rằng, với tốc độ phát triển hiện tại, AI tạo ảnh sẽ tiếp tục mang đến những bất ngờ thú vị.

Bạn đã sẵn sàng khám phá sâu hơn về tiềm năng của Trí tuệ Nhân tạo tạo sinh hình ảnh chưa? Hãy theo dõi diemhencongnghe.com để cập nhật những bài viết chuyên sâu và đánh giá công nghệ mới nhất trong lĩnh vực AI!

Related Articles

Khám Phá Sâu Sắc 6 Chế Độ Ánh Sáng Chân Dung Trên iPhone Để Nâng Tầm Ảnh Chụp

Administrator

Phần Mềm Mã Nguồn Mở: Lý Do Nên Ưu Tiên Trong Thế Giới Công Nghệ Hiện Đại

Administrator

Cách Tiết Kiệm Chi Phí Khi Đăng Ký Dịch Vụ VPN Cao Cấp: Mẹo Từ Chuyên Gia diemhencongnghe.com

Administrator

Leave a Comment