5 công cụ tạo hình ảnh AI mã nguồn mở tốt nhất

Alicia Brunner included in Technology Explained Artificial Intelligence Image Chatgpt

2024-04-23 2675 words 13 minutes

Contents

Những tiến bộ trong trí tuệ nhân tạo đã dẫn đến sự phong phú của các mô hình tạo văn bản thành hình ảnh có thể được truy cập dễ dàng một cách thường xuyên. Mặc dù việc có được hình ảnh mong muốn thông qua các nền tảng trực tuyến rất đơn giản, nhưng việc sử dụng trình tạo văn bản thành hình ảnh nguồn mở mang lại sự linh hoạt cao hơn trong suốt quá trình tạo.

Một số bộ tổng hợp văn bản thành hình ảnh được hỗ trợ bởi AI có thể truy cập miễn phí và mã nguồn mở có thể được tìm thấy trực tuyến, mỗi bộ tổng hợp tập trung vào một danh mục hình ảnh cụ thể. Do đó, sau khi xem xét kỹ lưỡng các tùy chọn này, chúng tôi đã tổng hợp danh sách các trình tạo văn bản thành hình ảnh AI nguồn mở hàng đầu mà người dùng hiện có thể sử dụng.

1 Craiyon

Craiyon là một trong những trình tạo hình ảnh AI nguồn mở dễ tiếp cận nhất. Nó dựa trên DALL-E Mini và trong khi bạn có thể sao chép kho lưu trữ Github và cài đặt mô hình cục bộ trên máy tính của mình, Craiyon dường như đã bỏ phương pháp này vào ủng hộ trang web của mình.

Kho lưu trữ Github chính thức chưa được cập nhật kể từ tháng 6 năm 2022, nhưng mẫu mới nhất vẫn được cung cấp miễn phí trên trang web Craiyon chính thức. Không có ứng dụng Android hoặc iOS.

Về mặt chức năng, trình tạo hình ảnh AI này cung cấp các tính năng tiêu chuẩn mà người ta mong đợi khi nhập lời nhắc tạo hình ảnh. Ngoài ra, người dùng có khả năng nâng cao độ phân giải của hình ảnh được tạo thông qua việc sử dụng chức năng tăng tỷ lệ. Ba phong cách nghệ thuật đặc biệt có sẵn để lựa chọn dưới dạng’Nghệ thuật’,‘Ảnh’và’Vẽ’. Ngoài ra, việc chọn lựa chọn’Không’cho phép chính người mẫu xác định kiểu dáng.

Trong Chế độ chuyên gia, việc bao gồm các từ khóa phủ định cho phép mô hình loại bỏ các thực thể cụ thể. Việc kết hợp các dự đoán kịp thời do ChatGPT hỗ trợ sẽ nâng cao trình độ của người dùng trong việc tạo các lời nhắc toàn diện và phức tạp. Hơn nữa, tính năng Xóa nền do AI điều khiển sẽ đẩy nhanh quá trình xóa phông nền không mong muốn khỏi phương tiện trực quan thông qua tự động hóa.

Craion là một công cụ tạo hình ảnh AI với chức năng đơn giản. Mặc dù nó có thể thiếu các tính năng nâng cao và chi tiết phức tạp, nhưng tính đơn giản của nó khiến nó phù hợp với những người dùng đang tìm kiếm giải pháp cơ bản nhưng đầy đủ chức năng mà không yêu cầu mức độ chân thực cao trong hình ảnh được tạo ra của họ.

Nền tảng này cung cấp chính sách sử dụng rộng rãi, cho phép các cá nhân truy cập dịch vụ của nó mà không phải chịu bất kỳ chi phí nào. Tuy nhiên, một số hạn chế nhất định áp dụng cho người dùng miễn phí, chẳng hạn như hạn chế về số lượng hình ảnh có thể được xử lý trong khoảng thời gian 60 giây. Để mở khóa các tính năng bổ sung, bao gồm trải nghiệm không có quảng cáo, thời gian xử lý nhanh và khả năng lưu trữ đầu ra hình ảnh một cách an toàn, người ta có thể chọn nâng cấp lên gói thành viên Người hỗ trợ hoặc Chuyên nghiệp. Các gói này có sẵn để thanh toán hàng tháng với các tùy chọn thanh toán hàng năm và cung cấp các mức độ tùy chỉnh và hỗ trợ kỹ thuật khác nhau tùy thuộc vào gói đã chọn. Hơn nữa, một giải pháp phù hợp được gọi là gói Tùy chỉnh mang đến sự linh hoạt rộng rãi bằng cách cung cấp các mô hình học máy được cá nhân hóa, khả năng tích hợp liền mạch, dịch vụ khách hàng ưu tiên và tài nguyên máy chủ độc quyền.

2 Khuếch tán ổn định 1.5

Stable Diffusion là một mô hình tạo văn bản thành hình ảnh nguồn mở được đánh giá cao, đã trở nên phổ biến đáng kể kể từ khi phát hành vào năm 2022. Ngoài việc là một mô hình độc lập, nó còn đóng vai trò là nền tảng cho một số mô hình tạo hình ảnh khác, chẳng hạn như ba ví dụ nêu trên. Kể từ khi được giới thiệu, đã có rất nhiều triển khai thành công phương pháp tiếp cận sáng tạo này để tổng hợp hình ảnh.

Tôi sẽ cung cấp cho bạn các chi tiết kỹ thuật quá mức về cách hoạt động của mô hình (bạn có thể xem kho lưu trữ Github chính thức của họ ), nhưng mô hình này rất dễ sử dụng cài đặt ngay cả đối với người mới bắt đầu hoàn thành và hoạt động tốt miễn là bạn có GPU chuyên dụng với bộ nhớ ít nhất 4GB. Bạn cũng có thể truy cập trực tuyến Stable Diffusion và chúng tôi sẽ hỗ trợ bạn nếu bạn muốn chạy Stable Diffusion trên máy Mac.

Có một số điểm kiểm tra (coi chúng là phiên bản) có sẵn để sử dụng cho Khuếch tán ổn định. Trong khi chúng tôi thử nghiệm phiên bản 1.5, phiên bản 2.1 cũng đang được phát triển tích cực và chính xác hơn.

Yadullah Abidi/Tất cả mọi thứ N/DreamShaper

Chạy mô hình cũng khá dễ dàng. Chúng tôi đã thử nghiệm nó với giao diện người dùng web Khuếch tán ổn định AUTOMATIC1111 và tất cả các điều khiển cũng như thông số đều hoạt động tốt. Nó cũng có khả năng chống NSFW khá tốt nhờ cơ sở dữ liệu LAION-5B mà mô hình đã đào tạo (mặc dù nó không hoàn hảo, bạn nhớ nhé). Mặc dù thời gian tạo sẽ thay đổi tùy theo phần cứng của bạn, nhưng bạn có thể mong đợi hình ảnh của mình chi tiết và chân thực ngay cả với những lời nhắc cơ bản.

3 DreamShaper

DreamShaper là một mô hình tạo hình ảnh mới sử dụng các nguyên tắc Khuếch tán ổn định làm nền tảng. Được thiết kế như một giải pháp thay thế linh hoạt và dễ tiếp cận cho MidJourney, công cụ sáng tạo này tự hào có khả năng vượt trội trong việc tạo ra những bức ảnh có độ chân thực cao, đồng thời thể hiện khả năng thích ứng vượt trội trong việc tạo ra các phong cách vẽ tranh anime và nghệ thuật thông qua những điều chỉnh nhỏ.

Mô hình này có khả năng cao hơn Khuếch tán ổn định, cho phép người dùng tự do hơn đối với kết quả đầu ra cuối cùng, từ cải tiến chớp nhoáng cho đến nới lỏng các hạn chế NSFW. Việc chạy mô hình cũng dễ dàng, với phiên bản được đào tạo trước, có thể tải xuống trực tuyến để truy cập cục bộ và một loạt các trang web, bao gồm Sinkin.ai , RandomSeed và Mage.space (yêu cầu đăng ký cơ bản) cho phép bạn chạy mô hình với khả năng tăng tốc GPU.

So với Stable Diffusion, rõ ràng là hình ảnh do DreamShaper tạo ra thể hiện mức độ chân thực, độ phức tạp và độ sáng cao hơn. Mặc dù sử dụng các tham số đầu vào giống hệt nhau, DreamShaper luôn vượt trội so với đối tác của nó về độ trung thực hình ảnh và chất lượng tổng thể.

Một trong những khác biệt đáng kể giữa Khuếch tán ổn định và các mô hình tổng quát khác nằm ở khả năng tạo ra các hình ảnh thể hiện sống động như thật về các đối tượng là con người, chẳng hạn như chân dung hoặc nhân vật. Mặc dù điều ấn tượng không thể phủ nhận là những mô hình này có thể tạo ra những mô tả rất chi tiết và chính xác, nhưng chúng vẫn có thể bị thua kém khi so sánh với các loại hình nghệ thuật truyền thống dựa vào cách diễn giải chủ quan và sáng tạo hơn. Trên thực tế, người ta có thể lập luận rằng bản chất cốt lõi của điều khiến một tác phẩm nghệ thuật trở nên độc đáo và có giá trị chính là sự không hoàn hảo và tính cá nhân của nó. Do đó, mặc dù hình ảnh do AI tạo ra có thể thành thạo về mặt kỹ thuật nhưng cuối cùng chúng có thể thiếu chiều sâu cảm xúc và dấu ấn cá nhân để phân biệt các tác phẩm nghệ thuật thực sự tuyệt vời với những tác phẩm bắt chước đơn thuần.

Bạn không nhất thiết phải có một hệ thống máy tính mở rộng để chạy mô hình cụ thể này. Trên thực tế, NVIDIA GeForce GTX 1650Ti của tôi với bộ nhớ video 4 GB đã hoạt động rất tốt khi thực thi mô hình. Mặc dù quá trình tạo ra mất nhiều thời gian hơn một chút nhưng dường như không có tác động rõ rệt nào đến kết quả đầu ra. Tuy nhiên, cần lưu ý rằng có thể cần lượng bộ nhớ video lớn hơn để quản lý hiệu quả các yêu cầu khắt khe của DreamShaper XL, được xây dựng dựa trên nền tảng của mô hình Stable Diffusion XL.

4 InvokeAI

Invoke AI là một mô hình tạo hình ảnh phức tạp sử dụng thuật toán Khuếch tán ổn định tiên tiến để tạo ra hình ảnh hấp dẫn trực quan. Model này có hai phiên bản-một tiêu chuẩn và một XL-cả hai đều được thiết kế để mang lại kết quả chất lượng cao một cách hiệu quả. Ngoài ra, Invoke AI có giao diện dòng lệnh và web thân thiện với người dùng, loại bỏ nhu cầu người dùng điều hướng qua các giao diện phức tạp như giao diện trong các mô hình AI khác.

Trọng tâm trong việc cung cấp của chúng tôi nằm ở việc trao quyền cho người dùng tạo ra nội dung hấp dẫn về mặt hình ảnh bắt nguồn từ kiến thức độc quyền của họ, điều chỉnh quy trình theo sở thích cá nhân. Về vấn đề này, chúng tôi tận dụng các khả năng mạnh mẽ của InvokeAI, một mô hình AI nguồn mở hàng đầu được thiết kế đặc biệt để xây dựng hình ảnh riêng biệt thông qua tích hợp liền mạch với tài sản độc quyền.

Kho lưu trữ Github chính thức liệt kê hai phương pháp cài đặt: cài đặt qua trình cài đặt của InvokeAI hoặc sử dụng PyPI nếu bạn cảm thấy thoải mái với thiết bị đầu cuối và Python và cần kiểm soát nhiều hơn các gói được cài đặt cùng với mô hình.

Để sử dụng chức năng bổ sung do InvokeAI cung cấp, phải đáp ứng một số điều kiện tiên quyết nhất định về thông số kỹ thuật của hệ thống. Cụ thể, cần có GPU chuyên dụng có bộ nhớ tối thiểu 4GB, trong đó đề xuất 6-8GB cho biến thể lớn hơn. Cả card đồ họa AMD và Nvidia đều phải tuân theo những hạn chế VRAM giống nhau. Hơn nữa, sẽ cần tối thiểu 12GB RAM và 12GB dung lượng ổ cứng khả dụng để chứa mô hình mạng thần kinh cũng như mọi phụ thuộc liên quan và tệp cài đặt Python.

Yadullah Abidi/Tất cả mọi thứ N/InvokeAI

Mặc dù tài liệu này không khuyến nghị điều này do bộ nhớ video không đủ nhưng quá trình cài đặt được thử nghiệm của chúng tôi với các bộ xử lý đồ họa (GPU) GTX 10 Series và 16 Series của Nvidia đã thành công. Tuy nhiên, xin lưu ý rằng hiệu suất có thể thay đổi tùy thuộc vào thông số kỹ thuật của từng hệ thống. Ngoài ra, chúng tôi muốn thông báo cho người dùng chạy GPU cấp thấp hơn rằng họ có thể phải chờ đợi lâu hơn một chút trước khi nhìn thấy kết quả trực quan. Cuối cùng, đối với những người sử dụng hệ điều hành Windows, xin lưu ý rằng tại thời điểm này chỉ hỗ trợ GPU Nvidia, trong khi GPU AMD vẫn không được hỗ trợ.

Việc triển khai nền tảng InvokeAI hiện tại nghiêng về việc tạo ra hình ảnh nghệ thuật hơn là hình ảnh chân thực. Tuy nhiên, điều này có thể được điều chỉnh bằng cách huấn luyện mô hình bằng tập dữ liệu tùy chỉnh. Cách tiếp cận này sẽ mang lại kết quả tốt hơn khi tạo ra hình ảnh chân thực, đặc biệt trong các lĩnh vực như thiết kế sản phẩm, kiến trúc và môi trường bán lẻ. Cần lưu ý rằng mặc dù InvokeAI đóng vai trò là công cụ tạo hình ảnh hiệu quả, nhưng để đạt được kết quả tối ưu có thể yêu cầu sử dụng các mô hình bên ngoài được truy cập thông qua Trình quản lý mô hình tích hợp trong giao diện người dùng.

5 Openjourney

Openjourney là mô hình tạo hình ảnh AI sử dụng công nghệ Khuếch tán ổn định và hoạt động như một nền tảng nguồn mở. Cái tên “Openjourney” phản ánh thực tế là mô hình đã được đào tạo bằng cách sử dụng hình ảnh Midjourney để tái tạo phong cách hình ảnh đặc biệt của nó trong các hình ảnh được tạo.

NhắcHero, công ty đứng sau Openjourney, cho phép bạn thử nghiệm mô hình này cùng với các mô hình khác, bao gồm Khuếch tán ổn định (phiên bản 1.5 và 2), DreamShaper và Tầm nhìn thực tế. Khi đăng ký, bạn nhận được 25 tín dụng miễn phí (một tín dụng cho mỗi hình ảnh được tạo), sau đó bạn phải đăng ký cấp đăng ký Pro của họ, có giá 9 đô la một tháng và cho phép bạn truy cập 300 tín dụng mỗi tháng với các tính năng độc quyền khác.

Tuy nhiên, nếu bạn muốn chạy cục bộ và miễn phí, bạn có thể tải xuống tệp mô hình từ HuggingFace và chạy nó bằng giao diện người dùng web Khuếch tán ổn định. Openjourney cũng là mô hình tạo hình ảnh AI được tải xuống nhiều thứ hai trên HuggingFace, ngay sau Stable Diffusion.

Trang web Openjourney không nêu rõ ràng những điều kiện tiên quyết về phần cứng nào là cần thiết để tải xuống và triển khai mô hình AI ngoại tuyến của họ. Tuy nhiên, có khả năng những nhu cầu này sẽ tương đương với những yêu cầu của Khuếch tán ổn định. Để chạy mô hình thành công, người ta phải có quyền truy cập vào bộ xử lý đồ họa chuyên dụng (GPU) được trang bị ít nhất 4 gigabyte bộ nhớ video (VRAM), 16 GB RAM và khoảng 12 đến 15 gigabyte dung lượng lưu trữ khả dụng trên thiết bị của họ để phù hợp với mô hình và các thành phần liên quan của nó.

Yadullah Abidi/Tất cả mọi thứ N/OpenJourney

Openjourney tạo ra những hình ảnh đạt được sự cân bằng giữa chủ nghĩa hiện thực và tính nghệ thuật, ngoại trừ bất kỳ yêu cầu cụ thể nào được đưa ra. Đối với những người đang tìm kiếm một mô hình linh hoạt thể hiện các đặc điểm của cả chủ nghĩa chân thực và nghệ thuật, đồng thời tránh phải trả phí đăng ký, Openjourney thể hiện mình là một lựa chọn rất phù hợp.