Hermes Tools: dùng browser, terminal và file an toàn

Hermes Agent không chỉ là một chatbot chạy trong terminal. Giá trị thực tế của Hermes nằm ở hệ thống tools: những năng lực cho phép agent đọc file, chạy lệnh, mở trình duyệt, phân tích ảnh, tìm kiếm web, tạo hình, chuyển văn bản thành giọng nói hoặc làm việc với các dịch vụ như GitHub và Google Workspace. Nếu chỉ dùng Hermes để hỏi đáp, bạn mới khai thác một phần nhỏ của nền tảng.

Bài này tập trung vào nhóm tools quan trọng nhất trong guide nâng cao: browser, terminal và file. Đây là ba nhóm thường xuất hiện trong các workflow thực chiến như audit website, sửa code, phân tích log, tạo tài liệu, kiểm thử giao diện hoặc chuẩn bị nội dung xuất bản. Chúng cũng là nhóm cần quản trị cẩn thận nhất vì có quyền chạm vào hệ thống, dữ liệu và các endpoint bên ngoài.

Hermes tools là gì?

Hermes tools là các năng lực được agent gọi khi cần làm việc ngoài phạm vi trả lời bằng văn bản. Thay vì chỉ “nghĩ” và phản hồi, Hermes có thể dùng terminal để chạy lệnh, dùng file tool để đọc hoặc sửa tài liệu, dùng browser để tương tác với website, dùng vision để phân tích ảnh, dùng image_gen để tạo hình, dùng tts để tạo audio, hoặc dùng GitHub và Google Workspace để xử lý công việc trên dịch vụ bên ngoài.

Cách hiểu đúng là: model đóng vai trò người ra quyết định, còn tools là tay và mắt của agent. Model có thể đề xuất bước tiếp theo, nhưng tool mới là phần thực thi thao tác cụ thể. Vì vậy, thiết kế toolset ảnh hưởng trực tiếp đến năng suất, độ an toàn và khả năng kiểm soát của toàn bộ hệ thống Hermes Agent.

Vì sao quản lý tools quan trọng?

Một AI Agent mạnh không nhất thiết là agent có mọi quyền mọi lúc. Trong môi trường doanh nghiệp, điều quan trọng hơn là cấp đúng quyền cho đúng ngữ cảnh. Một phiên chỉ cần đọc tài liệu không nên có quyền chạy lệnh nguy hiểm. Một workflow nghiên cứu web không nhất thiết cần truy cập file nội bộ. Một phiên Telegram cho Chief of Staff có thể cần calendar, memory và cron, nhưng không nên mặc định có toàn quyền terminal nếu chưa có ranh giới phê duyệt.

Hermes cho phép quản lý tools bằng CLI. Bạn có thể mở giao diện tương tác bằng hermes tools, xem danh sách bằng hermes tools list, bật toolset bằng hermes tools enable NAME, và tắt bằng hermes tools disable NAME. Thay đổi tool thường áp dụng cho phiên mới, vì Hermes cần giữ prompt và danh sách tool ổn định trong một cuộc hội thoại đang chạy.

Điểm này nghe có vẻ nhỏ nhưng rất quan trọng: không nên xem tools như “plugin tiện ích”. Tools chính là bề mặt quyền hạn của agent. Quản lý tools tốt giúp giảm rủi ro thao tác nhầm, rò rỉ dữ liệu, chạy lệnh ngoài ý muốn hoặc để agent truy cập nhiều hơn mức cần thiết.

Terminal: khi agent cần làm việc như kỹ sư hệ thống

Terminal tool cho phép Hermes chạy lệnh shell, quản lý tiến trình, kiểm thử, build, gọi CLI, chạy script, thao tác git hoặc kiểm tra trạng thái hệ thống. Với nhóm phát triển phần mềm, đây thường là tool quan trọng nhất vì nó biến agent từ người gợi ý thành người có thể thực thi.

Ví dụ thực tế gồm chạy test sau khi sửa code, kiểm tra dependency, dùng git status và git diff để review thay đổi, khởi động server local ở background rồi kiểm tra endpoint, hoặc chạy script xuất báo cáo. Trong một quy trình Hermes Agent trưởng thành, terminal không nên được dùng theo kiểu bừa bãi. Agent cần quan sát trước, thay đổi sau, rồi xác minh bằng test hoặc log.

Với các lệnh dài như build, test suite lớn hoặc server local, nên chạy ở chế độ background và theo dõi tiến trình. Điều này giúp agent không bị kẹt trong một lệnh lâu, đồng thời vẫn có thể tiếp tục phân tích file hoặc chuẩn bị bước kế tiếp. Nguyên tắc thực tế là: lệnh ngắn chạy foreground, tiến trình dài chạy background, và luôn có bước xác minh sau khi lệnh kết thúc.

File: đọc, sửa và kiểm soát thay đổi

File tools cho phép Hermes đọc file, tìm kiếm nội dung, ghi file mới và patch file hiện có. Đây là nhóm tool nên dùng thay cho thao tác shell kiểu cat, grep, sed khi có thể, vì file tool thường cho kết quả có cấu trúc hơn, dễ kiểm soát hơn và phù hợp với agent hơn.

Trong công việc nội dung, file tool hữu ích để tạo bản thảo markdown, chỉnh sửa tài liệu, so sánh outline hoặc lưu checklist. Trong công việc kỹ thuật, file tool giúp đọc source code, tìm nơi định nghĩa hàm, sửa cấu hình, cập nhật test, hoặc tạo tài liệu vận hành.

Một quy trình tốt với file tool thường gồm bốn bước: tìm đúng file hoặc vùng nội dung cần sửa; đọc đủ ngữ cảnh trước và sau đoạn liên quan; patch thay đổi nhỏ, rõ ràng, có thể review; cuối cùng chạy kiểm tra hoặc đọc lại file để xác minh. Không nên để agent ghi đè file lớn khi chỉ cần sửa vài dòng. Patch nhỏ giúp giảm rủi ro mất nội dung và giữ diff dễ đọc.

Browser: khi web app cần được kiểm tra như người dùng thật

Browser tool cho phép Hermes mở trang web, đọc snapshot giao diện, click, nhập dữ liệu, cuộn trang, xem console và chụp ảnh màn hình. Đây là tool rất hữu ích cho QA, kiểm thử giao diện, kiểm tra bug front-end, xác minh WordPress draft, kiểm tra form, hoặc xem nội dung dynamic mà web extraction thông thường không đọc được.

Khác với web search, browser automation làm việc với trang như một người dùng. Agent có thể nhìn thấy nút, form, menu, trạng thái đăng nhập, lỗi JavaScript hoặc layout bị vỡ. Khi kết hợp với vision, Hermes có thể đánh giá những thứ snapshot text không mô tả đủ: khoảng trắng, màu sắc, crop hình, bố cục card, modal, banner hoặc vấn đề responsive.

Trong workflow ThanhTuan.VN, browser tool đặc biệt hữu ích khi cần kiểm tra bài viết sau khi staging: tiêu đề có hiển thị đúng không, ảnh có bị cắt không, heading có tự nhiên không, block nội dung có lẫn metadata không, hoặc giao diện mobile có vấn đề không. Với sản phẩm SaaS, browser tool có thể dùng để tái hiện bug: mở trang, thực hiện thao tác, ghi nhận console error và mô tả bước tái hiện.

Kết hợp terminal, file và browser trong một workflow

Sức mạnh của Hermes không nằm ở từng tool riêng lẻ mà ở cách kết hợp chúng. Một workflow sửa lỗi front-end có thể diễn ra như sau: dùng browser mở trang và tái hiện lỗi; xem console để tìm JavaScript error; dùng file search tìm component liên quan; patch logic hoặc CSS; dùng terminal chạy test; cuối cùng quay lại browser để xác minh lỗi đã hết.

Đây là kiểu vòng lặp quan sát – sửa – kiểm chứng mà AI Agent cần có nếu muốn hữu ích trong môi trường kỹ thuật. Nếu chỉ sửa code mà không mở lại giao diện, agent dễ “đoán đúng về mặt lý thuyết” nhưng sai ở thực tế. Nếu chỉ xem browser mà không đọc code, agent chỉ mô tả vấn đề nhưng không giải quyết được.

Với nội dung website, quy trình cũng tương tự. Agent có thể dùng file tool để viết bài markdown, dùng browser để kiểm tra bản nháp sau khi đưa lên CMS, dùng vision để đánh giá ảnh hiển thị, và dùng terminal hoặc CLI để đồng bộ assets. Điểm quan trọng là mỗi bước đều có bằng chứng xác minh.

Các toolset khác nên biết

Ngoài terminal, file và browser, Hermes còn có nhiều toolset khác tùy cấu hình. web và search hỗ trợ nghiên cứu; vision phân tích ảnh, screenshot hoặc tài liệu scan; image_gen tạo ảnh bằng mô hình đã cấu hình; tts chuyển văn bản thành audio; github hỗ trợ repository, pull request, issue hoặc review; Google Workspace hỗ trợ Gmail, Calendar, Drive, Docs, Sheets nếu đã cấu hình; cronjob dùng cho tác vụ định kỳ; memory và session_search giúp nhớ và tìm lại ngữ cảnh; delegation giao việc cho subagent.

Không phải môi trường nào cũng cần bật tất cả. Một setup cho developer có thể ưu tiên terminal, file, GitHub, browser. Một setup cho trợ lý điều hành có thể ưu tiên messaging, Google Workspace, memory, cron và web. Một setup nghiên cứu có thể cần web, file, session_search và citation workflow.

Thiết lập tools bằng CLI

Hermes cung cấp các lệnh cơ bản để quản lý tools:

hermes tools hermes tools list hermes tools enable browser hermes tools disable browser

Tên toolset cụ thể phụ thuộc vào cấu hình và phiên bản Hermes, nhưng nguyên tắc vận hành không đổi: xem danh sách, bật những gì cần, tắt những gì không cần, rồi bắt đầu phiên mới để thay đổi có hiệu lực. Khi triển khai cho team, nên ghi lại một baseline toolset cho từng vai trò thay vì để mỗi người bật tùy hứng.

Ví dụ, content operator có thể cần file, web, browser, vision và image_gen. Developer thường cần terminal, file, browser, GitHub và web. Chief of Staff cần messaging, memory, cronjob, Google Workspace, web và file ở mức cần thiết. Reviewer bị giới hạn có thể chỉ cần web và file read-oriented workflow.

Rủi ro khi cấp tool quá rộng

Tool càng mạnh thì rủi ro càng cao. Terminal có thể chạy lệnh phá dữ liệu nếu không có cơ chế phê duyệt. Browser có thể truy cập phiên đăng nhập và thao tác trên trang thật. File tool có thể sửa nhầm nội dung quan trọng. Google Workspace hoặc GitHub tool có thể ảnh hưởng đến tài liệu, lịch, issue, PR hoặc repository.

Do đó, trước khi dùng Hermes cho môi trường sản xuất, cần trả lời vài câu hỏi: agent có được phép ghi file hay chỉ đọc; terminal có cần approval với lệnh nguy hiểm không; có tách profile cho môi trường cá nhân, staging và production không; tool nào cần bật trên Telegram gateway, tool nào chỉ nên dùng trong CLI; log, memory và session history có chứa dữ liệu nhạy cảm không.

Ranh giới tốt không làm agent kém hữu ích. Ngược lại, nó giúp agent đáng tin hơn vì người dùng biết rõ agent được phép làm gì và không được phép làm gì.

Checklist vận hành an toàn

Trước khi giao việc cho Hermes với tools mạnh, hãy kiểm tra:

Đúng thư mục làm việc chưa?
Có repo hoặc file backup nếu cần chưa?
Toolset có phù hợp với nhiệm vụ không?
Có cần tắt browser hoặc terminal trong phiên này không?
Agent có hiểu mục tiêu, phạm vi và tiêu chí hoàn thành không?
Sau thay đổi có bước test, browser verification hoặc diff review không?
Với tác vụ dài, có dùng background process hoặc cron đúng cách không?

Checklist này nghe đơn giản nhưng giảm rất nhiều lỗi phổ biến. AI Agent thường mắc lỗi không phải vì thiếu năng lực, mà vì nhiệm vụ mơ hồ, quyền quá rộng hoặc thiếu bước xác minh.

Kết luận

Hermes tools là phần biến Hermes Agent từ một trợ lý hội thoại thành một hệ thống làm việc thực tế. Browser giúp quan sát và tương tác với web app, terminal giúp chạy lệnh và kiểm thử, file tool giúp đọc – sửa – lưu thay đổi có kiểm soát. Khi kết hợp đúng, ba nhóm này tạo thành vòng lặp agentic quan trọng: quan sát, hành động, xác minh.

Với guide nâng cao về Hermes Agent, bài này là nền tảng trước khi đi vào subagents và delegation. Một agent chính chỉ thật sự hiệu quả khi nó có tool phù hợp; nhiều agent phối hợp với nhau càng cần ranh giới tool rõ ràng hơn. Hãy bắt đầu bằng cấu hình tối thiểu, mở rộng theo nhu cầu, và luôn xem tools như quyền truy cập hệ thống chứ không chỉ là tính năng phụ.