分类: 趣站

  • Google 发布 AI 图像创意工具「Whisk」

    Google 发布 AI 图像创意工具「Whisk」

    工具介绍

    Whisk是Google Labs推出的一款创新的AI图像生成工具,它通过图像输入快速生成并重混创意图片。以下是Whisk的一些主要特点和功能:

    1. 图像驱动的生成:Whisk允许用户通过上传图像来确定主体、场景和风格,而不是使用文本提示,这为不擅长撰写文本提示的用户提供了更便捷的方式。
    2. 自动生成详细字幕:Gemini模型会自动为用户上传的图像编写详细的字幕描述,这些描述会被输入到Imagen 3模型中,以更好地捕捉图像的关键特征并生成符合用户意图的新图像。
    3. 创意重新混合:Whisk能够将不同的主体、场景和风格图像进行重新混合,创造出独特的设计,如数字玩偶、珐琅别针等各种创意产品。
    4. 本质捕捉而非复制:Whisk捕捉的是输入图像的本质特征,而不是精确复制,这使得生成的图像具有更多的创意变化空间,但也可能导致结果与用户预期不完全一致。
    5. 可编辑提示:用户可以查看和编辑底层的提示信息,以便根据自己的需求对生成的图像进行调整和优化,例如修改颜色、图案等特征。
    6. 适用场景:Whisk主要定位于创意探索,旨在帮助用户快速生成和迭代各种创意想法,而非用于精确的图像编辑。
    7. 技术原理:Whisk的背后是Google的Gemini视觉理解与描述模型和Imagen 3图像生成模型。Gemini模型负责为用户的图像生成详细的文字描述,这些描述精准捕捉了图片的主题、情感和风格特征。随后,这些描述被传递给Imagen 3模型,该模型基于这些丰富的信息,运用深度学习算法,创造出既符合用户意图又充满惊喜的新图像。
    8. 访问方式:目前,Whisk仅对美国用户(美国IP)开放,用户可在labs.google/whisk上使用该工具并提供反馈。

    Whisk的推出,标志着Google在图像生成领域的一次重要布局,这款工具不仅简化了图像创作的流程,更在技术上实现了质的飞跃,为用户提供了一种独特的图像生成方法

    工具地址

    地址:https://blog.google/technology/google-labs/whisk/

    使用地址:https://labs.google/fx/zh/tools/whisk

    目前仅支持美国(ip)地区

  • 独立开发者之海外公司注册 – meepo

    独立开发者之海外公司注册 – meepo

    工具介绍

    独立开发者之海外公司注册这篇教程主要针对做出海应用的独立开发者,记录从 0 到 1 开设美国公司的流程,包含注册地,税务,年审等,过程和方案选择并不一定适合每个人,适合计划进行海外业务的开发者参考,涵盖了注册地选择、公司组织形式、税务要求、年审以及相关工具和平台的比较。教程通过中介在怀俄明州注册INC公司,并将公司运营和税务事宜交由中介处理,省去繁琐流程。教程特别提到通过注册海外公司开设Stripe账户以便接收SaaS产品收入的优势,同时分析了怀俄明州、特拉华州和内华达州三地的注册特点,并介绍了EIN、ITIN等税号的区别及适用情况。对于报税,教程强调NRA身份的开发者可以零申报,但需注意按期申报以免罚款。如果不再经营的公司需及时注销,避免法律和税务风险。

    工具地址

    网站:独立开发者之海外公司注册

  • 中文博客琅琊榜 – 优质中文独立博客列表

    中文博客琅琊榜 – 优质中文独立博客列表

    工具介绍

    一个中文博客琅琊榜,只收录优质的中文独立博客,全网最精品。

    已收录 328 个博客站点,大部分持续更新中,高质量,阅读体验良好,提供博客类型分类、名称、地址和简要介绍,开阔开阔视野挺好。

    这些博主才华横溢,满怀自由精神, 他们的观念具有一种无法遏制的力量。我无比羡慕那些正准备阅读这些文章的人,他们面对的是一场精神的盛宴。

    工具地址

    GitHub:https://github.com/qianguyihao/blog-list

  • 五十弦 – AI古诗词搜索引擎 以图搜诗词工具

    五十弦 – AI古诗词搜索引擎 以图搜诗词工具

    工具介绍

    五十弦是一款AI古诗词搜索引擎,也是一款以图搜诗词工具,支持上传图片或输入文字描述,能够分析图片或文字,后台调用多模态大模型对图片进行理解,然后在向量数据库里匹配古诗词,以向量搜索的方式从浩瀚的古诗词中找到最贴切的诗句。目前涵盖《全唐诗》四万多首,未来将扩展至宋词等作品,旨在以科技赋能传统文化,创新体验以图搜诗的乐趣。

    工具地址

    网站:https://www.wushixian.info/

  • CAPTCHA-automatic-recognition:AI 驱动的验证码自动识别脚本

    CAPTCHA-automatic-recognition:AI 驱动的验证码自动识别脚本

    工具介绍

    CAPTCHA-automatic-recognition 是一款 AI 驱动的验证码自动识别与填充脚本。它通过人工智能模型对网页验证码进行自动识别,并将识别结果直接填入输入框。该脚本支持 OpenAI、Gemini 以及阿里云通义千问等主流 AI 服务,用户也可以自定义 API 地址和模型。配置一次后,即可在所有网站通用,无需反复设置。

    功能特点

    • 自动识别与填充 :自动识别网页验证码,并将结果直接填入输入框,减少手动输入的繁琐操作。
    • 支持主流 AI 服务 :支持 OpenAI、Gemini、阿里云通义千问等主流 AI 服务,用户可以根据需求选择合适的 AI 模型。
    • 自定义 API 地址和模型 :用户可以自定义 API 地址和模型,满足个性化需求。
    • 通用配置 :配置一次后,即可在所有网站通用,无需反复设置,提升使用效率。

    使用场景

    • 在线注册与登录 :在需要验证码的在线注册或登录场景中,自动识别验证码并填充,提升用户体验。
    • 自动化测试 :在自动化测试中,快速识别验证码,确保测试流程的顺利进行。
    • 数据采集 :在数据采集过程中,自动识别验证码,提高数据采集的效率和准确性

    安装与使用

    安装方法

    1. 在浏览器中添加Tampermonkey或Violentmonkey扩展
    2. 访问脚本安装地址并完成安装

    使用方法

    1. 打开任意含验证码的网页
    2. 点击验证码图片右侧的小图标
    3. 首次点击时会弹出设置面板,输入API Key并选择模型
    4. 保存后即可开始单击识别,也可在设置中勾选“验证码变化时自动识别”
    5. 对于使用前端框架模板的网站,可启用“自动复制到剪贴板”以确保识别结果有效

    工具地址

    GitHub:https://github.com/XiaomingX/openai-captcha-detection

    安装链接:CAPTCHA-automatic-recognition(AI 验证码自动识别填充)

  • NGCBot – 基于 HOOK 机制的微信机器人

    NGCBot – 基于 HOOK 机制的微信机器人

    工具介绍

    一个开源功能强大的微信机器人,支持安全新闻定时推送、天气查询、手机号归属地查询、星座查询等多种服务,自定义程度丰富,小白也可轻松上手。

    此外还包括积分系统、自动拉人进群、广告检测和 AI 回复等功能,还支持多种 AI 接口,如 Gpt 和星火,用户可以根据需要配置相应的 API 密钥以启用特定功能。

    工具地址

    视频教程:https://www.bilibili.com/video/BV1voqwYAEWs/

    GitHub:https://github.com/ngc660sec/NGCBot

  • Google 发布旗下最强 AI 大模型「Gemini 2.0 Flash」

    Google 发布旗下最强 AI 大模型「Gemini 2.0 Flash」

    工具介绍

    Gemini 2.0 Flash 是谷歌最新发布的人工智能模型,它是 Gemini 2.0 系列的首个模型,具有以下特点和功能:

    1. **多模态输入输出**:Gemini 2.0 Flash 支持图片、视频和音频等多模态输入,并且能够进行多模态输出,例如直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。

    2. **性能提升**:与上一代模型 Gemini 1.5 Flash 相比,Gemini 2.0 Flash 在关键基准测试中的表现是1.5 Pro版本的两倍之快。

    3. **原生工具调用**:Gemini 2.0 Flash 可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。

    4. **智能体时代**:谷歌CEO桑达尔·皮查伊表示,如果说Gemini 1.0的作用是整合和理解信息,那么Gemini 2.0能够做到让信息更加有用,为构建通用助手的愿景更进一步。

    5. **AI Agent功能**:Gemini 2.0 系列模型主打 AI Agent 功能,在原本的功能之外,还加入了多项新的 Agent 功能。

    6. **开发者体验**:从周三起,2.0 Flash的实验版本将通过Gemini API和谷歌的AI开发平台(AI Studio和Vertex AI)提供。然而,音频和图像生成功能仅对“早期接入合作伙伴”开放,并计划在明年1月全面推出。

    7. **新输出模式**:开发人员将能够使用 Gemini 2.0 Flash 生成集成响应,这些响应可以包含文本、音频和图像 — 只需调用一次 API 即可完成。

    8. **多模态实时API**:谷歌推出了新的多模态实时API,支持实时音频和视频流输入,并能同时使用多个组合工具,为用户带来更加丰富的交互体验。

    9. **智能体研究原型**:谷歌还展示了三个智能体研究原型:Project Astra、Project Mariner和Jules,展现了智能体如何改变我们与数字世界的互动方式。

    Gemini 2.0 Flash 的发布标志着谷歌在人工智能领域的进一步发展,特别是在多模态处理和智能体技术方面。

    具备生成图像和音频、网页搜索、代码编写、游戏指导等多模态功能(图片和语音生成功能将于明年 1 月开放)

    工具地址

    网站:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

    直达:https://gemini.google.com/

  • NSFW Detector – 基于 AI 的 NSFW 内容检测器

    NSFW Detector – 基于 AI 的 NSFW 内容检测器

    工具介绍

    相较于传统的 NSFW 检测工具,该工具支持检测图片、PDF、视频、压缩包中的文件

    可以在本地纯 CPU 推理下检测 NSFW

    工具地址

    中文指南:https://github.com/tmplink/nsfw_detector/blob/main/README_cn.md

    网站:https://www.vx.link/nsfw_detector.html

    GitHub:https://github.com/tmplink/nsfw_detector

  • Text Behind Image – 开源在线图片设计工具 轻松创建图像设计背后的文字

    Text Behind Image – 开源在线图片设计工具 轻松创建图像设计背后的文字

    工具介绍

    Text Behind Image是一款开源在线图片设计工具,可以让你神奇地将文字置于照片主体背后的工具。Text Behind Image允许用户在图片中的角色或主体背后添加文字,创建具有视觉冲击力的海报和社交媒体图像。用户可自定义文字样式,包括字体、颜色、位置、不透明度等,并能快速将设计分享到社交媒体。工具由 16 岁开发者 Rexan Wong 创建,基于 Next.js 框架开发,结合前端技术(如 Canvas 和 SVG)实现图像处理,提供流畅的用户体验。代码已公开在 GitHub 上,适合设计师和内容创作者使用。

    工具地址

    地址1:https://textbehindimage.rexanwong.xyz

    地址2:https://textbehindimage.app

    GitHub:https://github.com/RexanWONG/text-behind-image

  • 免费体育赛事直播平台-JRKAN直播

    免费体育赛事直播平台-JRKAN直播

    工具介绍

    JRKAN直播是一个综合性体育赛事直播平台,主要为足球迷,篮球迷,电竞等提供世界杯直播、足球直播、NBA直播、五大联赛直播等等,多线路直播、多直播解说,网站支持中英文,赛程时间一目了然,所有的赛事直播源均由第三方提供,JRKAN直播不提供任何独家赛事直播视频。

    工具地址

    地址1:www.jrskk.com

    地址2:www.jrs32.com

    地址3:www.jrs23.com

    发布页:https://www.qiumi1314.com/