Min的博客

发表于2025-05-18|学术研究科研工具

1. 主要学术数据库筛选指南1.1 IEEE Xplore可用筛选字段： Publication Title：期刊名称 ✅ Publisher：出版社（IEEE、ACM等） Document Title：论文标题 Author：作者 Abstract：摘要 Author Keywords / IEEE Terms：关键词 DOI / ISBN / ISSN：唯一标识符示例：搜索 blockchain security，然后在筛选栏选择 Conference Name: NDSS 或 Publication Title: IEEE Transactions on Dependable and Secure Computing。 1.2 ACM Digital Library可用筛选字段： Publication in：Venue期刊/会议名称（如 CCS、WWW） ✅ Title / Abstract / Author / Keywords：标题/摘要/作者/关键词 DOI &#x ...

发表于2025-05-18

123456(base) PS C:\Users\A> powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"set Path=C:\Users\A\.local\bin;%Path% (cmd)$env:Path = "C:\Users\A\.local\bin;$env:Path" (powershell)(base) PS C:\Users\A> echo 'eval "$(uv generate-shell-completion bash)"' >> ~/.bashrc

二分查找

发表于2025-05-13

1。算法细节区间常取双闭区间，中点常向下取整，且终止条件为左区间大于右区间，且i,j都要m＋-1由于不等，保证了搜索的结束.123456789101112131415def binary_search(nums: list[int], target: int) -> int: """二分查找（双闭区间）""" # 初始化双闭区间 [0, n-1] ，即 i, j 分别指向数组首元素、尾元素 i, j = 0, len(nums) - 1 # 循环，当搜索区间为空时跳出（当 i > j 时为空） while i <= j: # 理论上 Python 的数字可以无限大（取决于内存大小），无须考虑大数越界问题 m = (i + j) // 2 # 计算中点索引 m if nums[m] < target: i = m + 1 # 此情况说明 target 在区间 [m+1, j] 中 elif n ...

Cloudinary

发表于2025-05-01|博客

Cloudinary是什么？Cloudinary 是一家提供云端图像和视频管理服务的公司。它主要做以下几件事情：存储和管理你的图片和视频：你可以将所有的图片和视频上传到 Cloudinary 的云端，它会帮你安全地存储和组织这些文件。优化你的媒体资源： Cloudinary 可以自动或手动地调整图片和视频的尺寸、格式、质量，以适应不同的设备和网络环境，从而加快加载速度，提升用户体验。转换和处理你的媒体资源：它可以对图片进行裁剪、缩放、添加水印、应用滤镜等各种编辑操作；对视频进行转码、剪辑、添加字幕等处理。通过 API 轻松集成： Cloudinary 提供强大的 API (应用程序编程接口)，开发者可以很容易地将 Cloudinary 的功能集成到自己的网站、应用程序或其他数字产品中。这意味着开发者不需要自己搭建复杂的媒体处理系统，可以直接调用 Cloudinary 的服务。全球内容分发网络 (CDN)： Cloudinary 利用 CDN 将你的媒体资源分发到全球各地的服务器上，确保用户可以快速地从离他们最近的服务器获取内容。 Cloudinary和图床有什么区别？ ...

adaseq踩坑记录 unpicklable

发表于2025-04-13

[[老环境配置记录modelscope]] modelscope :/usr/local/bin/python是默认的python路径 2025-09-02 17:35:55,329 - modelscope - WARNING - task token-classification input definition is missing 2025-09-02 17:35:55,509 - modelscope - WARNING - task token-classification output keys are missing 3/47 周赛1 # 2025天池极客挑战赛——用户购买行为预测全国第三 adaseq感觉已经两年没有维护了，安全加载模型没有配置方法 1234567891011121314from adaseq.commands.train import build_trainer_from_partial_objectswork_dir = 'experiments/transformer_crf ...

发表于2025-04-13

[[传统图像处理]][[DL]] 下列选项中，适用于检测图像中直线的函数是A LaplacianB SobelC CannyD Houghlines A. Laplacian：拉普拉斯算子是一种二阶微分算子，用于检测图像中的边缘，但不能直接检测直线。 B. Sobel：Sobel算子是一种一阶微分算子，用于检测图像中的边缘（水平和垂直方向），但不专门用于检测直线。 C. Canny：Canny边缘检测算法是一种多阶段的边缘检测方法，可以提取图像中的边缘，但不会直接检测直线。 D. HoughLines：霍夫变换（Hough Transform）是专门用于检测图像中直线（或曲线）的算法，HoughLines 是OpenCV中实现霍夫直线检测的函数。因此，这是正确答案。

ML追踪日志 Aim VS wandb 对比报告

发表于2025-04-13

Aim vs Weights & Biases (wandb) 对比报告Aim 💫核心特性开源 & 自托管：完全掌控数据与基础设施高性能：可高效处理上万次训练任务丰富UI：交互式实验对比可视化元数据追踪：记录参数、指标和产出物查询API：编程方式访问实验数据提示工程支持：专为LLM工作流设计优势✅ 完全免费开源（Apache 2.0许可）✅ 轻量级安装（pip install aim）✅ 无外部依赖✅ 本地优先架构✅ 活跃社区（GitHub 8.5k+ star）不足❌ 生态规模小于商业产品❌ 原生集成较少❌ 高级用例文档有限 Weights & Biases (wandb)核心特性云端平台：带协作功能的托管服务实验追踪：记录参数、指标和输出模型版本管理：追踪模型谱系和产出物可视化工具：交互式仪表盘和报告超参优化：内置参数调优功能优势✅ 精致的UI/UX✅ 广泛集成（PyTorch/TensorFlow等）✅ 强大的协作功能✅ 完善的文档✅ 提供免费版不足❌ 免费版功能有限（团队/高级功能需付费 ...

Python内置库的数据结构

发表于2025-04-13

Python内置库中的数据结构Python标准库提供了多种数据结构，非常适合用于算法实现。以下是常用的几种： 1. 栈 (Stack)Python中可以使用列表(list)作为栈： 12345stack = []stack.append(1)# 入栈stack.append(2)top = stack[-1]# 查看栈顶元素popped = stack.pop()# 出栈，返回2 2. 队列 (Queue)/双端队列普通队列 (FIFO)1234567from collections import dequequeue = deque()queue.append(1)# 入队queue.append(2)first = queue[0]# 查看队首元素dequeued = queue.popleft()# 出队，返回1 3. 堆 (Heap)/优先队列 (Priority Queue)Python的heapq模块提供了堆队列算法实现（最小堆）： 1234567import heapqnums = [3, 1, 4, 1, 5, 9, 2, 6]heapq.heapi ...

SPARK RDD VS Dataframe

发表于2025-04-13

基于 RDD 的 API 和基于 DataFrame/Dataset 的 API 在 Spark 中有本质的不同，主要体现在以下几个方面： 1. 数据表示方式 RDD DataFrame/Dataset 非结构化/半结构化，存储的是原始的 Java/Scala/Python 对象结构化，数据以列式存储（类似于关系型数据库的表）没有内置的 Schema（字段名和类型）自带 Schema（字段名 + 数据类型）数据以 (key, value) 等基本形式存储数据以 Row 对象存储，并带有列名示例： RDD：("apple", 3)（只是一个元组，Spark 不知道它的含义） DataFrame：Row(word="apple", count=3)（明确知道 word 是字符串，count 是整数） 2. 优化方式 RDD DataFrame/Dataset 无优化，直接按代码逻辑执行 Catalyst 优化器自动优化执行计划（如谓词下 ...

Spark 的基本数据模型

发表于2025-04-13

Spark 的基本数据模型主要包括 RDD（弹性分布式数据集）、DataFrame 和 Dataset，它们构成了 Spark 处理数据的核心抽象。以下是它们的详细对比和特点： 1. RDD（Resilient Distributed Dataset）核心特点：分布式：数据分片（Partition）存储在集群多个节点上。弹性（Resilient）：通过血缘关系（Lineage）和持久化（Persist）实现容错。不可变：一旦创建，不能修改，只能通过转换操作生成新的 RDD。惰性求值：只有触发行动操作（如 collect()）时才会执行计算。适用场景：需要低层次控制（如自定义分区、复杂业务逻辑）。处理非结构化数据（如文本、日志）。 2. DataFrame核心特点：结构化数据模型：数据以行和列的形式组织（类似关系型数据库表）。 Schema 支持：明确字段名和类型（如 name: String, age: Int）。优化引擎：通过 Catalyst 优化器和 Tungsten 二进制格式提升性能。 API 风格：支持 SQL 查询和 DSL（领域特定语言） ...