diff --git a/exports/hykilp/atom.xml b/exports/hykilp/atom.xml index 3a5668c8c..4c402294a 100644 --- a/exports/hykilp/atom.xml +++ b/exports/hykilp/atom.xml @@ -2,11 +2,22 @@ https://aza.moe/life 小桂桂的回忆录 📒 - 2023-06-07T02:35:32.774716+00:00 + 2023-06-07T04:06:59.474866+00:00 python-feedgen https://aza.moe/meru_256px.png 「我们所经历的每个平凡的日常,也许就是连续发生的奇迹」 + + 2255 + 小桂桂的回忆录 📒 #2255 + 2023-06-07T03:35:24+00:00 + <p>在 MS 工作就必须用 Azure,发现 Azure 还没有我的 homelab 好用 <i class="custom-emoji" emoji-src="emoji/6330367841061046406.webp">🐱</i></p> +<p>上周从 GCR 申请了一台有 GPU 的服务器,他们在 Azure 上分配给我了一个 A100 VPS,配了两个 1TB HDD。第二周爬数据,爬的时候懒得做处理直接把 json 存下来了,爬了大概 100GB 九百万个 json,然后清理数据分析的时候读的特别慢,刚开始还以为是 python json 解析慢结果换成 rust simd-json 还是一样慢,然后 btop 一下看 100% IO 读速居然只有 5 MB/s <i class="custom-emoji" emoji-src="emoji/6320856404055820121.webp">😨</i> 好,读本地硬盘比从网上爬还慢了</p> +<p>找解决方案的时候 fdisk -l 发现有一个没有初始化的 800GB NVMe,测一下顺序写 825 MB/s。群友告诉我这是重启都有可能清空的临时盘,但是没办法呀就用这个吧,然后就把数据 rsync 过去了,可能因为 rsync 是顺序读快一点,50 MB/s。同时又发邮件找 GCR 客服要了一块 SSD,一串邮件之后,他们在五分钟内重启了服务器并给我把那块 1T HDD “扩容成” 2TB SSD 了... 这是什么魔法 <i class="custom-emoji" emoji-src="emoji/6323397499981661640.webp">😨</i></p> +<p>fdisk 显示甚至分区表都没有变但是空间确实多了 1T,新的数据写入 233 MB/s,但是旧的数据读取更慢了,900 KB/s。算了算了,那就搬数据吧,然后发现重启之后那个临时 NVMe 盘居然真的被清空了... 重新从扩容 SSD 拷到 NVMe 再重新建文件系统拷回去,前者 900 KB/s 拷了两整天才拷完,不过后者两个小时就拷完啦。</p> +<p>好,终于有一个能用的 SSD 了,做了些数据分析,发现数据不太能用,开始爬新的数据。新的爬虫改成了 postgres,因为实在不想再折腾这么多小文件了,虽然 pg 也有 pg 的问题... 总之踩了各种坑把新的爬虫写好了。全都跑起来之后发现即使在 SSD 上跑 pg 也会遇到读写瓶颈,似乎占到 100% IO 也只能写到 50MB/s。结果再次迁移到临时 NVMe 上面去了,写到 400MB/s 瓶颈反而更平衡一些,又写了一个备份脚本每小时把数据同步回 SSD 上,终于有望在有限的时间内把数据爬完了 ;-;</p> + + 2253 小桂桂的回忆录 📒 #2253 diff --git a/exports/hykilp/emoji/6330367841061046406.webp b/exports/hykilp/emoji/6330367841061046406.webp new file mode 100644 index 000000000..479c86373 Binary files /dev/null and b/exports/hykilp/emoji/6330367841061046406.webp differ diff --git a/exports/hykilp/index.html b/exports/hykilp/index.html index 20f3372e9..6a561c3ad 100644 --- a/exports/hykilp/index.html +++ b/exports/hykilp/index.html @@ -27,7 +27,7 @@ diff --git a/exports/hykilp/media/2254.jpg b/exports/hykilp/media/2254.jpg new file mode 100644 index 000000000..2d88ad8a9 Binary files /dev/null and b/exports/hykilp/media/2254.jpg differ diff --git a/exports/hykilp/media/2254.jpg_thumb.jpg b/exports/hykilp/media/2254.jpg_thumb.jpg new file mode 100644 index 000000000..b808ac4cf Binary files /dev/null and b/exports/hykilp/media/2254.jpg_thumb.jpg differ diff --git a/exports/hykilp/media/2255.jpg b/exports/hykilp/media/2255.jpg new file mode 100644 index 000000000..16659317d Binary files /dev/null and b/exports/hykilp/media/2255.jpg differ diff --git a/exports/hykilp/media/2255.jpg_thumb.jpg b/exports/hykilp/media/2255.jpg_thumb.jpg new file mode 100644 index 000000000..81c9034f1 Binary files /dev/null and b/exports/hykilp/media/2255.jpg_thumb.jpg differ diff --git a/exports/hykilp/posts.json b/exports/hykilp/posts.json index c34c32c6e..de9d8d551 100644 --- a/exports/hykilp/posts.json +++ b/exports/hykilp/posts.json @@ -25567,7 +25567,7 @@ "id": 1922, "date": "2023-03-12T07:18:22", "text": "昨天写完回忆录觉得这个想法好棒,然后就即兴真的把它做成了我的小皮卡丘ww(又开始乱点技能池了hhh\n\n为了设计模型花去学了 FreeCAD!这次的开源软件还是很好用的,比 Fusion 360 方便太多了。不过之前原本打算学声明式的 OpenSCAD 来着,但是数学基础不太好没办法呢 ;-;。今天只重打了三次样本就做出完美间隙的成品了哇,很顺利,但是因为家里只有白色和粉色耗材就打了白色,然后和聊聊学了喷涂。\n\n第一次喷涂不是很均匀呢,还用掉了聊聊几乎一整支模型上色笔(呜对不起下次去超市一定会补回来)喷到最后才慢慢掌握了喷涂的节奏,可惜喷乱的已经没办法补救了。然后画脸的时候超级超级紧张哇,因为只有一次机会,画得不好看也没办法用黄色盖过黑色重画,可是紧张就会让我手抖,就更容易出错了 ;-; 不过最终效果还不错。\n\n好耶,又多了新的朋友呢,今后也要常常带着小皮卡出去玩 ///\n\n(模型开源了在这里", - "views": 73, + "views": 74, "forwards": 1, "media_group_id": 13428844015854429, "images": [ @@ -30160,7 +30160,7 @@ "id": 2243, "date": "2023-06-03T18:15:00", "text": "???我在打什么 🧐\n\n还以为 Earthbound 里面让我打会动的路牌和马克杯已经很迷惑了,Omori 怎么地球都能打的,还真的能打赢 🤯", - "views": 53, + "views": 54, "forwards": 0, "images": [ { @@ -30249,7 +30249,7 @@ "id": 2250, "date": "2023-06-05T06:30:58", "text": "好,无意间翻到了 31 号写到一半的年度总结 🤗", - "views": 79, + "views": 80, "forwards": 1, "reply": { "id": 1687, @@ -30272,7 +30272,7 @@ "id": 2251, "date": "2023-06-06T03:07:28", "text": "#桂桂今天吃什么\n照烧鸡腿盖饭和炒白菜!\n\n...然后做饭的时候发现我一周前刚买的不粘锅锅底被划了 🙃 但是这栋民宿里也没有铁炒勺,难道是谁在锅里切东西么... 总之把锅收到房间里了,果然不应该放在外面 😢", - "views": 41, + "views": 43, "forwards": 0, "media_group_id": 13488166790548397, "images": [ @@ -30302,7 +30302,37 @@ "id": 2253, "date": "2023-06-06T05:09:25", "text": "好羡慕去年实习的方向感,因为是复现研究只要按照别人的方法尝试收集数据实现然后公开一些可读的代码就好。\n\n现在的研究需要自己找方向,时间已经过去了四分之一,碰到了两个死路还要回到原点重新找方向。看到新的分岔也不知道哪条会通向答案,想要冒险 take risk 尝试些不寻常的思路,但是感觉现在的进度不能让我再浪费一周探索了,压力好大... 😭", - "views": 31, + "views": 35, "forwards": 0 + }, + { + "id": 2255, + "date": "2023-06-07T03:35:24", + "text": "在 MS 工作就必须用 Azure,发现 Azure 还没有我的 homelab 好用 🐱\n\n上周从 GCR 申请了一台有 GPU 的服务器,他们在 Azure 上分配给我了一个 A100 VPS,配了两个 1TB HDD。第二周爬数据,爬的时候懒得做处理直接把 json 存下来了,爬了大概 100GB 九百万个 json,然后清理数据分析的时候读的特别慢,刚开始还以为是 python json 解析慢结果换成 rust simd-json 还是一样慢,然后 btop 一下看 100% IO 读速居然只有 5 MB/s 😨 好,读本地硬盘比从网上爬还慢了\n\n找解决方案的时候 fdisk -l 发现有一个没有初始化的 800GB NVMe,测一下顺序写 825 MB/s。群友告诉我这是重启都有可能清空的临时盘,但是没办法呀就用这个吧,然后就把数据 rsync 过去了,可能因为 rsync 是顺序读快一点,50 MB/s。同时又发邮件找 GCR 客服要了一块 SSD,一串邮件之后,他们在五分钟内重启了服务器并给我把那块 1T HDD “扩容成” 2TB SSD 了... 这是什么魔法 😨\n\nfdisk 显示甚至分区表都没有变但是空间确实多了 1T,新的数据写入 233 MB/s,但是旧的数据读取更慢了,900 KB/s。算了算了,那就搬数据吧,然后发现重启之后那个临时 NVMe 盘居然真的被清空了... 重新从扩容 SSD 拷到 NVMe 再重新建文件系统拷回去,前者 900 KB/s 拷了两整天才拷完,不过后者两个小时就拷完啦。\n\n好,终于有一个能用的 SSD 了,做了些数据分析,发现数据不太能用,开始爬新的数据。新的爬虫改成了 postgres,因为实在不想再折腾这么多小文件了,虽然 pg 也有 pg 的问题... 总之踩了各种坑把新的爬虫写好了。全都跑起来之后发现即使在 SSD 上跑 pg 也会遇到读写瓶颈,似乎占到 100% IO 也只能写到 50MB/s。结果再次迁移到临时 NVMe 上面去了,写到 400MB/s 瓶颈反而更平衡一些,又写了一个备份脚本每小时把数据同步回 SSD 上,终于有望在有限的时间内把数据爬完了 ;-;", + "views": 17, + "forwards": 0, + "media_group_id": 13488871396425789, + "images": [ + { + "width": 2560, + "height": 1920, + "date": "2023-06-07T03:35:22", + "media_type": "photo", + "original_name": "photo_2023-06-07_03-35-22.jpg", + "url": "media/2254.jpg", + "size": 869811, + "thumb": "media/2254.jpg_thumb.jpg" + }, + { + "width": 1920, + "height": 2560, + "date": "2023-06-07T03:35:23", + "media_type": "photo", + "original_name": "photo_2023-06-07_03-35-23.jpg", + "url": "media/2255.jpg", + "size": 913901, + "thumb": "media/2255.jpg_thumb.jpg" + } + ] } ] \ No newline at end of file diff --git a/exports/hykilp/rss.xml b/exports/hykilp/rss.xml index b912876b6..f5f0cfa24 100644 --- a/exports/hykilp/rss.xml +++ b/exports/hykilp/rss.xml @@ -12,7 +12,17 @@ https://aza.moe/life zh-cn - Wed, 07 Jun 2023 02:35:32 +0000 + Wed, 07 Jun 2023 04:06:59 +0000 + + 小桂桂的回忆录 📒 #2255 + https://aza.moe/life?post=2255 + <p>在 MS 工作就必须用 Azure,发现 Azure 还没有我的 homelab 好用 <i class="custom-emoji" emoji-src="emoji/6330367841061046406.webp">🐱</i></p> +<p>上周从 GCR 申请了一台有 GPU 的服务器,他们在 Azure 上分配给我了一个 A100 VPS,配了两个 1TB HDD。第二周爬数据,爬的时候懒得做处理直接把 json 存下来了,爬了大概 100GB 九百万个 json,然后清理数据分析的时候读的特别慢,刚开始还以为是 python json 解析慢结果换成 rust simd-json 还是一样慢,然后 btop 一下看 100% IO 读速居然只有 5 MB/s <i class="custom-emoji" emoji-src="emoji/6320856404055820121.webp">😨</i> 好,读本地硬盘比从网上爬还慢了</p> +<p>找解决方案的时候 fdisk -l 发现有一个没有初始化的 800GB NVMe,测一下顺序写 825 MB/s。群友告诉我这是重启都有可能清空的临时盘,但是没办法呀就用这个吧,然后就把数据 rsync 过去了,可能因为 rsync 是顺序读快一点,50 MB/s。同时又发邮件找 GCR 客服要了一块 SSD,一串邮件之后,他们在五分钟内重启了服务器并给我把那块 1T HDD “扩容成” 2TB SSD 了... 这是什么魔法 <i class="custom-emoji" emoji-src="emoji/6323397499981661640.webp">😨</i></p> +<p>fdisk 显示甚至分区表都没有变但是空间确实多了 1T,新的数据写入 233 MB/s,但是旧的数据读取更慢了,900 KB/s。算了算了,那就搬数据吧,然后发现重启之后那个临时 NVMe 盘居然真的被清空了... 重新从扩容 SSD 拷到 NVMe 再重新建文件系统拷回去,前者 900 KB/s 拷了两整天才拷完,不过后者两个小时就拷完啦。</p> +<p>好,终于有一个能用的 SSD 了,做了些数据分析,发现数据不太能用,开始爬新的数据。新的爬虫改成了 postgres,因为实在不想再折腾这么多小文件了,虽然 pg 也有 pg 的问题... 总之踩了各种坑把新的爬虫写好了。全都跑起来之后发现即使在 SSD 上跑 pg 也会遇到读写瓶颈,似乎占到 100% IO 也只能写到 50MB/s。结果再次迁移到临时 NVMe 上面去了,写到 400MB/s 瓶颈反而更平衡一些,又写了一个备份脚本每小时把数据同步回 SSD 上,终于有望在有限的时间内把数据爬完了 ;-;</p> + 2255 + 小桂桂的回忆录 📒 #2253 https://aza.moe/life?post=2253