数据分析与机器学习基础

AI拉呱
4 min readMay 5, 2020

--

基本步骤

固定随机种子

  • 实验的可复现是非常重要的一件事情,而随机种子可能会造成实验结果无法复现。因此必须固定好随机种子,否则会导致不同的训练集和测试集,以及神经网络的不同初始化权重,这些都会导致不一样的实验结果。

鱼聚会可能的错误

  • 每次检查数据的时候注意数据中是否存在空格,因为空格将导致代码出错。
print(len(df))
df.isna().sum()
df.dropna()
print(len(df))

进度展示

  • 1.tqdm进度
from tqdm import tqdm
import time
tqdm.pandas()df['col'] = df['col'].progress_apply(lambda x: x**2)text = ""
for char in tqdm(["a", "b", "c", "d"]):
time.sleep(0.25)
text = text + char
  • 2.第二种方法fastprogress
from fastprogress.fastprogress import master_bar, progress_bar
from time import sleep
mb = master_bar(range(10))
for i in mb:
for j in progress_bar(range(100), parent=mb):
sleep(0.01)
mb.child.comment = f'second bar stat'
mb.first_bar.comment = f'first bar stat'
mb.write(f'Finished loop {i}.')

pandas可能会慢

  • 采用 groupby 函数的时候
import modin.pandas as pd

写好接口

  • 一个组合:Fastapi + uvicorn + gunicorn
  • Fastest — 采用 fastapi 写接口是非常快速的,正如[1]中的报告展示,以及原因可以参考[2];
  • 文档 — fastapi有免费的官方文档以及可以通过 http:url/docs 进行测试,并且这个链接可以自动生成以及随着我们修改代码而自动改变;
  • Workers — 采用 gunicorn 服务器部署接口是因为它具有开始多于 1 个 worker 的功能,并且你应该至少保持 2 个。

--

--

AI拉呱
AI拉呱

Written by AI拉呱

专注于人工智与网络安全方面的研究,现任资深算法研究员,兼职硕士研究生导师;热爱机器学习和深度学习算法应用,深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖,拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。

No responses yet