Vertica 团队很高兴与您分享我们的喜悦2022年 12 月初,为 Python x 数据科学“牵线搭桥”的 VerticaPy 项目正式达成百星「里程碑」成就——我们的 GitHub Repo(Repository,意为“仓库”)点亮第 100 颗星,而且每日的增星速度都在攀升!(截止发稿当日已满 117 颗星)
如今,GitHub 已是技术界同仁共享创新技术、框架、资源库和各种组合搭配的首要平台之一。如何从海量内容中找到最合适的 Repo 是一种艺术,而“Repo 星”正是 GitHub 用户对某项目喜爱/感兴趣的直观体现。这就好像私人档案的书签或记号笔一样,星级越多,越能证明该 Repo 的受欢迎程度及其社区贡献。
VerticaPy 项目正式启动于 2018,是为支持 Vertica 用户更方便地使用 Python 而生的社区性开源项目。“VerticaPy 源于一个简单的想法——将 Vertica 的高扩展性与 Python 的高灵活性相结合,”Vertica 首席数据科学家 Badr Ouali 解释道。“在过去很长的一段时间,VerticaPy 都是在黑暗中摸索,默默地进步。但近几个月,我们明显看到技术粉对用 Vertica 进行数据科学项目推演、利用其数量惊人的 Python API 的兴趣越来越大。”
VerticaPy 始于一个简单原则:让数据科学更 easy 更高效
正如 GitHub“铁粉”所知,一开始要获得很多的星并不容易。您能看到的、大部分成功的 Github 项目都是基于已推广使用的通用技术,并作为其插件或附加组件推出。
但要从 0 到 1,非常难。据统计成功建立起新的技术产品以及围绕它运行的繁荣社区,至少要花几年时间不等。但 VerticaPy 的“缔造者”Ouali 持有乐天派的态度,他认为,由于过去几个月采用率突飞猛进,高歌势头还将持续至 2023 年。“特别是,随着 VerticaPy 团队的投入越来越积极,这个软件将更容易部署和使用。“他说。
在我们对真实用户的采访中,处于一线的数据科学开发者 Umar Farooq Ghumman 吐露了他的心声:“我很高兴能成为这个让数据科学更民主化、效果更惊人的团队的一份子。这个项目了不起!它简化了很多复杂的数据科学任务。我们将不负所望,持续探索机会,让数据科学更简单、更用户友好。”
Ghumman 认为,VerticaPy 的前景甚至超过了 Vertica 本身,原因在于前者结合了很多 Python 库的突出优势。“随着越来越多的新用户进入 Python 世界,VerticaPy 在数据科学之旅的早期阶段,就为他们消除了大部分‘摩擦’。而这些用户可能是客户企业的新员工/初级员工,或者是数据专业的学生和研究从业者,这种影响力是不可忽视的。”
截至目前,VerticaPy 支持全部类型的算法——只有您想不到,没有它做不到:分类算法,如随机森林或 XGBoost;回归算法,如线性回归或 SVM;聚类算法,如 KMeans 或 Bisecting KMeans;异常检测算法,如孤立森林、Global ZScore、时间序列及 ARIMA 等
Badr Ouali 总结道:“VerticaPy 是一个完整的统计包,拥有机器学习的一切能力。”包括但不限于数据准备(时间序列/地理空间连接、模式匹配、缺失值归纳等)甚至是数据探索(与 Matplotlib 和 High Charts 整合)。”【来源:网络】