网约车大数据综合项目——数据分析Spark

1天前 • 大数据

网约车大数据综合项目——数据分析Spark

第1关：统计撤销订单中撤销理由最多的前 10 种理由

    import org.apache.log4j.Level;
    import org.apache.log4j.Logger;
    import org.apache.spark.sql.Dataset;
    import org.apache.spark.sql.Row;
    import org.apache.spark.sql.SaveMode;
    import org.apache.spark.sql.SparkSession;
    public class CancelReasonTop10 {
        public static void main(String[] args) {
            /********** Begin **********/
            Logger.getLogger("org").setLevel(Level.ERROR);
            SparkSession spark = SparkSession.builder().master("local").appName("CancelReasonTop10").getOrCreate();
            Dataset moviesData = spark.read().option("delimiter", "|").csv("/data/workspace/myshixun/data/canceldata.txt")
                    .toDF("companyid", "address", "districtname", "orderid", "ordertime", "canceltime", "operator", "canceltypecode", "cancelreason");
            moviesData.registerTempTable("data");
            spark.sql("select cancelreason,count(*) num from data where cancelreason != '未知' group by cancelreason order by num desc limit 10")
                    .write()
                    .format("jdbc")
                    .option("url", "jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=utf-8")
                    .option("dbtable", "cancelreason")
                    .option("user", "root")
                    .option("password", "123123")
                    .mode(SaveMode.Append)
                    .save();
            /********** End **********/
        }
    }

第2关：查询出成功订单最多的10个地区名

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;
public class OrderByCreateTop10 {
    public static void main(String[] args) {
        /********** Begin **********/
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession.builder().master("local").appName("OrderByCreateTop10").getOrCreate();
        Dataset orderdata = spark.read().option("delimiter", "\t").csv("/data/workspace/myshixun/data/createdata.txt")
                .toDF("companyid", "address", "districtname", "orderid", "departtime", "ordertime", "departure", "deplongitude", "deplatitude", "destination", "destlongitude", "destlatitude");
        orderdata.registerTempTable("data");
        spark.sql("select districtname,count(*) num from data group by districtname order by num desc limit 10")
                .write()
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=utf-8")
                .option("dbtable", "order_district")
                .option("user", "root")
                .option("password", "123123")
                .mode(SaveMode.Append)
                .save();
        /********** End **********/
    }
}

第3关：查询订单线路中出行次数最多的五条线路

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;
public class LinesTop5 {
    public static void main(String[] args) {
        /********** Begin **********/
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession.builder().master("local").appName("OrderByCreateTop10").getOrCreate();
        Dataset orderdata = spark.read().option("delimiter", "\t").csv("/data/workspace/myshixun/data/createdata.txt")
                .toDF("companyid", "address", "districtname", "orderid", "departtime", "ordertime", "departure", "deplongitude", "deplatitude", "destination", "destlongitude", "destlatitude");
        orderdata.registerTempTable("data");
spark.udf().register("compare", (UDF1) s -> {
            String ss = "";
            int i = s.split("\\*")[0].compareTo(s.split("\\*")[1]);
            if (s.split("\\*").length == 2) {
                if (i >= 0) {
                    ss = s.split("\\*")[0] + "*" + s.split("\\*")[1];
                } else {
                    ss = s.split("\\*")[1] + "*" + s.split("\\*")[0];
                }
            } else if (s.split("\\*").length == 6) {
                if (i >= 0) {
                    ss = s.split("\\*")[0] + "*" + s.split("\\*")[1] + "*" + s.split("\\*")[2] + "*" + s.split("\\*")[3] + "*" + s.split("\\*")[4] + "*" + s.split("\\*")[5];
                } else {
                    ss = s.split("\\*")[1] + "*" + s.split("\\*")[0] + "*" + s.split("\\*")[4] + "*" + s.split("\\*")[5] + "*" + s.split("\\*")[2] + "*" + s.split("\\*")[3];
                }
            }
            return ss;
        }, DataTypes.StringType);
        spark.sql("select compare(concat_ws('*',departure,destination))line,count(*) num from data where departure is not null and destination is not null group by compare(concat_ws('*',departure,destination)) order by num desc limit 5")
                .registerTempTable("t1");
        spark.sql("select concat_ws('*',split(compare(concat_ws('*',departure,destination,deplongitude,deplatitude,destlongitude,destlatitude)),'[*]')[0],split(compare(concat_ws('*',departure,destination,deplongitude,deplatitude,destlongitude,destlatitude)),'[*]')[1])line,compare(concat_ws('*',departure,destination,deplongitude,deplatitude,destlongitude,destlatitude)) bb,count(*) num from data where departure is not null and destination is not null group by compare(concat_ws('*',departure,destination,deplongitude,deplatitude,destlongitude,destlatitude)) order by num desc").registerTempTable("t2");
        spark.sql("select split(bb,'[*]')[0] departure,split(bb,'[*]')[2] deplongitude,split(bb,'[*]')[3] deplatitude,split(bb,'[*]')[1] destination,split(bb,'[*]')[4] destlongitude,split(bb,'[*]')[5] destlatitude,num from(select t1.line,t2.bb,t2.num count,t1.num, Row_Number() OVER (partition by t1.line ORDER BY t2.num desc) rank from t1 left join t2 on t1.line = t2.line order by t1.num desc) where rank=1")                .write()
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=utf-8")
                .option("dbtable", "orderline")
                .option("user", "root")
                .option("password", "123123")
                .mode(SaveMode.Append)
                .save();
       
       
        /********** End **********/
    }
}

第4关：湖南各个市的所有订单总量

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;
public class OrderCountByCity {
    public static void main(String[] args) {
        /********** Begin **********/
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession.builder().master("local").appName("OrderCountByCity").getOrCreate();
        Dataset orderdata = spark.read().option("delimiter", "\t").csv("/data/workspace/myshixun/data/createdata.txt")
                .toDF("companyid", "address", "districtname", "orderid","departtime", "ordertime", "departure", "deplongitude", "deplatitude", "destination","destlongitude", "destlatitude");
        orderdata.registerTempTable("data");
        Dataset canceldata = spark.read().option("delimiter", "|").csv("/data/workspace/myshixun/data/canceldata.txt")
                .toDF("companyid", "address", "districtname", "orderid", "ordertime", "canceltime", "operator", "canceltypecode", "cancelreason");
        canceldata.registerTempTable("data1");
        spark.udf().register("city", (UDF1) s -> {
            String city = "";
            if (s.contains("自治州")){
                city = s.split("自治州")[0] + "自治州";
            }else {
                city = s.split("市")[0] + "市";
            }
            return city;
        }, DataTypes.StringType);
        spark.sql("select city(districtname) city,count(*) count from data where districtname like '湖南省%' group by city(districtname)").registerTempTable("order");
        spark.sql("select city(districtname) city,count(*) count from data1 where districtname like '湖南省%' group by city(districtname)").registerTempTable("cancel");
        spark.sql("select order.city,(order.count+cancel.count) num from order left join cancel on order.city == cancel.city order by num desc")
                .write()
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=utf-8")
                .option("dbtable", "orderbycity")
                .option("user", "root")
                .option("password", "123123")
                .mode(SaveMode.Append)
                .save();
        spark.stop();
        /********** End **********/
    }
}

第5关：统计湖南省当天的各时间段订单总数量与各市级当天各时间段订单总数量

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;
public class OrderHourCity {
    public static void main(String[] args) {
        /********** Begin **********/
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession.builder().master("local").appName("OrderHourCity").getOrCreate();
        Dataset orderdata = spark.read().option("delimiter", "\t").csv("/data/workspace/myshixun/data/createdata.txt")
                .toDF("companyid", "address", "districtname", "orderid","departtime", "ordertime", "departure", "deplongitude", "deplatitude", "destination","destlongitude", "destlatitude");
        orderdata.registerTempTable("data");
        Dataset canceldata = spark.read().option("delimiter", "|").csv("/data/workspace/myshixun/data/canceldata.txt")
                .toDF("companyid", "address", "districtname", "orderid", "ordertime", "canceltime", "operator", "canceltypecode", "cancelreason");
        canceldata.registerTempTable("data1");
        spark.udf().register("city", (UDF1) s -> {
            String city = "";
            if (s.contains("自治州")) {
                city = s.split("自治州")[0] + "自治州";
            } else {
                city = s.split("市")[0] + "市";
            }
            return city;
        }, DataTypes.StringType);
        spark.sql("select hour(ordertime) hour,city(districtname)city,count(*) count from data1 where districtname like '湖南省%' group by hour(ordertime),city(districtname) order by hour").registerTempTable("t1");
        spark.sql("select hour(ordertime) hour,city(districtname)city,count(*) count from data where districtname like '湖南省%' group by hour(ordertime),city(districtname) order by hour").registerTempTable("t2");
        spark.sql("select (case when t1.hour is null then t2.hour when t2.hour is null then t1.hour else t2.hour end)hour,(case when t1.city is null then t2.city when t2.city is null then t1.city else t2.city end)city,(case when t1.count is null then t2.count when t2.count is null then t1.count else t2.count+t1.count end)num from t1 full join t2 on concat_ws('*',t1.hour,t1.city) = concat_ws('*',t2.hour,t2.city) order by hour,city")
                .write()
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=utf-8")
                .option("dbtable", "order_city_hour")
                .option("user", "root")
                .option("password", "123123")
                .mode(SaveMode.Append)
                .save();
        spark.sql("select (case when t1 is null then t2 when t2 is null then t1 else t2 end) as time ,(case when count1 is null then count2 when count2 is null then count1 else count2+count1 end) as num from(select * from (SELECT DATE_FORMAT(ordertime,'yyyy-MM-dd HH:mm') as t1,count(DATE_FORMAT(ordertime,'yyyy-MM-dd HH:mm')) as count1 FROM data GROUP BY DATE_FORMAT(ordertime,'yyyy-MM-dd HH:mm')) as a FULL OUTER JOIN (SELECT DATE_FORMAT(ordertime,'yyyy-MM-dd HH:mm') as t2,count(DATE_FORMAT(ordertime,'yyyy-MM-dd HH:mm')) as count2 FROM data1 GROUP BY DATE_FORMAT(ordertime,'yyyy-MM-dd HH:mm')) as b on a.t1=b.t2) as c order by time")
                .write()
                .format("jdbc")
                .option("url", "jdbc:mysql://127.0.0.1:3306/mydb?useUnicode=true&characterEncoding=utf-8")
                .option("dbtable", "order_quantity_time")
                .option("user", "root")
                .option("password", "123123")
                .mode(SaveMode.Append)
                .save();
        spark.stop();
        /********** End **********/
    }
}

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://net2asp.com/5d3f30072f.html

spark 大数据数据分析

赞 (0)

Android Studio每次打开都要下载Gradle的解决方法

« 上一篇 1天前

springboot项目禁用dataSource数据源功能，只需修改yml文件，关闭数据库连接功能

下一篇 » 1天前

基于Matlab实现神经网络算法（附上100多个案例源码）

神经网络是一种模仿人类神经系统，以处理信息为目的的计算模型。它由大量节点（或称神经元）和连接它们的边组成，每个节点代表一个变量，边表示变量之间的关系。在神经网络中，信息通过节点之间…

算法结构 1天前
算法结构

Java排序

Java排序 🐾1. 概念🐾 1.1 排序 1.2 稳定性（重要） 💐2. 七大基于比较的排序比-总览💐 &#x1f…

1天前
Python

《数字图像处理-OpenCV/Python》连载（41）图像的旋转

《数字图像处理-OpenCV/Python》连载（41）图像的旋转本书京东优惠购书链接：https://item.jd.com/14098452.html 本书CSDN独家连载专…

1天前
100天精通Python（可视化篇）——第85天：matplotlib绘制不同种类炫酷气泡图参数说明+代码实战（网格、自定义颜色、钟型、交互、打卡、动态气泡图）

文章目录专栏导读 1. 气泡图介绍 1）介绍 2）参数说明 2. 普通气泡图 3. 网格气泡图 4. 自定义气泡图颜色 5. 不同颜色气泡图<

Python 1天前
保姆级教你用Python制作超级玛丽游戏（文末赠书）

名字：阿玥的小东东学习：Python、C/C++ 主页链接：阿玥的小东东的博客_CSDN博客-python&&c++高级知识,过年必备,C/C++知识讲解领域博主…

Python 1天前
Python

pycharm安装第三方库：Try to run this command from the system terminal. 问题解决

PyCharm安装第三方依赖库报错：Try to run this command from the system terminal. 问题解决 PyCharm安装第三方库报错：T…

1天前
Python

【Python】Fatal error in launcher:Unable to create process using list（pip安装第三方模块时常见问题）

一般会在cmd中输入pip指令时出现。（如下图）其它博主推荐的”python -m pip install”方法如果没有用，那大概率是因为…

1天前
解决ERROR:Could not find a version that satisfies the requirement torch-fx ……found for torch-fx

分析报错： ERROR: Could not find a version that satisfies the requirement torch-fx (from versio…

Python 1天前
python的BeautifulSoup库怎么用（详细教程）

BeautifulSoup 是 Python 中一个常用的解析 HTML 和 XML 的第三方库，使用它可以方便地从网页中提取数据。以下是一个简单的例子：假设我们要从一个示例 H…

Python 1天前
如何在Python中实现switch语句？

Python是一种功能强大的高级编程语言，提供了各种语法和面向对象的编程方式。然而，尽管Python提供了一些控制流语句，例如if和for语句，但并不支持switch语句。在本文中…

Python 1天前