当前位置: 首页 > 知识库问答 >
问题:

在大数据集上找到离每个点最近的直线,可能使用shapely和rtree

戎洛华
2023-03-14

我有一张简化的城市地图,其中街道作为线串,地址作为点。我需要找到从每个点到任何街道线最近的路径。我有一个可以这样做的工作脚本,但它在多项式时间内运行,因为它嵌套了for循环。对于150000行(shapely LineString)和10000点(shapely Point),在8GB Ram计算机上完成需要10个小时。

该函数如下所示(很抱歉没有使其完全可复制):

import pandas as pd
import shapely
from shapely import Point, LineString

def connect_nodes_to_closest_edges(edges_df , nodes_df,
                                   edges_geom,
                                   nodes_geom):
    """Finds closest line to points and returns 2 dataframes:
        edges_df
        nodes_df
    """
    for i in range(len(nodes_df)):
        point = nodes_df.loc[i,nodes_geom]
        shortest_distance = 100000
        for j in range(len(edges_df)):
            line = edges_df.loc[j,edges_geom]
            if line.distance(point) < shortest_distance:
                shortest_distance = line.distance(point)
                closest_street_index = j
                closest_line = line
                ...

然后,我将结果保存在一个表格中,作为一个新列添加从点到行的最短路径作为一个新列。

有没有一种方法可以通过增加一些功能来提高速度?

例如,如果我可以过滤掉50m的每一点的行,这将有助于加快每次迭代?

有没有一种方法可以使用rtree包来加快这个过程?我能够找到一个答案,使寻找多边形交点的脚本更快,但我似乎无法使它适用于最接近直线的点。

多边形与Shapely相交的更快方式

https://pypi.python.org/pypi/Rtree/

如果已经回答了,很抱歉,但我在这里或gis上都找不到答案。堆栈交换

谢谢你的建议!

共有2个答案

端木昱
2023-03-14

我一直在寻找一个解决方案,我找到了这个,它使用Geopandas。基本上,这是一种简单的方法,它考虑了点和线的边界框的重叠。然而,得益于空间索引,计算成本显著降低。

梁丘璞瑜
2023-03-14

这里有一个使用rtree库的解决方案。其思想是构建包含对角线段的框,并使用该框构建rtree。这将是最耗时的操作。稍后,使用以点为中心的框查询rtree。你会得到一些你需要检查的最小点击数,但是点击数(希望)会比检查所有片段的数量少几个magnitud。

在解决方案中,您将获得每个点的行id、最近的段、最近的点(段中的一个点)以及到该点的距离。

代码中有一些注释可以帮助您。考虑到您可以序列化rtree以供以后使用。事实上,我建议构建rtree,保存它,然后使用它。因为调整常量MIN_SIZEINFTY的例外情况可能会增加,并且您不希望丢失构建rtree所做的所有计算。

太小的MIN_SIZE将意味着您可能会在解决方案中出现错误,因为如果点周围的框不与线段相交,它可能会与不是最近线段的线段框相交(很容易认为是这种情况)。

一个太大的MIN_SIZE将意味着有太多的误报,在极端的情况下,将使代码尝试所有的段,您将处于与以前相同的位置,或者最坏的情况,因为您现在正在构建一个你并不真正使用的rtree。

如果数据是来自城市的真实数据,我想你知道任何地址都会与一段距离小于几个街区的线段相交。这将使搜索几乎是对数搜索。

还有一条评论。我假设没有太大的部分。由于我们使用段作为rtree中方框的对角线,因此如果在一条直线中有一些较大的段,这将意味着将为该段分配一个较大的方框,并且所有地址方框都将与之相交。要避免这种情况,始终可以通过添加更多中间点来人为提高线条的分辨率。

import math
from rtree import index
from shapely.geometry import Polygon, LineString

INFTY = 1000000
MIN_SIZE = .8
# MIN_SIZE should be a vaule such that if you build a box centered in each 
# point with edges of size 2*MIN_SIZE, you know a priori that at least one 
# segment is intersected with the box. Otherwise, you could get an inexact 
# solution, there is an exception checking this, though.


def distance(a, b):
    return math.sqrt( (a[0]-b[0])**2 + (a[1]-b[1])**2 ) 

def get_distance(apoint, segment):
    a = apoint
    b, c = segment
    # t = <a-b, c-b>/|c-b|**2
    # because p(a) = t*(c-b)+b is the ortogonal projection of vector a 
    # over the rectline that includes the points b and c. 
    t = (a[0]-b[0])*(c[0]-b[0]) + (a[1]-b[1])*(c[1]-b[1])
    t = t / ( (c[0]-b[0])**2 + (c[1]-b[1])**2 )
    # Only if t 0 <= t <= 1 the projection is in the interior of 
    # segment b-c, and it is the point that minimize the distance 
    # (by pitagoras theorem).
    if 0 < t < 1:
        pcoords = (t*(c[0]-b[0])+b[0], t*(c[1]-b[1])+b[1])
        dmin = distance(a, pcoords)
        return pcoords, dmin
    elif t <= 0:
        return b, distance(a, b)
    elif 1 <= t:
        return c, distance(a, c)

def get_rtree(lines):
    def generate_items():
        sindx = 0
        for lid, l in lines:
            for i in xrange(len(l)-1):
                a, b = l[i]
                c, d = l[i+1]
                segment = ((a,b), (c,d))
                box = (min(a, c), min(b,d), max(a, c), max(b,d)) 
                #box = left, bottom, right, top
                yield (sindx, box, (lid, segment))
                sindx += 1
    return index.Index(generate_items())

def get_solution(idx, points):
    result = {}
    for p in points:
        pbox = (p[0]-MIN_SIZE, p[1]-MIN_SIZE, p[0]+MIN_SIZE, p[1]+MIN_SIZE)
        hits = idx.intersection(pbox, objects='raw')    
        d = INFTY
        s = None
        for h in hits: 
            nearest_p, new_d = get_distance(p, h[1])
            if d >= new_d:
                d = new_d
                s = (h[0], h[1], nearest_p, new_d)
        result[p] = s
        print s

        #some checking you could remove after you adjust the constants
        if s == None:
            raise Exception("It seems INFTY is not big enough.")

        pboxpol = ( (pbox[0], pbox[1]), (pbox[2], pbox[1]), 
                    (pbox[2], pbox[3]), (pbox[0], pbox[3]) )
        if not Polygon(pboxpol).intersects(LineString(s[1])):  
            msg = "It seems MIN_SIZE is not big enough. "
            msg += "You could get inexact solutions if remove this exception."
            raise Exception(msg)

    return result

我用这个例子测试了这些函数。

xcoords = [i*10.0/float(1000) for i in xrange(1000)]
l1 = [(x, math.sin(x)) for x in xcoords]
l2 = [(x, math.cos(x)) for x in xcoords]
points = [(i*10.0/float(50), 0.8) for i in xrange(50)]

lines = [('l1', l1), ('l2', l2)]

idx = get_rtree(lines)

solutions = get_solution(idx, points)
 类似资料:
  • 问题内容: 我有一个由我从Google Maps Directions服务获得的latlng绘制的多义线。现在,我想在折线上找到最接近给定点的点。 (对我而言)最明显的方法是通过折线上的所有点进行循环并找到它们与给定点之间的距离,但是这种方法效率不高,因为折线上的点可能很大。 我很高兴听到这样做的其他选择。提前致谢。 问题答案: 它正在找到直线上最接近鼠标的点。另请注意,这是一个Google Ma

  • 我有一个geopandas数据框,其中包含几个从lat、lon点数据创建的线串。对于所有直线交点,我需要在每个直线串中找到距离该交点最近的点。 因此,如果dataframe中的两条线相交,我需要在每个linestring中找到距离该相交点最近的点。我使用itertools找到了所有可能的交叉点,这些交叉点与本文中公认的答案类似:https://gis.stackexchange.com/quest

  • 我有一条在2D中有80个点的分段线和一个不在这条线上的点P(X/Y)。 我需要知道点P'在这条线上的什么位置,它与点P的距离最短。 有没有一个简单的计算方法? 编辑: 输入文件: 输出文件: 分段线上的点

  • 问题内容: 有一条折线,其中折线的顶点列表为[[x1,y1),(x2,y2),(x3,y3),…]和一个点(x,y)。在Shapely中,返回两个几何之间的最短距离。 但是我还需要找到最接近点(x,y)的线上的点的坐标。在上面的示例中,这是距离1.4142135623730951单位的对象上的点的坐标。计算距离时,该方法应具有坐标。有什么方法可以从此方法返回它吗? 问题答案: 您正在描述的GIS术

  • 问题很简单,我有两个数据帧: > 一个有90000套公寓和他们的经纬度 还有一个有3000个药房和他们的经纬度 我想为我所有的公寓创建一个新变量:“最近药房的距离” 为此,我尝试了两种花费大量时间的方法: 第一种方法:我创建了一个矩阵,我的公寓排成一行,我的药店排成一列,它们之间的距离在交叉点上,然后我只取矩阵的最小值,得到一个90000值的列向量 我只是用了一个双人床来搭配numpy: ps:我

  • 我有一个巨大的表(大约4000万行),称为nearest_spot,表示行(以linestring格式)和它们所到的最近点(大约有1500个不同的点,存储在另一个表中)。最近的_点表如下所示: 其中data_id为主键,spot_id是spot表主键的外键,spot_name是spot名称(我知道冗余不好但我不允许修改数据库)和link_geom是行坐标。 数据库位于PostgreSQL 10.6